大規模言語モデルの日本語能力の効率的な強化: 継続事前学習における語彙拡張と対訳コーパスの活用

水木栄, 飯田大貴, 藤井一喜, 中村泰士, MengsayLoem, 大井聖也, 服部翔, 平井翔太, 横田理央, 岡崎直観

Abstract: 英語を主体として学習ずみの LLM を元に日本語テキストを主体として継続事前学習する方法は,高性能な日本語 LLM を構築する有望なアプローチである.本研究ではまず継続事前学習の効果を分析し,特に日本語の質問応答で効果的であることを報告する.また LLM の能力を効率的に強化する方法を明らかにするため,日本語の語彙拡張の影響および対訳コーパスの有効性を調査した.その結果,語彙拡張による効率化は要約を除き性能への悪影響はないこと,および対訳コーパスの併用が翻訳能力を強化することを明らかにした.