大規模言語モデルの日本語能力の効率的な強化: 継続事前学習における語彙拡張と対訳コーパスの活用

水木栄; 飯田大貴; 藤井一喜; 中村泰士; MengsayLoem; 大井聖也; 服部翔; 平井翔太; 横田理央; 岡崎直観

大規模言語モデルの日本語能力の効率的な強化: 継続事前学習における語彙拡張と対訳コーパスの活用

水木栄, 飯田大貴, 藤井一喜, 中村泰士, MengsayLoem, 大井聖也, 服部翔, 平井翔太, 横田理央, 岡崎直観

Abstract: 英語を主体として学習ずみの LLM を元に日本語テキストを主体として継続事前学習する方法は，高性能な日本語 LLM を構築する有望なアプローチである．本研究ではまず継続事前学習の効果を分析し，特に日本語の質問応答で効果的であることを報告する．また LLM の能力を効率的に強化する方法を明らかにするため，日本語の語彙拡張の影響および対訳コーパスの有効性を調査した．その結果，語彙拡張による効率化は要約を除き性能への悪影響はないこと，および対訳コーパスの併用が翻訳能力を強化することを明らかにした．