Abstract:
英語を主体として学習ずみの LLM を元に日本語テキストを主体として継続事前学習する方法は,高性能な日本語 LLM を構築する有望なアプローチである.本研究ではまず継続事前学習の効果を分析し,特に日本語の質問応答で効果的であることを報告する.また LLM の能力を効率的に強化する方法を明らかにするため,日本語の語彙拡張の影響および対訳コーパスの有効性を調査した.その結果,語彙拡張による効率化は要約を除き性能への悪影響はないこと,および対訳コーパスの併用が翻訳能力を強化することを明らかにした.