Abstract:
アライメントは大規模言語モデル(LLM)の振る舞いを人間の選好に合わせて無害で正確な,バイアスのない応答を生成するようモデルを誘導する手法である.アライメントの効果は選好データセットの質と量に大きく依存することが知られているが,人手による高品質な選好アノテーションを集めることは非常に高価である.そのため,高性能な LLMを用いて選好データを自動生成する手法が広く研究されている.しかしながら先行研究の多くは英語の多量のデータのあるドメインでの評価がほとんどであり,真に合成データが必要な非英語少データドメインにおける合成方法は明らかにされていない.本研究は日本語 LLM (CALM3)を用い,日本語の AnswerCarefully データセットを基にデータ合成手法を評価した.人手評価の結果,データ合成を行わない場合および外部の報酬モデルを用いた合成方法と比較して,CALM3 のみを使った合成方法の方が高い性能が得られた.本研究成果は日本語の少データドメインでも選好データの合成が効果的であることを示すものであり,今後の日本語 LLM の研究開発に活かされるものであると考えられる.