金融分野における言語モデル性能評価のための日本語金融ベンチマーク構築

平野正徳

Abstract: 大規模言語モデル(LLM)の発展とともに、分野や言語に特化した言語モデルの構築の必要性が議論されてきている。その中で、現在の大規模言語モデルがどの程度の性能を発揮するかを分野に特化して評価するベンチマークの必要性が高まっている。そこで、本研究では、日本語かつ金融分野に特化した複数タスクからなるベンチマークの構築を行い、主要なモデルに対するベンチマーク計測を行った。その結果、現時点では GPT-4 が突出していることと、構築したベンチマークが有効に機能していることを確認できた。