Abstract:
規定の文字数やフォーマットを守った文章生成や数千にも及ぶ条文からなる法律を遵守するなど,大規模言語モデルの更なる応用のため複数の指示追従性能は重要な側面である.複数の指示を同時に追従する性能の正確な推定ができると,未見の指示の組み合わせリスクのシミュレーションが可能となる.更に,その組み合わせの種類が膨大になるほどシミュレーションによるリスクの把握が重要性を増す.我々は複数の指示追従性能調査のためのベンチマーク ManyIFEval と StyleMBPP を作成し,同時に複数の指示追従する成功率は個々の指示の追従成功率の積で推定できるという経験則を得た.経験則により指示の未知の組み合わせに対して指示追従性能を推定できることを示した.また組み合わせる指示数が多くなればなるほど,同時に追従成功する可能性は劇的に低くなることを確認した.