NLP2024 参加記

全体の感想

埋め込み表現のセッションが減った

去年は C3, C4 (口頭), Q11 (ポスター) の 3 セッションが “埋め込み表現” を冠していたが、今年は A10 (口頭) のみだった。NLP2024 で僕が一番楽しかったセッションは A10 だったので、このようなセッションは残り続けてほしい。永田先生を見習って何本も出さないと？

状態空間モデルの波

状態空間モデルに関する話題が (自分の知る限り) 無かったのが意外だった。原因として以下の 3 点が考えられる。

時期: Mamba (2023/12) が出るまでは Transformer に勝てていなかったので、去年の中旬では工学的将来性が怪しかった
実装: 効率化を掲げる研究はみんな CUDA kernel を実装しているので壁を感じてしまう
理論: (S4D 以降は必要ないのだが) 初期の理論が難解過ぎる

自分も夏頃に同じ気持ちになって研究テーマとはしなかった。しかし、最近は 1 と 3 は解消されて、2 はライブラリ使うだけなら避けられるので、2024 年の冬頃から研究し始めた。Mamba や Linear Transformer の改良をしたくなったら 2 が壁となるが、apt install 気合。

各発表の感想

保険: 予稿を精読せず発表を聞いた記憶だけで書いているため、内容に誤りがあるかもしれません。

招待論文定義文を用いた文埋め込み構成法

○ 塚越駿, 笹野遼平, 武田浩一

<単語>: <定義文> という組からなる辞書を用いて、<定義文> から <単語> を予測するように学習させると、文埋め込みを構成できるモデルになる。”単語” は “定義文” に割り当てられた記号でしかないという前提が置かれているのかなと思った。また、GPU の枚数によるが実用レベルのモデルの fine tuning が 5 分でできるというのが衝撃的だった。

(既知の内容だからかもしれないが) 今まで聴いた講演の中で一番分かりやすかった。でかいフォントのフレーズが 3 行くらいだけ載っているスライドがデフォだった気がしていて、メインホールくらいの会場だとそのくらいが一番見やすいのかもしれない。（聴衆がスライドを読むという行動をするとは限らないし）

ちなみに、本当に緊張している人はリングフィットアドベンチャーゲームの話題は出せません。

A1-2 プロンプトチューニングと kNN-LM を組み合わせたリスティング広告のタイトル自動生成

○ 児玉壮平 (東京理科大), 星野智紀, 石塚湖太 (HT)

トレンドの変化に追従するためにモデルを fine tuning するのは非効率。そこでトレンドへの対応は prompting により行う。広告文らしさはデータストアを必要とする kNN-LM で実現しているが、プロンプトを更新するとデータストアも更新する必要があり、先程の prompting ができない。そこで、(1) 文生成用モデルと (2) データストアの構築・検索用モデルを分けて文生成とデータストアが依存しないようにした。

研究室の同期。タスクが YANS2023 のハッカソンと完全に同じだったので興味があり聴きに行った。複数のモデルを組み合わせてサービスの構成を考えているところがかっこいいなと思った。

YANS2023 では似た用例を few-shots とすることで出力を広告文らしくするチームが多かったが、この発表では広告文へのドメイン適応を kNN-LM で実現していた。発表スライドによると、instraction tuning だけだと fine tuning に勝てなかったからっぽい？「モデルを更新してもデータストアの更新が不要」は納得だが、「プロンプトを更新してもデータストアの更新が不要」を納得するのは少し難しい。データストアを更新しない場合、未知のプロンプトで検索が行われて古いプロンプトに対応する中間表現が取得されることになるが、劣化せずに新しいトレンドに追従できるのだろうか。

A1-5 多様なクイズを自動生成する手法およびその検証

○ 小林俊介, 河原大輔 (早大)

多様な文を生成させるために BERTScore を学習損失に導入しているのだが、その挿入の仕方が興味深かった:

\[L = L_{LM} \cdot (B_{tgt} - \text{BERTScore}(Q_{gen}, Q_{tgt})).\]

よく、混合損失は $L=L_1 + \lambda L_2$ という形で加算されるが、$L_2$ が微分不可で実装上定数だと、微分すると無かったことになってしまう。 BERTScore は微分可能ではあるが計算グラフが煩雑になり安定して学習できるとは思えない ($Q_{gen}$ がモデルの出力なので、損失を計算するためにモデルを 2 つ通すことになる)。

しかし、この損失では制約を係数として導入している。こうすれば係数の方で微分できなかったり計算グラフを切ったりしても問題なくなる。モデルの出力に依存しているところに目を瞑って、学習サンプル毎に学習への影響を変化させている点だけに注目すれば学習サンプルへの重み付けに似ている。初耳だったのが、これってよくある定式化なのだろうか。$L = \text{ROUGE}\cdot L_{LM}$ みたいなことできちゃうが。

A2-1 大規模言語モデルは自身の Hallucination を検知できるか?

○ 門谷宙, 西田光甫, 西田京介, 齋藤邦子 (NTT)

適当な文の「真の文 (パラフレーズ)」と「偽の文 (triple の置換)」を LLM に生成させた後、それぞれに対して真贋判定をさせる。そのため、この発表におけるハルシネーションの定義は「真の文を生成できるのに無理やり言わされた嘘を検知できるのか」となる。地理や企業に対する検知率は高く (80%~)、人物やエンタメに対しては低い (40%) というのが直感的な結果で興味深かった。学習量に相関がありそう。

LLM やハルシネーションの話題は懐疑的に思われがちだが、この発表は終始、理にかなった手順で検証しているように感じた。また、CoT を算術タスク以外でも効果的に扱えるということを知ることができた。

A2-2 大規模言語モデルにおける日本語ゼロ照応解析能力の分析

○ 野末慎之介 (東北大), 石月由紀子, 松林優一郎, 坂口慶祐 (東北大/理研)

「〜を…した」や「〜に…した」という文において、「〜」が文のどこに当たるのかを GPT-4 はうまく見つけられないらしい。bert-base を fine tuning した AS-PZero が述語と項の係り受けの有無を 94.5% の精度で判定できるのに 5-shots の GPT-4 は 55.7% にとどまる。GPT-4 が何やらされてるのか理解してないのかなと思ったけど、5-shots も見せてるのでそんなこともなさそう。

D2-3 Autoformalization に向けた自然言語証明構造の形式化

服部清志, 松崎拓也, 藤原誠 (東京理科大)

研究室の後輩の発表で、見事優秀賞を受賞した。クロージングで近くの席に座っていたのだが、優秀賞発表のタイミングで立ち上がってワォってなった。松崎研らしさ全開の数学証明の議論構造解析なのだが、LLM 時代にこのテーマが評価されたということも嬉しい。

曖昧性のある自然言語を形式的に扱うのは限界があるように感じるかもしれないが、数学証明に限らず形式的な議論を必要とするテキストでは LLM でそのまま扱うよりも、ちゃんとパースしてあげて小規模 LM で扱うほうが個人的には上手くいく気がする。システムを直列に繋げ過ぎると end-to-end が上回ってしまうかもしれないけど。

P2-8 計量テキスト分析のための文埋め込みによる探索的カテゴリ化

○ 新妻巧朗, 田口雄哉, 田森秀明 (朝日新聞社)

好きな手法である ICA を活用しているとのことで聴きに行った。既存研究では単語埋め込みを対象としていたが、この発表では文埋め込みでもカテゴリが分かれるとのこと。これはかなり嬉しい。

ICA でカテゴリが見れるのは単純に現象として面白いが、ちゃんと応用されているというのが素晴らしい。こういう応用に繋がる埋め込みの研究をしたいなと思った。

P6-7 依存関係の大きさは意味の関連性を表す

○ 大山百々勢 (京大/理研), 山際宏明 (京大), 下平英寿 (京大/理研)

ICA の続編。ICA は Independent Component Analysis (独立成分分析) と言っておきながら、実データでは変換後の成分同士が独立にならないことがある。このとき、独立にならず高次モーメントで依存している軸を比較すると、音楽と楽器のように意味的にも依存していた。

成分を独立に分離できない原因はまだ理論的に理解しきれていないが、そもそもデータ間に依存関係があればどう学習しても分離できないという当たり前の現象な気がしてきている。最初は、ICA の学習がうまくいってないからと思っていたが、この解釈は多分誤り。成分が独立になるように学習しているのにそうならない点だけ見れば ICA のバグなのだが、そこに実データらしさが顕れるというのが大変興味深い。

ちなみに、音楽と楽器って似ているのだろうか。音楽は概念で楽器は実体なので全く違うようにも思える。ICA が軸をマージしなかった理由はここにあったりするのだろうか。

@俺積読せずにこれちゃんと読みなさい。

B7-3 Integrated Gradients における理想の積分ステップ数はインスタンス毎に異なる

○ 牧野雅紘 (東北大), 浅妻佑弥 (東北大/理研), 佐々木翔大 (サイバーエージェント/東北大), 鈴木潤 (東北大/理研)

モデル解釈系の研究において IG はよく目にするが、数値微分で後ろ盾となる完全性公理が崩れるというのは盲点だった。東北大の publication には IG を用いた印象的な論文が多いので、この検証が東北大によって行われたのはなんか嬉しかった。

数値微分によって大きく誤差が生じてしまう場合を調べてみたら、一部の単語での誤差が大きかったとのこと。単に IG が数値的に不安定なのではなく、言語的な背景があるのだろうか。それともデータが離散的なのがいけないのだろうか。画像データでも同じ分析するとどうなるのか気になる。

B8-6 逆学習による言語モデルの解析

まず、逆学習とは。学習を勾配降下法により「特定の学習データに対して最適なパラメータに更新すること」だとするなら、逆学習は勾配上昇法により最悪なパラメータに更新することと解釈できる。

この研究は、特定の学習データがモデルにどれほど影響しているかを逆学習により調べる手法を提案した。

直感的な方法として、

データセットから特定の学習データを除いてモデルを再学習して精度を比較する

という手があるが、事前学習の手間を考えれば実現不可能な方法である。そこで

学習データを逆学習して、評価データに対する性能がひどく悪化したらその学習データは必要だった。すなわち、その学習データはモデルに大きな影響を及ぼしていた。

という手順を提案した。（逆学習で他のデータに対する性能もぶっ壊れそうだが、そこは破滅的忘却と似た方法で対応してそう）

これでも十分強いのだが、上の手順だと複数の学習データの影響を調べたければ、そのデータの個数分だけこの手順を繰り返さなければならない。そこで

評価データ (eval) を逆学習して、学習データ (train) に対する性能がひどく悪化したら train は eval に対する精度向上に寄与していたはず。すなわち、その学習データはモデルに大きな影響を及ぼしていた。

のように学習データと評価データの扱い方を逆にしてみる。すると、１回の逆学習で複数の学習データの影響度を測ることができる。

提案手法が複数の既存手法を同時に一般化したものであることが理論的に示されている点も美しい。

学会のスケジュールを組んでいた際、自分の興味に近い発表だけでなく知らない用語を含んだ発表も予定に入れていた。このとき逆学習は後者のフィルタに引っかかった。各発表を聞いた後に１行コメントを Google Keep に残していたのだが、B8-6 には「My Best Paper」と書いていた。クロージングの時に謎に「どや」って気持ちになった。ちゃんと理論的に理解したいので後ほど予稿を精読したい。

E9-1 小規模言語モデルによる子供の過剰一般化のモデリング

○ 芳賀あかり (NAIST), 菅原朔 (NII), 深津聡世 (東大), 大羽未悠, 大内啓樹, 渡辺太郎 (NAIST), 大関洋平 (東大)

英語の初学者は「動詞に ed を付ければ過去形にできる」という過剰な一般化により write を writed と誤ることがある。この現象が学習中の言語モデルでも見られるかを分析した。実際に人間らしい学習 stage に分割できそうな学習曲線が得られた。

個人的にモデルはなるべく楽をしたがるものだと思っている。例えば LIME の提案論文では「背景に雪があればオオカミ、雪がなければハスキーと予測する本質を捉えていない動物分類モデル」を題材としている。モデルが初期段階で base+ed を動詞 base に関わらずそれっぽい (尤度高) と推論したのであれば、どこかでこのようなショートカットを見つけたのかもしれない。モデル内部で何が起きているのか気になる。

E9-4 逆強化学習による文章における人間らしさの推定

○ 岸川大航, 大関洋平 (東大)

この逆強化学習は先程の逆学習とは別物。(順)強化学習では与えられた報酬関数により最適な行動 (例: トークン生成 → 文書生成) が促されるの対して、逆強化学習では与えられた行動 (例: 文書) からその状況を創り出しうる報酬関数を推定する。発表では夏目漱石の文章を与えることで、夏目漱石らしい文章を書かせる報酬関数を推定していた。

歌詞とかでも簡単に転用できそうだなと思った。なんならそのまま楽譜を入れて音楽性とかにも応用できそう。

文章の「〜らしさ」を測るには language modeling を用いるのが一般的であるため、逆強化学習でえられた関数と LM の差分は何なのかという疑問が生じる。この件は学会の Slack でも上がっていて議論を追いたい。

P9-14 In-Context Learning において LLM はフォーマットを学べるか

○ 坂井吉弘, 趙羽風 (JAIST), 井之上直也 (JAIST/理研)

Input: <text> Label: Positive/Negative という few-shots prompt を与えた後に Input: <last> Label: を入力して、直後に出力されるトークン Positive/Negative の予測確率から２値分類をするという in-context learning を考える。few-shots で例示するラベルを文脈に関係ない不適切なラベル、すなわち意味を持たないただの記号として与えても、LLM は入力文 <last> に対応するラベルを返せるのか。返せるなら LLM は few-shots からフォーマットを学んでいることになる。実際、学んでいた。

不適切なラベルを zero-shots 時に最も予測確率が低かったトークンと定義していた。これは何か起きない限り同じ文脈では絶対に出現しないトークンである。でも few-shots を与えるとそのトークンの順位がぐんぐん上昇する。何かが起きている。本来のトークンの意味が改変されているので結構気持ち悪い現象。LM Head の出力埋め込みがチューニングされているように感じる。予稿の理解が深まるにつれて「ラベル空間の学習」という表現がしっくりくるようになった。

パラメータをチューニングしていないのにこんな変化が起きるのは不思議。突き詰めていくと induction head が関連してくるのだと思う。でも induction head は似た文脈をコピーするようなことくらいしかできなそうだから、やっぱり与えられた文とラベルを対応付ける能力は事前学習で獲得してるのかな。なんか LLM が将来自分がどう使われるのか分かったような挙動するの気持ち悪いな。

この結果を見ると LLM は学習データにあるそれっぽいトークンを出してるだけだという勢力が結構弱まるのでは？

A10-3 低頻度語彙埋め込みの縮約による事前学習済みモデルの圧縮

○ 田村鴻希, 吉永直樹, 根石将人 (東大)

Slack で行われていた興味深い議論についていけなかったので予稿や発表資料を再読して振り返りたい。(平均シフトの意味での) 異方性と関連しているかも。

A10-4 平均プーリングによる文埋め込みの再検討: 平均は点群の要約として十分か?

○ 原知正, 栗田宙人 (東北大), 横井祥 (東北大/理研), 乾健太郎 (MBZUAI/東北大/理研)

単語を予測する知識を獲得することを目的とした MLM では、モデルは “is” を当てられる能力ももちろん獲得する。しかし、直感的にはその能力が文類似度タスクに必要とは思えない。栗田くんの去年の発表は、文を特徴付けるような単語の影響 (=IG の重み) が対照学習の前後で強まるというものだった。逆に言えば、”is” のような文を一切特徴付けない単語の影響は弱まる。文の特徴付けに不要な埋め込みが縮小するなら点群の様相も大きく変化しそう。

奥が深そうなのでこれも予稿を精読する必要がありそう。

ちなみに、「He is playing the guiter.」の文埋め込みはだいたい「guiter」って言われるとそれはそれで納得しにくい。表層は「This is a guiter.」に似ているが情景は明らかに異なり、simCSE ってこの辺の意味の違いくらいは識別できるのでは？（使ったこと無いから肌感分からないけど）。最初の塚越さんの感想に書いた「意味に記号を割り当てている」という議論が再燃しそう。

A10-6 部分空間法に着想を得た Transformer のアテンションヘッドにおける特徴抽出

○ 前田晃弘 (JAIST), 鳥居拓馬 (東京電機大), 日髙昇平 (JAIST), 大関洋平 (東大)

初めて自分の論文が引用されて嬉しすぎなのですが！！！

attention の入力はすべてトークンの中間表現 $X$ の射影 $XW$ なのだが、この射影 $W$ が何をしているのかを調べている (自分も気になっていた)。ヘッド毎に異なる特徴 (e.g., 文の構造, 意味) を抽出していることが分かった。

Transformer 登場以降。attention の分析は流行っているが、そもそも「token A から token B に attention が向く」という現象そのものの意義には注目されていないように感じる。数式的には token B の成分が token A の成分に混ざり込むことなのだが、なぜそうする必要があるのかまで深ぼった話は自分の知る限り知らない。確認されている現象を無理やり理論的に説明しようとすると、「token A が token B の係り先だから token A の成分は token B の成分に取り込まれたのだ」という受け入れがたいものになり、決定的に何らかの情報が足りない。

この研究はヘッドが推論した結果である attention map ではなく推論している空間に入り込んでいるのが既存研究との違い。 (Clark et.al., 2019) が経験的に発見した現象の理論的説明を試みていると捉えられるかもしれない。

A11-2 大規模言語モデル事前学習の安定化

○ 高瀬翔, 清野舜 (LINE ヤフー/SB Intuitions), 小林颯介, 鈴木潤 (東北大)

(機材トラブルがあったからかもしれないが) 自分が想像していたよりも高瀬さんはコミカルな方なのかもしれないと印象が少し変わった。

Loss Spike が起きなくなるというのは世界的にインパクトが大きい。今後、スタンダードになりそうなので arXiv にも目を通して理解しておきたい。高瀬さんのインパクトのある提案手法は Layer 間の勾配の分析から生まれているものが多いので、今後の分析手順の参考にしたい。

これから読みたい・読み直したい予稿

受賞一覧から

P1-20 単語ベクトルに基づく新たな meaning-frequency law の検証
永田亮 (甲南大), 田中久美子 (早大)
E7-1 どのような言語モデルが不可能な言語を学習してしまうのか？—語順普遍を例に—
栗林樹生 (MBZUAI), 上田亮, 吉田遼, 大関洋平 (東大), Ted Briscoe (MBZUAI), Timothy Baldwin (MBZUAI/メルボルン大)

友達におすすめされたリスト

B2-3 疑似参照訳文ベクトルの重心に基づく高速なニューラル最小ベイズリスク復号
○ 出口祥之, 坂井優介, 上垣外英剛, 渡辺太郎 (NAIST)
P4-20 文法誤り訂正の包括的メタ評価: 既存自動評価の限界と大規模言語モデルの可能性
小林正宗 (都立大), 三田雅人 (サイバーエージェント), 小町守 (一橋大)
P8-25 サーベイ論文で引用すべき論文の推薦
○ 柴克樹, 笹野遼平, 武田浩一 (名大)
D10-6 Polos: 画像キャプション生成における教師あり自動評価尺度
○ 和田唯我, 兼田寛大, 齋藤大地, 杉浦孔明 (慶應大)

精読したい (特に理論系)

B8-6 逆学習による言語モデルの解析
磯沼大 (エディンバラ大/東大), Ivan Titov (エディンバラ大)
A10-3 低頻度語彙埋め込みの縮約による事前学習済みモデルの圧縮
○ 田村鴻希, 吉永直樹, 根石将人 (東大)
A10-4 平均プーリングによる文埋め込みの再検討: 平均は点群の要約として十分か?
○ 原知正, 栗田宙人 (東北大), 横井祥 (東北大/理研), 乾健太郎 (MBZUAI/東北大/理研)
A11-2 大規模言語モデル事前学習の安定化
○ 高瀬翔, 清野舜 (LINE ヤフー/SB Intuitions), 小林颯介, 鈴木潤 (東北大)

自分の話

(後で書く)

編集後記

8,000 字も文章書く暇あるなら学振とか論文とか書けたのでは。