EMNLP2024 のタイトル眺めた

これは人間がやる作業ではない。当日は似た論文でセッションが組まれるから、スケジュールを参考に追うのが良いんだけど、他分野との出会いを求めて全部見ちゃう。できれば自動化したいけど AI/NLP のこと信用できなさそう。（多分信用してたら研究してない）

文埋め込み

LongEmbed: Extending Embedding Models for Long Context Retrieval

Dawei Zhu, Liang Wang, Nan Yang, Yifan Song, Wenhao Wu, Furu Wei, Sujian Li https://arxiv.org/abs/2404.12096

文埋め込み界隈が好きそう。

First, we examine the performance of current embedding models for long context retrieval on our newly constructed LongEmbed benchmark.

埋め込みモデルが長い文脈をどれだけ扱えるかを評価するベンチマーク。

comprehensive experiments show that training-free context window extension strategies like position interpolation can effectively extend the context window of existing embedding models by several folds

学習無しでコンテキストウィンドウを拡張できることを（ちゃんと）確認した。

our analysis reveals the superiority of RoPE-based embedding models over APE-based ones in context window extension. Hence, we advocate for the use of RoPE for future embedding models.

APE 終了宣言？

言語学的視点

Language Models Learn Rare Phenomena from Less Rare Phenomena: The Case of the Missing AANNs

Kanishka Misra, Kyle Mahowald https://arxiv.org/abs/2403.19827

芳賀さんぽさを感じる。

Language models learn rare syntactic phenomena, but the extent to which this is attributable to generalization vs. memorization is a major open question.

研究課題を要約の先頭に書いてくれるの助かる。 AANN は Article+Adjective+Numeral+Noun の略で、珍しい構文らしい（例：a beautiful five days）。実験の結果、稀な構文はより稀でない構文から汎化によって学習できることが示唆された。

A ∧ B ⇔ B ∧ A: Evaluating and Improving Logical Reasoning Ability of Large Language Models

Yuxuan WAN, Wenxuan Wang, Yiliu Yang, Youliang Yuan, Jen-tse Huang, Pinjia He, Wenxiang Jiao, Michael Lyu https://arxiv.org/abs/2401.00757

LogicAsker は、命題論理と述語論理に基づいた一連の原子的推論スキルを採用することで、このギャップに対処し、LLM の推論能力を体系的に調査・改善する。

XIN QUAN, Marco Valentino, Louise A. Dennis, Andre Freitas https://arxiv.org/abs/2405.01379

定理証明系と LLM を統合し、説明文を生成・形式化し、NLI の潜在的な推論戦略を提案する、Explanation-Refiner と名付けられたニューロシンボリックフレームワークを提案する。上と似てる。

CUTE: Measuring LLMs’ Understanding of Their Tokens

Lukas Edman, Helmut Schmid, Alexander Fraser

サブトークンで学習された LLM が本来の単語を知っているのかを評価した。

Where is the signal in tokenization space?

Renato Geh, Honghua Zhang, Kareem Ahmed, Benjie Wang, Guy Van den Broeck https://arxiv.org/abs/2408.08541

詳しく理解してないけど、tokenizer は [Tok,ens] と分割するけど model が [Tok,en,s] と出力するときの確率を分析する話。上と似た話題。

Lexically Grounded Subword Segmentation

A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners

Bowen Jiang, Yangxinyu Xie, Zhuoqun Hao, Xiaomeng Wang, Tanwi Mallick, Weijie J Su, Camillo Jose Taylor, Dan Roth https://arxiv.org/abs/2406.11050

トークンの表層に影響を受けてちゃんと推論してないんじゃねという話。 Fig 2 は、リンダ問題というものがあるのだが、この例文のリンダをボブにして解けないなら、モデルはほんとうの意味でリンダ問題を理解してないのではという例みたい。

DocHieNet: A Large and Diverse Dataset for Document Hierarchy Parsing

Hangdi Xing, Changxu Cheng, Feiyu Gao, Zirui Shao, Zhi Yu, Jiajun Bu, Qi Zheng, Cong Yao

Document Hierarchy というフレーズが気になったが、論文が見つからなかった。

Integrating Plutchik’s Theory with Mixture of Experts for Enhancing Emotion Classification

Dongjun LIM, Yun-Gyung Cheong https://openreview.net/forum?id=xXu4txKpBI

どうやったのかは詳しく読んでないけど、Expert が感情ごとに上手いこと分かれさせることで、expert gating score を見れば感情分析ができるってことかな？ MoE の説明で Expert が役割分担しているみたいな説明をたまに見るけど、実際はそんなに解釈しやすく学習されてないはず。でも、それをやってみようとしている点でこの論文は新鮮。

Model/Architecture

Encourage or Inhibit Monosemanticity? Revisit Monosemanticity from a Feature Decorrelation Perspective

Hanqi Yan, Yanzheng Xiang, Guangyi Chen, Yifei Wang, Lin Gui, Yulan He https://arxiv.org/abs/2406.17969

Monosemanticity の再考。そもそもこれはいい性質なのかよくない性質なのか。

Information Flow Routes: Automatically Interpreting Language Models at Scale

Javier Ferrando, Elena Voita https://arxiv.org/abs/2403.00824

既存の information flow の特定が活性化パッチングに依存しているのとは対照的に、我々はアトリビューションを通してこれを行う。我々は Llama 2 で実験を行い、いくつかの注目ヘッドの役割が全体的に重要であることを示す。

Symbolic Working Memory Enhances Language Models for Complex Rule Application

Siyuan Wang, zhongyu wei, Yejin Choi, Xiang Ren https://arxiv.org/abs/2408.13654

外部ワーキングメモリで LLM を拡張し、ルール適用用のニューロシンボリックフレームワークを導入することを提案。

Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging

Deyuan Liu, Zhanyue Qin, Hairu Wang, Zhao Yang, Zecheng Wang, Fangying Rong, Qingbin Liu, Yanchao Hao, Bo Li, Xi Chen, Cunhang Fan, Zhao Lv, Dianhui Chu, Zhiying Tu, Dianbo Sui https://arxiv.org/abs/2406.16330

活性を多様体で表現して、多様体同士の類似度を元に layer merge するらしい

Demystifying Verbatim Memorization in Large Language Models

Jing Huang, Diyi Yang, Christopher Potts https://arxiv.org/abs/2407.17817

ようやく何も分からなかったけど、Verbatim Memorization というキーワードが気になったのでメモ。

Rethinking the Reversal Curse of LLMs: a Prescription from Human Knowledge Reversal

Zhicong Lu, Li Jin, PeiguangLi, Yu Tian, Linhao Zhang, Sirui Wang, Guangluan Xu, Changyuan Tian, Xunliang Cai

論文見つからない。Reversal Curse よく聞くので気になってきた。

An Analysis and Mitigation of the Reversal Curse

Ang Lv, Kaiyi Zhang, Shufang Xie, Quan Tu, Yuhan Chen, Ji-Rong Wen, Rui Yan

同じ話題。next token prediction が良くないとのこと。確かに確かにそんな気はする。

Unveiling Factual Recall Behaviors of Large Language Models through Knowledge Neurons

Yifei Wang, Yuheng Chen, Wanting Wen, Yu Sheng, Linjing Li, Daniel Dajun Zeng https://arxiv.org/abs/2408.03247

推論中に事実を使っているのどうかを詳細に調べた。（言語推論に事実使わなくねと個人的には思うが批判的コメントは完読してから）

Rethinking Token Reduction for State Space Models

Zheng Zhan, Yushu Wu, Zhenglun Kong, Changdi Yang, Yifan Gong, Xuan Shen, Xue Lin, Pu Zhao, Yanzhi Wang

State Space Model 気になるけど論文が見つからない。

Backward Lens: Projecting Language Model Gradients into the Vocabulary Space

Shahar Katz, Yonatan Belinkov, Mor Geva, Lior Wolf https://arxiv.org/abs/2402.12865

最近の解釈可能性手法は、フォワードパスから得られた重みと隠れ状態をモデルの語彙に射影し、LM の中で情報がどのように流れるかを明らかにする。本研究では、この手法を LM のバックワードパスと勾配に拡張する。 Integrated Gradient とは関係ない？

Birdie: Advancing State Space Models with a Minimalist Architecture and Novel Pre-training Objectives

Sam Blouir, Jimmy T.H. Smith, Antonios Anastasopoulos, Amarda Shehu https://openreview.net/forum?id=58Y5SMJ39R

synthetic task を対象としているので、言語モデルとしての SSM とは別の話と思ったほうが良さそう。

Generation

RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models

RAG introduces two major challenges. First, limited retrieved contexts might not cover all necessary information, while excessive retrieval can introduce irrelevant and inaccurate references, interfering with the model’s generation. Second, in cases where the model originally responds correctly, applying RAG can lead to an over-reliance on retrieved contexts, resulting in incorrect answers.

みんな気にする問題。タイトルは Medical となっているけど、あらゆる場面に関連する話。

Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems

Philippe Laban, Alexander Fabbri, Caiming Xiong, Chien-Sheng Wu https://arxiv.org/abs/2407.01370

Haystack を現実的な設定である要約タスクにした。

Training/Tuning method

EFUF: Efficient Fine-Grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language Models

Shangyu Xing, Fei Zhao, Zhen Wu, Tuo An, Weihao Chen, Chunhui Li, Jianbing Zhang, Xinyu Dai https://arxiv.org/abs/2402.09801

読んでないけど、ピンポイントで学習したことを解除できるの？

Dissecting Fine-Tuning Unlearning in Large Language Models

Yihuai Hong, Yuelin Zou, Lijie Hu, Ziqian Zeng, Di Wang, Haiqin Yang https://arxiv.org/abs/2410.06606

上と同じ話題

On the Robustness of Editing Large Language Models

Xinbei Ma, Tianjie Ju, Jiyang Qiu, Zhuosheng Zhang, hai zhao, lifeng Liu, Yulong Wang https://openreview.net/forum?id=oary7aJrfK

人気の高い知識は記憶に残りやすく、思い出しやすく、効果的に編集するのが難しい。

Knowledge Graph Enhanced Large Language Model Editing

Mengqi Zhang, Xiaotian Ye, Qiang Liu, Pengjie Ren, Shu Wu, Zhumin Chen https://arxiv.org/abs/2402.13593

タイトルが一番好き。

Lifelong Knowledge Editing for LLMs with Retrieval-Augmented Continuous Prompt Learning

Qizhou Chen, Taolin Zhang, Xiaofeng He, Dongyang Li, Chengyu Wang, Longtao Huang, Hui Xue’ https://arxiv.org/abs/2405.03279

Lifelong Knowlwdge Editing 気になる。

Exploring Reward Model Strength’s Impact on Language Models

Yanjun Chen, Dawei Zhu, Yirong Sun, Xinghao Chen, Wei Zhang, Xiaoyu Shen

Reward Model と Base Model のバランスは気になる。

In-context Contrastive Learning for Event Causality Identification

梁超, Wei Xiang, Bang Wang https://arxiv.org/abs/2405.10512

In-context Contrastive Learning ってなんすか。 Fig. 2 から察するに、ローカルモデルから取り出した出力埋め込みを使って対照学習するのかな？

Position

From Insights to Actions: The Impact of Interpretability and Analysis Research on NLP

Marius Mosbach, Vagrant Gautam, Tomás Vergara-Browne, Dietrich Klakow, Mor Geva https://arxiv.org/abs/2406.12618

調査回答や 556 本の論文の手動アノテーションの質的分析を通じて、NLP 研究者が IA 研究の知見を基礎とし、NLP の進歩にとって重要であると認識し、複数のサブフィールドで IA 研究の知見や用語を自身の研究に活用していることがわかった。

Understanding “Democratization” in NLP and ML Research

Arjun Subramonian, Vagrant Gautam, Dietrich Klakow, Zeerak Talat https://arxiv.org/abs/2406.11598

民主化という言葉を適当に使うなという話っぽい