【備忘】Should we be going MAD? A Look at Multi-Agent Debate Strategies for LLMs

本論文の概要

本論文は、LLMの質問応答性能を向上させる手法として、単一プロンプト、Self-Consistency、Ensemble Refinement、Medprompt、そして複数LLMエージェントによるMulti-Agent Debate(MAD)を比較し、精度・時間・APIコストの観点から各手法のトレードオフを評価した研究である。対象は医療QAに限らず、常識推論、反直感的な算術推論、専門知識を要するGPQAなど、複数ドメインの多肢選択問題である。

MADの特徴

MADは、複数のLLMエージェントが互いの回答や推論過程を参照しながら議論を行い、最終的な回答を導く手法である。複数の視点から回答を検討できるため、単一LLMよりも高い性能が期待される。一方で、本論文の結果では、既存のMAD手法は、そのままではSelf-ConsistencyやMedpromptなどの非討論型手法を安定して上回るわけではなかった。また、MADは複数エージェント・複数ラウンドの推論を行うため、API呼び出し数やトークン数が増加し、時間的・金銭的コストも高くなりやすい。

MADの性能を左右する要因

MADの性能は、エージェント数、討論ラウンド数、プロンプト設計、特にエージェント間の合意度といったハイパーパラメータに大きく依存する。通常のプロンプト文言を調整するだけでは、MADの性能を大きく改善するには不十分であり、むしろエージェントに与える役割、討論ラウンド数、他エージェントへの反対や同意のしやすさといった討論プロトコル全体の設計が重要である。

合意度調整による性能改善

特に本論文では、エージェント間の合意度を適切に調整することで、Multi-PersonaなどのMAD手法の性能が大きく改善し、非討論型手法を上回る場合もあることが示されている。これは、MADの有効性が、LLMに討論させること自体だけでなく、討論の進め方をどのように設計するかに強く依存していることを示している。

本論文の主張

したがって、本論文の主張は、MADが常に有効であるというものではない。MADは有望な手法ではあるものの、設計とチューニングへの感度が高く、精度だけでなく時間やAPIコストも含めて慎重に評価する必要がある。特に、単純なプロンプトチューニングだけで性能改善を期待するのではなく、エージェント数、ラウンド数、合意度といった討論プロトコルのハイパーパラメータを適切に調整することが重要である。

参考文献

Smit, Andries, et al. "Should we be going mad? a look at multi-agent debate strategies for llms." arXiv preprint arXiv:2311.17371 (2023).

【備忘】Two Tales of Persona in LLMs:A Survey of Role-Playing and Personalization

本論文の概要

 本論文は、LLM における「ペルソナ」の利用を、LLM Role-Playing と LLM Personalization という2つの流れに整理したサーベイ論文である。Role-Playing では、ペルソナは LLM 側に割り当てられ、LLM は役割に沿って環境フィードバックに適応する。一方、Personalization では、ペルソナはユーザ側にあり、LLM はユーザの背景情報・履歴行動・嗜好を考慮して個別化された応答を生成する。

Role-Playing の応用先には、ソフトウェア開発、ゲーム、医療応用、LLM-as-Evaluator / LLM-as-a-Judge がある。Single-Agent は、他のエージェントの支援なしに目標を達成できる設定であり、ゲーム環境のように協調よりも環境情報やフィードバックへの適応が重要な場面で多く見られる。Multi-Agent は、他のエージェントとの協調・コミュニケーションが目標達成に必要な設定であり、ソフトウェア開発や医療応用など、役割分担や相互作用が重要な場面で用いられる。

Personalization の応用先には、推薦、検索、教育、医療、対話生成がある。LLM はユーザの履歴や嗜好を利用して、検索結果の統合、商品・映画・本などの推薦、教育支援、ヘルスケア支援、タスク指向対話やユーザペルソナに基づく応答生成を行う。

Multi-Agent による Role-Playing の特徴

 Multi-Agent の Role-Playing では、エージェント間の協調や対立を通じて、主に3つの行動が観察される。第一に Voluntary Behavior は、エージェントがチーム目標の達成に向けて自発的に他者を助けたり、資源を共有したりする行動である。第二に Conformity Behavior は、あるエージェントがチーム目標から逸脱した際に、他エージェントからの批判や提案を受けて行動や判断を修正する行動である。第三に Destructive Behavior は、LLM が望ましくない行動を取ったり、毒性やステレオタイプ的バイアスを示したりする行動であり、Role-Playing における安全性やバイアスの問題につながる。

LLM の Personality の評価方法

 LLM の Personality 評価では、人間向けの心理尺度を応用する研究が紹介されている。Big Five Personality Inventory(BFI)を用いた評価では、LLM が意図したペルソナを比較的正確に反映できる場合がある一方、多くの研究は意味的正確さか性格の一貫性のどちらかに焦点を当てている。Machine Personality Inventory(MPI)は Big Five 因子に基づいて LLM の性格特性を統計的に測定する手法であり、人間評価との比較から、内部整合性がモデル能力と相関することが示されている。MBTI による評価では、LLM がモデルごとに異なる MBTI 型を示すことや、単純なプロンプト変更だけでは MBTI 型が変わりにくいことが報告されている。ただし、人間向けの心理測定をそのまま LLM に適用できるかは未解決の課題である。

参考文献

Tseng, Yu-Min, et al. "Two tales of persona in llms: A survey of role-playing and personalization." Findings of the Association for Computational Linguistics: EMNLP 2024. 2024.

【備忘】Quantifying the Persona Effect in LLM Simulations

本論文の概要
  • LLMにペルソナを与えた場合、人間の主観判断をどの程度再現できるかを定量評価した論文。

  • 人間の価値観・文化・経験・言語感覚によって判断が揺れやすい主観的NLPタスクでは、性別・年齢・政治的傾向などのペルソナ変数だけで、個人ごとの回答差を十分に説明することは難しい。

  • 一方で、政治調査のように、回答と強く関係するペルソナ変数が存在するタスクでは、LLMもその情報を使って人間回答をある程度予測できる

  • したがって、ペルソナプロンプトは回答の多様化や仮説生成には有効だが、「実在する人間の判断・行動を忠実にシミュレーションできる」と過信するのは注意が必要。

分析の補足
  • 個人ごとの回答差の分析

 ペルソナ変数とテキストIDを説明変数とした混合効果モデルを用いて、ペルソナ情報が付与されたNLPアノテーションデータに対して回帰分析を行った。この分析では、R²に着目することで、アノテーションのばらつきのうち、ペルソナ変数やテキスト固有効果によってどの程度説明できるかを定量化している。
 結果として、攻撃性評価などの主観的NLPアノテーションタスクでは、ペルソナ変数による説明力は多くの場合10%未満にとどまった。一方で、政治的投票行動のように、回答とペルソナ変数の関係が強いタスクでは、線形モデルによって高い説明力が確認された

  • ペルソナ変数が有効なアノテーションタスクの検討

 各アノテーションサンプルに対して、標準偏差やエントロピーを算出し、回答の割れ方を定量化した。結果として、ペルソナプロンプトは「高エントロピー・低標準偏差」のサンプルで相対的に効果が大きいことが示された。
 これは、回答カテゴリは複数に分かれているものの、評価値の差は小さいサンプルでは、ペルソナによる微調整が効きやすいことを示唆している。

所感

ペルソナ設計では、単に属性情報を増やすのではなく、そのタスクの回答差に本当に関係するペルソナ変数を選べているかを検証することが重要と思われる。

参考文献

Hu, Tiancheng, and Nigel Collier. "Quantifying the persona effect in LLM simulations." Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2024.

Proposition 2.3.1(Ben-tal 2009)

定理

$z_l​,\ l=1,…,L$ を決定論的な係数とする。また、$\zeta_l, \ l = 1, \cdots, L$ を互いに独立な確率変数とし、$\mathbb{E}[\zeta_l] = 0, \ \zeta_l \in [-1, 1]$ であるとする。このとき、任意の $\Omega \ge 0$ に対して、

$$ \begin{align} \mathbb{P} \Bigg\lbrace \sum_{\ell = 1}^{L} z_{\ell} \zeta_{\ell} > \Omega \sqrt{ \sum_{\ell=1}^{L} z^{2}_{\ell} } \Bigg\rbrace \notag \le \exp \lbrace - \frac{\Omega^{2}}{2} \rbrace \notag \end{align} $$ が成り立つ。

証明

$\eta_l = z_{\ell} \zeta_{\ell}$ とすると、$\mathbb{E}[\eta_l] = 0, \ \eta_l \in [-z_l, z_l]$ となる。また、$\eta_l$ は独立であるからHoeffding's inequality より以下が成立する。

$$ \begin{aligned} \mathbb{P} \Bigg\lbrace \sum_{\ell=1}^{L} \eta_l
> \Omega \sqrt{\sum_{\ell=1}^{L} z^{2}_{\ell}} \Bigg\rbrace \notag & \le \exp \lbrace - \frac{2 \big\lbrace \Omega \sqrt{\sum_{\ell=1}^{L} z^{2}_{\ell}} \big\rbrace^{2} }{\sum_{\ell=1}^{L} (2z_l)^{2}} \rbrace \\ & = \exp \lbrace - \frac{\Omega^{2}}{2} \rbrace \end{aligned} $$ よって示された。

参考文献

Ben-Tal, Aharon, Arkadi Nemirovski, and Laurent El Ghaoui. "Robust optimization." (2009), p 32

Excercises 1.5(Shapiro 2021)

定理

各期の需要は過去の需要と独立であると仮定する。このとき、在庫問題の最適政策は『在庫が目標在庫量 $x_{t}^{∗}$​ を下回っていたらそこまで補充し、上回っていたら何もしない』というベースストック政策になることを示せ。

証明

各期の需要が過去需要と独立であるため、目標在庫量 $x_t^{*}$ は過去の需要履歴に依存しない。目標在庫量 $x_{t}^{*}$ を次のように定義する。

$$x_{t}^{*} \in \arg\min_{x_t} c_t x_t + \mathbb{E} \Big[ b_t [D_t-x_t]_{+} + h_t[ x_t - D_t]_{+} + Q_{t+1}(x_t - D_t) \Big]$$

一方、時点 $t$ において実際に解くべき問題は、現在の在庫量 $y_t$​ より小さい発注後在庫量を選べないため、次の式となる。 $$\min_{x_t \ge y_t} \Bigg\lbrace c_t (x_t - y_t) + \mathbb{E} \Big[ b_t[D_t - x_t]_{+} + h_t(x_t - D_t)_{+} + Q_{t+1} (x_t - D_t )\Big] \Bigg\rbrace$$ 証明すべきことは、ベースストック政策である在庫量 $\bar{x_t}$ が $\bar{x_t} = \max \lbrace x_{t}^{*}, y_t \rbrace$ となることである。

明らかに、$x_t^{*} \ge y_t$であれば、最適化問題の制約を満たすため、制約付き問題の最適解と無制約最適化問題の最適解は一致する。よって、$\bar{x_t} = x_{t}^{*}$ となる。 次に、$y_t > x_t^{*}$ の場合を考える。最適化問題はExcercises 1.4(Shapiro 2021)より凸最適化問題であり、$x_t^{*}$ は無制約最適化問題の最適解である。$x_t^{*}$ より大きい領域では $x_t$ に関して単調非減少であるから、$\bar{x_t} = y_t$ となる。よって題意は示された。

参考文献

Shapiro, Alexander, Darinka Dentcheva, and Andrzej Ruszczynski. Lectures on stochastic programming: modeling and theory. Society for Industrial and Applied Mathematics, 2021, p 20.s

【備忘】LLM Agents Grounded in Self-Reports Enable General-Purpose Simulation of Individuals

本論文の概要

本論文では、個人への半構造化インタビューや構造化アンケートのデータをもとにプロンプトを作成することで、LLMを追加学習させることなく、その個人の2週間後の回答を一定程度模擬できることを確認している。

ここで用いられるインタビューや構造化アンケートは、社会科学・行動科学の分野で、個人の態度・性格・行動傾向を把握するために用いられてきた代表的な自己報告データである。本研究では、それらの個人データをLLMエージェントの入力として利用し、属性情報のみ、または短い自己紹介文のみを用いたエージェントと比較している。

入力データ(個人データ)の詳細

構造化アンケート
特徴
  • 社会科学者が測りたい概念を、標準化された質問で効率よく測るためのデータ。

  • 回答者間の比較や、集団レベルでの推論に利用しやすい。

  • 一方で、回答の背景にある文脈や、本人固有の事情・制約は取得しにくい。

参考

本研究では、参加者はインタビュー後に構造化アンケートへ回答している。

アンケートデータ
  • General Social Survey, GSS

  • Big Five Inventory, BFI-44

個人のインタビュー(半構造化インタビュー)
特徴
  • 標準化質問では取りにくい、その人固有の事情・制約・生活史・価値観のつながりを取得できる。

  • 事前に決められた質問と、その回答に応じた追加質問を組み合わせる形式。

  • インタビュー時間は平均約2時間/人であり、参加者1人あたり平均約6,500語の文字起こしデータが得られている。

  • インタビュープロトコルには American Voices Project のものを採用している。これは、本研究の評価タスクに合わせて新たに設計したものではない。

性能評価

目的

内容に重複はあるが、データ形式や文脈の有無が異なる自己報告データを用いてLLMエージェントを作成し、どのような個人情報がペルソナ生成・個人シミュレーションに有効かを比較する。

評価内容

以下の観点で、エージェントが本人の回答や集団レベルの反応をどの程度再現できるかを評価している。

  • 社会的・政治的態度:GSS

  • 性格特性:Big Five Inventory

  • 経済ゲーム:行動選択

  • 社会実験:処置効果

比較対象

各参加者について、入力情報の種類が異なる複数のエージェントを作成し、本人の2週間後の回答をどの程度再現できるかで性能を確認している。

  • ベースライン1:属性情報のみ

年齢、性別、人種、政治的イデオロギー

  • ベースライン2:個人が作成した短い自己紹介文

属性情報、性格、経歴などを含む

  • 構造化アンケートエージェント

GSS、Big Fiveなどの構造化調査回答を用いる

  • 個人インタビューエージェント

半構造化インタビューの文字起こしを用いる

  • 構造化アンケート+個人インタビューエージェント

構造化アンケートと個人インタビューの両方を用いる

結果
  • GSS

ベースラインよりも、構造化アンケートや個人インタビューを用いたエージェントの方が高い性能を示した。構造化アンケートと個人インタビューを組み合わせた場合が最も高い性能であったが、個人インタビュー単独・構造化アンケート単独でも近い水準の性能を示している。

  • Big Five Inventory

個人インタビューを用いたエージェントが比較的高い性能を示しており、次いで短い自己紹介文を用いたベースラインも一定の性能を示している。

  • 経済ゲーム

個人インタビューを単独で用いたエージェントが相対的に良い結果を示している。ただし、有意差は確認されておらず、GSSやBig Fiveほど明確な性能差は見られない。

  • 社会実験

どのエージェントも似た傾向を示しており、個人データを追加することによる明確な優位性は確認されていない。

所感

  • 本論文では、個人データを使うことでサブグループ間の予測精度差が小さくなる傾向も報告されている。ただし、これは属性グループの典型像ではなく、個人固有の情報を参照するために自然に生じる可能性があり、バイアス解消を強く示す結果としては慎重に解釈すべきと思う。

  • 今回の実験では、GSSにおいて個人インタビューと構造化アンケートが近い性能を示している。ただし、構造化アンケート単独の有効性として単純に解釈するには注意が必要と思う。

  • 本研究では、長時間のインタビュー後にGSSやBig Fiveへ回答しているため、参加者の思考や自己理解が整理され、その結果として一貫したアンケート回答になった可能性がある。つまり、事前インタビューによるプライミング効果が構造化アンケートの性能に影響している可能性がある。

  • また、評価タスクが主にGSSやBig Fiveのような短答・選択式の回答であるため、インタビューが持つ文脈情報や理由付けの価値を十分に評価できていない可能性がある。したがって、本論文の結果は「LLMが人間の複雑な行動を深く理解した」と解釈するよりも、「広範な自己報告データを与えることで、関連する後日の自己報告・態度回答を高い水準で補完できる」と理解するのが妥当である。

参考文献

Park, Joon Sung, et al. "Generative agent simulations of 1,000 people." arXiv preprint arXiv:2411.10109 52 (2024).

Excercises 1.4(Shapiro 2021)

定理

以下で定義された最適価値関数 $Q_t(y_t,d_{[t-1]})$ が、変数 $y_t$​ に関して凸であることを示せ。 $$ \begin{align} Q_t(y_t, d_{[t-1]}) := \min_{x_t \ge y_t} \Bigg\lbrace c_t(x_t-y_t) + \mathbb{E} \Big[
b_t[D_t-x_t]_{+} + h_t(x_t-D_t)_{+} + Q_{t+1}(x_t - D_t,D_{[t]}) Big|
D_{[t-1]}=d_{[t-1]}
Big] \Bigg\rbrace \notag \end{align} $$

証明

後ろ向き帰納法で証明する。 まず $t = T$ の時、$Q_T(y_T,d_{[T-1]})$ が $y_T$ に関して凸であること確認する。 $$ \begin{align} Q_T(y_T, d_{[T-1]}) := \min_{x_T \ge y_T} \Big\lbrace c_T(x_T-y_T) + \mathbb{E} \Big[ b_T[D_T-x_T]_{+} + h_T(x_T-D_T)_{+}\ \Big|
D_{[T-1]}=d_{[T-1]}
\Big] \Big\rbrace \notag \end{align} $$ $\min$ の対象である関数の第1項目は、$(x_T, y_T)$ について線形であるため凸である。また、各実現値 $D_t = d_t$ について、$b_T[D_T-x_T]_{+} + h_T(x_T-D_T)_{+}$ は凸である。期待値は $D_T$ に関して計算されており、期待値を取った関数も $x_T$ に関して凸である。よって、$\min$ の対象である関数は $(x_T, y_T)$ に関して凸関数である。 さらに、制約条件は $(x_T, y_T)$ について凸関集合であるため、$x_T$ について最適化した関数は $y_T$ に関して凸関数である。したがって、$Q_T(y_T,d_{[T-1]})$ が $y_T$ に関して凸である。

次に、ある $t+1 \le T$ について、任意の履歴 $d_{[t]}$ に対して $Q_{t+1}(y_{t+1},d_{[t]})$ が $y_{t+1}$ に関して凸であると仮定する。このとき $Q_t(y_t,d_{[t-1]})$ が $y_t$ に関して凸であることを示す。

帰納法の仮定より、$Q_t(y_t,d_{[t-1]})$ は $y_t$ に関して凸である。したがって、アフィン変換 $y_t=x_{t-1}-D_{t-1}$ との合成により、$Q_t(x_{t-1}-D_{t-1},d_{[t-1]})$ は $x_{t-1}$ に関して凸である。 よって、先ほどと同様に、最小化対象の関数は $(x_{t-1},y_{t-1})$ に関して凸であり、制約集合 $x_{t-1}\ge y_{t-1}$ も凸である。したがって、$x_{t-1}$ について部分最小化した $Q_{t-1}(y_{t-1},d_{[t-2]})$ は (y_{t-1}) に関して凸である。

以上の帰納法により、すべての $t\in[1,T]$ について、$Q_t(y_t,d_{[t-1]})$ は $y_t$ に関して凸である。

参考文献

Shapiro, Alexander, Darinka Dentcheva, and Andrzej Ruszczynski. Lectures on stochastic programming: modeling and theory. Society for Industrial and Applied Mathematics, 2021, p 20.