【備忘】Are Data-driven Explanations Robust against Out-of-distribution Data?

  • 本論文の概要:
     分布外データに対してロバストな説明が得られる、データドリブンかつモデルに非依存な学習方法を提案したものである。

  • 研究の動機:
     説明責任が問われる問題に対してもブラックボックスモデルを適用することが多くなってきており、また、通常のモデルはOODデータに対しての性能が悪いことから、分布に依らず信頼性の高い説明力を持つモデルが求められている。しかし、既存研究はデータドリブンな説明モデルを対象にしており、分布シフトが起きた際の説明力のロバスト性はほとんど議論されていない。そこで、OODデータに対するデータドリブンな説明のロバスト性を、モデルを提案するとともに実データを用いて実験的に確認する。

  • 本論文の主な貢献:

    • 自然に発生する分布シフトに対して、データドリブンな説明のロバスト性を実験的に確認。
    • end-to-endのモデルに非依存な学習方法を提案(Distributionally Robust Explanations、以下DRE)
    • 画像や表データの分類および回帰を含む幅広いタスクにおいて、提案手法がOOD データに対するモデルの優れた説明とロバスト性を示した点。
  • 提案手法:
     DREは、以下のように定式化される。
    $$ \begin{align} &\begin{split} \min_{f \in \mathcal{F}} \mathcal{R}(f) := \mathbb{E}_{(x,y) \sim P_{\text{train}}}[\ell(f(x), y)] \end{split} \\ &\begin{split} \text{s.t.} \quad g(x) = g(G(x, e)) \quad \forall e \in \mathcal{E}_{\text{all}}. \end{split} \\
    \end{align} $$ $\ell$はコスト関数、$g$は説明モデル(Grad-CAMやInput Gradientなど勾配計算が可能で、sanity checkを通過したもの)、$e$は環境条件、$\mathcal{E}_{\text{all}}$は学習データをも含む環境全てを指す。このモデルは$\mathcal{E}_{\text{all}}$やそれに関する確率分布が不明であるため解けないため、学習データとそれが変容したものの1:1写像を用いて学習を行うことにする。しかしそういった写像は通常得られないため、自己教師あり学習とmixupとを掛け合わせて代用して、
    $$ \begin{align} &\begin{split} \min_{f \in \mathcal{F}} \mathcal{R}(f) \end{split} \\ &\begin{split} \text{s.t.} \mathcal{D}[g(\mathcal{M}(\mathbf{x}_e, \mathbf{x}_{e'})), \mathcal{M}(g(\mathbf{x}_e), g(\mathbf{x}_{e'}))] \leq \epsilon \end{split} \\
    \end{align} $$ と定式化する。$\mathcal{D}$はKL-divergenceなどの(擬)距離であり、$\mathcal{M}$はmixup関数で、
    $$ \begin{align} \mathcal{M}(\boldsymbol{x}_e, \boldsymbol{x}_{e'}) := \tau \boldsymbol{x}_e + (1 - \tau) \boldsymbol{x}_{e'} \quad \tau \sim \text{Beta}(\alpha, \alpha) \end{align} $$ として定式化される。本研究において$\alpha = 0.2$としている。mixupは敵対的なノイズに対してロバスト性や正答率の向上が見られることが実験的に確認されており、本研究に適していると判断される。また$\boldsymbol{x}_e, \boldsymbol{x}_{e'}$は学習データのランダムなペアであり、ラベル$y$は同じだが分布が異なる。
    予備検討の結果、全ての特徴を用いて予測がなされてたので上記モデルにスパース正則化を追加するとともに、ラグランジュ乗数$\lambda$を用いて書き換えた。以下のモデルが本論文で提案され、実験で用いられたものである。

$$ \begin{align} \min_{f \in \mathcal{F}} \mathbb{E}_{(x,y) \sim P_{\text{train}}}[\ell(f(x), y)] + \lambda \mathcal{D}[g(\mathcal{M}(\mathbf{x}_e, \mathbf{x}_{e'})), \mathcal{M}(g(\mathbf{x}_e), g(\mathbf{x}_{e'}))] + \gamma |g(\mathbf{x}_e)|_1 + |g(\mathbf{x}_{e'})|_1 ) \end{align} $$ 本モデルはadamで最適化を行なっている。

  • モデルの特徴:

    • 分布シフトに対して、自己教師あり学習による教師データを用いてる点
    • 連続的な潜在空間における分布不変性を保証する分布間情報を完全に利用している点(?)
    • 偽相関の学習を防ぐために説明の制約を加えており、説明を用意するのは困難であることからGrad-CAMなどを使用している点
    • 追加パラメータがほとんどなく、モデル構造をほとんど変更せずにロバストな学習を行なっている点
  • 評価指標:

    • Distributional explanation consistency (DEC)
      DREの制約条件式(4)の左辺。低いほどOODに対するロバスト性が獲得できていると判断。
    • Explanation fidelity (iAUC, area under the insertion curve)
      徐々に特徴量を追加した時の確率の増加を見たもの。高いほどOODに対するロバスト性が獲得できていると判断。
    • Scientific consistency (SC)
      モデルの説明により得られる特徴量の重要度と、専門家の正しいドメイン知識との間のコサイン類似度。高いほどOODに対するロバスト性が獲得できていると判断。

以上。