【備忘】Survey on Multi-Output Learning

本論文の構成

 本論文では多クラス分類問題のように、出力が多次元ベクトル(行列含む)の機械学習タスクの特徴や課題について、ビッグデータで使われれる4つのVの概念(Volume、Velocity、Variety、Veracity)に基づいて述べている。 論文の構成として、2章では各概念に関係するMulti-Output Learningの課題について、3章ではMulti-Output Learningに共通する部分問題の定義及びそれに基づく出力の構造について、4章では4つのVで表現される課題及びそれに対応する研究について述べている。

各章の内容

 各章の説明に入る前に、上述の4つのVの概要を順に述べる。1)Volumeは、Multi-Outputでは出力次元に相当する。近年は指数関数的に出力次元が増大しており、ラベルアノテーションの労力の増加やラベルの偏りの問題を引き起こしている。2)Velocityは正解データの取得速度を表しており、例えばコンセプトドリフトへの対応力を示す。3)Varietyは正解データの多様性を表しており、ラベルに特徴的な構造が見られる場合はそれを考慮するのが望ましい。4)Veracityは欠損やノイズなど正解データの質的な違いを表している。

2. LIFE CYCLE OF OUTPUT LABELS

 本章では正解データの取得方法、表現方法および評価方法について述べている。正解データの取得においては、専門家へのヒアリングやクラウドソーシング、Webスクレイピングなど種々の方法が挙げられる。アノテーションツールもLabelMe、Brat、TURKSENTなどがある。正解データの表現方法は種々あり、クラス分類問題において最も基本的な表現方法はOne-hot vector形式のものがある。表現方法は問題タスクにより異なり、クラスラベルを階層表現する方が良いこともある。
 正答データの評価については、1)アノテーションの質が良いか、2)正答データの表現が問題タスクに合っているか、3)正答データに不足がないか、の3つの観点でなされる。1)クラウドソーシングやスクレイピングを行うと大量のデータが得られるが、正答データが誤っている場合があり、その質は保証されない。2)正答データは問題タスクに適した表現を採用することで正答率などの向上に繋がるが、ドメイン知識が必要で一般的に自明ではない。3)正答データが不足がないかどうかの判断は専門家の知見が必要である。多くの場合不足しており、学習方法などでの対応が必要となる。

3. MULTI-OUTPUT LEARNING

 Multi-Output Learningは出力の形式や問題設定、応用先で分類することができる。出力の形式としてはベクトル、分布(例:データ生成の確率分布)、ランキング、テキスト(例:キャプション)、系列(例:翻訳文章)、木構造、画像、Bounding Box、リンク構造、グラフ、ポリゴンなどが挙げられる。
 問題構造は多クラス問題、Multi-Target Regression(多次元ベクトルで各要素が実数)、Label Distribution Learning(多クラス問題において出力ベクトルの$L1$ノルムが$1$)、Label Ranking、Sequence Alignment Learning(1入力に対して複数の物体のクラス分類、例:画像の物体検出)、Network Analysis(例:ネットワークのリンク予測)、Data Generation(例:画像生成)、Semantic Retrieval、) Time-Series Predictionなどがある。特殊な問題設定として、多クラス分類問題、Fine-Grained Classification、マルチタスク学習などがある。
 これらのモデルの出力形式や問題設定によって評価方法が異なる。分類問題であれば、Example-based metrics(データ全体で計算される正答率、F1など)、Label-based metrics(ラベルごとの正答率、F1など)、Ranking-based metricsなどがある。Ranking-based metricsには、出力に含まれる正答をカウントするOne-error、出力の各要素が出力されていない他要素と順序関係があっているかに着目するRanking-Loss、正解が現れる割合について着目しAverage-Precisionがある。回帰問題であれば、絶対平均誤差、平均二乗誤差、相関係数、ジャッカード係数などがある。画像生成の問題であれば、Inception Distanceが用いられており、問題に応じて使い分けなければならない。
 用いられるデータセットは種々あり、詳細は本論文のTable 2を確認すること。

4. CHALLENGES OF MULTI-OUTPUT LEARNING

 本分野が抱える課題と現状の対処方法について述べられている。1)Volume:出力次元の増大については、現状あまり着目されていない。画像生成などでは出力次元が増大する傾向にある。埋め込みの分野では入力次元や入力データの削減に伴い、出力次元の削減がなされている。2)Variety:実データでは出力結果に相関が見られることが多く、性能向上においてはそのモデリングが取り組まれている。例えばClassifier Chainsでは、多次元ベクトルの出力にあたって各次元を順次出力するようにしており、その出力にあたっては入力データだけでなく同じベクトルの他次元のデータも考慮している。Structured Support Vector Machineでは、通常のSVMにStructured Hinge Lossを導入しており、ラベル間の違いやデータとラベル間の関係性を考慮するようにしている。このような複雑な構造を持つモデルを用いると学習・予測において計算量が増大する。そのため、クラスター単位で学習・予測を行ったり、ハッシュ化してメモリを節約するなどの工夫がなされたアルゴリズムが研究されている。3)Volume:大量のデータでは学習時間の増大が問題になるが、クラスの偏りが大きくなることも課題である。クラスの偏りはUp/Down SamplingやSMOTEで対応されている。また学習時に取得できなかった未知のデータや環境への対応も問題になる。未知のデータにはZero-Shot Learningなどを適用することが検討されており、未知の環境(Open Wolrd)に対しては未知データに別のラベルを割り当てるなどの対処が研究されている。4)Veracity:ラベル付けされていないデータや、ラベルの誤りなどの問題がある。例えば、画像中の物体検出のデータセットを作成する際など、ラベル付けが仕切れないデータが存在したりする。このような問題設定には弱教師あり学習の枠組みで考えることで性能が向上する。ラベルが誤っている場合は、そのデータを検出して除外したり、ノイズにロバストなコスト関数を採用、若しくは潜在空間で議論したりする方法などがある。5)Velocity:モデルの運用時においてデータ分布が変化することが課題として挙げられる。対処方法として、テストデータの分布の変化を適宜検出し再学習したり、オンライン学習を適用したりする方法がある。

参考文献

Xu, Donna, et al. "Survey on multi-output learning." IEEE transactions on neural networks and learning systems 31.7 (2019): 2409-2429.