【備忘】Relationships are Complicated! An Analysis of Relationships Between Datasets on the Web

本論文の概要

 Web上には大量のデータセットが存在しており、それらの中には包含関係にあるものや複製されたもの、バージョンが違うものなどが含まれている。本研究はこのようなデータセット間の関係性を推定する。この研究により、関係性が及ぼす影響を評価ができるようにするとともに、より良いデータセット管理ツールや技術を開発できるようにし、今後の研究の広範なフレームワークを提案につながることが期待される。  データセット間の関係性の推定にあたり、2178のデータセットに対してWebをクロールしてメタデータコーパスを作成するとともに、手動で関係性にラベルを付与した。
 推定の既存手法として、メタデータを管理しているscheme.orgから簡易に関係性を見積もる方法、データセットの名前やメタデータからヒューリスティクスに関係性を求める方法を採用した。また提案手法として、勾配ブースティング(以下、GDBT)で予測する方法、LLMで多クラス分類モデルとして解く方法を用いた。
 結果として、従来の方法として比較しGDBTやLLMの方が推定精度が高かった。ヒューリスティクスな推定では、データセットの名前など誤植により性能が著しく落ちるが、GDBTやLLMは頑健に推定できた。また、単語の意味に基づく分類ではLLMの方がGDBTよりも優れた結果となった。
 GDBTやLLMで関係性を整理したところ、20%以上のデータセットが他データセットと何らかの関係性を持つことがわかった。

データセット間の関係性
メターデータ記述される関係性

複製、バージョン更新、部分集合、要約など加工したもの。

データの内容に基づく関係性

取り扱っている分野の類似性、適用するタスクの類似性(例:物体検出における人、車のデータセット)、統合が可能かどうか

参考文献