TabFM: 表形式データ向けゼロショット基盤モデル
Google Researchは、表形式データ(テーブルデータ)に特化したゼロショット基盤モデル「TabFM」を発表した。このモデルは、事前学習なしで未見のテーブルデータに対して高い予測性能を発揮し、特徴量エンジニアリングや大規模なラベル付きデータが不要なため、様々な実務タスクへの迅速な適用が可能となる。
背景メモ
- Google Researchが発表した**TabFM**(Tabular Foundation Model)は、表形式データ(いわゆるExcelのスプレッドシートのような行と列のデータ)を扱う初めての大規模基盤モデル。
- 従来の機械学習では、表データを扱うタスク(買い物の予測、疾患の診断支援、融資の審査など)には、タスクごとにゼロからモデルを学習させる必要があった。TabFMは「zero-shot」(追加学習なしで未見のタスクに適用可能)で動作する点が画期的。
- 基盤モデルとは、GPTやBERTのような大量データで事前学習された汎用モデルのこと。画像やテキストでは一般的だが、表形式データは数値とカテゴリ値が混在し構造が多様なため、これまで基盤モデルの対象になりにくかった。
- この発表が注目される理由は、企業の業務データや医療・金融など実務の大半が表形式データであり、これを汎用的に処理できるモデルが登場したことで、AI活用の敷居が大きく下がる可能性があるため。