翻訳言語

TabFM: 表形式データ向けゼロショット基盤モデル

Google Researchは、表形式データ（テーブルデータ）に特化したゼロショット基盤モデル「TabFM」を発表した。このモデルは、事前学習なしで未見のテーブルデータに対して高い予測性能を発揮し、特徴量エンジニアリングや大規模なラベル付きデータが不要なため、様々な実務タスクへの迅速な適用が可能となる。

背景メモ

- Google Researchが発表した**TabFM**（Tabular Foundation Model）は、表形式データ（いわゆるExcelのスプレッドシートのような行と列のデータ）を扱う初めての大規模基盤モデル。 - 従来の機械学習では、表データを扱うタスク（買い物の予測、疾患の診断支援、融資の審査など）には、タスクごとにゼロからモデルを学習させる必要があった。TabFMは「zero-shot」（追加学習なしで未見のタスクに適用可能）で動作する点が画期的。 - 基盤モデルとは、GPTやBERTのような大量データで事前学習された汎用モデルのこと。画像やテキストでは一般的だが、表形式データは数値とカテゴリ値が混在し構造が多様なため、これまで基盤モデルの対象になりにくかった。 - この発表が注目される理由は、企業の業務データや医療・金融など実務の大半が表形式データであり、これを汎用的に処理できるモデルが登場したことで、AI活用の敷居が大きく下がる可能性があるため。