TabFM:用于表格数据的零样本基础模型
Google Research 推出了 TabFM,这是一种专为表格数据设计的零样本基础模型。TabFM 能够在无需针对特定任务进行微调的情况下,直接对表格数据进行预测和推理,显著提升了表格数据处理的效率和泛化能力。该模型在多个基准数据集上展现出优异的性能,为金融、医疗等领域的表格数据分析提供了新的解决方案。
背景速读
- Google Research 发布了 TabFM,一个专门处理表格数据的基础模型。与需要大量微调的传统机器学习模型不同,TabFM 号称能"零样本"工作——即直接在新数据集上执行预测任务而无需重新训练。
- 现实世界中大多数数据(如数据库表格、Excel 文件、医学记录、销售报表)都是表格形式的,但 NLP 和 CV 领域已有 GPT 等基础模型,表格数据却长期缺乏类似的预训练通用模型。
- 这项工作的意义在于:表格数据是金融风控、医疗诊断、科学实验等行业的核心数据形式。如果能像语言模型一样实现"开箱即用",可大幅降低数据科学工程师的手工训练成本。
- TabFM 通过将表格行列转化为类似文本的序列来进行大规模预训练,从而学习表格结构本身的知识,而非依赖特定领域标签。
- 该方向仍在早期阶段;与 GPT 带动 NLP 的变革类似,"表格基础模型"被视为深度学习下一个值得关注的前沿。