译文语言

TabFM：用于表格数据的零样本基础模型

Google Research 推出了 TabFM，这是一种专为表格数据设计的零样本基础模型。TabFM 能够在无需针对特定任务进行微调的情况下，直接对表格数据进行预测和推理，显著提升了表格数据处理的效率和泛化能力。该模型在多个基准数据集上展现出优异的性能，为金融、医疗等领域的表格数据分析提供了新的解决方案。

背景速读

- Google Research 发布了 TabFM，一个专门处理表格数据的基础模型。与需要大量微调的传统机器学习模型不同，TabFM 号称能"零样本"工作——即直接在新数据集上执行预测任务而无需重新训练。 - 现实世界中大多数数据（如数据库表格、Excel 文件、医学记录、销售报表）都是表格形式的，但 NLP 和 CV 领域已有 GPT 等基础模型，表格数据却长期缺乏类似的预训练通用模型。 - 这项工作的意义在于：表格数据是金融风控、医疗诊断、科学实验等行业的核心数据形式。如果能像语言模型一样实现"开箱即用"，可大幅降低数据科学工程师的手工训练成本。 - TabFM 通过将表格行列转化为类似文本的序列来进行大规模预训练，从而学习表格结构本身的知识，而非依赖特定领域标签。 - 该方向仍在早期阶段；与 GPT 带动 NLP 的变革类似，"表格基础模型"被视为深度学习下一个值得关注的前沿。