在人工智能领域,图像和文本数据的处理早已被大模型(如GPT、BERT、ViT)所主导,但有一类数据却长期被忽视——表格数据。无论是企业财务报表、医疗病历记录,还是电商用户行为日志,表格数据几乎无处不在。然而,现有的深度学习模型在处理表格数据时往往需针对特定任务重新训练,缺乏泛化能力。近日,由国际顶尖研究团队提出的TabFM(Tabular Foundation Model)——一种专为表格数据设计的零样本基础模型,有望彻底改变这一现状,让AI“即插即用”地理解结构化数据。
为什么表格数据需要“基础模型”?
传统上,表格数据的分析依赖梯度提升树(如XGBoost、LightGBM)或浅层神经网络。这些方法虽然在某些场景表现优异,但存在明显瓶颈:每遇到一个新任务(如预测客户流失、诊断疾病),都需要重新收集标注数据、训练模型,耗时且成本高昂。 而像GPT这样的基础模型之所以强大,是因为它们在海量文本上预训练后,可通过提示(prompt)零样本完成翻译、问答等任务。TabFM正是借鉴了这一思路——让模型在大量异构表格数据上预训练,从而无需微调即可直接处理未见过的表格任务。
TabFM的技术突破:零样本推理如何实现?
TabFM的核心创新在于将表格行数据编码为“特征感知的序列”。传统的表格数据以行列结构存在,不同表格的特征名称(如“年龄”、“收入”)和数值含义差异巨大,难以直接输入神经网络。TabFM采用两层机制解决这一问题:
- 特征语义化嵌入:利用预训练语言模型(如BERT)将特征名称(列名)转换为语义向量,同时将数值型特征通过分位数分箱或归一化处理为连续嵌入,使得模型能够理解“年龄=30”与“收入=5000”之间的异同。
- 跨表预训练任务:TabFM设计了一种“掩码行预测”任务——在预训练阶段随机遮盖表格中的某些单元(如某个单元格的数值),要求模型基于上下文(其他行和列)进行预测。这一过程迫使模型学习不同表格之间共通的统计规律,例如“年龄与收入往往正相关”、“性别与某些疾病的关联”。
经过数十亿规模的表格数据(涵盖金融、医疗、电商、政务等200余类领域)预训练后,TabFM在零样本场景下展现出惊人的泛化能力。在分类任务上,其平均准确率比全监督的XGBoost仅低5%-8%,但无需任何训练数据;在回归任务中,TabFM的RMSE甚至优于某些基于迁移学习的模型。 这意味着,用户只需提供一张新的表格并指定目标列,TabFM就能直接输出预测结果。
应用场景:从精准营销到药物发现
TabFM的零样本特性将极大降低AI应用门槛。以下是一些典型场景:
- 金融风控:银行只需上传用户的贷款历史记录表(即使字段名称千差万别),TabFM即可零样本预测违约概率,免去数据清洗和特征工程。
- 医疗诊断:不同医院的电子病历格式各异,TabFM能直接分析新患者的检查指标,辅助医生做出初步判断。
- 电商推荐:电商平台可基于用户近期行为表(点击、购买、浏览时长等),实时推断其购买意向,无需重新训练推荐模型。
- 科学实验:生物学家可输入不同实验条件下的基因表达数据表,TabFM能零样本预测基因突变与表型的关系,加速药物靶点发现。
局限与未来展望
尽管TabFM表现惊艳,但研究团队坦言其仍有不足:对于高维稀疏表格(如用户-商品评分矩阵),零样本性能会明显下降;此外,模型在处理数值型特征时对异常值较为敏感。 目前,团队正致力于引入更强大的数值编码器和多模态对齐(如融合表格与文本描述),并计划开源基础模型供社区使用。
TabFM的出现标志着AI从“专用工具”向“通用智能”迈出关键一步。正如语言基础模型改变了NLP领域,TabFM有望让结构化数据的分析变得像“调用一个API”一样简单。未来,随着更多研究者加入表格基础模型赛道,我们或许很快就能见到一个零样本、百业通用的表格AI新生态。