我毒化了一个Hugging Face数据集,它挂了6个月都没被发现
作者讲述了自己故意向Hugging Face平台上传含有恶意数据(“投毒”)的数据集,并成功在平台上存留长达6个月未被移除的经历。文章揭示了开源数据集审核机制的漏洞,指出任何人都可以上传包含错误或有害信息的数据集,而平台缺乏有效的自动化检测和人工审查流程。这项实验警示AI社区需要加强对数据供应链的安全监管,防止恶意数据影响模型训练结果。
作者讲述了自己故意向Hugging Face平台上传含有恶意数据(“投毒”)的数据集,并成功在平台上存留长达6个月未被移除的经历。文章揭示了开源数据集审核机制的漏洞,指出任何人都可以上传包含错误或有害信息的数据集,而平台缺乏有效的自动化检测和人工审查流程。这项实验警示AI社区需要加强对数据供应链的安全监管,防止恶意数据影响模型训练结果。