译文语言

我毒化了一个Hugging Face数据集，它挂了6个月都没被发现

作者讲述了自己故意向Hugging Face平台上传含有恶意数据（“投毒”）的数据集，并成功在平台上存留长达6个月未被移除的经历。文章揭示了开源数据集审核机制的漏洞，指出任何人都可以上传包含错误或有害信息的数据集，而平台缺乏有效的自动化检测和人工审查流程。这项实验警示AI社区需要加强对数据供应链的安全监管，防止恶意数据影响模型训练结果。