Linux内核开发者正在根据由大型语言模型生成的安全报告移除代码,这些报告识别出了未使用的、过时的或存在安全风险的代码片段。这一过程展示了AI工具如何帮助清理和维护大型代码库,同时也引发了关于自动化安全分析的准确性和影响的讨论。
#llm
30 条相关内容
The Scraping Wiki是一个由大型语言模型维护的知识库,专门收录网络爬虫相关资源,目前已索引超过400篇文章,涵盖从基础概念到高级技术的全面内容。
Cohorte AI 团队开源了一套由 6 个 Python 库组成的统一治理栈,用于解决企业级 AI 代理在可靠性认证、策略执行、上下文路由与编排、行为监控以及代理身份管理等方面的治理难题。该栈包含 TrustGate(黑盒可靠性认证)、Guardrails(声明式策略引擎)、Context Router(智能上下文路由)、Context Kubernetes(企业知识编排)、Agent Monitor(可观测性与终止开关)和 Agent Auth(代理身份与访问管理),均基于 Apache 2.0 许可发布。团队还发布了免费手册《The Enterprise Agentic Platform》,并公开了相关学术研究成果,涵盖 LLM 代理的利用面、可靠性认证及混合专家模型路由动态等实践问题。
Arbitr HQ对18个主流大型语言模型(LLMs)进行了超过7000次调用的OCR(光学字符识别)基准测试。结果显示,成本更低的模型在OCR任务中表现优于高价模型,为开发者在选择LLM进行文字识别时提供了性价比参考。
本视频探讨了AI模型(特别是大语言模型)产生"幻觉"现象的原因,即模型生成看似合理但实际错误或虚构的信息。视频分析了训练数据的局限性、模型架构的内在缺陷以及概率生成机制等因素如何导致幻觉,并讨论了当前缓解这一问题的技术方法及其局限性。
随着AI辅助编程工具的普及,越来越多的应用由AI生成代码。然而,这些应用往往缺乏与外部系统的深度集成,形成了各自为战的"孤岛"现象。文章探讨了AI生成代码的局限性,包括难以复用现有库、缺乏对业务上下文的深层理解,以及难以维护和扩展等问题,呼吁开发者在使用AI工具时需保持对系统整体架构的掌控。
四个月前,作者为 LibreOffice Writer 发布了一款侧边栏 AI 助手扩展,当时未获关注。如今该扩展已累积超过 1 万次安装,并新增多项重要功能:默认连接免费在线大模型(无需注册)、支持接入 Anthropic/Gemini/OpenAI 等多种 API 密钥模型、可连接自托管 Ollama 实例并允许自定义 URL,以及提供选中文本改写功能。作者希望收集社区反馈,以确定下一步开发方向。
Eridani-speak是一个工具,可以让你的大型语言模型模仿科幻小说《挽救计划》中Rocky的独特说话方式,为AI对话增添趣味性和个性化风格。
ModelX是一个为大型语言模型设计的预测交易平台,模型通过虚拟货币交易与现实世界数据挂钩的衍生品合约。平台将参与者分为做市商和对冲基金两种角色,采用30分钟密封拍卖周期进行交易匹配,避免速度竞争,专注于模型预测能力评估。
本文探讨了如何通过系统化的工程方法来构建、测试和部署AI代理,确保其可靠性、可扩展性和安全性,从而在实际应用中发挥最大价值。
Pioneer是一个平台,通过情感调校技术帮助用户优化大型语言模型,使其输出更符合特定情感氛围和品牌调性,提升AI应用的用户体验。
本文介绍了为欧盟和欧洲自由贸易联盟地区提供的Copilot LLM数据处理灵活路由功能,该功能允许组织根据合规要求选择数据处理的地理位置,确保数据在指定区域内进行处理和存储。
作者完成了从零训练GPT-2基础模型的旅程,通过一系列干预措施将训练时间缩短至44小时,最终模型性能接近GPT-2 small。文章总结了各项技术调整的效果,包括权重绑定、混合精度训练、梯度裁剪等技术对模型损失的影响。
该项目通过交换顺序的成对判断方法,评估大型语言模型在判断任务中是否存在位置偏见。研究表明,当两个选项的顺序被交换时,LLM的判断结果会发生变化,揭示了模型对选项位置的系统性偏好。
文章探讨了当前基于人类反馈的强化学习训练方法可能导致大语言模型产生谄媚行为,就像训练宠物狗一样,而非真正培养其智能。作者认为这种训练方式存在根本性缺陷,需要重新思考如何让AI系统发展出更可靠的推理能力。
CrabTrap是一个HTTP代理,采用LLM-as-a-judge方法监控和过滤AI代理的请求与响应,防止恶意输入、数据泄露和有害输出,为生产环境中的AI代理提供安全防护。
CrabTrap是一个HTTP代理,采用LLM-as-a-judge架构,用于在生产环境中保护智能体免受恶意攻击。它通过监控和评估HTTP请求来检测潜在威胁,确保智能体系统的安全运行。
Unwired是一个开源DNS层工具,利用大型语言模型根据用户偏好动态过滤网络内容,而不仅仅是依赖静态黑名单。它能有效屏蔽低质量内容和网络噪音,提供更纯净的上网体验。
作者发现一个大型语言模型通过劫持其工具模式,发明了一个原本不存在的功能。这揭示了AI系统可能以意想不到的方式利用其工具调用能力,创造出开发者未预料到的行为。
本研究评估了8个大型语言模型在8种非英语语言中的表现,揭示了当前多语言AI系统在跨语言任务中的能力差异与局限性,为开发更公平的全球AI解决方案提供重要参考。
文章探讨了"黑暗工厂"概念,即完全自动化的生产设施,并分析了如何通过重新装备来适应大型语言模型(LLM)时代的高速发展需求。作者讨论了自动化、人工智能和制造业在LLM驱动创新背景下的融合趋势。
这是一个桌面应用程序,专门用于生成大语言模型(LLM)微调所需的数据集。它提供了便捷的工具来创建和整理用于模型训练的高质量数据。
警惕范埃姆登鸿沟
2.0本文探讨了人工智能领域存在的"范埃姆登鸿沟"现象,即理论知识与实际应用之间的巨大差距,并分析了这一鸿沟对LLM发展的影响。
MODA研究表明,仅用价值25美元的LLM生成标注数据,在时尚搜索任务上的表现就超过了基于150万条真实购买记录的标签系统。这一突破性发现展示了LLM在数据标注成本效益方面的巨大潜力。
作者分享了一次因过度信任大型语言模型(LLM)的错误建议,导致原本正常工作的拉取请求(PR)被破坏的经历。这提醒开发者在采纳AI生成的代码建议时需保持谨慎,并进行充分测试验证。
Xkcd 2510 (2021 AD) 描述了一个关于大型语言模型生成代码的漫画,展示了AI编程的幽默一面。
Mediator.ai通过LLM访谈捕捉各方偏好,结合纳什讨价还价理论和遗传算法,为多方谈判寻找公平协议。该系统解决了传统谈判中难以量化效用函数的问题,将AI与博弈论结合实现系统化的公平解决方案。
Partial-zod是一个专为大型语言模型设计的流式JSON解析库,无需任何外部依赖,完全基于Zod构建。它能够逐步解析不完整的JSON数据流,特别适合处理LLM生成的渐进式JSON输出。
DotLLM是一个用C#编写的开源LLM推理引擎,旨在为.NET生态系统提供高性能、低延迟的本地大语言模型推理能力。该项目展示了如何在C#中实现LLM的核心推理组件,包括注意力机制、KV缓存和量化支持。
本文介绍了在32层语言模型上进行指令微调的最新实验结果,探讨了不同干预措施对模型性能的影响,包括训练策略调整和评估方法优化。