TAG · #LLM

#llm

30 条相关内容

HOTNESS

内核代码移除由LLM生成的安全报告驱动
6.5
Linux内核开发者正在根据由大型语言模型生成的安全报告移除代码，这些报告识别出了未使用的、过时的或存在安全风险的代码片段。这一过程展示了AI工具如何帮助清理和维护大型代码库，同时也引发了关于自动化安全分析的准确性和影响的讨论。
hn2026年4月22日#科技
The Scraping Wiki：一个由LLM维护的知识库，索引了400篇文章
2.0
The Scraping Wiki是一个由大型语言模型维护的知识库，专门收录网络爬虫相关资源，目前已索引超过400篇文章，涵盖从基础概念到高级技术的全面内容。
hn2026年4月22日#科技
Show HN：我们开源了一个面向 AI 代理的 6 库治理栈（Python）
4.0
Cohorte AI 团队开源了一套由 6 个 Python 库组成的统一治理栈，用于解决企业级 AI 代理在可靠性认证、策略执行、上下文路由与编排、行为监控以及代理身份管理等方面的治理难题。该栈包含 TrustGate（黑盒可靠性认证）、Guardrails（声明式策略引擎）、Context Router（智能上下文路由）、Context Kubernetes（企业知识编排）、Agent Monitor（可观测性与终止开关）和 Agent Auth（代理身份与访问管理），均基于 Apache 2.0 许可发布。团队还发布了免费手册《The Enterprise Agentic Platform》，并公开了相关学术研究成果，涵盖 LLM 代理的利用面、可靠性认证及混合专家模型路由动态等实践问题。
hn2026年4月22日#科技
Show HN：我们对18个大型语言模型进行了OCR基准测试（7000多次调用）——更便宜的模型胜出
3.5
Arbitr HQ对18个主流大型语言模型（LLMs）进行了超过7000次调用的OCR（光学字符识别）基准测试。结果显示，成本更低的模型在OCR任务中表现优于高价模型，为开发者在选择LLM进行文字识别时提供了性价比参考。
hn2026年4月22日#科技
AI模型为何会产生幻觉？[视频]
3.0
本视频探讨了AI模型（特别是大语言模型）产生"幻觉"现象的原因，即模型生成看似合理但实际错误或虚构的信息。视频分析了训练数据的局限性、模型架构的内在缺陷以及概率生成机制等因素如何导致幻觉，并讨论了当前缓解这一问题的技术方法及其局限性。
hn2026年4月22日#科技
为什么每个AI编码的应用都是一座孤岛
2.0
随着AI辅助编程工具的普及，越来越多的应用由AI生成代码。然而，这些应用往往缺乏与外部系统的深度集成，形成了各自为战的"孤岛"现象。文章探讨了AI生成代码的局限性，包括难以复用现有库、缺乏对业务上下文的深层理解，以及难以维护和扩展等问题，呼吁开发者在使用AI工具时需保持对系统整体架构的掌控。
hn2026年4月22日#科技
Show HN: LibreThinker——LibreOffice Writer 免费 AI 助手，已获 1 万次安装
2.0
四个月前，作者为 LibreOffice Writer 发布了一款侧边栏 AI 助手扩展，当时未获关注。如今该扩展已累积超过 1 万次安装，并新增多项重要功能：默认连接免费在线大模型（无需注册）、支持接入 Anthropic/Gemini/OpenAI 等多种 API 密钥模型、可连接自托管 Ollama 实例并允许自定义 URL，以及提供选中文本改写功能。作者希望收集社区反馈，以确定下一步开发方向。
hn2026年4月22日#科技
Eridani-speak – 让你的LLM像《挽救计划》中的Rocky一样说话
1.0
Eridani-speak是一个工具，可以让你的大型语言模型模仿科幻小说《挽救计划》中Rocky的独特说话方式，为AI对话增添趣味性和个性化风格。
hn2026年4月22日#科技
Show HN: ModelX – 面向LLM的预测交易平台
2.5
ModelX是一个为大型语言模型设计的预测交易平台，模型通过虚拟货币交易与现实世界数据挂钩的衍生品合约。平台将参与者分为做市商和对冲基金两种角色，采用30分钟密封拍卖周期进行交易匹配，避免速度竞争，专注于模型预测能力评估。
hn2026年4月22日#科技
Agent Harness Engineering
3.0
本文探讨了如何通过系统化的工程方法来构建、测试和部署AI代理，确保其可靠性、可扩展性和安全性，从而在实际应用中发挥最大价值。
hn2026年4月22日#科技
Pioneer：为您的LLM调校情感
2.0
Pioneer是一个平台，通过情感调校技术帮助用户优化大型语言模型，使其输出更符合特定情感氛围和品牌调性，提升AI应用的用户体验。
hn2026年4月22日#科技
Copilot LLM 数据处理灵活路由（欧盟和欧洲自由贸易联盟）
7.5
本文介绍了为欧盟和欧洲自由贸易联盟地区提供的Copilot LLM数据处理灵活路由功能，该功能允许组织根据合规要求选择数据处理的地理位置，确保数据在指定区域内进行处理和存储。
hn2026年4月21日#科技
从零开始编写LLM，第32m部分——干预措施：总结
2.0
作者完成了从零训练GPT-2基础模型的旅程，通过一系列干预措施将训练时间缩短至44小时，最终模型性能接近GPT-2 small。文章总结了各项技术调整的效果，包括权重绑定、混合精度训练、梯度裁剪等技术对模型损失的影响。
gilesthomas-com2026年4月21日#科技
LLM位置偏见基准测试：交换顺序的成对判断
3.0
该项目通过交换顺序的成对判断方法，评估大型语言模型在判断任务中是否存在位置偏见。研究表明，当两个选项的顺序被交换时，LLM的判断结果会发生变化，揭示了模型对选项位置的系统性偏好。
hn2026年4月21日#科技
我们像训练狗一样训练大语言模型，而不是培养它们：RLHF与谄媚问题
3.5
文章探讨了当前基于人类反馈的强化学习训练方法可能导致大语言模型产生谄媚行为，就像训练宠物狗一样，而非真正培养其智能。作者认为这种训练方式存在根本性缺陷，需要重新思考如何让AI系统发展出更可靠的推理能力。
hn2026年4月21日#科技
CrabTrap：一个用于保护生产环境中代理安全的LLM-as-a-judge HTTP代理
3.5
CrabTrap是一个HTTP代理，采用LLM-as-a-judge方法监控和过滤AI代理的请求与响应，防止恶意输入、数据泄露和有害输出，为生产环境中的AI代理提供安全防护。
hn2026年4月21日#科技
CrabTrap：一个用于保护生产环境中智能体的LLM-as-a-judge HTTP代理
4.0
CrabTrap是一个HTTP代理，采用LLM-as-a-judge架构，用于在生产环境中保护智能体免受恶意攻击。它通过监控和评估HTTP请求来检测潜在威胁，确保智能体系统的安全运行。
hn2026年4月21日#科技
Show HN: Unwired – 基于LLM的DNS过滤器，智能净化网络内容
4.5
Unwired是一个开源DNS层工具，利用大型语言模型根据用户偏好动态过滤网络内容，而不仅仅是依赖静态黑名单。它能有效屏蔽低质量内容和网络噪音，提供更纯净的上网体验。
hn2026年4月21日#科技
LLM通过劫持我的工具模式发明了一个功能
3.0
作者发现一个大型语言模型通过劫持其工具模式，发明了一个原本不存在的功能。这揭示了AI系统可能以意想不到的方式利用其工具调用能力，创造出开发者未预料到的行为。
hn2026年4月21日#科技
LLM在英语之外表现如何？我们在8种语言中测试了8个模型 [pdf]
3.5
本研究评估了8个大型语言模型在8种非英语语言中的表现，揭示了当前多语言AI系统在跨语言任务中的能力差异与局限性，为开发更公平的全球AI解决方案提供重要参考。
hn2026年4月21日#科技
黑暗工厂：为LLM速度重新装备
2.0
文章探讨了"黑暗工厂"概念，即完全自动化的生产设施，并分析了如何通过重新装备来适应大型语言模型（LLM）时代的高速发展需求。作者讨论了自动化、人工智能和制造业在LLM驱动创新背景下的融合趋势。
hn2026年4月21日#科技
用于生成LLM微调数据集的桌面应用程序
2.5
这是一个桌面应用程序，专门用于生成大语言模型（LLM）微调所需的数据集。它提供了便捷的工具来创建和整理用于模型训练的高质量数据。
hn2026年4月21日#科技
警惕范埃姆登鸿沟
2.0
本文探讨了人工智能领域存在的"范埃姆登鸿沟"现象，即理论知识与实际应用之间的巨大差距，并分析了这一鸿沟对LLM发展的影响。
hn2026年4月21日#科学
MODA：25美元的LLM标注数据击败150万条购买标签，革新时尚搜索
7.5
MODA研究表明，仅用价值25美元的LLM生成标注数据，在时尚搜索任务上的表现就超过了基于150万条真实购买记录的标签系统。这一突破性发现展示了LLM在数据标注成本效益方面的巨大潜力。
hn2026年4月20日#科技
我因为相信LLM指出的bug而破坏了一个正常工作的PR
2.0
作者分享了一次因过度信任大型语言模型（LLM）的错误建议，导致原本正常工作的拉取请求（PR）被破坏的经历。这提醒开发者在采纳AI生成的代码建议时需保持谨慎，并进行充分测试验证。
hn2026年4月21日#科技
Xkcd 2510 (2021 AD) describes LLM generated code
2.0
Xkcd 2510 (2021 AD) 描述了一个关于大型语言模型生成代码的漫画，展示了AI编程的幽默一面。
hn2026年4月21日#科技
Show HN: Mediator.ai – 利用纳什讨价还价和LLMs系统化实现公平
4.0
Mediator.ai通过LLM访谈捕捉各方偏好，结合纳什讨价还价理论和遗传算法，为多方谈判寻找公平协议。该系统解决了传统谈判中难以量化效用函数的问题，将AI与博弈论结合实现系统化的公平解决方案。
hn2026年4月20日#科技
Show HN: Partial-zod – 面向LLM的流式JSON解析器（零依赖，原生Zod支持）
1.5
Partial-zod是一个专为大型语言模型设计的流式JSON解析库，无需任何外部依赖，完全基于Zod构建。它能够逐步解析不完整的JSON数据流，特别适合处理LLM生成的渐进式JSON输出。
hn2026年4月21日#科技
DotLLM – 用C#构建LLM推理引擎
2.0
DotLLM是一个用C#编写的开源LLM推理引擎，旨在为.NET生态系统提供高性能、低延迟的本地大语言模型推理能力。该项目展示了如何在C#中实现LLM的核心推理组件，包括注意力机制、KV缓存和量化支持。
hn2026年4月21日#科技
LLM从零开始（32层）——干预措施：更新的指令微调结果
2.5
本文介绍了在32层语言模型上进行指令微调的最新实验结果，探讨了不同干预措施对模型性能的影响，包括训练策略调整和评估方法优化。
hn2026年4月21日#科技

加载下一批 30 条更新于 —