TAG · #TESTING

#testing

30 条相关内容

HOTNESS

Show HN: Openleetcode – 在本地运行 LeetCode 解决方案与开源测试
2.0
Openleetcode 是一款开源工具，允许开发者在本地运行 LeetCode 题目的解决方案，并附带开放的测试用例。它无需依赖 LeetCode 官方平台即可进行离线练习和调试，提升了刷题体验与代码验证的灵活性。
hn2026年7月3日#科技
测试 Claude Sonnet 5 的自主能力宣称
0.5
本文在 Puter.js 环境下对 Claude Sonnet 5 所宣称的自主代理能力进行了实际测试。文章通过一系列任务评估了该模型在代码生成、工具调用和自主决策方面的表现，验证其是否能够像宣传中那样高效完成复杂的编程任务。测试结果揭示了模型的优势与局限，为开发者提供了有价值的参考。
hn2026年7月3日#科技
Show HN: Mirrors – 通过回放真实生产记录来测试AI Agent的变更
4.0
Mirrors 是一款工具，允许开发者通过回放真实的生产环境流量记录，安全地测试 AI Agent 的代码变更。它解决了传统测试方法难以模拟复杂真实场景的问题，帮助团队在部署前发现潜在问题，提升 AI 系统的可靠性。
hn2026年7月2日#科技
Battleborn电池起火后续及更多测试[视频][5分钟]
1.0
本视频展示了Battleborn电池起火事件的后续情况，并进行了更多测试以评估电池安全性和性能。内容包括对火灾原因的分析、损坏程度的检查，以及进一步的实验来验证电池在极端条件下的表现。视频时长约5分钟，为观众提供了关于电池安全的重要见解。
hn2026年7月2日#科技
Show HN：开源测试套件，用于修复AI生成的代码。涵盖Supabase、Auth0等110个主要API测试
3.5
作为一名Claude Code的重度用户，我发现当上下文变得紧凑时，AI会开始生成劣质代码，尤其是在编写API集成代码时。例如，Supabase auth允许客户端写入用户元数据，并在Next.js组件中泄露服务角色密钥。虽然尝试通过prompt和skills.md来解决，但没有良好的测试反馈效果并不稳定。因此，我开源了一个基于官方文档的测试集合，完全不依赖LLM，用于捕获和修复不良的代码集成问题。
hn2026年7月2日#科技
帮助测试 Bahriya —— 一款新的分布式容器云
2.0
Bahriya 是一款全新的分布式容器云平台，旨在提供灵活、可扩展的容器编排与管理能力。当前项目处于测试阶段，欢迎开发者参与测试并提供反馈，帮助完善功能和性能。
hn2026年7月2日#科技
让工程师措手不及的 React 测试问题
1.0
这篇文章总结了一系列在 React 测试面试中容易让工程师犯难的高频问题，涵盖组件渲染、状态管理、异步操作和模拟（mock）等核心主题。通过具体代码示例和常见陷阱分析，帮助开发者深入理解 React Testing Library 和 Jest 等工具的使用技巧，提升面试和实际项目中的测试能力。
hn2026年7月1日#科技
测试套件即事故
4.0
在AI代理系统的可靠性测试中，Christopher Meiklejohn反思了一个深刻的教训：本应防止事故的测试套件本身成为了事故的根源。文章探讨了在构建自主代理时，过于复杂的测试基础设施如何引入新的故障模式，并呼吁重新思考测试与可靠性之间的关系。
hn2026年7月1日#科技
Show HN: Openleetcode – LeetCode 运行器，测试存放在仓库中
2.0
Openleetcode 是一款 LeetCode 本地运行工具，其特色在于所有测试用例都直接存放在代码仓库中，而非隐藏在平台后端。这让开发者可以更自由地调试、修改和版本控制测试用例，提升刷题体验和代码可靠性。
hn2026年6月30日#科技
Show HN：评估上下文协议（ECP）
3.0
ECP 是一种供应商中立的协议，用于跨框架、模型、评估平台和 CI 系统测试 AI 智能体的输出、工具调用及评估者可见的审计上下文。它提供了可移植的评估方案，助力实现 AI 智能体的标准化测试。
hn2026年6月30日#科技
使用 Playwright 测试我的静态网站
1.0
本文介绍了作者如何利用 Playwright 这一浏览器自动化工具来对其静态网站进行端到端测试。通过编写简单的测试脚本，作者能够自动验证页面加载、链接有效性以及核心功能，从而在无需手动浏览的情况下确保网站的可靠性。这种方法为静态站点提供了一种低成本、高效的测试方案。
hn2026年6月30日#科技
Show HN：Ocarina —— 用 YAML 自动化与测试 MCP 服务器，无需 LLM
2.0
Ocarina 是一款工具，让你无需借助 AI 或大语言模型，即可通过 YAML 格式的 Rondo（类似 Ansible playbook）直接调用和测试 MCP 服务器的工具与资源。它支持检查服务器特性、分步执行脚本来进行自动化测试或验证，已帮助作者在日常工作中测试自建的 MCP 服务器。项目附带了多个可直接克隆尝试的示例仓库，以及一个 Blender 演示。
hn2026年6月27日#科技
寻找数字游民参与VPN流媒体服务测试
0.5
该网站正在招募数字游民测试其VPN在各类流媒体服务上的表现。参与者将有机会评估该VPN代理在不同地区解锁Netflix、Hulu、Disney+等平台的连接质量与速度，帮助优化服务稳定性与兼容性。
hn2026年6月27日#科技
Baguette：通过私有 SimulatorKit API 实现的无头 iOS 模拟器控制
2.0
Baguette 是一个利用苹果私有 SimulatorKit API 的工具，能够实现对 iOS 模拟器的无头（headless）控制。它无需图形界面即可自动化运行和操作模拟器，适用于持续集成（CI）和自动化测试场景。
hn2026年6月26日#科技
初创公司中的QA/测试
0.5
在AI生成代码、快速迭代和追求产品市场契合的环境下，初创公司如何测试变更以交付高质量产品？本文探讨了一些测试方法及其面临的挑战。作者发现，无论自动化测试多么完善，真正的错误仍然是由客户或内部团队手动发现的。
hn2026年6月26日#科技
测试 Anthropic 的 Claude 产品对 CIMD 的支持
0.5
本文探讨了 Anthropic 在其 Claude 产品系列中测试 CIMD（跨实例消息分发）支持的情况。作者介绍了 CIMD 的概念及其在 Claude 产品中的实现现状，分析了不同产品对 CIMD 的支持程度差异，以及这些差异对用户体验和系统集成带来的影响。文章还讨论了测试过程中发现的关键技术挑战和潜在解决方案。
hn2026年6月26日#科技
花了两个星期才让Claude的“过夜解决方案”对脆性测试变得有用
2.5
thoughtbot团队分享了他们尝试使用Claude提出的“过夜解决方案”来修复脆性测试的真实经历。原本以为只需一晚就能完成的任务，实际花费了两周时间进行调试、调整和优化才能让这个AI方案真正发挥作用。文章详细讲述了自动化修复过程中遇到的挑战，包括误报、上下文理解不足以及需要人工干预的关键环节，为那些考虑引入AI辅助测试维护的团队提供了宝贵的经验教训。
hn2026年6月26日#科技
Show HN：AssertGo – Go 语言的流畅断言库
2.0
作者喜欢 AssertJ 风格的流畅断言，但发现 Go 语言缺乏类似库，于是自行开发了 AssertGo。该项目最初基于 Go 1.26 编写，在 Go 1.27 RC 发布后将顶层方法改为泛型实现。库提供了简洁的链式调用 API，支持对基本类型、切片、映射等进行断言。代码设计由作者独立完成，AI（Claude Sonnet）仅用于代码生成。
hn2026年6月25日#科技
Show HN: TakoQA – 一个让智能体集群来测试你的应用的框架
4.0
TakoQA 是一个开源的测试框架，旨在通过协调多个智能代理（agent swarm）对应用程序进行压力测试和漏洞发现。它可以模拟真实用户的行为模式，并发执行复杂的交互场景，帮助开发者在发布前识别潜在的错误、性能瓶颈和安全问题。通过让一批 AI 代理以各种方式“破坏”你的应用，TakoQA 提供了一种自动化、高覆盖率的测试新思路。
hn2026年6月25日#科技
Show HN: Docket Fleet – 移动设备云
5.0
Boris 来自 Docket（YC P25），向社区发布 Docket Fleet Alpha 版本。这是一款移动设备云服务（类似 AWS Device Farm 或 BrowserStack），主要面向自动化智能体场景，并在手动交互方面进行了重要的用户体验改进（自建了 WebRTC 到设备的管道）。该服务目前可免费试用，支持 iOS 模拟器应用、Windows 可执行文件、macOS 应用及 HTTP2 隧道。
hn2026年6月24日#科技
Jest/Vitest 交互式课程（浏览器内运行）
0.0
一门交互式前端测试课程，涵盖 Jest 和 Vitest 的基础知识。学生可以在浏览器中直接编写和执行测试用例，学习如何使用断言、模拟（mock）和快照测试等核心功能。课程无需本地环境配置，适合快速上手实践。
hn2026年6月24日#科技
AI聊天机器人（如ChatGPT）存在政治偏见吗？我们对此进行了测试
5.0
华盛顿邮报对主流AI聊天机器人进行了政治倾向测试，探究ChatGPT等AI模型在回答政治议题时是否存在系统性偏见。测试覆盖多个敏感话题，结果显示不同AI模型在左右立场上呈现明显差异，引发对AI中立性和信息公平性的广泛讨论。
hn2026年6月24日#科技
BigQuery 模拟器（Bqemulator）
2.0
Bqemulator 是一个开源的 BigQuery 模拟器，允许开发者在本地环境中模拟 Google BigQuery 服务，无需连接到实际云端即可进行查询开发和测试。该项目提供了与 BigQuery 兼容的 SQL 执行和 API 接口，旨在降低开发成本并提升迭代效率。
hn2026年6月24日#科技
ChatGPT等AI聊天机器人有政治偏见吗？我们进行了测试
6.5
《华盛顿邮报》的一项测试发现，主流AI聊天机器人在回答政治话题时存在可测量的政治倾向。研究团队对多个热门AI模型（包括ChatGPT）进行了系统性测试，评估其在敏感政治议题上的回应是否存在偏见。结果显示，不同AI聊天机器人在政治立场上展现出不同程度的偏向，这引发了人们对AI系统中立性和信息公正性的担忧。
hn2026年6月24日#科技
OpenUser：面向AI编程代理的自托管用户角色测试工具
2.5
开发者因厌倦了为B2B电商项目手动在浏览器中测试每个新功能，于是构建了OpenUser——一款可自托管的用户角色测试工具。它能存储用户角色、操作路径、检查点、控制台日志和网络日志，让AI代理在开发循环末端自动完成测试并修复问题。所有内容均在本地运行，支持任意编程代理和模型。
hn2026年6月23日#科技
在用户之前，找到你的RAG流程会失败的问题
1.0
ragProbe是一个开源工具，用于在RAG（检索增强生成）系统上线前主动发现其失败场景。它通过系统化测试评估RAG管道的检索与生成能力，帮助开发者提前识别知识库覆盖不足、检索质量差或生成错误等潜在问题，从而提升系统的可靠性与用户体验。
hn2026年6月23日#科技
跳过测试工具（Harness）会出什么问题
2.0
在软件开发中，跳过测试工具（Harness）虽然短期内能加速开发进度，但长期会带来严重隐患。本文深入探讨了缺少测试工具会导致的各类问题，包括测试覆盖率下降、调试效率降低、回归测试困难，以及代码重构风险增加等。作者通过实际案例说明了测试工具在自动化验证、依赖管理和结果断言中的关键作用，强调了它在保障代码质量和团队协作中的不可替代性。
hn2026年6月23日#科技
Show HN：一个本地测试平台，用于验证AI社交模拟能否预测现实
4.0
这是一个开源本地工具，旨在测试AI社交模拟是否能够准确预测现实世界中的社交行为。用户可以在本地环境中运行模拟，对比AI生成的社交互动结果与真实数据，从而评估模型的预测能力。项目提供了完整的校准流程，帮助开发者验证模拟与现实之间的一致性。
hn2026年6月22日#科技
DisplayMate
1.0
DisplayMate 是一家专业的显示设备测试与校准机构，为显示器、电视、手机和平板电脑等屏幕提供精准的色彩校准、性能评估和技术分析服务。其测试报告被业界广泛认可，是衡量显示质量的重要参考标准。
hn2026年6月22日#科技
Show HN: ZeroDrop – 面向CI管道的临时邮箱（无需Docker）
2.0
ZeroDrop 是一个为 CI/CD 流水线设计的临时邮箱服务，无需 Docker 环境即可快速创建一次性邮箱。它解决了自动化测试中需要临时收件验证的场景，帮助开发者在持续集成流程中高效处理邮件验证环节。
hn2026年6月22日#科技

加载下一批 30 条更新于 —