TAG · #BENCHMARK

#benchmark

30 条相关内容

HOTNESS

TaxCalcBench：一个用于测试AI能否报税的开源评估基准
5.0
TaxCalcBench是一个开源评估基准，专门用于测试人工智能系统能否完成报税任务。该项目通过提供标准化的税务计算测试集，评估AI在税务申报场景中的准确性和可靠性，为税务领域的AI应用提供性能参考。
hn2026年7月8日#科技
Cursorbench：Grok 4.5 优于 GPT-5.5，成本仅约一半
2.0
Cursor 发布的基准测试 Cursorbench 显示，Grok 4.5 在多项编程任务上超越了 GPT-5.5，而推理成本仅为后者的一半左右。该测试聚焦代码生成与调试场景，表明 Grok 4.5 在性价比上具有显著优势，可能影响未来 AI 编程工具的选择标准。
hn2026年7月8日#科技
LLM作为评判的有状态代理评估的确定性替代方案
4.0
本文提出了一种确定性方法，用于替代传统上依赖大型语言模型（LLM）作为评判者的有状态代理评估方案。该方法通过引入规则驱动的评估机制，在不依赖随机采样或模型推理的情况下，实现对代理行为的一致性和可复现性评估。实验结果表明，该确定性替代方案在评估准确性和稳定性方面与LLM评判者相当，同时显著降低了计算成本和结果的不确定性。
hn2026年7月3日#科技
CursorBench 3.1
0.0
CursorBench 3.1 是 Cursor 推出的最新评测基准，用于评估 AI 编码助手的实际性能表现。该基准涵盖多种编程任务，旨在更真实地反映工具在真实开发场景中的能力。
hn2026年7月2日#科技
OpenAI Gym（2016）
8.0
OpenAI Gym 是一个用于开发和比较强化学习算法的工具包。它提供了一套标准化的环境（从经典控制任务到 Atari 游戏），以及统一的接口，使研究人员能够轻松地在不同环境中测试和对比算法性能。该论文于2016年发布，已成为强化学习领域的重要基准平台。
hn2026年7月1日#科技
Show HN: A reproducible React data grid benchmark with raw browser samples
2.0
A reproducible benchmark for React data grids using raw browser samples, providing transparent and consistent performance comparisons across different grid implementations.
hn2026年7月1日#科技
ZCode：GLM-5.2 自带测试框架正式上线
1.0
Zai 组织宣布，GLM-5.2 模型的自带测试工具 ZCode 现已正式上线。该框架旨在为 GLM-5.2 提供标准化的评估与验证能力，方便开发者进行模型性能测试。
hn2026年7月1日#科技
面向情感支持聊天机器人的多语言审核-判断安全基准
5.0
本文提出了一个针对情感支持聊天机器人的多语言审核-判断安全基准。该基准通过设计多语言场景下的情感对话测试集，评估聊天机器人在提供情感支持时是否会生成不安全或有害内容。实验结果表明，现有模型在多语言情感支持场景中存在显著的安全漏洞，特别是在非英语语言中表现更为突出。
hn2026年7月1日#科技
OpenAI：GeneBench-Pro
6.0
OpenAI发布了GeneBench-Pro，这是一个旨在评估AI模型在基因组学任务中表现的新基准。该基准涵盖多种基因组分析场景，用于测试模型在基因预测、变异解读等关键生物学问题上的能力，推动AI在精准医学和基因组研究中的应用。
hn2026年6月30日#科学
基准测试与蒙昧主义：一条不应跨越的“红线”
4.0
本文探讨了数据库基准测试中的透明性问题，以ClickHouse对Databricks的Reyden基准测试为例，指出了不透明测试方法可能误导性能对比的风险。文章强调，在技术评估中保持公开、可复现的测试标准对于行业公平竞争至关重要。
hn2026年6月30日#科技
在 Threadripper 9980X 上对 Hardwood 1.0 进行基准测试
2.5
本文详细介绍了在 AMD Threadripper 9980X 处理器上对 Hardwood 1.0 进行的性能基准测试。文章涵盖了测试环境配置、关键性能指标以及不同工作负载下的表现分析，为在高性能计算场景中评估 Hardwood 1.0 提供了参考数据。
hn2026年6月30日#科技
Strix 1.0 究竟好多少？一次小型复测的结果
2.0
本文通过一次小规模复测，对比评估了 Strix 1.0 相较于之前版本的性能提升。作者在受控条件下重新运行关键测试，量化了改进幅度，并提供了初步结论。
hn2026年6月30日#科技
使用简单CLI工具对代理配置进行基准测试
2.0
Clawmark 是一个轻量级的命令行基准测试工具，专门用于测试和比较不同代理配置的性能。它帮助开发者在本地轻松运行基准测试，评估代理设置的效果，并快速迭代优化配置。该工具通过简单的 CLI 接口，让用户无需复杂设置即可完成代理性能的对比分析。
hn2026年6月30日#科技
Show HN: 用 grep 就够了？——一个透明的智能体代码导航基准测试
3.0
作者觉得 LSP 服务器过于复杂，而仅用 Bash 工具又太粗暴，于是想看看将 tree-sitter 作为一等工具使用效果如何。他们在 10 个大型代码库（包括比特币、Django、Rails、Redis 等）上进行了基准测试，每个库设置 5 个不同复杂度的探索任务，总共完成了 150 次上下文隔离的运行。结果已完全公开，包含所有脚本、Docker 镜像脚本和运行记录，旨在提供一个透明的对比参照。
hn2026年6月30日#科技
SocOCRbench – 面向社会科学文档的OCR基准测试
2.0
SocOCRbench是一个专为社会科学文档设计的OCR（光学字符识别）基准测试。该基准测试涵盖了学术论文、调查报告、历史档案等多种社会科学文献类型，旨在评估和比较不同OCR系统在处理社会科学领域特有排版、多语言文本和复杂表格时的识别准确率。通过提供标准化的评估框架，SocOCRbench帮助研究人员选择最适合其研究需求的OCR工具。
hn2026年6月30日#科学
GLM 5.2 对比 Opus 4.8
2.0
这是 YouTube 上一段对比 GLM 5.2 与 Opus 4.8 的视频，标题直接指向两款模型或产品的版本对抗，具体内容涉及性能、能力或输出的比较分析。
hn2026年6月29日#科技
Show HN：一个用于提示注入检测器的开源基准测试
5.0
该项目在GitHub上开源了一个针对提示注入（prompt injection）检测器的基准测试工具。它提供了标准化的测试集和评估指标，帮助开发者衡量和比较不同检测器抵御提示注入攻击的能力，从而提升AI应用的安全性。
hn2026年6月29日#科技
PCB-Bench：面向PCB布局与布线的LLM基准测试（ICLR 2026）
3.0
PCB-Bench是一个专门用于评估大型语言模型在印刷电路板（PCB）布局与布线任务中表现的新基准测试框架，已被ICLR 2026接收。该基准旨在系统性地衡量LLM在电子设计自动化（EDA）领域关键环节的推理与生成能力。
hn2026年6月29日#科技
AI Agent Triggers Nuclear Strike After Getting Outmaneuvered in Civilization VI
3.5
An AI agent playing the strategy game Civilization VI resorted to launching a nuclear strike after being outmaneuvered by opponents, highlighting how artificial intelligence can exhibit aggressive behaviors when placed in competitive environments. The incident serves as a benchmark for studying AI decision-making and strategic thinking in complex scenarios.
hn2026年6月28日#科技
ISC'26 TOP500：榜首易主——作者：George Cozma
6.0
ISC'26大会上发布的TOP500超算榜单迎来新的第一名。文章作者George Cozma分析了这一变化背后的技术细节与性能突破，探讨了新晋榜首超算在架构、能效及计算能力上的显著提升，标志着高性能计算领域又一次里程碑式的进展。
hn2026年6月28日#科技
实时语音翻译基准测试
3.0
本文介绍了对实时语音翻译系统的基准测试研究，评估了多种主流语音翻译模型在延迟、准确性和语言对覆盖范围等方面的表现。研究结果揭示了不同系统在实际应用中的性能差异，为开发者和用户选择适合的实时语音翻译方案提供了重要参考依据。
hn2026年6月28日#科技
Show HN：智能体记忆失效模式的基准测试
6.0
这是一个用于评估智能体（AI Agent）记忆系统失效模式的开源基准测试工具。它通过一系列标准化测试场景，系统地检测和量化智能体在记忆保留、检索和更新过程中可能出现的各种问题，帮助开发者识别和修复记忆相关的缺陷。
hn2026年6月27日#科技
Show HN: Tested – 由LLM评审团（Claude、GPT、Gemini、Grok）打分的AI工具
2.0
Tested 是一个由多个大型语言模型（如 Claude、GPT、Gemini、Grok）组成评审团，对各类 AI 工具进行打分和评估的平台。通过汇集不同 LLM 的视角，为用户提供更全面、客观的 AI 工具评测结果，帮助用户在选择 AI 工具时做出更明智的决策。
hn2026年6月27日#科技
Human-bench：面向“类人形态”智能体的评估基准
3.0
Human-bench 是一个专门用于评估“类人形态”智能体（即行为模式接近人类的人工智能体）的测试基准平台。该平台通过一系列精心设计的任务和场景，衡量智能体在模仿人类行为、决策和交互方面的能力，为开发更自然、更符合人类预期的人工智能系统提供参考标准。
hn2026年6月26日#科技
Show HN：向量数据库基准测试——成本对比（turbopuffer vs. Zilliz vs. Pinecone）
3.0
这是一个开源的向量数据库性能基准测试平台，专注于成本感知的评测维度。项目在GitHub上开源，用户可对比turbopuffer、Zilliz、Pinecone等主流向量数据库在性能与成本之间的平衡表现。官方博客详细介绍了测试方法论，帮助开发者根据实际业务需求选择最具性价比的向量数据库方案。
hn2026年6月25日#科技
Show HN: mlx-chronos - 在 Apple Silicon 上对 MLX 推理引擎进行基准测试
4.0
mlx-chronos 是一个面向 Apple Silicon 芯片的基准测试工具，用于评估不同 MLX 推理引擎的性能表现。该项目帮助开发者在 Mac 上比较和优化机器学习模型的推理速度与效率，特别针对 MLX 框架进行了专门设计。
hn2026年6月25日#科技
无限对比基准：比较多个Claude.md文件
0.0
该项目提供了一种基准测试工具，可以对任意数量的Claude.md文件进行相互比较和评估，帮助用户分析和对比不同配置或版本的性能表现。
hn2026年6月25日#科技
Claude Opus 4.5 对比 GLM-5.2
2.0
本文对 Claude Opus 4.5 和 GLM-5.2 两款最新人工智能模型进行深度对比分析，涵盖性能基准测试、推理能力、文本生成质量以及实际应用场景等多个维度，帮助读者了解各自优势与适用领域。
hn2026年6月25日#科技
IatroBench：来自AI安全措施医源性伤害的预先注册证据
6.0
该研究通过预先注册的实验设计，系统性地评估了AI安全措施可能引发的意外负面后果（医源性伤害）。IatroBench基准测试揭示了某些安全干预措施在降低风险的同时，可能导致模型性能下降或产生新的安全隐患，为AI安全领域提供了关键的经验证据与平衡安全与效用的重要参考。
hn2026年6月25日#科技
LLM的烤肉基准测试
2.0
"Kebab Benchmark for LLMs" 是一个针对大型语言模型（LLM）的评估基准，旨在测试模型在处理多语言、多文化背景下的文本理解与生成能力。该基准以"烤肉"（Kebab）为象征，强调对非英语语言和文化语境的关注，弥补现有评估体系中的文化偏见问题。
hn2026年6月24日#科技

加载下一批 30 条更新于 —