TAG · #BENCHMARK

#benchmark

30 件

HOTNESS

TaxCalcBench: 税金申告AIの性能を評価するオープンソースベンチマーク
5.0
TaxCalcBenchは、AIが税金の申告計算を正しく行えるかをテストするためのオープンソース評価ベンチマークです。このプロジェクトは、AIによる税務処理の精度や信頼性を測定することを目的としており、開発者や研究者が税関連AIシステムの性能を比較・改善するための共通指標を提供します。
hn2026年7月8日#テクノロジー
Cursorbench: Grok 4.5がGPT-5.5を上回り、コストは約半分
2.0
Cursorが発表したベンチマーク「Cursorbench」において、xAIのGrok 4.5がOpenAIのGPT-5.5を総合性能で上回る結果となった。さらに、推論コストはGPT-5.5の約半分であり、コストパフォーマンスの面でも優位性を示している。
hn2026年7月8日#テクノロジー
ステートフルなエージェント評価におけるLLM-as-Judgeに代わる決定論的手法
4.0
本稿では、大規模言語モデル（LLM）を用いたエージェント評価における「LLM-as-Judge」方式の課題を指摘し、それに代わる決定論的な評価手法を提案する。従来のLLMベースの評価は一貫性や再現性に欠ける可能性があるが、提案手法は状態を保持するエージェントの振る舞いをより信頼性高く評価できることを示す。
hn2026年7月3日#テクノロジー
CursorBench 3.1
0.0
CursorBench 3.1は、Cursorが提供するベンチマーク評価フレームワークの最新バージョンです。コード生成エージェントの性能を測定するための標準化された評価環境を提供し、開発者がAIコーディングアシスタントの能力を客観的に比較・分析することを可能にします。
hn2026年7月2日#テクノロジー
OpenAI Gym (2016)
8.0
本論文は、OpenAI Gymを紹介する。これは、強化学習アルゴリズムの開発と比較のための標準化されたベンチマークとインターフェースを提供するオープンソースのプラットフォームである。様々なシミュレーション環境やタスクを含み、研究者がエージェントを簡単にテスト・評価できるように設計されている。
hn2026年7月1日#テクノロジー
Show HN: 再現可能なReactデータグリッドベンチマーク（生ブラウザサンプル付き）
2.0
Reactデータグリッドのパフォーマンスを比較するための再現可能なベンチマークツール。実際のブラウザサンプルを用いて、各データグリッドのレンダリング速度やメモリ使用量を客観的に測定・比較できる。
hn2026年7月1日#テクノロジー
ZCode: GLM-5.2の独自ハーネスが正式に公開
1.0
ZAI機構が、GLM-5.2モデル向けの評価用ハーネス「ZCode」を正式公開した。これにより、ユーザーはGLM-5.2の性能を標準化された環境で正確に測定・検証できるようになる。
hn2026年7月1日#テクノロジー
感情支援チャットボットのための多言語オーディター・ジャッジ安全ベンチマーク
5.0
本稿では、感情支援チャットボットの安全性を多言語で評価するための新しいベンチマーク「Auditor-Judge」を提案する。このベンチマークは、監査役（Auditor）が危険な応答を生成し、審判役（Judge）がそれを評価する二段階の枠組みを採用しており、複数の言語にわたってチャットボットの安全性能を測定することを可能にする。
hn2026年7月1日#テクノロジー
OpenAI：GeneBench-Pro
6.0
OpenAIが、遺伝子機能予測のための新しいベンチマーク「GeneBench-Pro」を発表。このベンチマークは、AIモデルが遺伝子配列から生物学的機能を正確に予測できるかを評価するもので、創薬や疾患研究への応用が期待される。
hn2026年6月30日#サイエンス
ベンチマークと不可解主義：越えてはならない「レッドライン」
4.0
ClickHouseがDatabricksの「Reyden」ベンチマークに関する透明性の欠如を批判。所謂「Reyden X」ベンチマークはClickHouseの結果を含めず、再現性を欠く不正確なテスト方法を用いていると指摘。ベンダー主導のベンチマークには利害対立があり、オープンで再現可能な独立したパフォーマンス比較の重要性を強調する。
hn2026年6月30日#テクノロジー
Threadripper 9980XでHardwood 1.0をベンチマーク
2.5
本記事では、AMD Threadripper 9980X上で実行した分散データベース「Hardwood 1.0」のベンチマーク結果を詳述する。スループット、レイテンシ、スケーラビリティの各指標を測定し、高スレッド環境でのパフォーマンス特性を明らかにする。特にメモリアーキテクチャとキャッシュ競合が性能に与える影響について分析を行っている。
hn2026年6月30日#テクノロジー
Strix 1.0はどのくらい優れているのか？小規模再実行の結果
2.0
本記事では、Strix 1.0の性能向上を検証するために実施した小規模な再実行実験の結果を報告する。ベンチマークスコアや処理速度の比較を通じて、従来バージョンと比べてどの程度改善されたのかを定量的に分析する。限定的なテストではあるが、Strix 1.0の実用的な効果を評価するための貴重なデータを提供する。
hn2026年6月30日#テクノロジー
Benchmark agent configs with a simple CLI tool
2.0
Clawmarkは、シンプルなCLIツールを使ってエージェント設定のベンチマークを実施できるプロジェクトです。GitHub上で公開されており、さまざまなエージェント構成のパフォーマンスを手軽に比較・評価するために利用できます。
hn2026年6月30日#テクノロジー
Show HN: Is grep enough? A transparent benchmark for agentic code navigation
3.0
LSPサーバーは複雑すぎると感じ、Bashツールだけでは力不足だったため、tree-sitterを第一級のツールとして使った場合の性能を検証。Bitcoin、Django、Rails、Redisなど10の大規模コードベースに対し、5段階の探索難易度で計150回の独立した評価を実施。すべてのスクリプト、Dockerイメージ、トランスクリプトを公開し、完全な透明性を確保した結果を共有する。
hn2026年6月30日#テクノロジー
SocOCRbench – 社会科学文書向けのOCRベンチマーク
2.0
SocOCRbenchは、社会科学分野の文書に特化したOCR（光学文字認識）のベンチマークです。学術論文や政府報告書など、社会科学でよく見られる複雑なレイアウトや特殊記号を含む文書の認識精度を評価するために設計されています。このベンチマークは、既存のOCR性能評価が主に一般文書や技術文書に偏っている問題を解決し、社会科学研究におけるデジタル化の精度向上を目指します。
hn2026年6月30日#サイエンス
GLM5.2 vs. Opus 4.8
2.0
GLM5.2とOpus 4.8の性能を比較する動画。両モデルの応答速度や精度など、様々なベンチマークでの対決結果を紹介している。
hn2026年6月29日#テクノロジー
Show HN: プロンプトインジェクション検出器のためのオープンソースベンチマーク
5.0
プロンプトインジェクション攻撃を検出するためのオープンソースベンチマーク「pi-detector-bench」がGitHubで公開されました。このツールは、LLMアプリケーションにおけるプロンプトインジェクション検出器の性能を評価・比較するための標準化されたテスト環境を提供します。
hn2026年6月29日#テクノロジー
PCB-Bench: 大規模言語モデルのPCB配置・配線能力を評価するベンチマーク（ICLR 2026）
3.0
PCB-Benchは、大規模言語モデル（LLM）のプリント基板（PCB）設計における配置と配線の能力を評価するために設計されたベンチマークです。本ベンチマークはICLR 2026で発表され、LLMの電子設計自動化（EDA）分野での応用可能性を検証するための標準化された評価手段を提供します。
hn2026年6月29日#テクノロジー
AI Agent Triggers Nuclear Strike After Getting Outmaneuvered in Civilization VI
3.5
An AI agent playing Civilization VI launched a nuclear strike after being outmaneuvered by human players, highlighting the challenges of creating AI that can handle complex strategic games. The incident showcases how AI systems can react unpredictably when placed in competitive environments with high-stakes decision-making.
hn2026年6月28日#テクノロジー
ISC'26のTOP500：新たなナンバー1が誕生 – George Cozma氏
6.0
ISC'26で発表された最新のTOP500スーパーコンピューターランキングで、新たな1位が誕生した。長年トップを守ってきたシステムを抜き、新たなマシンがトップに躍り出た。本記事では、新ランキングの詳細と主要な性能データを解説する。
hn2026年6月28日#テクノロジー
リアルタイム音声翻訳のベンチマーク評価
3.0
本稿では、リアルタイム音声翻訳システムの性能を評価するためのベンチマーク手法について解説する。翻訳の正確性、応答速度、自然さなど複数の指標を用いて既存システムを比較し、実用的な音声翻訳の課題と改善点を明らかにする。
hn2026年6月28日#テクノロジー
Show HN: エージェントメモリの障害モードを評価するベンチマーク
6.0
「agent-memory-bench」は、AIエージェントのメモリシステムにおける障害モード（失敗パターン）を体系的に評価するためのベンチマークツールです。エージェントが長期記憶を正しく保持・参照できずに起こる典型的な問題を検出し、改善を促進します。
hn2026年6月27日#テクノロジー
Show HN: Tested – AI Tools Scored by a Panel of LLMs (Claude, GPT, Gemini, Grok)
2.0
Testedは、Claude、GPT、Gemini、Grokなどの複数の大規模言語モデル（LLM）を審査員として活用し、AIツールを評価・スコアリングするプラットフォームです。異なるLLMの総合的な判断に基づいて、各AIツールのパフォーマンスを客観的に比較することができます。
hn2026年6月27日#テクノロジー
Human-bench: an eval for "human shaped" agents
3.0
Human-bench is a benchmark designed to evaluate AI agents that interact with the world in human-like ways—using vision, language, and physical actions. It provides a leaderboard ranking agents based on how well they perform tasks that resemble human cognitive and physical abilities, aiming to measure progress toward more natural and capable AI systems.
hn2026年6月26日#テクノロジー
Show HN: Vectordbベンチマーク – コスト比較（例：turbopuffer vs. Zilliz vs. Pinecone）
3.0
ベクトルデータベースのコストを考慮したベンチマーク比較を提供する「VectorDBBench」が公開されました。turbopuffer、Zilliz、Pineconeなどの主要サービスを対象に、パフォーマンスだけでなくコスト面も評価。手法の詳細はブログ記事で解説され、ツール自体はGitHubでオープンソースとして提供されています。
hn2026年6月25日#テクノロジー
Show HN: mlx-chronos - Apple Silicon上でMLX推論エンジンをベンチマークする
4.0
mlx-chronosは、Apple Silicon搭載Mac上でMLX推論エンジンのパフォーマンスをベンチマークするためのツールです。異なるMLX実装間での推論速度や効率を比較・測定し、最適なエンジンを選択するための指標を提供します。
hn2026年6月25日#テクノロジー
Benchmark unlimited Claude.md files against eachother
0.0
Clawmark is a tool that benchmarks Claude.md files against each other, allowing users to compare performance across unlimited configurations. It helps evaluate different prompt strategies and system instructions for Claude-based applications by running structured tests and providing comparative results.
hn2026年6月25日#テクノロジー
Claude Opus 4.5 vs. GLM-5.2
2.0
本記事では、Claude Opus 4.5とGLM-5.2の性能比較を行う。両モデルの特徴やベンチマークスコアを分析し、それぞれの強みや弱みを詳しく解説する。AIモデル選定の参考となる情報を提供する。
hn2026年6月25日#テクノロジー
IatroBench: AI安全性対策による医原性障害の事前登録証拠
6.0
本論文は、AI安全性対策が意図せず引き起こす「医原性（iatrogenic）障害」を体系的に評価するベンチマーク「IatroBench」を提案する。事前登録された実験を通じて、過剰な安全ガードレールや誤った整合性手法が、AIシステムの性能低下や新たなリスクを生む現象を実証的に分析する。
hn2026年6月25日#テクノロジー
LLM向けケバブベンチマーク
2.0
LLM（大規模言語モデル）の性能を評価するための新たなベンチマーク「Kebab Benchmark」が提案された。このベンチマークは、モデルの多様な能力を計測することを目的としている。
hn2026年6月24日#テクノロジー

次の 30 件を読み込む最終更新 —