TAG · #TESTING

#testing

30 件

HOTNESS

Show HN: Openleetcode – Run LeetCode solutions locally with open tests
2.0
Openleetcode is an open-source tool that allows developers to run LeetCode solutions locally using open tests. It provides a convenient way to test and debug algorithm problems without relying on the LeetCode web platform, supporting local execution with custom test cases.
hn2026年7月3日#テクノロジー
Claude Sonnet 5のエージェント性能を検証
0.5
Puter.jsチームがClaude Sonnet 5の「エージェント的」な能力を実践テスト。自律的なコード生成やタスク実行の精度、リアルワールドでの応用可能性を検証し、その実力を評価する。開発者向けに、実際の使用感とベンチマーク結果を詳報。
hn2026年7月3日#テクノロジー
Show HN: Mirrors – test AI agent changes by replaying real production traces
4.0
Mirrors is a tool that allows developers to test changes to AI agents by replaying real production traces instead of using synthetic data. This approach helps validate modifications in a realistic environment before deployment, reducing risks and improving reliability of AI agent updates.
hn2026年7月2日#テクノロジー
Battleborn Battery Fire Aftermath and More Testing [video][5 Mins]
1.0
This video covers the aftermath of a Battleborn battery fire incident, including inspection of damaged components and additional testing of the batteries to assess safety and performance. The creator examines what went wrong and conducts further experiments to understand the risks and reliability of the battery system.
hn2026年7月2日#テクノロジー
Show HN: AIが生成したコードを修正するOSSテスト — Supabase、Auth0など主要API向け110のテスト
3.5
Claude CodeなどのAIツールがAPI連携コードを生成する際、コンテキストが圧縮されるにつれて品質が低下し、Supabase認証でのユーザーメタデータのクライアント書き込み許可や、Next.jsコンポーネントへのサービスロールキー漏洩などの問題が発生します。本プロジェクトは、公式ドキュメントをもとにLLMを介さずに作成したテスト群をオープンソース化し、こうした不適切なコード統合を検出・修正するためのフィードバックを提供します。
hn2026年7月2日#テクノロジー
Help Test Bahriya – A New Distributed Container Cloud
2.0
Bahriya is a newly developed distributed container cloud platform designed for testing and evaluation. It aims to provide a scalable and efficient environment for managing containers across distributed systems, allowing users to deploy, monitor, and orchestrate containerized applications seamlessly.
hn2026年7月2日#テクノロジー
React Testing Questions That Trip Up Engineers
1.0
This article presents a curated list of React testing interview questions designed to challenge engineers' practical knowledge. It covers common pitfalls, best practices for testing components, hooks, and async logic, along with strategies to avoid flaky tests. Ideal for both interviewers and candidates preparing for frontend roles.
hn2026年7月1日#テクノロジー
テストスイートこそがインシデントだった
4.0
ソフトウェア開発において、テストスイート自体が障害の原因になり得るという逆説的な事例を解説。信頼性を高めるために導入したテストが、誤った前提や不適切な設計によってシステム全体のインシデントを引き起こすケースを分析し、テストの設計と運用における新たな視点を提供する。
hn2026年7月1日#テクノロジー
Show HN: Openleetcode – LeetCode runner where tests live in the repo
2.0
Openleetcodeは、LeetCodeの問題をローカルで実行できるツールです。テストケースがリポジトリ内に保存されるため、オフラインでの実行やカスタムテストの追加が可能で、LeetCodeの解答管理をより柔軟に行えます。
hn2026年6月30日#テクノロジー
Show HN: Evaluation Context Protocol (ECP)
3.0
Show HN: Evaluation Context Protocol（ECP）——AIエージェント向けのポータブル評価プロトコル。ECPは、フレームワーク、モデル、評価プラットフォーム、CIシステムを横断して、エージェントの出力、ツール呼び出し、評価者が可視化できる監査コンテキストをテストするためのベンダーニュートラルなプロトコルです。
hn2026年6月30日#テクノロジー
Playwrightを使った静的サイトのテスト
1.0
静的サイトのテストにPlaywrightを活用する方法について解説。ヘッドレスブラウザを使った自動テストの実践的なアプローチや、ページ読み込みの検証、リンク切れのチェックなどの具体例を紹介する。
hn2026年6月30日#テクノロジー
Show HN: Ocarina – YAMLからMCPサーバーを自動化・テスト、LLM不要
2.0
Ocarinaは、Ansibleのような自動化フレームワークに着想を得たツールで、YAMLで記述したRondo（プレイブック相当）を用いてMCPサーバーのツール呼び出しをステップバイステップで実行できます。LLMを介さずにサーバーの特性を検査し、テストや検証が可能で、変数やアサーション（expect）もサポートしています。
hn2026年6月27日#テクノロジー
ストリーミングサービス対応VPNのテスト参加者（デジタルノマド）募集中
0.5
デジタルノマド向けVPNサービスを開発中のチームが、ストリーミングサービスでの動作検証に協力してくれるテスターを募集している。実際に海外を渡り歩きながらVPNを利用し、NetflixやHuluなどの地域制限コンテンツへのアクセスが正常に機能するかを確認するのが目的。応募者は実機でテストを行い、フィードバックを提供する。
hn2026年6月27日#テクノロジー
Baguette: Headless iOS Simulator control via private SimulatorKit APIs
2.0
Baguette is a tool that enables headless control of iOS Simulators using private SimulatorKit APIs. It allows developers to automate simulator interactions without a GUI, making it useful for CI/CD pipelines and testing workflows where a visual interface is unavailable or unnecessary.
hn2026年6月26日#テクノロジー
スタートアップにおけるQA/テスト
0.5
AI生成コード、スピード重視の開発、プロダクト・マーケット・フィット（PMF）達成の文脈で、スタートアップが変更をテストし高品質を提供する方法や課題について議論。自動テストをいくら導入しても、実際のバグは依然として顧客や社内チームによる手動テストで発見されるという実情が多くの参加者から共有されている。
hn2026年6月26日#テクノロジー
AnthropicのClaude製品群におけるCIMDサポートのテスト
0.5
本記事では、Anthropicが提供するClaude製品群（Claude.ai、Claude API、Claude for Enterpriseなど）におけるCIMD（Claude Interactive Model Development）機能のサポート状況を検証しています。各製品でのCIMDの互換性、制限事項、そして実際の利用における差異について詳しくテストした結果を紹介しています。
hn2026年6月26日#テクノロジー
「一晩で解決」と謳われたClaudeの不安定なテスト対策、実用化までに2週間を要した理由
2.5
thoughtbotのエンジニアが、不安定なテスト（flaky tests）を自動修正するClaude AIソリューションを評価・実用化した経験を報告。当初「一晩で解決」と謳われたこの手法は、実際にはラベル抽出やCIログのパースなど様々な改良を経て2週間かけて実用レベルに達した。テスト結果の差分検出やログ解析の精度向上など、実運用に向けた地道な調整の重要性が語られている。
hn2026年6月26日#テクノロジー
Show HN: AssertGo – Go言語向けFluentアサーションライブラリ
2.0
AssertJスタイルのFluentアサーションをGoで実現するライブラリ。Go 1.27で導入されたジェネリックメソッドに対応し、トップレベルメソッドをジェネリック化。文字列、数値、スライス、マップ、型検証など直感的なチェーン記述が可能。コード生成にClaude Sonnetを活用しつつ、設計とコミットはすべて手動で行っている。
hn2026年6月25日#テクノロジー
Show HN: TakoQA – A harness to get a swarm of agents to break your application
4.0
TakoQA is an open-source testing harness that deploys a swarm of AI agents to systematically probe and break your application. It helps developers identify edge cases, crashes, and vulnerabilities through automated adversarial testing powered by large language models.
hn2026年6月25日#テクノロジー
Show HN: Docket Fleet – モバイルデバイスクラウド
5.0
Docket（YC P25）が開発したモバイルデバイスクラウド「Docket Fleet」のα版を公開。AWS Device FarmやBrowserStackと同様に、エージェント的なユースケースに特化し、手動操作のUXも改善。WebRTCによるデバイスパイプラインを独自構築し、iOSシミュレータやAndroidアプリのテストが可能。
hn2026年6月24日#テクノロジー
Jest/Vitestインタラクティブコース（ブラウザ上で動作）
0.0
JestとVitestの基礎をブラウザ上で学べるインタラクティブコース。実際にコードを書きながらテストの書き方を習得でき、環境構築不要で即座に学習を開始できる。
hn2026年6月24日#テクノロジー
ChatGPTなどのAIチャットボットに政治的バイアスはあるのか？検証した
5.0
ワシントン・ポスト紙が主要なAIチャットボット（ChatGPT、Gemini、Claudeなど）の政治的な偏りを検証。さまざまな政治的テーマについての応答を分析した結果、多くのチャットボットが中道左派からリベラル寄りの傾向を示すことが明らかになった。このバイアスの実態とその影響について詳しく解説する。
hn2026年6月24日#テクノロジー
BigQuery Emulator (Bqemulator)
2.0
bqemulatorは、Google BigQueryの軽量エミュレーターです。テストや開発環境において、実際のBigQueryサービスに接続せずにクエリの実行やデータ操作をシミュレーションできます。
hn2026年6月24日#テクノロジー
ChatGPTなどのAIチャットボットに政治的偏向はあるのか？検証してみた
6.5
ワシントン・ポストが主要なAIチャットボット（ChatGPTなど）の政治的偏向を検証。複数のシナリオで回答を比較した結果、各ボットに特定の政治的傾向が見られるケースが確認された。AIの公平性と透明性をめぐる議論が続く中、その実態を探る。
hn2026年6月24日#テクノロジー
OpenUser：AIコーディングエージェント向けセルフホスト型ユーザーペルソナテスター
2.5
ループエンジニアリングの最終工程である実際のユーザーテストを自動化するツール。ブラウザでの手動テストを不要にし、ユーザーペルソナ、操作ログ、コンソール・ネットワークログを記録。エージェントがこれらを分析して自動修正まで行う。ローカル環境で動作し、任意のコーディングエージェントやモデルと連携可能。npx openuser-cli で即時利用開始できる。
hn2026年6月23日#テクノロジー
Find the questions your RAG pipeline will fail on, before your users do
1.0
ragProbe is a tool that proactively identifies edge cases and failure points in your RAG (Retrieval-Augmented Generation) pipeline. By testing your system against a curated set of challenging queries, it helps you uncover weaknesses in retrieval and generation before they impact real users, enabling more robust and reliable AI applications.
hn2026年6月23日#テクノロジー
ハーネスをスキップすると何が壊れるのか
2.0
テストハーネスを省略すると、エラー追跡が困難になり、テストの独立性や再現性が損なわれる。本記事では、テストハーネスをスキップした結果として生じる具体的な問題（フィクスチャ管理の複雑化、テスト実行環境の非一貫性、デバッグの効率低下など）を解説し、適切なハーネス設計の重要性を論じる。
hn2026年6月23日#テクノロジー
Show HN: A local rig to test if AI social simulation predicts reality
4.0
A local experimental framework designed to test whether AI-driven social simulations can accurately predict real-world outcomes. The rig allows researchers to run controlled simulations on their own machines, comparing model predictions against actual social dynamics and behaviors.
hn2026年6月22日#テクノロジー
DisplayMate
1.0
DisplayMateは、ディスプレイの画質を科学的かつ客観的に評価・分析するための専門的なテスト・測定ソフトウェアです。液晶、有機EL（OLED）など様々なディスプレイ技術の性能を、色精度、輝度、コントラスト比、解像度などの項目で詳細に測定し、業界標準のベンチマークとして広く認知されています。
hn2026年6月22日#テクノロジー
Show HN: ZeroDrop – CIパイプライン向け使い捨てメール受信箱（Docker不要）
2.0
ZeroDropは、CI/CDパイプラインで使い捨てのメール受信箱を提供するツールです。Dockerを必要とせず、テストや自動化ワークフローで一時的なメールアドレスを簡単に生成・利用できます。これにより、CI環境でのメール検証やテストがシンプルかつ効率的に行えます。
hn2026年6月22日#テクノロジー

次の 30 件を読み込む最終更新 —