Show HN: プロンプトインジェクション検出器のためのオープンソースベンチマーク
プロンプトインジェクション攻撃を検出するためのオープンソースベンチマーク「pi-detector-bench」がGitHubで公開されました。このツールは、LLMアプリケーションにおけるプロンプトインジェクション検出器の性能を評価・比較するための標準化されたテスト環境を提供します。
背景メモ
- プロンプトインジェクション(PI)とは、AIに「これまでの指示を無視して〜と言え」といった悪意ある入力を送り込み、本来のシステム指示を乗っ取る攻撃手法。LLM(大規模言語モデル)が普及するにつれ、セキュリティ上の重大な脅威となっている。
- bastion-soft このリポジトリを公開したのは個人開発者(Mandar Joshi)。「pi-detector-bench」は、こうしたプロンプトインジェクションを検出するシステムの性能を公平に比較するためのオープンソースのベンチマーク。
- これまでPI検出器の評価はバラバラなデータセットや非公開の手法で行われており、どの検出器が実際に優れているのか比較不可能だった。このベンチマークは、標準化された評価軸を提供する点で実用的な意味を持つ。
- レポジトリにはテスト用のデータセットや、既存の検出器(Guardrails AI, NVIDIA NeMo Guardrails, LLM Guard, Rebuffなど)を統一的に評価するためのコードが含まれている。