Snyk VulnBench JavaScript 1.0: LLMは同じバグを二度見つけられるか?
本稿では、JavaScript向けの脆弱性検出ベンチマーク「Snyk VulnBench JavaScript 1.0」を紹介する。このベンチマークは、LLMが同一の脆弱性を複数の異なるコードコンテキストで一貫して検出できるかを評価するために設計されている。実験結果は、現在のLLMが同じバグを二度見つける際に一貫性に欠けることを示しており、セキュリティ分野におけるLLMの信頼性向上の必要性を浮き彫りにしている。