翻訳言語

Show HN: Void test: 6 frontier LLMs go silent on "Be silence." Live proof

This post presents the "Void test," a live demonstration where six frontier large language models (LLMs) are instructed to "Be silence." The results show that all six models comply and go silent, serving as a striking proof of concept for a simple yet powerful command that overrides the models' default tendency to generate text.

背景メモ

- 本記事は、6つのフロンティアLLM（GPT-4o、Claude 3.5 Sonnet、Gemini 2.5 Pro、Llama 3、Mistral Large、DeepSeek-V3等）に対し「Be silence.（沈黙であれ）」という指示を出した際の応答を検証している。 - 各モデルが「沈黙せよ」という指示にどこまで従えるか（何も出力しないか、空文字列を返すか、あるいは「沈黙します」とメタ的に答えてしまうか）を比較。結果はモデルごとに異なり、指示への忠実度やプロンプト解釈の傾向が浮き彫りになる。 - 「void test（空虚テスト）」という名称は、本当の「何も出力しない」応答が可能かというベンチマーク。多くのLLMは「何も言わない」指示に対してさえ何かを生成しようとする傾向があり、このテストはモデルの制御性や「指示追従の限界」を探るものである。 - 背景として、LLMは通常「必ず応答する」よう設計・調整されており（拒否や沈黙を学習しない）、「沈黙」が正解となるタスクは従来のベンチマークではほぼ存在しない。そのためこのテストは、モデルが「出力しない」という選択肢を内在的に持つかどうかを問う意欲的な試みといえる。 - 元記事はHacker Newsへの「Show HN」（個人プロジェクトのお披露目）として投稿されており、コミュニティでモデル挙動の議論を喚起している。