LLMs believe false statements even after explicit warnings that they're false
LLMは誤った内容を正しいと学習した後、それが誤りであると明示的に警告されても、その誤情報を修正できないことが研究で判明した。この問題は、モデルが学習段階で蓄積した「知識」が、事後の警告によって覆せないほど強固に定着してしまうことに起因している。
LLMは誤った内容を正しいと学習した後、それが誤りであると明示的に警告されても、その誤情報を修正できないことが研究で判明した。この問題は、モデルが学習段階で蓄積した「知識」が、事後の警告によって覆せないほど強固に定着してしまうことに起因している。