基于显式语义的可解释指代消解评估
本文提出了一种利用显式语义信息的可解释指代消解评估方法。传统指代消解评估指标(如MUC、B³、CEAF等)仅基于结构匹配,缺乏可解释性。该方法通过引入语义角色和依存关系等显式语义特征,不仅能更准确地评估系统性能,还能提供错误类型的细粒度分析,帮助研究者理解模型在指代消解任务中的具体缺陷。
背景速读
- 指代消解(Coreference Resolution)是 NLP 的核心任务之一,目标是把文本中指向同一实体的不同表述(如"苹果公司""他们""库克领导的这家企业")自动归并到一起。传统评测指标(如 MUC、BCUBED、CEAF)主要基于字符串匹配和边界重叠,无法区分"语义正确但名词短语不同"与"真正错误"之间的差异。
- 本文提出一种基于显式语义(利用大模型或知识库)的新评测方法,不再只比字面重合,而是判断模型找出的指代关系在语义上是否成立。这直接回应了 ACL 社区对"评测指标脱离任务本质"的长期批评。
- 理解本文需要了解两个背景:(1)指代消解是对话系统、信息抽取、机器翻译等下游任务的基石;(2)过去二十年的评测方法几乎都来自 1990 年代的信息抽取竞赛,已难以适应大模型时代对"理解"而非"匹配"的追求。