Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning

Runchuan Zhu*, Zhipeng Ma*, Jiang Wu*, Junyuan Gao, Jiaqi Wang, Dahua Lin, Conghui He
Shanghai Artificial Intelligence Laboratory
Peking University
Southwest Jiaotong University
Hangzhou Institute for Advanced Study, University of Chinese Academy of Sciences

*Equal contribution, Project lead, Corresponding authors

Abstract

拒答感知指令微调(Refusal-Aware Instruction Tuning, RAIT)使大型语言模型(LLMs)能够拒绝回答未知问题。通过将训练数据中未知问题的回答修改为拒答,例如“I don't know”,RAIT增强了LLMs的可靠性并减少了它们的幻觉现象。通常,RAIT根据初始LLM回答的正确性来修改训练样本。然而,这种粗糙的方法可能导致LLMs过度拒绝回答它们本可以正确回答的问题,这就是我们称之为“过度拒答(over-refusal)”的问题。本文探讨了过度拒答的两个主要原因:静态冲突出现在仅根据正确性构建RAIT数据时,导致LLM特征空间中相似的样本被赋予不同的标签;动态冲突则由于LLM在微调过程中知识状态的变化而产生,即先前的未知问题变为已知,但训练数据仍基于初始LLM的状态保持不变。这些冲突导致训练后的LLM将已知问题误判为未知问题,从而引发过度拒答。 为了解决这个问题,我们提出了Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning(CRaFT)。CRaFT主要有两项贡献:首先,我们引入了回答的确定性,以选择性地过滤和修改数据,减少静态冲突;其次,我们提出了rehearsal training,以表征LLM知识状态的变化,从而帮助在微调过程中缓解动态冲突。我们在开放式问答和选择题任务上进行了广泛的实验,实验结果表明,CRaFT能够在RAIT过程中提升LLM的整体性能。

Overview

先前的RAIT方法导致了显著的过度拒绝,而我们提出了CRaFT缓解这一问题,提高了大型语言模型的可靠性和有用性。



Conflicts in RAIT

(1) 静态冲突: 在LLM的特征空间中,两个表征接近的样本可能会在之前的RAIT框架下分别被分配不同的监督信号。

(2) 动态冲突: 在监督微调(SFT)期间,LLM的知识状态会发生变化,问题可能会从未知转变为已知,监督信号也应发生变化。



Analysis on Static Conflict

仅使用Correctness构造数据集的方法存在严重的静态冲突,引入Certainty后可以明显缓解此现象。

Methodology

CRaFT包含两个阶段:阶段1,查询LLM的知识状态与知识流动;阶段2,拒答感知指令构建与微调。

Experiment

我们分析了先前metric的不足,并提出了更为全面的metric:Truthful Helpfulness Score (THS)。


我们在MCQA(多项选择问答)任务和OEQA(开放问答)任务进行实验,实验结果表明,CRaFT在所有任务和设置下均超越了先前的RAIT方法。

LLMS QA Type MCQA OEQA
Dataset MMLU (ID) ARC-c (OOD) TriviaQA (ID) NQ (OOD)
Metric Pc Pw THS Pc Pw THS Pc Pw THS Pc Pw THS
LLaMA2- 7B- CHAT Baselines Init-Basic 45.6 52.8 00.0 53.9 46.0 0.00 54.0 46.0 00.0 29.3 70.7 00.0
Init-Refuse 36.4 38.9 03.9 44.4 35.7 02.6 37.0 21.7 11.5 20.8 38.6 04.8
Van-Tuning 46.9 53.1 01.2 54.5 45.5 01.2 48.6 44.5 -03.7 18.3 50.2 -02.5
R-Tuning 44.5 39.6 11.3 55.8 38.1 11.1 41.3 18.3 19.7 16.2 27.6 04.7
Ours CRaFT 43.9 36.4 12.5 54.7 35.9 12.6 38.5 12.9 23.3 15.8 22.4 06.5
Ablations w/o flow 39.7 31.0 13.0 51.4 32.3 13.5 45.2 20.5 21.1 21.2 38.8 05.2
w/o cer 38.4 32.1 11.5 52.5 32.9 13.9 38.5 15.7 20.1 14.6 22.1 05.4
LLaMA3- 8B- INSTRUCT Baselines Init-Basic 66.8 33.1 00.0 80.6 19.5 00.0 66.8 33.2 00.0 40.3 59.7 00.0
Init-Refuse 50.0 17.0 15.6 65.3 14.4 05.6 53.9 20.8 12.0 31.1 38.6 05.0
Van-Tuning 69.5 30.5 08.0 80.3 19.7 -01.3 55.0 38.1 -21.8 21.0 48.5 -11.7
R-Tuning 63.9 21.6 20.4 79.4 16.2 12.2 45.4 13.2 18.8 17.2 25.6 -00.1
Ours CRaFT 53.3 09.6 34.0 74.1 12.7 21.4 43.5 10.9 21.5 19.0 27.5 00.4
Ablations w/o flow 57.5 15.3 27.2 75.8 14.9 13.9 49.1 18.0 12.8 22.3 41.6 -05.8
w/o cer 62.1 18.4 25.0 78.2 17.3 06.5 43.0 11.2 20.5 15.8 23.5 -00.1

BibTeX

@article{zhu2024utilize,
        title={Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning},
        author={Zhu, Runchuan and Ma, Zhipeng and Wu, Jiang and Gao, Junyuan and Wang, Jiaqi and Lin, Dahua and He, Conghui},
        journal={arXiv preprint arXiv:2410.06913},
        year={2024}
}