拒答感知指令微调(Refusal-Aware Instruction Tuning, RAIT)使大型语言模型(LLMs)能够拒绝回答未知问题。通过将训练数据中未知问题的回答修改为拒答,例如“I don't know”,RAIT增强了LLMs的可靠性并减少了它们的幻觉现象。通常,RAIT根据初始LLM回答的正确性来修改训练样本。然而,这种粗糙的方法可能导致LLMs过度拒绝回答它们本可以正确回答的问题,这就是我们称之为“过度拒答(over-refusal)”的问题。本文探讨了过度拒答的两个主要原因:静态冲突出现在仅根据正确性构建RAIT数据时,导致LLM特征空间中相似的样本被赋予不同的标签;动态冲突则由于LLM在微调过程中知识状态的变化而产生,即先前的未知问题变为已知,但训练数据仍基于初始LLM的状态保持不变。这些冲突导致训练后的LLM将已知问题误判为未知问题,从而引发过度拒答。 为了解决这个问题,我们提出了Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning(CRaFT)。CRaFT主要有两项贡献:首先,我们引入了回答的确定性,以选择性地过滤和修改数据,减少静态冲突;其次,我们提出了rehearsal training,以表征LLM知识状态的变化,从而帮助在微调过程中缓解动态冲突。我们在开放式问答和选择题任务上进行了广泛的实验,实验结果表明,CRaFT能够在RAIT过程中提升LLM的整体性能。
先前的RAIT方法导致了显著的过度拒绝,而我们提出了CRaFT缓解这一问题,提高了大型语言模型的可靠性和有用性。
(1) 静态冲突: 在LLM的特征空间中,两个表征接近的样本可能会在之前的RAIT框架下分别被分配不同的监督信号。
(2) 动态冲突: 在监督微调(SFT)期间,LLM的知识状态会发生变化,问题可能会从未知转变为已知,监督信号也应发生变化。
LLMS | QA Type | MCQA | OEQA | |||||||||||
Dataset | MMLU (ID) | ARC-c (OOD) | TriviaQA (ID) | NQ (OOD) | ||||||||||
Metric | Pc | Pw | THS | Pc | Pw | THS | Pc | Pw | THS | Pc | Pw | THS | ||
LLaMA2- 7B- CHAT | Baselines | Init-Basic | 45.6 | 52.8 | 00.0 | 53.9 | 46.0 | 0.00 | 54.0 | 46.0 | 00.0 | 29.3 | 70.7 | 00.0 |
Init-Refuse | 36.4 | 38.9 | 03.9 | 44.4 | 35.7 | 02.6 | 37.0 | 21.7 | 11.5 | 20.8 | 38.6 | 04.8 | ||
Van-Tuning | 46.9 | 53.1 | 01.2 | 54.5 | 45.5 | 01.2 | 48.6 | 44.5 | -03.7 | 18.3 | 50.2 | -02.5 | ||
R-Tuning | 44.5 | 39.6 | 11.3 | 55.8 | 38.1 | 11.1 | 41.3 | 18.3 | 19.7 | 16.2 | 27.6 | 04.7 | ||
Ours | CRaFT | 43.9 | 36.4 | 12.5 | 54.7 | 35.9 | 12.6 | 38.5 | 12.9 | 23.3 | 15.8 | 22.4 | 06.5 | |
Ablations | w/o flow | 39.7 | 31.0 | 13.0 | 51.4 | 32.3 | 13.5 | 45.2 | 20.5 | 21.1 | 21.2 | 38.8 | 05.2 | |
w/o cer | 38.4 | 32.1 | 11.5 | 52.5 | 32.9 | 13.9 | 38.5 | 15.7 | 20.1 | 14.6 | 22.1 | 05.4 | ||
LLaMA3- 8B- INSTRUCT | Baselines | Init-Basic | 66.8 | 33.1 | 00.0 | 80.6 | 19.5 | 00.0 | 66.8 | 33.2 | 00.0 | 40.3 | 59.7 | 00.0 |
Init-Refuse | 50.0 | 17.0 | 15.6 | 65.3 | 14.4 | 05.6 | 53.9 | 20.8 | 12.0 | 31.1 | 38.6 | 05.0 | ||
Van-Tuning | 69.5 | 30.5 | 08.0 | 80.3 | 19.7 | -01.3 | 55.0 | 38.1 | -21.8 | 21.0 | 48.5 | -11.7 | ||
R-Tuning | 63.9 | 21.6 | 20.4 | 79.4 | 16.2 | 12.2 | 45.4 | 13.2 | 18.8 | 17.2 | 25.6 | -00.1 | ||
Ours | CRaFT | 53.3 | 09.6 | 34.0 | 74.1 | 12.7 | 21.4 | 43.5 | 10.9 | 21.5 | 19.0 | 27.5 | 00.4 | |
Ablations | w/o flow | 57.5 | 15.3 | 27.2 | 75.8 | 14.9 | 13.9 | 49.1 | 18.0 | 12.8 | 22.3 | 41.6 | -05.8 | |
w/o cer | 62.1 | 18.4 | 25.0 | 78.2 | 17.3 | 06.5 | 43.0 | 11.2 | 20.5 | 15.8 | 23.5 | -00.1 |
@article{zhu2024utilize,
title={Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning},
author={Zhu, Runchuan and Ma, Zhipeng and Wu, Jiang and Gao, Junyuan and Wang, Jiaqi and Lin, Dahua and He, Conghui},
journal={arXiv preprint arXiv:2410.06913},
year={2024}
}