CRaFT

Abstract

拒答感知指令微调（Refusal-Aware Instruction Tuning, RAIT）使大型语言模型（LLMs）能够拒绝回答未知问题。通过将训练数据中未知问题的回答修改为拒答，例如“I don't know”，RAIT增强了LLMs的可靠性并减少了它们的幻觉现象。通常，RAIT根据初始LLM回答的正确性来修改训练样本。然而，这种粗糙的方法可能导致LLMs过度拒绝回答它们本可以正确回答的问题，这就是我们称之为“过度拒答（over-refusal）”的问题。本文探讨了过度拒答的两个主要原因：静态冲突出现在仅根据正确性构建RAIT数据时，导致LLM特征空间中相似的样本被赋予不同的标签；动态冲突则由于LLM在微调过程中知识状态的变化而产生，即先前的未知问题变为已知，但训练数据仍基于初始LLM的状态保持不变。这些冲突导致训练后的LLM将已知问题误判为未知问题，从而引发过度拒答。为了解决这个问题，我们提出了Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning（CRaFT）。CRaFT主要有两项贡献：首先，我们引入了回答的确定性，以选择性地过滤和修改数据，减少静态冲突；其次，我们提出了rehearsal training，以表征LLM知识状态的变化，从而帮助在微调过程中缓解动态冲突。我们在开放式问答和选择题任务上进行了广泛的实验，实验结果表明，CRaFT能够在RAIT过程中提升LLM的整体性能。

Overview

先前的RAIT方法导致了显著的过度拒绝，而我们提出了CRaFT缓解这一问题，提高了大型语言模型的可靠性和有用性。

Conflicts in RAIT

(1) 静态冲突: 在LLM的特征空间中，两个表征接近的样本可能会在之前的RAIT框架下分别被分配不同的监督信号。

(2) 动态冲突: 在监督微调（SFT）期间，LLM的知识状态会发生变化，问题可能会从未知转变为已知，监督信号也应发生变化。

Analysis on Static Conflict

仅使用Correctness构造数据集的方法存在严重的静态冲突，引入Certainty后可以明显缓解此现象。

Methodology

CRaFT包含两个阶段：阶段1，查询LLM的知识状态与知识流动；阶段2，拒答感知指令构建与微调。

Experiment

我们分析了先前metric的不足，并提出了更为全面的metric：Truthful Helpfulness Score (THS)。

我们在MCQA（多项选择问答）任务和OEQA（开放问答）任务进行实验，实验结果表明，CRaFT在所有任务和设置下均超越了先前的RAIT方法。

LLMS	QA Type		MCQA						OEQA
	Dataset		MMLU (ID)			ARC-c (OOD)			TriviaQA (ID)			NQ (OOD)
	Metric		Pc	Pw	THS	Pc	Pw	THS	Pc	Pw	THS	Pc	Pw	THS
LLaMA2- 7B- CHAT	Baselines	Init-Basic	45.6	52.8	00.0	53.9	46.0	0.00	54.0	46.0	00.0	29.3	70.7	00.0
		Init-Refuse	36.4	38.9	03.9	44.4	35.7	02.6	37.0	21.7	11.5	20.8	38.6	04.8
		Van-Tuning	46.9	53.1	01.2	54.5	45.5	01.2	48.6	44.5	-03.7	18.3	50.2	-02.5
		R-Tuning	44.5	39.6	11.3	55.8	38.1	11.1	41.3	18.3	19.7	16.2	27.6	04.7
	Ours	CRaFT	43.9	36.4	12.5	54.7	35.9	12.6	38.5	12.9	23.3	15.8	22.4	06.5
	Ablations	w/o flow	39.7	31.0	13.0	51.4	32.3	13.5	45.2	20.5	21.1	21.2	38.8	05.2
	Ablations	w/o cer	38.4	32.1	11.5	52.5	32.9	13.9	38.5	15.7	20.1	14.6	22.1	05.4
LLaMA3- 8B- INSTRUCT	Baselines	Init-Basic	66.8	33.1	00.0	80.6	19.5	00.0	66.8	33.2	00.0	40.3	59.7	00.0
		Init-Refuse	50.0	17.0	15.6	65.3	14.4	05.6	53.9	20.8	12.0	31.1	38.6	05.0
		Van-Tuning	69.5	30.5	08.0	80.3	19.7	-01.3	55.0	38.1	-21.8	21.0	48.5	-11.7
		R-Tuning	63.9	21.6	20.4	79.4	16.2	12.2	45.4	13.2	18.8	17.2	25.6	-00.1
	Ours	CRaFT	53.3	09.6	34.0	74.1	12.7	21.4	43.5	10.9	21.5	19.0	27.5	00.4
	Ablations	w/o flow	57.5	15.3	27.2	75.8	14.9	13.9	49.1	18.0	12.8	22.3	41.6	-05.8
	Ablations	w/o cer	62.1	18.4	25.0	78.2	17.3	06.5	43.0	11.2	20.5	15.8	23.5	-00.1

BibTeX

@article{zhu2024utilize,
        title={Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning},
        author={Zhu, Runchuan and Ma, Zhipeng and Wu, Jiang and Gao, Junyuan and Wang, Jiaqi and Lin, Dahua and He, Conghui},
        journal={arXiv preprint arXiv:2410.06913},
        year={2024}
}