大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

2023-12-26 机器之心

面对当前微调大模型主要依赖人类生成数据的普遍做法，谷歌 DeepMind 探索出了一种减少这种依赖的更高效方法。

如你我所见，大语言模型（LLM）正在改变深度学习的格局，在生成人类质量的文本和解决各种语言任务方面展现出了卓越的能力。虽然业界通过对人类收集的数据进行监督微调进一步提升了在具体任务上的性能，但获取高质量人类数据却面临着重大瓶颈。这对于要解决复杂问题的任务来说尤为明显，需要大量资源和专业知识。

怎么解决呢？模型生成得合成数据是一种有潜力的替代方案，只要能保证数据的质量，就能实现可扩展性和成本效益。

虽然 LLM 能够自我评估生成的数据，但在本文中，谷歌 DeepMind 探索了一种更简单的设置，将外部标量反馈信号用作每个生成样本的质量指标。

论文地址：https://arxiv.org/pdf/2312.06585.pdf

为了研究在模型生成数据上的训练，研究者考虑了一种简单但强大的语言模型自训练方法，仅需要两项功能，一是基于模型生成样本，二是利用评分机制对这些样本进行评估。

为了确保清晰度和一致性，研究者采用了一种强化自训练方法 ReST