大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

首页 > AI资讯 > 行业动态 > 大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

新火种 2024-01-02

面对当前微调大模型主要依赖人类生成数据的普遍做法，谷歌 DeepMind 探索出了一种减少这种依赖的更高效方法。

如你我所见，大语言模型（LLM）正在改变深度学习的格局，在生成人类质量的文本和解决各种语言任务方面展现出了卓越的能力。虽然业界通过对人类收集的数据进行监督微调进一步提升了在具体任务上的性能，但获取高质量人类数据却面临着重大瓶颈。这对于要解决复杂问题的任务来说尤为明显，需要大量资源和专业知识。怎么解决呢？模型生成得合成数据是一种有潜力的替代方案，只要能保证数据的质量，就能实现可扩展性和成本效益。虽然 LLM 能够自我评估生成的数据，但在本文中，谷歌 DeepMind 探索了一种更简单的设置，将外部标量反馈信号用作每个生成样本的质量指标。

为了研究在模型生成数据上的训练，研究者考虑了一种简单但强大的语言模型自训练方法，仅需要两项功能，一是基于模型生成样本，二是利用评分机制对这些样本进行评估。为了确保清晰度和一致性，研究者采用了一种强化自训练方法 ReST^

Tags:

深度学习模型反馈

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

科大讯飞与中国绿发携手发布泰山大模型

华知大模型5.0发布

三个大模型组队挑战o1，实测360多模型协作干掉提示词工程

浩鲸科技鲸智BI大模型发布，从算法炫技到价值落地

腾讯元器推出智能体新应用，支持公众号主打造专属大模型数字分身

热门文章

豪掷30亿美元！OpenAI考虑收购人工智能编程工具Windsurf

Manus神话破碎？邀请码炒至数万元，转头被MetaGPT成员3小时复刻

全国首例保护AI模型结构判决！抖音诉B612侵害著作权获赔160万

清华学霸、OpenAI姚顺雨：AI下半场开战，评估将比训练重要

美国下手全面封锁！NVIDIA、AMD、Intel的AI芯片非许可禁止卖到中国

1元起京东举办全国首场人形机器人拍卖：含马拉松第2名小孩哥

腾讯开启史上最大就业计划，三年新增28000校招岗位，今年六成面向技术人才

华为：迈向下一代光网络AION，共创AI时代新增长

全球首创！阿里巴巴AI攻克“癌症之王”早筛难题获FDA最高级别认证