OpenAI神秘Q*项目解密!诞生30+年Q学习算法引全球网友终极猜想





Q-learning是什么?
接下来,让我们深入了解Q-learning以及它与RLHF的关系。


奖励函数是这样的:
- 没有吃到奶酪:+0
- 吃到一块奶酪:+1
- 吃到一大堆奶酪:+10
- 吃到毒药:-10
- 超过5步:+0
- 可扩展性:
传统的Q-learning难以应对大型状态-动作空间,使其不适用于AGI需要处理的实际问题。- 泛化:
AGI需要能够从学习的经验中泛化到新的、未见过的场景。Q-learning通常需要针对每个特定场景进行明确的训练。- 适应性:
AGI必须能够动态适应变化的环境。Q-learning算法通常需要一个静态环境,其中规则不随时间变化。- 多技能整合:
AGI意味着各种认知技能,如推理、解决问题和学习的整合。Q-learning主要侧重于学习方面,将其与其他认知功能整合是一个正在进行的研究领域。
- 深度Q网络(DQN):
将Q-learning与深度神经网络结合,DQN可以处理高维状态空间,使其更适合复杂任务。- 迁移学习:
使Q-learning模型在一个领域受过训练后能够将其知识应用于不同但相关的领域的技术,可能是通向AGI所需泛化的一步。- 元学习:
在Q-learning框架中实现元学习可以使人工智能学会如何学习,动态地调整其学习策略,这对于AGI至关重要。Q-learning在人工智能领域,尤其是在强化学习中,代表了一种重要的方法论。毫不奇怪,OpenAI正在使用Q-learning RLHF来尝试实现神秘的AGI。A*算法+Q-learning
一位斯坦福博士Silas Alberti表示,OpenAI的Q*可能与Q-learning有关,表示贝尔曼方程的最优解。又或者,Q*指的是A*算法和Q学习的结合。

「合成数据」是关键
Rebuy的AI总监、莱斯大学博士Cameron R. Wolfe认为:Q-Learning「可能」不是解锁AGI的秘诀。但是,将合成数据生成(RLAIF、self-instruct等)和数据高效的强化学习算法相结合可能是推进当前人工智能研究范式的关键......他对此做一个简短版的总结:使用强化学习进行微调是训练ChatGPT/GPT-4等高性能LLM的秘诀。但是,RL本质上是数据低效的,而且使用人类手动注释数据集来进行强化学习的微调成本极高。考虑到这一点,推进人工智能研究(至少在当前的范式中)将在很大程度上依赖于两个基本目标:用更少的数据使RL性能更好。使用LLM和较小的手动标注数据集,为RL综合生成尽可能多的高质量数据。我们在哪里碰壁?最近的研究表明,使用RLHF来微调LLM是非常有效的。然而,有一个主要问题——RL数据效率低下,需要我们收集大量数据才能获得良好的性能。为了收集RLHF的数据,我们让人类手动标注他们的偏好。虽然这种技术效果很好,但它非常昂贵,而且进入门槛非常高。因此,RLHF仅供拥有大量资源的组织(OpenAI、Meta)使用,而日常从业者很少利用这些技术(大多数开源LLM使用SFT而不是RLHF)。
解决方案是什么?尽管可能没有完美的解决方案,但最近的研究已经开始利用强大的LLM(比如GPT-4)来自动化数据收集过程,以便使用RL进行微调。这首先是由Anthropic的Constitutional AI探索的,其中LLM合成了用于LLM对齐的有害数据。后来,谷歌提出了人工智能反馈的强化学习(RLAIF),其中LLM用于自动化RLHF的整个数据收集过程。令人惊讶的是,使用LLM生成合成数据以使用RL进行微调非常有效。来自LLM的合成数据。我们在各种研究论文中看到,使用LLM生成合成数据是一个巨大的研究前沿。这方面的例子包括:self-instruct:LLM可以使用LLM自动生成指令调优数据集(Alpaca、Orca和许多其他模型也遵循类似的方法)。LLaMA-2:LLM能够在人工标注少量示例后为SFT生成自己的高质量数据。Constitutional AI:LLM可以使用自我批判来生成高质量的数据集,以便通过RLHF和SFT进行对齐。RLAIF:我们可以使用LLM完全自动化RLHF的反馈组件,而不是使用人工来收集反馈,并实现可比的性能。 GPT-Zero?对此,英伟达高级科学家Jim Fan表示:「很明显,合成数据将提供下一万亿个高质量的训练token。我敢打赌,大多严谨的LLM团队都知道这一点。关键问题是如何保持质量并避免过早停滞不前。Richard Sutton写的《苦涩的教训》继续指导着人工智能的发展:只有两种范式可以通过计算无限扩展:学习和搜索。他在2019在撰写本文时,这个观点是正确的,而今天也是如此。我敢打赌,直到我们解决AGI的那一天。」
马斯克对此深表赞同:「一个硬盘就能装下人类有史以来所有书籍的文本,这实在有点可悲(叹气)。而合成数据却要比这多出十万倍。」
然而,在LeCun看来并非如此。他表示,「动物和人类只需少量的训练数据,就能很快变得非常聪明。我认为新的架构可以像动物和人类一样高效地学习。使用更多的数据(合成数据或非合成数据)只是暂时的权宜之计,因为我们目前的方法存在局限性」。
很多人声称Q-learning或RLAIF并不新鲜。这些技术可能并不新鲜,但将它们结合起来构建一个产生显著结果的工作实现是新颖的!伟大的工程+科学=魔法!
确实,AlphaZero当年的视频值得再重温一遍。
GPT-Zero?
还有人猜测,Q*有可能是Ilya Sutskever创建的GPT-Zero项目的后续。(链接:OpenAI新模型曝重大飞跃:AGI雏形或威胁人类,也成Altman被解雇导火索!)


- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。