反馈 - 新火种

首页 > 反馈

反馈

ChatGPT的这项核心技术要被替代了？谷歌提出基于AI反馈的强化学习

无人驾驶大数据文摘出品租！GPU云资源新上线一批A100/A800运营商机房，服务有保障扫码了解详情☝
2023-09-14 14:51
突破！自然语言强化学习(NLRL)：一个可处理语言反馈的强化学习框架

本论文由伦敦大学学院、上海交通大学、布朗大学、布里斯托大学、新加坡国立大学以及萨里大学的研究者合作完成。冯熙栋是论文第一作者，即将毕业于伦敦大学学院。目前是Google DeepMind的Research Scientist，主要研究方向包括强化学习与生成模型。
2024-12-10 14:25
景联文数据标注：ChatGPT成功的秘密——人类反馈强化学习(RLHF)

无人驾驶ChatGPT的成功很大程度上归功于其采用的新的训练范式——人类反馈强化学习（RLHF）。RLHF是一种强化学习方法，它将强化学习与人类反馈相结合，通过利用人类提供的反馈来指导智能系统的行为，使其能够更加高效、快速地学习任务。在ChatGPT的训练中，人类反馈被纳入模型的学习过程中。Chat
2023-10-06 15:10
OpenAI“GPT搜索”试用反馈：远远替代不了谷歌，还不及Perplexity

试用者表示，“GPT搜索”的界面和答案都不够令人印象深刻，尤其对图片和偶尔令人困惑的来源标注方式感到失望，有时甚至会呈现不真实的或“幻觉”信息。这款“GPT搜索”距离能“威胁到谷歌”还差得很远。
2024-12-11 11:47
部分ChatGPTPlus用户反馈必应联网功能失效

11 月 4 日消息，根据国外科技媒体 ZDNet 报道和测试，部分 ChatGPT Plus 用户无法继续使用必应联网（Browse with Bing）功能。OpenAI 于今年 9 月下旬，以测试版的形式，邀请部分 ChatGPT Plus 用户测试 Browse with Bing 工具；
2023-11-05 13:13
杰弗里·辛顿：人类反馈强化学习是垃圾，就像靠刷漆来修旧车

在近日的一次访谈中，“AI教父”杰弗里·辛顿表示，“人类反馈强化学习（RLHF）是垃圾，就像靠刷漆来修旧车，我们在设计软件时就应该确保有更合理的维护方式。”
2024-12-12 12:40
【论文解读】RLAIF基于人工智能反馈的强化学习

一、简要介绍人类反馈强化学习(RLHF)可以有效地将大型语言模型(LLM)与人类偏好对齐，但收集高质量的人类偏好标签是一个关键瓶颈。论文进行了一场RLHF与来自人工智能反馈的RL的比较(RLAIF) 一种由现成的LLM代替人类标记偏好的技术，论文发现它们能带来相似的改善。
2023-11-22 17:21
MiniMax刘华：中国大模型既要卷技术，也需要用户的真实反馈

“作为一门新技术，AI现在最大的问题是要让其产品被更多人用起来。在我们看来，这一代AI大模型要真正成为每个人的生活助手和生活方式，要去服务更多的人。这就需要广大用户给我们提供反馈，告诉我们大模型在哪些地方是需要去改进的。”在日前的一场分享中，MiniMax副总裁刘华对观察者网如是说。MiniMax是
2024-12-28 11:37
大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

面对当前微调大模型主要依赖人类生成数据的普遍做法，谷歌 DeepMind 探索出了一种减少这种依赖的更高效方法。如你我所见，大语言模型（LLM）正在改变深度学习的格局，在生成人类质量的文本和解决各种语言任务方面展现出了卓越的能力。
2024-01-02 17:13
“萝卜快跑”自动驾驶遭大量投诉，武汉经开区称将约谈反馈

近日，在长江网武汉市民留言板上，与“萝卜快跑”相关的留言数量上升，目前已累计达到338条。近期出现的相关留言大多聚焦在“萝卜快跑”引发的交通拥堵问题上，留言者纷纷表达了对这一现象的担忧和不满。针对这一
2024-05-29 19:56