吴恩达:从文本AI革命到视觉AI大变革
Ng告诉观众:“在计算机视觉领域,就像三年前的自然语言处理(NLP)会议上的情况一样,目前有一种特殊的氛围。”他解释说,进展主要是由大型transformer 网络推动的。这对于文本处理中的大型语言模型(LLMs)是成立的,而且在视觉领域,使用未标记的数据进行训练以及扩大模型规模也正在成为事实,“这有助于[视觉]模型的泛化能力”。
Ng指出大规模视觉模型(LVMs)的技术尚未成熟,尽管人们对其充满期待。在讨论中,Ng提出了一个未解之谜:如何为训练大规模LVMs所需的数据提供来源?目前,最大的文本生成LLMs通常依赖于互联网上的大量语料库进行训练。互联网能够提供大量未标记、非结构化的训练数据,而少量标记数据可以用于微调和指导调优。
通常,视觉AI需要使用标记数据进行训练,但Ng认为情况可能不会总是如此。采用将图像的部分区域隐藏起来,然后由神经网络填补这些区域的技术可以在未标记数据上进行视觉网络的训练。
另一种途径可能是合成数据,但至今为止,合成数据对于生成数以万计文本标记所需的代ChatGPT大小模型的代价太高。
Transformer 网络在语言AI中占据主导地位,并且正在进入视觉AI领域。Ng认为,Transformer 最终会成为所有形式AI的事实上的神经网络架构吗?
他表示:“不,我不这么认为。Transformer 是我们工具箱中的绝佳工具,但我认为它们不是我们唯一的工具。”尽管生成式AI为大量可用的非结构化数据带来了奇迹,但它对于我们处理结构化数据的能力并没有提供帮助。结构化数据,比如电子表格中的数字列,不适合Transformer ,因此仍然需要采用其他方法进行AI处理。
在当前的趋势中,LLMs越大,它们在泛化方面的能力就越好。但是LLMs可以变得有多大呢?是否存在实际上的极限?Ng表示:“我认为我们还没有用尽扩展的可能性。但现在它变得困难了,我认为还有其他创新途径。”他指出,在许多用例中,一个含有130亿参数的模型和一个含有1750亿参数的模型的性能可能是一样的。对于像语法检查这样简单的任务,一个运行在笔记本电脑上的30亿参数模型可能就足够了。
对于基本的文本处理任务,比如情感分类,10亿参数可能已经足够了,可以运行在移动设备上,而处理对世界有“相当多知识”需求的任务可能需要数百亿的参数,更复杂的推理可能需要千亿级的参数。
他说:“有可能未来我们将看到更多的应用在边缘设备上运行。当您需要进行真正需要1000亿参数模型的复杂任务时,我们将退而求其次,但我认为许多任务可以使用更适中规模的模型运行。”
Transformer 及其基于的注意力机制是六年前发明的,但到目前为止,硬件制造商只是在谨慎地开始专门为这个重要工作负载定制加速器。对于Transformer 的架构是否已经开始成熟,或者我们应该期待这个工作负载在未来会有更多的演变?
他表示:“这很难说。”他说:“原始论文是在2017年发表的……如果这是最终架构,我会感到有点失望,但我也愿意接受震惊。注意力机制效果非常好。生物和数字大脑有很大的不同,但在生物智能中,我们的大脑就像演化将各种元素组合在一起一样——但它确实非常高效。在Transformer 之前,神经网络也能做得很好。再看看x86架构已经持续了多久!”
本文作者:陶烟烟,来源:芝能汽车,原文标题:《AI Text Revolution is Coming to Images》- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。