Meta的生成式人工智能工具,与ChatGPT和谷歌Bard相比如何?
图片来源:OMAR MARQUES/SOPA IMAGES/LIGHTROCKET VIA GETTY IMAGES
人工智能(AI)聊天机器人的队列越来越拥挤。今年7月,Facebook母公司Meta发布了其在生成式AI领域的最新产品:LLaMa 2。
顾名思义,LLaMa 2是Meta发布的第二版LLaMa——LLaMa是“Large Language Model Meta AI”(大型语言模型Meta AI)的缩写。根据Meta的说法,用于训练新版LLaMa的数据量比前一版多了40%,上下文长度是前一版的两倍。
不过LLaMa 2与ChatGPT、必应聊天(Bing Chat)或谷歌Bard等其他一些文本生成式AI工具相比又如何呢?
我试用了LLaMa 2,想了解一下它对于生成式AI工具能够协助完成的一些常见任务的执行情况。我发现它是一个强大的开源模型,有很大潜力能被改造和定制以提供不同的体验。然而,作为面向消费者的创新性AI(写作和研究等)工作助手,LLaMA 2能发挥一定的作用,但相比现有的一些机器人还称不上是一款卓越的工具。
另一种AI机器人
关于LLaMa 2需要了解的一件事是,它的主要用途并不是作为一个聊天机器人。LLaMa 2是一款通用大型语言模型,可供开发者下载和定制——这也是Meta首席执行官马克·扎克伯格完善和改进该模型计划的一部分。
这意味着如果你想将LLaMa 2用作聊天机器人,你就需要使用Hugging Face等平台上提供的LLaMa 2特殊演示版。我们使用的版本HuggingChat是由开发者社区通过将LLaMa 2部署到Hugging Face上创建的。还有其他平台可以试用不同的基于LLaMa 2的聊天机器人,不过HuggingChat是一个专门的聊天机器人,旨在成为ChatGPT的开源替代品。
Hugging Face的技术总监菲利普•施密德对《财富》杂志表示,尽管HuggingChat可媲美其他AI机器人,但这种比较并不十分恰当。LLaMa 2的特点在于它能够根据特定需求被改造,且这个过程无需昂贵的成本。该模型尚未像必应聊天等产品一样针对特定目的进行微调。
LLaMa 2也没有连接互联网。这意味着它的“知识”截至2022年12月。这比ChatGPT的截止日期2021年9月离现在更近。HuggingChat聊天机器人的创建者为其增加了搜索网页的选项,但这项功能还处在发展的初期,无法赋予LLaMa 2与其他网页搜索聊天机器人同等的能力。如果你需要从互联网上获得最新的信息,最好使用必应聊天或谷歌Bard这类工具。
Facebook研究人员在一篇宣布推出LLaMa 2的论文中写道,论文中的人类评估结果显示,LLaMa 2模型通常比现有的其他开源模型表现更佳,并且性能非常接近ChatGPT等闭源模型。该论文承认,LLaMa 2目前还不能与OpenAI最先进的大型语言模型GPT4相提并论。
对LLaMa 2进行测试
我让LLaMa 2机器人给我的同事写一封电子邮件,告诉他们我要出城。它生成了一份符合职场简练和正式风格的像样的备忘录。
既然它可以写电子邮件,那能否驾驭敏感话题(如拒绝一份工作)呢?我让LLaMa 2机器人给我起草一封回复邮件,说我不能接受这份工作。结果它写了一篇没有人情味的三段式短文,这份回复邮件或许会被当成是人类写的,但肯定丝毫不能抚平对方因遭到拒绝产生的挫败感。
于是我再次要求它执行这一指令,并且要求它写得更加具体、有人情味且充满歉意。然后它生成了一封冗长、或许太过正式的邮件,不过这次的邮件是可用的。当有需要时,LLaMa 2演示版似乎可以假装懊悔。
LLaMa 2是能够完成这类任务的,尤其是当你提示它具体信息时。它可以写出不错的摘要,如果需要的话,它还能轻松地帮忙起草一份备忘录。只要向LLaMa 2提供具体的名称、时间和理由,它就能够礼貌拒绝参加某场会议或书写一封特定的正式邮件。
我发现,相比ChatGPT,LLaMa 2的文笔尚可,却过于正式。我宁愿使用ChatGPT,因为它更善于在语言中融入几分人情味。LLaMa的语言则有些生硬和千篇一律,难以胜任这类任务。
对于更具创造性或“文学性”的写作任务,LLaMa 2瑕瑜互见。它很难遵循字数指示。如果我让LLaMa 2写一篇150字的短文,它往往会写出190字。它可以根据建议的主题写俳句或16行诗,但诗篇是否出彩却很难说。你觉得“电路热闹忙碌,处理器加速数字冲突,双重交响乐”是一首俳句佳作吗?
我让LLaMa 2以“2020年新闻业困境”为主题写作,结果它却写了一首相当糟糕的16行诗。虽然聊天机器人并非以文笔雅正闻名(而且我也不够资格来评价诗作),但那首诗却给我一种半生不熟的感觉。全诗没有押韵,即使它当中含有“墨迹斑斑的可怜虫,第四等级曾经的骄傲”等有趣的诗句并且主题连贯,但我无论如何也不认为它是一首好诗。
在研究能力方面,LLaMa 2并没有达到标准
我还向LLaMa 2机器人询问了一些客观事实,让它跟我描述中国的房地产危机。LLaMa 2给出了一系列要点,总结了中国的市场背景、社会问题和基础设施状况。当我要求它提供更多信息时,它甚至还能详细阐述房价情况和新冠疫情的影响。
接着,我要求LLaMa 2给我一份50字的摘要,并附上引文。结果它给出71字,并在每句话的末尾用括号附上了刊物的名称。我打开“网页搜索”功能(允许LLaMa 2从网页获取资料),然后再次提出指令。这次它给出了50字,但每个链接都指向不存在的页面。
2023年7月,当我问及中国房地产危机的情况时,LLaMa 2再次因提供错误信息和更多无效链接而显示一大堆令人摸不着头脑的道歉话语。
鉴于LLaMa 2的知识截止日期为2022年12月且搜索功能存在缺陷,最好不要使用它来进行重要研究。目前的LLaMa 2模型还只是一个演示版,但也需要进行一定的微调。这个规则适用于所有生成式AI工具——一定要研究清楚它能创造什么。对于LLaMa 2这项AI工具来说,这样做尤为重要。它在提供引文时出现了幻觉,并且具有知识截止点。如果我要求它概括或精简信息或修改文本,它会越来越倾向于出现幻觉而提供虚假信息。
你应该利用LLaMa 2吗?
Hugging Face上的LLaMa 2演示版不同于ChatGPT、谷歌Bard和必应聊天等其他聊天机器人。作为一款聊天机器人的早期版本,它有成功的希望,但仍然很不完善。LLaMa 2演示版不适合用于研究,而且有一些“欺骗性”时刻(请原谅这里使用拟人化)。
如果我想使用LLaMa 2演示版来完成测试和撰写备忘录之外的事情,我将不得不筛选冗长、有时甚至未完成的文本。
话说如此,使用AI聊天机器人的理由也举不胜举,而且像基于LLaMa 2的HuggingChat这类工具也在不断地调整和更新。因此我希望你亲自试用一下这个机器人,看看它是否更符合你的需求。只是要注意它的局限性。(财富中文网)
译者:中慧言-刘嘉欢
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。