研究人员称,即使是最糟糕的Claude AI版本也比GPT 3.5更好

decrypt.co 2023-10-06 08:45:53

人工智能行业见证了著名的ChatGPT和Claude人工智能模型之间的激烈竞争。负责创建聊天机器人竞技场和著名的维库纳模型的大型模型系统组织(LMSO)刚刚更新了他们的聊天机器人竞技场排行榜,反映了每个人工智能聊天机器人如何与竞争对手抗衡。事实证明,尽管其模型仍然可以免费使用,但Anthropic正在为OpenAI争取资金。

GPT-4是ChatGPT-Plus和Bing AI的幕后推手,以最高的分数位居榜首,为大型语言模型(LLM)树立了黄金标准。但当我们在排行榜上排名靠后时,一个意想不到的失败者故事就展开了。Anthropic的Claude型号——Claude 1、Claude 2和Claude Instant——都优于免费版ChatGPT的引擎GPT-3.5。这意味着Anthropic开发的每一个大型语言模型都可以超越免费版本的ChatGPT。

LMSO细致的排名系统深入了解了这些模型的性能指标。根据排行榜,GPT-4的Arena Elo评分为1181,在排行榜上遥遥领先,而Claude型号紧随其后,评分从1119到1155不等。另一方面,GPT-3.5落后于1115的评级。

为了对模型进行排名,LMSO会让它们在类似提示的比赛中“战斗”。答案最好的模型赢了,另一个输了。用户根据自己的喜好决定谁获胜,但他们永远不知道哪些型号在竞争。

[不同LLM之间的比较,将其列为最佳人工智能。]图片:LMSO

正如_Decrypt_之前报道的那样,ChatGPT Plus和Claude Pro之间的代币处理能力差异虽然不是LMSO排名的一个因素,但也是Claude模型相对于GPT的一个主要优势。

我们回忆道:“基于Claude 2 LLM的Claude Pro可以处理多达10万个代币的信息,而由GPT-4 LLM支持的ChatGPT Plus可以处理8192个代币。”。令牌处理能力的这种差异突显了Claude模型在管理广泛的上下文输入方面的优势,这对于细致入微和丰富的用户体验至关重要。

此外,在处理长提示时,Claude 2显示出优于GPT的优势,可以更有效地处理更大幅度的提示。然而,当提示具有可比性时,Claude 1和Claude Instant提供了与GPT-3.5相似或略好的结果,显示了这些模型的竞争性质。有了Claude的上下文能力,糟糕的初始答案可以通过更精细、更大、更丰富的提示得到显著改善。

开源模型在这场竞赛中并不落后。

WizardLM是一个在Meta的LlaMA-2上训练的模型,具有700亿个参数,是最好的开源LLM。紧随其后的是Vicuna 33B和Meta发布的原始LlaMA-2。

🎉@lmsysorg刚刚更新了聊天机器人竞技场排行榜!

我们的巫师LM-70B现在是🥇在这两个平台上排名第一的开源模型⚔️Arena Elo和📈MT工作台。

❤️主要贡献者:@灿旭20@victorsungo_ai@ChiYeung_Law@hpluo12@tangmensan

排行榜:https://t.co/1gkZKGVutQ

型号…pic.twitter.com/bsJ0jv2i7I

--WizardLM(@WizardLM_AI)2023年10月5日

由于不同的原因,开源模型在人工智能领域的发展中发挥着重要作用。它们可以在本地运行,这让用户有机会对它们进行微调,并让社区共同努力完善模型。由于它们的许可证,它们的运行成本也更低,这就是为什么该空间有几十个开源LLM,只有少数专有模型。

但人工智能聊天机器人的游戏不仅仅是数字。这是关于现实世界的影响。

随着聊天机器人在从客户服务到个人助理的各个领域成为不可或缺的一部分,其功效、适应性和准确性变得至关重要。随着Claude模型的排名高于GPT-3.5,企业和个人用户可能会发现自己处于十字路口,评估哪种模型最符合他们的需求_Decrypt_准备了两份指南,帮助您决定哪种型号最适合您。

ChatGPT Plus vs Claude Pro:为您选择付费最高的AI聊天机器人

对于外行来说,这似乎只是排行榜的又一次更新。但对于那些密切关注人工智能行业的人来说,这证明了竞争有多激烈,潮流有多迅速。对于我们这些介于这两个阵营之间的人来说,这提醒我们,在人工智能世界中,当今最流行的模型可能会成为最高效的模型。

本文来源于 decrypt.co

免责声明:
1. 本文版权归属原作所有,仅代表作者本人观点,不代表币推儿的观点或立场。
2. 如发现文章、图片等侵权行为,侵权责任将由作者本人承担。