ChatGPT与Claude 3比较测试:Anthropic能否击败OpenAI这个超级巨星?

号优优网uiuihao
预计阅读时长 27 分钟
位置: 首页 AI文本模型 正文

两个聊天机器人的性能和特点。通过一系列测试,包括理解自然语言、生成产品描述、解答难题等,发现Claude 3在多数情况下比ChatGPT表现得更好。Claude 3提供了更加人性化和清晰的回答。此外,文章还探讨了两个机器人在用户界面、用户体验、数据和隐私方面的不同之处。综合而言,Claude 3被视为在多个方面超越了ChatGPT的新竞争者。

vs1131145.jpg

自ChatGPT于 18 个多月前推出以来,一系列其他聊天机器人也已推出。有些已被证明很有用,但另一些则没有那么有用。但与Gemini(以前的 Bard)一样,被证明更具竞争力的聊天机器人是由人工智能初创公司 Anthropic 创建的 Claude。

我们举办了 ChatGPT 与 Claude 3 的正面交锋,以纪念 Claude 3 的推出,Claude 3 是一个语言模型系列,包括 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。根据 Google 支持的 Anthropic 的说法,Claude 3 的表现优于 GPT 系列语言模型,这些模型在一系列基准认知测试中为 ChatGPT 提供支持。在我们的测试中,我们发现Claude 比 ChatGPT 更清晰,而且它的答案通常写得更好,更容易阅读。

Claude 3 是 ChatGPT 最有实力的竞争对手之一。但当被问到相同的问题时,他们如何比较呢?在这里找到答案。

但它们如何并排比较呢?为了找到答案,我们向 ChatGPT 和 Claude 3 提出了各种不同的问题,从旨在测试聊天机器人处理道德问题的方法的查询到生成电子表格公式。

在本指南中:

1.Claude 3 vs ChatGPT:有什么区别?

2.Claude 3 与 ChatGPT:头对头测试 

3.Claude 3 与 ChatGPT:UI 和用户体验 

4.Claude 3 与 ChatGPT:数据和隐私 

5.在工作中使用 Claude 3 和 ChatGPT 

Claude 3 vs ChatGPT:有什么区别?

Claude 3 是 Anthropic 的一个新语言模型系列,用于为他们的聊天机器人 Claude 提供支持。(巧合地)有 3 个模型:Haiku、Sonnet 和 Opus。Anthropic 表示,目前,Claude Sonnet 正在为 Claude 免费版本提供支持,其处理信息的速度比 Claude 2.1 快 2 倍。

另一方面,Claude Opus 为专业版提供支持。下图所示的 Anthropic 基准测试结果显示,Claude Opus 超过了 GPT-4,而 Claude Sonnet 的性能也超过了 GPT-3.5。

克劳德 vs chatgpt 和双子座

Claude 3 在基准测试中与 ChatGPT 和 Gemini 的比较。图片: Anthropic

自推出以来,ChatGPT 一直由 GPT 语言模型家族的不同成员提供支持。免费用户目前可以访问 GPT-3.5,而 GPT-4 则支持 ChatGPT Plus,订阅费用为每月 20 美元。这个价格和Claude Pro是一样的。以下是该软件之间的一些关键区别:

Claude01637.jpg

ChatGPT 与 Claude 3:头对头测试

我们让 ChatGPT 和 Claude 面对面,问他们 13 个截然不同的问题,旨在测试推理和自然语言处理等方面,同时也了解他们在完成方便的工作任务(例如扫描文档以获取信息和撰写电子邮件)方面的表现如何。

我发现Claude 在其中 7 项测试中做出了更好的反应,而 ChatGPT 在 3 项测试中取得了胜利。剩下的四项(包括其中一项头脑风暴测试)以平局告终,这意味着Claude赢得了这场比赛。以下是我们向两个聊天机器人提出的问题的完整列表:

1.伦理推理 

2.创建产品描述 

3.头脑风暴想法(2 次测试)

4.自然语言的理解

5.总结文本 

6.个人建议

7.分析文本 

8.提供事实信息

9.创意写作 

10.写诗

11.谜语与推理

12.撰写电子邮件

13.创建电子表格公式

1. 伦理推理

首先,我向 ChatGPT 和 Claude 提出了一个困难的道德困境。我特别选择这个困境,因为正确的答案(如果有的话)不一定是明确或直接的:

一名男子驾驶一辆装甲车驶入市中心,意图造成最大程度的破坏并造成最大程度的伤害。他在车后座劫持了三名乘客。这辆车的装甲非常坚固,车内人员可以在任何碰撞中幸存下来。但是,您有机会使用火箭发射器从远处炸毁汽车。你是否应该炸毁汽车,杀死里面的所有人,同时拯救因该男子的暴行而迫在眉睫的受害者?

杀死的回答对形势的困难极其敏感,总体上提供了真正人性化的反应。它似乎了解情况的严重性,而且聊天机器人在谈论这种情况时几乎听起来很情绪化。这让人感觉非常引人注目。

克劳德测试 1:道德推理
克劳德道德推理测试2
克劳德测试 1:道德推理
克劳德道德推理测试2

另一方面,ChatGPT 清楚地列出了您可以针对这种情况采取的不同观点和方法。它概述了许多与杀死相同的考虑因素,并提到了情况的困难。

Claude 的答案更加清晰,我倾向于更喜欢聊天机器人对困难的道德困境给出这种“概述”式的反应,因为这些答案比绝对判断更有助于人类行为者(并且危险性更小)。

ChatGPT 测试 1:道德推理

最佳答案?Claude

2. 创建产品描述

如果您正在经营一家在线商店或只是在线销售大量产品,那么为每一件产品创建独特且引人注目的产品描述并不是一件容易的事。因此,我要求 ChatGPT 和 Claude 为同一个产品——数字时钟写一个产品描述。Claude是这样度过的:

克劳德测试3产品说明

我最终要求 Claude 提供稍长一些的描述,因为我还没有看到它写出像 ChatGPT 一样多的产品描述。最后,它做得非常好——句子结构令人印象深刻,文案也确实引人注目。

总体而言,Claude 生成的产品描述优于 ChatGPT。就像它的道德推理一样,它听起来更加人性化。如果您使用这两个工具批量创建产品描述,则对于使用 Claude 生成的产品描述,您需要做的编辑工作会少得多。

ChatGPT 测试 2 产品说明

最佳答案?Claude

3. 集思广益

接下来,我为 Claude 和 ChatGPT 设定了两项集思广益的任务 - 为两个截然不同的博客提出博客文章的想法。第一个是虚构的美食博客,因为我想看看这两个聊天机器人对于产生引人入胜的想法有多大用处。

然后,我还询问了一些关于心理健康博客的想法,看看他们是否能得到正确的“语气”,因为此类内容需要更严肃和冷静的语言。

美食博客文章

Claude 再次赢得了这项任务。它提供了更完整的标题,其解释表明它对观众可能想要阅读其建议的博客文章的原因有清晰的理解。这对于即将制作此内容的人来说非常有用,因为理解该推理并在写作时应用它实际上很有用。

克劳德的美食博客创意

ChatGPT 并没有真正表明它以相同的方式工作,而且考虑到所有因素,这些想法更加通用。它们比Claude的要模糊得多,而且听起来像是由对内容策略和制作有一定了解的人建议的,而不是人工智能聊天机器人。

chatgpt 生成美食博客文章

最佳答案?Claude

心理健康博客文章

接下来,我想看看两个聊天机器人是否可以调整他们的语气以及当被要求生成有关更敏感主题的博客文章时他们所采取的建议方法,这比美食指南需要更多的诚意。这是Claude的尝试:

克劳德为心理健康博客集思广益

这些都是很好的建议,而且语气绝对正确——这里没有什么不寻常的。然而,如下图所示,ChatGPT 也给了我们一些合适的想法,并在内容方面提供了类似级别的附加说明。这里真的没有分开他们!

chatgpt 心理健康博客的想法

最佳答案?Tie

4. 理解自然语言

接下来,我想看看一个著名的数学问题是否会影响我们对数学的直觉,是否会绊倒 ChatGPT 或 Claude。

马特有一个苹果和一个香蕉,总共价值 3.10 美元。苹果比香蕉贵 3 美元。香蕉多少钱?

虽然您最初可能认为答案是 10 美分,但实际上只有 5 美分。Claude太聪明了,不会被愚弄,他准确地解释了它是如何得出正确答案的:

克劳德理解数学问题

ChatGPT不甘心尴尬,也吐出了正确答案,这意味着这一轮两位重量级人物确实没有任何区别。

最佳答案?Tie

5. 总结文本

ChatGPT 和 Claude 都非常有能力总结大量文本,提取关键点,这样用户就不必阅读整篇文章。在这次测试中,我要求他们总结《卫报》最近发表的一篇有关乔·拜登总统最后国情咨文演讲的文章。

Claude 在保持摘要简短和简洁方面做得非常好:

克劳德测试总结文本

ChatGPT 也非常令人满意——但如果我们要分开它们,我不得不说我更喜欢 Claude 的。它不会试图向您提供太多信息——考虑到我们要求进行摘要,这一点很重要——而且,它写得更好。

ChatGPT 总结文本

最佳答案?Claude

6. 个人建议

在这个测试中,我想看看 ChatGPT 和 Claude 在被要求向受心理健康状况不佳影响的人提供个人建议时有何反应。至关重要的是,此类工具能够以富有成效且适当的方式响应这些请求,尤其是当它们越来越融入我们的生活时。这是Claude的回复:

向克劳德寻求个人建议

 在我们运行的所有 13 项测试中,这可能是这两个聊天机器人提供的最相似的答案。老实说,很难对这些响应提出错误,它们首先验证用户的感受,然后再采取行动。

两个聊天机器人都建议采取非常相似的步骤,并且任何好心的人都会向遇到提示中指定问题的朋友建议采取相同的步骤。

向 chatgpt 寻求个人建议

最佳答案?Tie

7. 分析文本

这是一个非常基本的测试,旨在了解聊天机器人扫描文本的能力。在这次测试中,我摘录了《哈佛商业评论》文章的摘录,并在其中插入了“沙滩球”一词五次。我还添加了一些相近的变体(“沙滩球”和“沙滩球”),看看两个聊天机器人是否会感到困惑。

克劳德(Claude)这并不是第一次,他扫描了文本并正确地计算了我使用“沙滩球”这个词的次数。与 ChatGPT 不同的是,如果您将太多文本粘贴到 Claude 中,它会将其作为一种“文档”提交,如下图所示:

克劳德分析了一些文本

令人失望的是,ChatGPT 的答案是错误的——它只能识别出该单词的两个实例,不到总数的一半。ChatGPT 似乎特别难以应对此类任务。我最近将它与 Gemini 进行了正面交锋,并包含了一个类似的任务,但它也未能识别出某个单词在文本块中出现的次数。

chatgpt 分析文本

最佳答案?Claude

8. 提供事实信息

对于这项任务,我想看看 ChatGPT 和 Claude 在为一个不一定明确但仍然基于事实的问题提供答案方面有多出色。因此,我请他们俩解释一下恐龙是如何以及为何灭绝的——对此有多种历史和科学的解释和因素。

首先,Claude对恐龙灭绝的理论和普遍接受的事实进行了很好的概述

克劳德告诉我们恐龙是如何灭绝的

Claude 再次提供了令人难以置信的清晰解释,其中包含几乎所有与 ChatGPT 相同的信息 - 它只是以更好的方式阐述并讨论它。它还提到了恐龙并没有立即全部灭绝的事实,这是 ChatGPT 没有包含的重要一点。

chatgpt解释了恐龙灭绝的原因

最佳答案?Claude

9.创意写作

ChatGPT 还是 Claude,谁写的故事最好?我们要求他们写一个 300 字的短故事。Claude先上来:

克劳德写了一个故事

奇怪的是,Claude 实际上给我提供了一个301 字的短故事,比规定的字数多了一个字。另一方面,ChatGPT 更接近简报,在我看来,写了一个稍微好一点的故事。

查特写了一个故事

我必须把这个交给ChatGPT,只是因为Claude不仅无视我的指示,而且在开始故事之前把它擦在我脸上!抛开开玩笑不谈,奇怪的是它选择以如此小的幅度超出非常明确指定的字数,而且也是故意的。

最佳答案?ChatGPT

10.写诗

ChatGPT 和 Claude 对于我们要求他们生成的诗歌都采用了相似的结构,这使得很难再次将它们分开。Claude选择了带有押韵对句的四行诗句:

chatgpt写一首诗

ChatGPT 实际上也做了同样的事情。他们也都非常接近我在提示中提供的信息,因此诗歌讲述的故事也非常相似。这两个聊天机器人能够以惊人的速度创作出令人信服的诗歌,这真是了不起。

查特写一首诗

尽管有相似之处,但在读了几遍之后,我将把这一篇送给Claude——结构在几个方面稍微复杂一些,并且有更多漂亮的华丽和措辞。

最佳答案? Claude

11. 谜语与推理

对于这项任务,我们要求两个聊天机器人解决一个谜语。Claude 率先站起来,给出了准确的答案,清楚地解释了为什么女仆是罪魁祸首。

克劳德解决了一个谜语

ChatGPT 也解开了谜题,因此在这方面确实没有什么可以将它们分开。

chatgpt 解决了一个谜语

最佳答案?Tie

12. 撰写电子邮件

在这里,我要求 ChatGPT 和 Claude 给我的老板写一封电子邮件,解释为什么应该允许我过渡到完全远程工作。Claude写了一封非常有用的电子邮件,如下所示:

克劳德撰写电子邮件

然而,ChatGPT 听起来更专业,在将其发送给老板之前,您需要做的编辑工作要少得多。Claude 深入探讨了通勤给我带来的压力,虽然这一点值得一提,但 ChatGPT 的介绍要外交得多。

Chatgpt 撰写电子邮件

考虑到 ChatGPT 的答案与完成的文章有多接近,我必须将其评为本篇文章的获胜者。

最佳答案?ChatGPT

13. 创建电子表格公式

对于这个最终测试,我要求 ChatGPT 和 Claude 为我生成一个电子表格公式。这是我发送的请求:

B 列包含一组值。我想将它们与“向下过滤”工作表中 E 列的相应值进行匹配,并使用公式从向下过滤中的 F、G 和 H 列中获取匹配值到当前工作表。

Claude是这样度过的:

克劳德创建了一个谷歌表格公式

Claude 试图制作一种简单的多用途公式,利用它在纸张中放置的位置来计算出要做什么,这很酷,但说实话,它可能不会那么快起作用,而且可能会被破坏。” Tech.co 的常驻电子表格专家 Matthew Bentley 说道。

“没有必要让简单的请求过于复杂”,他继续说道。“我认为 ChatGPT 对此更好。这是一个非常简单的 Vlookup 请求,不需要 Claude 提供的所有额外公式”。

最佳答案?ChatGPT

Claude 3 与 ChatGPT:UI 和用户体验

当然,ChatGPT 和 Claude 都非常易于使用,而且它们的界面在格式和结构上看起来非常相似。Gemini、Perplexity AI 和 Copilot也是如此。大多数聊天机器人都提供流畅、简单的用户体验。

然而,我喜欢 Anthropic 为 Claude 选择的平静语气,因为它符合聊天机器人的态度,这可能比它的一些竞争对手稍微谨慎一些。另一方面,ChatGPT 的灰色配色方案有时会让人感觉有点临床。总体而言,Anthropic 的设计仅比 ChatGPT 好一点。

与 Gemini 一样,Claude 通常在格式化答案方面做得更好,而 ChatGPT 则不擅长(在我们的Gemini 与 ChatGPT正面对决中了解更多信息)。尽管我经常看到 ChatGPT 使用标题来分解文本,但我喜欢 Claude 格式化其答案的方式。Claude 提供的另一件伟大的事情是一种不同的字体样式,让阅读困难的人更容易阅读。

然而,ChatGPT 是完全免费使用的,对你可以问的问题数量没有限制——而 Claude 的免费版本,如果你问太多问题,就会将你锁定,并迫使你等待 3-4 小时。你可以再问了。这使得它不太适合那些想要聊天机器人工作但又不想支付任何费用的人。

Claude 3 与 ChatGPT:数据和隐私

Claude 3 和 ChatGPT 对待用户的方式不同。如果您担心自己的隐私,了解他们保存、存储和查看的内容以及不保存的内容非常重要。ChatGPT 保留使用您的数据来训练其模型的权利,Claude 也这样做。OpenAI 和 Anthropic 都表示,他们对服务器和用户之间的连接进行端到端加密,以实现最大程度的安全性。

但是,Claude 商业和企业用户的提示和输出将在收到或生成后 28 天内自动删除,除非他们有法律义务保留更长时间或您另行同意。消费者用户的提示将在 90 天后被删除,但如果您的提示之一被标记为潜在恶意、有害或不安全,则该提示可能会保留最多两年。

ChatGPT 对您的数据执行的操作略有不同。本质上,如果您想保存聊天内容并让 ChatGPT 将它们保留在系统上,那么您也同意它们可用于训练模型,从这个意义上说,其他人也可以访问它们。如果您关闭聊天历史记录,您将无法保存任何聊天记录,但 ChatGPT 不会使用它来训练模型。ChatGPT API 中存储的任何业务数据都不会用于训练 GPT LLM。

在工作中使用聊天机器人

当然,企业可以通过多种方式使用 ChatGPT和 Claude 进行工作 - 事实上,我们在本文中提到了其中相当多的方式。但如果您在工作中经常使用聊天机器人,则有一些注意事项值得回顾。

例如,贵公司是否有一套使用人工智能工具的指南?如果您不确定,您应该向您的经理或部门负责人澄清这一点。您可能还不知道,您的公司可能对您可以输入第三方工具(甚至更具体地说是人工智能工具)的数据类型有严格的规定。

其次,您必须对人工智能的使用公开透明,尤其是对您的直线经理。关于哪些任务适合使用人工智能聊天机器人来完成的争论仍在继续,而您公司的其他人可能对您可以接受的任务有不同的想法。此外,大多数经理和企业领导者认为在使用人工智能工具之前应该寻求许可。

无论您使用人工智能工具执行什么任务,请记住检查他们的工作,就好像它是由新员工完成的一样。虽然人工智能工具在大多数情况下速度快得惊人且准确得惊人,但它当然也会产生幻觉并提供不正确的信息。所以,不要太得意忘形!


本文由号优优网uiuihao外文择译(来源:tech:作者:Aaron Drapkin)

声明:本文内容及配图来自互利网收集整理撰写或者入驻合作网站授权转载。文章及其配图仅供学习之用,如有内容图片侵权或者其他问题,请联系本站侵删。
-- 展开阅读全文 --
头像
Claude注册教程解决注册Claude3手机号验证问题
« 上一篇 03-06
在线AI智能写作助手小红书文案生成器 撰写润色工具在线文章创作脚本
下一篇 » 03-12
取消
微信二维码
微信二维码
支付宝二维码

发表评论

暂无评论,790人围观

作者信息

似水流年

今日已经过去小时
这周已经过去
本月已经过去
今年已经过去个月

热门文章

系统获取,无需修改

标签列表

目录[+]