Claude 3真的比GPT-4强吗？

wolf · 发表于 2024-9-19 14:54

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

Claude 3真的比GPT-4强吗？
原文地址：https://www.zhihu.com/question/647113899

同花顺 · 发表于 2024-9-19 14:54

当Claude 3 Opus刚刚发布时，它在LMSys榜单上一度登顶，超越了当时的领头羊GPT-4-1106-preview。
然而，这种领先的情况并未持续太久。OpenAI很快发布了GPT-4-Turbo-2024-04-09，这一新版本以更高的Arena Elo分数再次夺回了榜单的首位，使Claude 3 Opus滑落到了第二名的位置。这一变化反映了AI领域持续的创新和竞争，也表明OpenAI在保持其技术领先地位方面所做的努力。
最近的排名更新进一步加剧了这场竞赛的激烈程度。GPT-4-1106-preview不仅取得了对Claude 3 Opus的重大胜利，而且在排名中再次超越了它。尽管如此，Claude 3 Opus依旧保持着与OpenAI旗下模型接近的竞争水平。
查看最新的LMSys榜单，请访问这里。以下是部分排名情况：

Rank* (UB)	Model	Arena Elo	95% CI	Votes	Organization	License	Knowledge Cutoff
1	GPT-4-Turbo-2024-04-09	1257	+4/-3	30562	OpenAI	Proprietary	2023/12
1	GPT-4-1106-preview	1253	+3/-3	69871	OpenAI	Proprietary	2023/4
2	Claude 3 Opus	1251	+3/-3	75684	Anthropic	Proprietary	2023/8

以下是一些关于Claude 3 Opus和GPT-4比较的文章链接，可以访问这些页面以获取更深入的分析和用户反馈：

Compare Claude 3 Opus vs. GPT-4 - 对两个模型进行直接比较的分析。
GPT-4T vs Claude 3 Opus : r/ChatGPTPro - Reddit社区中用户对两款模型的讨论。
GPT-4 vs Claude 3 Opus: Task Specific Analysis - 针对特定任务的详细分析比较。
Ask HN: If you&#39;ve used GPT-4-Turbo and Claude Opus ... - Hacker News上的用户讨论，他们分享使用两个模型的经验。
GPT-4 Turbo vs. Claude 3 Opus vs. Gemini 1.5 Pro - 将顶尖三个大型语言模型进行对比。
How Good is Claude 3 Opus Compared to GPT-4, Gemini ... - LinkedIn上的一篇文章，讨论了Claude 3 Opus与其他模型的比较。
Compare GPT-4 Turbo vs. Claude 3 Opus - 另一个对GPT-4 Turbo和Claude 3 Opus进行比较的页面。

同花顺 · 发表于 2024-9-19 14:55

文首声明，没学过Python（以及任何编程语言，但因为爱做AI图经常需要看看GitHub），纯纯的编程小白。
<hr/>前几天突发奇想，想在Fooocus（用来运行SDXL的程序）里面加一个功能，就是可以使用多个音频作为任务完成效果声（默认只有一个），每次generate的时候从文件里随机选一个播放
最开始的时候问的是GPT4，意见看似很有逻辑很靠谱，把代码放进去尽是SyntaxError: &#39;break&#39; outside loop&#34;…NameError: name &#39;available_files&#39; is not defined&#34;…FileNotFoundError: [Errno 2] No such file or directory: &#39;t&#39;&#34;……搞得我都不耐烦了_(´□`」 ∠)_
同样的问题给了Claude 3 Opus，第一条建议就让我成功进入Fooocus界面成功播放随机音频了……但我发现这样改好像是每次打开程序才随机一次，我就跟它说，能不能我每按一次generate给我随机一次，它就帮我改了代码，又成功了_(:з」∠)_
过了一会我又说，这个随机好像经常会随机到同一个音频，能不能每次都放不一样的，直到都播放过一轮？它又帮我改了，又成功执行了(◍ ´꒳` ◍)；我不久后又问，你之前这个代码我只能一个个输文件名，好像有点不方便，能不能设置成读取目录下所有mp3文件？它又帮我改了，依旧成功执行(๑´ㅂ`๑)
全程特别耐心地给我解释这行代码是用来干啥的，纯小白如我也能大概看懂，开心

给大家看我沙雕主意的成果长啥样：

Bernard Fooocus
https://www.zhihu.com/video/1754387652873146368
于是我收获了一个每次做图都会吐槽用户的Bernard Fooocus哈哈哈哈哈ꉂ(ˊᗜˋ*)
<hr/>不过我后来又做了一个小测试，就是……识别一张梗图的笑点在哪儿 ( •ิ_• ิ)

（这是我自己做的一张胖吉猫remake梗图，相对来说比普通梗图复杂一些）

然后以下分别是Claude，Gemini，以及GPT4的回复：

Claude的回答感觉……怎么说呢，它已经努力了，但是它对这个梗图的使用方式还是没有完全的理解；Gemini失败得很彻底，文字是正确识别了但是角色特征、周围环境什么的识别得一塌糊涂，甚至莫名其妙声称图里有树有山（后面是草坪……），完全曲解梗图的意思；GPT4虽然没说中文，但是它是对梗图的使用方式理解最到位的，而且几个重点都抓到了，第一是，这张图是一个对于经典Anakin梗图的特别remake，第二是，这张梗图的使用方式是&#34;Anakin告诉Padme一件事，Padme以为他的意思是X（通常是单纯无害的句子），但没想到他的意思是Y（通常是黑暗危险的东西），在P2和P4中Padme重复了这一句话，由最初的&#34;肯定的默认&#34;变为&#34;突然怀疑&#34;&#34;——而在我制作的这版梗图里，我采用了一种meta的手法，表达&#34;我&#34;（图中的Anakin胖吉猫）&#34;can pusheenify everything&#34;，而图中的两个角色正好都被pusheenified了。Claude的猜想其实很接近了，如果我是一个完全不懂internet pop culture的人，第一次看到这张梗图，我也有这个可能会误解成Claude的回答。
<hr/>另外再说一下三家AI对于特定角色语气的模仿：我让它们生成一些，如果AI文生图工具是Bernard Black、它会发送给用户的任务完成通知。以下英文长截图预警！

ChatGPT的回复其实开头很好，挺符合Bernard语气和毒舌风格的，但是第三条的建议感觉有点走偏了，而且略显啰嗦……以及我后来说能不能控制在10-15词之间它也没有照我说的做，把它缩到5-8词了……

Claude的回答里我最喜欢的其实是第二条回复，感觉非常适合做通知音效，而且讽刺意味强，也很好笑很直白，不会完全focus在厌世感上而是着重roast用户，我最终做的音频选了不少这个里面的_(:з」∠)_最后一条也很符合我的要求，文字水平真的很厉害了

这个问题我还尝试了Gemini，虽然我用的不是Gemini Ultra，但是它的回答让我觉得Gemini有非常大的潜力——我在prompt里清楚地写了，这个通知效果声是要用于AI文生图工具里的，于是Gemini建议的很多句子都和&#34;AI图像生成&#34;这个主题密切相连，比如“看吧，你可疑的审美的视觉呈现。开心了？”，或者“喏，图给你整出来了，看了做噩梦别来跟我哭诉。”，或者“行吧，图做好了，去烦别人吧”
第二条回答我也非常喜欢，尤其是“叮！你的图好了。现在请恕我离开一下，我需要一杯烈酒来忘记我刚生成的怪东西”，“总算好了！在我改主意把你图片全删掉之前一边去”，“这图勉强还有点意思，勉强。但它还是对计算资源巨大的浪费。”，这几句我真的看笑了hhh

卡卡 · 发表于 2024-9-19 14:56

我测试的方向跟大家不一样，测试的是专业医学领域。
初步结论就是非常强大，令人震惊！
我试用了一下免费版的，提供了几张tct细胞图，让它分析下试试，因为朋友公司就在搞ai宫颈癌液基细胞诊断，做了有一段时间了，靠的就是大量数据训练，人工纠正。但局限性也不少，不同的染色效果都会对结果有影响。
结果claude不但准确的识别了我给的几个图，还给出了文字理由，告诉我判断结果的原因，

这一点，太强大了，可以说国内目前做ai诊断的，应该没有厂家可以给出文字描述。而且国内都是大量内部图片数据训练的。ai应该拿不到多少这种专业训练数据，大概率是根据医学常识来判断的。
这还怎么玩？
这个图丢给国内几个ai，基本没啥效果。

同花顺 · 发表于 2024-9-19 14:56

Claude 3刚刚发布当天，我跑了三百多个测试，当时的测试结论是Claude 3 Opus全面强于GPT4，且速度略快于GPT4。
但今天我突然感觉到GPT4的速度下降了（远慢于Opus），而且今天几乎所有问题Claude 3 Opus的效果都略逊于GPT4。困惑之余我拿GPT4跑了几个以前做过的测试，发现原来答错的内容突然又答对了……检查了下回答，GPT4今天也不偷懒了。
我XXX你CloseAI，我XXX你OpenEmail。
<hr/>国内外一圈测下来，应该说GPT4和Opus是断层式领先，多来点竞争者吧。

<hr/>Update 3/9
我XXX了，今天用着用着感觉又不对了，GPT4速度回升，回答质量两边几乎完全持平。重新运行几个测试，那几个之前只有Opus做对的，前两天GPT4也做对的题，如今两个都一起不会做了。
你们是懂做生意的！！！

长长的路 · 发表于 2024-9-19 14:56

我拿claude3 opus api裹上各种武装色功能，测了一下代码能力
整体来说，opus的水平，刷榜是显示超过gpt4的，但是我是这样感觉的，我有自己的场景代码
大多数是强迫使用某些第三方偏冷的库写算法，比如 python 调用 blender 写某些奇怪的图形学代码，整体就是差chatgpt4一丢丢，概率写出完全不能用的算法，逻辑没错，就是库接口完全是错的，而且缺乏通用性。其余热门库感觉和gpt4差不多了，比如写 torch 这些，但是claude写代码有种赛博莎士比亚感觉，有点剑走偏锋，就是人看的不如gpt那么机械和八股
不过价格和速度是比gpt4好多了
不过，每个大模型测试都是饭圈，我也只是针对自己场景测试得出的结论，目前我的场景要用claude代替gpt4，我还是有点没自信

图文播报

[分享] Claude 3真的比GPT-4强吗？

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心