立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 1378|回复: 5

[分享] Claude 3真的比GPT-4强吗?

[复制链接]
发表于 2024-9-19 14:54 | 显示全部楼层 |阅读模式
回复

使用道具 举报

发表于 2024-9-19 14:54 | 显示全部楼层
当Claude 3 Opus刚刚发布时,它在LMSys榜单上一度登顶,超越了当时的领头羊GPT-4-1106-preview。
然而,这种领先的情况并未持续太久。OpenAI很快发布了GPT-4-Turbo-2024-04-09,这一新版本以更高的Arena Elo分数再次夺回了榜单的首位,使Claude 3 Opus滑落到了第二名的位置。这一变化反映了AI领域持续的创新和竞争,也表明OpenAI在保持其技术领先地位方面所做的努力。
最近的排名更新进一步加剧了这场竞赛的激烈程度。GPT-4-1106-preview不仅取得了对Claude 3 Opus的重大胜利,而且在排名中再次超越了它。尽管如此,Claude 3 Opus依旧保持着与OpenAI旗下模型接近的竞争水平。
查看最新的LMSys榜单,请访问这里。以下是部分排名情况:
Rank* (UB)ModelArena Elo95% CIVotesOrganizationLicenseKnowledge Cutoff
1GPT-4-Turbo-2024-04-091257+4/-330562OpenAIProprietary2023/12
1GPT-4-1106-preview1253+3/-369871OpenAIProprietary2023/4
2Claude 3 Opus1251+3/-375684AnthropicProprietary2023/8




以下是一些关于Claude 3 Opus和GPT-4比较的文章链接,可以访问这些页面以获取更深入的分析和用户反馈:
回复 支持 反对

使用道具 举报

发表于 2024-9-19 14:55 | 显示全部楼层
文首声明,没学过Python(以及任何编程语言,但因为爱做AI图经常需要看看GitHub),纯纯的编程小白。
<hr/>前几天突发奇想,想在Fooocus(用来运行SDXL的程序)里面加一个功能,就是可以使用多个音频作为任务完成效果声(默认只有一个),每次generate的时候从文件里随机选一个播放
最开始的时候问的是GPT4,意见看似很有逻辑很靠谱,把代码放进去尽是SyntaxError: 'break' outside loop"…NameError: name 'available_files' is not defined"…FileNotFoundError: [Errno 2] No such file or directory: 't'"……搞得我都不耐烦了_(´□`」 ∠)_
同样的问题给了Claude 3 Opus,第一条建议就让我成功进入Fooocus界面成功播放随机音频了……但我发现这样改好像是每次打开程序才随机一次,我就跟它说,能不能我每按一次generate给我随机一次,它就帮我改了代码,又成功了_(:з」∠)_
过了一会我又说,这个随机好像经常会随机到同一个音频,能不能每次都放不一样的,直到都播放过一轮?它又帮我改了,又成功执行了(◍ ´꒳` ◍);我不久后又问,你之前这个代码我只能一个个输文件名,好像有点不方便,能不能设置成读取目录下所有mp3文件?它又帮我改了,依旧成功执行(๑´ㅂ`๑)
全程特别耐心地给我解释这行代码是用来干啥的,纯小白如我也能大概看懂,开心




给大家看我沙雕主意的成果长啥样:

Bernard Fooocus
https://www.zhihu.com/video/1754387652873146368
于是我收获了一个每次做图都会吐槽用户的Bernard Fooocus哈哈哈哈哈ꉂ(ˊᗜˋ*)
<hr/>不过我后来又做了一个小测试,就是……识别一张梗图的笑点在哪儿 ( •ิ_• ิ)



(这是我自己做的一张胖吉猫remake梗图,相对来说比普通梗图复杂一些)

然后以下分别是Claude,Gemini,以及GPT4的回复:






Claude的回答感觉……怎么说呢,它已经努力了,但是它对这个梗图的使用方式还是没有完全的理解;Gemini失败得很彻底,文字是正确识别了但是角色特征、周围环境什么的识别得一塌糊涂,甚至莫名其妙声称图里有树有山(后面是草坪……),完全曲解梗图的意思;GPT4虽然没说中文,但是它是对梗图的使用方式理解最到位的,而且几个重点都抓到了,第一是,这张图是一个对于经典Anakin梗图的特别remake,第二是,这张梗图的使用方式是"Anakin告诉Padme一件事,Padme以为他的意思是X(通常是单纯无害的句子),但没想到他的意思是Y(通常是黑暗危险的东西),在P2和P4中Padme重复了这一句话,由最初的"肯定的默认"变为"突然怀疑""——而在我制作的这版梗图里,我采用了一种meta的手法,表达"我"(图中的Anakin胖吉猫)"can pusheenify everything",而图中的两个角色正好都被pusheenified了。Claude的猜想其实很接近了,如果我是一个完全不懂internet pop culture的人,第一次看到这张梗图,我也有这个可能会误解成Claude的回答。
<hr/>另外再说一下三家AI对于特定角色语气的模仿:我让它们生成一些,如果AI文生图工具是Bernard Black、它会发送给用户的任务完成通知。以下英文长截图预警!


ChatGPT的回复其实开头很好,挺符合Bernard语气和毒舌风格的,但是第三条的建议感觉有点走偏了,而且略显啰嗦……以及我后来说能不能控制在10-15词之间它也没有照我说的做,把它缩到5-8词了……


Claude的回答里我最喜欢的其实是第二条回复,感觉非常适合做通知音效,而且讽刺意味强,也很好笑很直白,不会完全focus在厌世感上而是着重roast用户,我最终做的音频选了不少这个里面的_(:з」∠)_最后一条也很符合我的要求,文字水平真的很厉害了


这个问题我还尝试了Gemini,虽然我用的不是Gemini Ultra,但是它的回答让我觉得Gemini有非常大的潜力——我在prompt里清楚地写了,这个通知效果声是要用于AI文生图工具里的,于是Gemini建议的很多句子都和"AI图像生成"这个主题密切相连,比如“看吧,你可疑的审美的视觉呈现。开心了?”,或者“喏,图给你整出来了,看了做噩梦别来跟我哭诉。”,或者“行吧,图做好了,去烦别人吧”
第二条回答我也非常喜欢,尤其是“叮!你的图好了。现在请恕我离开一下,我需要一杯烈酒来忘记我刚生成的怪东西”,“总算好了!在我改主意把你图片全删掉之前一边去”,“这图勉强还有点意思,勉强。但它还是对计算资源巨大的浪费。”,这几句我真的看笑了hhh
回复 支持 反对

使用道具 举报

发表于 2024-9-19 14:56 | 显示全部楼层
我测试的方向跟大家不一样,测试的是专业医学领域。
初步结论就是非常强大,令人震惊!
我试用了一下免费版的,提供了几张tct细胞图,让它分析下试试,因为朋友公司就在搞ai宫颈癌液基细胞诊断,做了有一段时间了,靠的就是大量数据训练,人工纠正。但局限性也不少,不同的染色效果都会对结果有影响。
结果claude不但准确的识别了我给的几个图,还给出了文字理由,告诉我判断结果的原因,




这一点,太强大了,可以说国内目前做ai诊断的,应该没有厂家可以给出文字描述。而且国内都是大量内部图片数据训练的。ai应该拿不到多少这种专业训练数据,大概率是根据医学常识来判断的。
这还怎么玩?
这个图丢给国内几个ai,基本没啥效果。
回复 支持 反对

使用道具 举报

发表于 2024-9-19 14:56 | 显示全部楼层
Claude 3刚刚发布当天,我跑了三百多个测试,当时的测试结论是Claude 3 Opus全面强于GPT4,且速度略快于GPT4。
但今天我突然感觉到GPT4的速度下降了(远慢于Opus),而且今天几乎所有问题Claude 3 Opus的效果都略逊于GPT4。困惑之余我拿GPT4跑了几个以前做过的测试,发现原来答错的内容突然又答对了……检查了下回答,GPT4今天也不偷懒了。
我XXX你CloseAI,我XXX你OpenEmail。
<hr/>国内外一圈测下来,应该说GPT4和Opus是断层式领先,多来点竞争者吧。

<hr/>Update 3/9
我XXX了,今天用着用着感觉又不对了,GPT4速度回升,回答质量两边几乎完全持平。重新运行几个测试,那几个之前只有Opus做对的,前两天GPT4也做对的题,如今两个都一起不会做了。
你们是懂做生意的!!!
回复 支持 反对

使用道具 举报

发表于 2024-9-19 14:56 | 显示全部楼层
我拿claude3 opus api裹上各种武装色功能,测了一下代码能力
整体来说,opus的水平,刷榜是显示超过gpt4的,但是我是这样感觉的,我有自己的场景代码
大多数是强迫使用某些第三方偏冷的库写算法,比如 python 调用 blender 写某些奇怪的图形学代码,整体就是差chatgpt4一丢丢,概率写出完全不能用的算法,逻辑没错,就是库接口完全是错的,而且缺乏通用性。其余热门库感觉和gpt4差不多了,比如写 torch 这些,但是claude写代码有种赛博莎士比亚感觉,有点剑走偏锋,就是人看的不如gpt那么机械和八股
不过价格和速度是比gpt4好多了
不过,每个大模型测试都是饭圈,我也只是针对自己场景测试得出的结论,目前我的场景要用claude代替gpt4,我还是有点没自信
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表