为什么国内首发的大模型，反而不如新来的KIMI、豆包？

balabala · 发表于 2025-2-7 11:05

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

我记得刚开始时，国内的首发大模型文心一言、星火、盘古现在都没啥消息了，体验并不好，反而不如现在的KIMI、豆包等后起之秀，这说明了啥？你怎么看？

原文地址：https://www.zhihu.com/question/650086882

清风寡欲 · 发表于 2025-2-7 11:06

偶然发现一个豆包新功能，上传一张照片，再写一句话，就可以任意修改照片内容，这可比PS方便太多了。
打几个字就能轻松实现抠图换背景、换风格、换衣服、换发型、换道具、瘦身美颜等等各种效果，图片处理有了AI加持之后变得无比方便。

具体怎么使用呢？
只需要打开豆包官网，选择“图片生成”上传你需要修改的图片，也就是这里的参考图，同时需要输入一句提示词，也就是你想对照片进行什么样的修改。

比如把背景换成蓝色，把衣服换成裙子，把头发变成短发等等，你可以任意发挥想象力。

下面给大家测试几种常用的效果，看看有没有惊艳到你？
第一种：换背景
测试了蓝底证件照换成红底，换完之后人物肤色包括衣服都有一定影响，照片色调偏红，但整体质感还是OK的。

第二种：去水印
照片原有的即梦AI水印去除效果非常好，看不到任何痕迹，但下载新图时会自动打上豆包AI的水印...不太好用。

第三种：换衣服
这个就比较厉害了，以往照片换装还需要我们上传一张衣服图片，现在直接告诉AI换成什么衣服即可。

第四种：戴装饰
除了可以给人物换衣服，还可以增加各种佩饰，比如给她戴墨镜、戴帽子、戴项链...当然也可以去掉照片里的某样东西。

第五种：换道具
太强了！甚至可以把人物骑的电瓶车变成自行车，替换后的效果毫无违和感！同理，也可以把照片的小猫变成小狗，苹果变成桃子...

第六种：DIY恶搞
你甚至可以让模特拿上各种奇奇怪怪的道具，非常适合做一些大反差的图，比如萧何月下开车追韩信？孙悟空拿锅盖打白骨精？

第七种：换风格
比如把写实照片变成动漫风，或者调成黑白电影风格等等都可以。

以上只是我临时想到的一些AI修改照片的玩法，大家可以打开脑洞发挥想象力，让AI来实现你的各种创意，说不定能找到一个新的流量密码。
你只需要提供1%的灵感，AI帮你完成99%的劳动。
>>获取方式

传送门↓【复制到浏览器打开】

https://www.doubao.com/chat/create-image

- END -

清风寡欲 · 发表于 2025-2-7 11:07

只能说AI技术发展太快了。
哪怕你出发的早，但未必后来者就赶不上、超越不了你。说不定在不久的将来，又来一个KIYo、豆宝，火爆AI应用市场。
接下来2.5 k 字干货，通过多维度的分析，一文给你讲清五光十色的 AI 大模型世界！
一、kimi和豆包的用户规模

首先，我认为用户规模是衡量一个产品市场接受度的重要指标，我们来看看这两者的数据。
1、Kimi

2024年3月，Kimi的月活跃用户数达到1261万人，环比增长321%。
截至2024年7月，Kimi在Chrome商店的下载量为2万次。
在2024年2月18日至3月16日期间，Kimi的日均浏览量接近20万次，累计下载量为50万次。
2、豆包

截至2024年7月，豆包在Chrome商店的下载量为9万次。
QuestMobile数据显示，截至2024年7月，豆包的月活跃用户规模位居前五。
根据七麦数据，仅在iPhone渠道，豆包过去三个月的累计下载量为2223万。

以上数据充分展示了Kimi和豆包在市场上的快速增长和用户规模的扩大，其发展势头一片大好。为啥他们能获得如此战绩呢？
二、用户体验

其次在用户体验上两者都有较好的表现。
1、kimi大模型功能体验

比如kimi的功能对用户全开放免费使用，而且其界面简洁，反应速度也非常快。特别对长文的处理，远超国外主流 ChatGPT。对超长文档、多个文件，都可以快速摘要、翻译、答疑，支持上传 PDF、Word、Excel、PPT、TXT 文件和图片。
下面我们来亲自体验下其长文本处理效果：我找了有关企业文化相关的文件共50个，给kimi上传，让其进行解析。结果发现文件字数超过20万字，超过了限制。于是减到了21个文件后才能继续跟Kimi聊天。结果Kimi在30秒内完成阅读。如下图所示：

并在提示词框里输入我的要求：把这些文件进行分类，并提炼出其核心内容。结果在10秒内生成如下图。我发现其生成的用时跟网速有关。一般网速慢的话，可能输出的时间就较长。

另外，kimi在办公提效、辅助写作、社交娱乐、生活助手等上，都有非常不错的表现。比如你可以用它轻松一键就可以完成你的工作PPT，从内容到提纲，到排版到成片，几乎在1分钟之内完成，几乎都不需要你做任何事情。你如果感兴趣，不妨亲自试一试。就一个Kimi大模型，就能够满足你工作和生活上的许多应用。把你的办事效率直接提升到100%。

说到这里，想必你对Kimi与豆包的功能非常好奇了，其实这些都是AI大模型的一部分功能。如果你想了解更多全新AI模型的行业应用和技术原理，这里可以推荐一个热门AI科普公开课给你，课里有业内AI大佬主讲，会从大模型的基本原理，到AI应用，商业化落地等方面，系统化地输出，让你也能轻松了解AI最前沿的技术。
我本人也是通过这堂课，从一个AI小白到现在能够应用AI提高工作效率，尤其其中关于大模型应用产品的商业逻辑、设计原则、以及开发流程相关的内容，对我们在工作上会非常有帮助。
入口就在下面，你不妨试试吧~
相信你也会跟我一样，通过跟着AI大佬的学习，从不了解AI到拥抱AI。能把AI应用到工作中去，让工作变得高效简单。所以赶紧学习并用上吧。
2、豆包大模型功能体验

而豆包以其出色的交互式体验和强大的理解能力获得了用户的青睐。它能够以日常化、生活化的方式与用户交流，比如在手机版的豆包里，有很多聊天角色，如马斯克、齐天大圣、林黛玉等，这些人物的声音、形象以及回答的内容，及其与原生人物吻合。甚至你可以自定义一个你喜欢的人物，来与之对话。
特别是英语口语，如果你要练习自己的口语，就不用买复读机或者找外教了。豆包的英语口语聊天，简直就是一个免费的外国英语陪练导师。你不妨亲自一试吧！

为了测试下豆包的智商，我特意找了一个脑筋急转弯的题目给豆包做，如下图所示。结果豆包能够很好的回答出来，把几乎所有可能的答案都推理出来了。这个题目对于一般儿童智商，是没法做出来的，只有大人通过思考后，才会做出回答。而豆包却可以做到，可以说它是我们生活中的一位智者。遇到任何困难和问题，我们都可以问一问豆包了。

另外，豆包在图片生成上，也非常给力，目前是文本图像生成为主。我在提示词中输入：
帮我生成图片：图片风格为「卡通」，6岁小胖娃玩手机入迷，一只胖老虎来到身边都不知道。结果输出了我比较满意的图片效果。而且有四张图片可供我选择：

三、性能数据与评测结果

另外，性能数据这一项指标，也是衡量某大模型实力的直接证据。
在SuperCLUE发布的《中文大模型基准测评2024年上半年报告》中，对大部分大模型进行通用能力的测试上，OpenAI的GPT-4o以81分高居榜首，而阿里的通义千问开源模型Qwen2-72B-Instruct以77分并列第二，超越了文心一言4.0等其他大模型。这表明在综合性能上，新来的大模型如通义千问已经超越了国内首发的大模型。
如下图所示，通义千问提供了学习、生活、创作、绘画等智能体，其功能相当齐全，大家不妨去一一试试，会有想不到的体验。

四、创新能力与技术突破

在创新能力方面，新来的大模型似乎更具优势。例如，在视频生成赛道上，豆包推出了即梦AI，与通义千问推出的通义万相，各展示了其在视频内容创作方面的技术突破。但其质量效果可能还需要进行突破。
我上传一张人物照片测试过这两家的视频生成，在效果上不是掉帧就是把人物压缩了。大家可以亲自去测试一下，这里我就不展示了。但是国外的视频生成AI，在最近几天都有重大的突破，比如HeyGen、Runway ML、Renderforest等等。
而KIMI在文本写作和角色扮演上的能力，也显示了其在特定领域的创新潜力。
说了这么多，也说不完AI的应用状况和技术原理，如果你想系统地了解，我还是建议你好好听听，业界AI大佬的直播课，资深专家带你领略AI技术的魅力，深入研究AI大模型的功能，相信你会有意想不到的收获。能听专家的一堂课，比我们浏览网页，搜索资料等，要来的更加快捷和全面。我也是通过直播课才能进入AI应用赛道的。
点击下方链接，你不妨去瞅一瞅~
另外，豆包之所以这么火，跟抖音投入了大量的广告和字节跳动的资源支持有着很大的关系。酒香也怕巷子深，没有推广宣传，产品再好，也有可能被人遗忘。对于这一点豆包就做的很好。而KIMI通过不断的技术创新和优化用户体验，逐步得到了用户的认可，从而圈了一大批粉丝。
结论：

综上所述，国内首发的大模型虽然进入AI赛道比较早，但在用户规模、人机交互体验、功能创新、市场策略等等上，似乎并没有一路领先市场。相反新来的KIMI、豆包等大模型，通过不断的市场推广或技术创新，或优化用户体验，正在逐步发展壮大，甚至在某些方面超常发挥。
所以说，在AI发展领域，每一天都有新的创作、新的发现。如果不持续学习，不持续研发推广，很可能就被时代所淘汰。
今天就说到这里，我是九戒之歌，欢迎关注我不迷路！码字不易请点个赞，祝点赞的人一赞（战）成功！

继续前进 · 发表于 2025-2-7 11:07

kimi 是真的在模型下功夫
豆包纯粹利用抖音用户的偏好，定向采集相关数据，并优化了他们的模型，造成普通人误以为豆包很厉害，尤其是历史，语音相关的，完全利用国人好的那一口，那些自来熟的人给豆包打广告
而且，一个大模型行不行。。外挂也很重要，豆包外挂多如牛毛。。我就这么形容，简直就是一条臭鱼被辣椒柠檬+各种香料爆炒一遍后，然后也居然好吃了，掩盖了臭鱼的本质。产品能力一流，技术我得保持怀疑态度。
kimi 特么是我见过基本不强调外挂，用他们傻逼网页做的 chat，基本感觉等同于调用 api，完全不 care 产品人家咋想的。
另外，字节做的那些 coze 低代码，话炉这些，也不是字节下了啥大力气去搞，完全是搞些产品优先去拿市场态度，和 ab 数据，张一鸣需要知道矩阵反馈来获取下一步投资逻辑。
这些技术又不难。。我特么用开源都搞出一套，都给学生上课讲如何 npm 启动一个玩。。他们现在完全故意用这些产品去试探市场而已，反正中国再也没有公司的利润能超过字节，我急个甚？
等 kimi 死了，字节去偷，去抢，还是中国一哥，山沟沟码农毕生梦想就是去字节，然后小红书炫富去了。
实话说，字节唯一能做好的是视频生成，因为这个涉及抖音未来，抖音黄赌毒高管是高度重视的，集权才能拥有高度共识，才能做出好的技术。。自然语言大模型，字节内部互相抢资源赛马就 n 个组，算力都被平摊，经验也互相封锁，生怕对方超越，我就不信这种环境，他们能这么轻松做好，只能产品上各种辣椒香料掩盖臭鱼的本质。

大力水手 · 发表于 2025-2-7 11:08

其实是有几个客观原因的：

去年的很多大模型都是赶鸭子上架，最直接的是Robin厂长的：我们离OpenAI2个月。
从充分理解什么是预训练模型，如何做对齐，然后这东西怎么样有用的三步走来看，实际上所有人都在从头开始。
出品的速度在于Scailling Law三要素：数据、计算、参数规模，大厂并不是占据辗轧的领先优势：
- 数据：大厂（百度/讯飞）乍一看相对于初创公司有很大的数据优势，但当你仔细思考，这里的2-5T tokens，其实是要重新认真准备的，大厂可能在资源和工程师方面有优势，但数据know-how层面未必领先于初创公司，所以数据质量的高下还真不好说
- 计算：大厂确实卡多，这个要服，也是出品快的重要原因之一。
- 算法：百度最早的ernie是个bert，后来一直是encoder-decoder架构（有点像初代GLM），看到ChatGPT也得重头训，算法工程层面又有很多可以雕花的地方，比如long-context。但百度当时着急了，并没有雕花，追求的是先出活儿。
从产品到模型，其实是要高度耦合的，所以Kimi长文本在产品得到了很好的应用，模型测没有做雕花的，追起来也没那么容易，Kimi确实是无损上下文，大部分的大厂都是rag+滑动窗口的结合，效果确实未必比得上。
更不要忽略初创公司是一股绳，大厂里面利益山头都很复杂。

同花顺 · 发表于 2025-2-7 11:09

当年华为自己没有靠谱的团队，外包给别人训练了盘古。
现在当年训练盘古的人出来做自己的模型，这个模型就是KIMI。

图文播报

[分享] 为什么国内首发的大模型，反而不如新来的KIMI、豆包？

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心