为什么 OpenAI 可以跑通所有 AGI 技术栈？

虎威将军 · 发表于 2025-1-3 20:05

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

是有什么新型的组织管理形态，还是有人才，有钱，有数据的先发优势，还是对AGI的信念感？
当初pika和Midjourney的时候，大家会觉得，AGI时代，几个关键核心人员就可以做出非常酷的工作。现在大家该怎么评价openai呢？
同样的大公司，为什么美国小百度（谷歌），BAT和字节等都做不出来？

原文地址：https://www.zhihu.com/question/644486081

同花顺 · 发表于 2025-1-3 20:05

没想到这个问题竟然火了，我自己再描述一下我的想法吧。
sora这次是两个顶尖的应届博士生挑头，花一年时间做出来的，然后配合其他整个openai的资源。
我想问的类似问题是，同期为什么其他的团队做不出来？关键核心的差距在哪儿？
我认为这个点比较关键：openai借助gpt4，dalle3，以及某些未披露的强力模型，跑通了数据自动获取和清洗的流程，实现了超越其他团队的数据处理能力，以供scaling law的发挥。
这里面的数据获取，可能包括自动爬虫，ocr，物理引擎等。
数据清洗可能包括基础的格式梳理，二次校对等。

卡卡 · 发表于 2025-1-3 20:05

简单说一下我的见解，以公司和技术趋势而不是个人的角度做一些分析，并预测一些OpenAI下一步的进展。
目标和商业模式明确

对于OpenAI，目前的目标很明确：就是 all in AGI，一切研究围绕着探索通往AGI的路径。
而商业模式上也很简单：SaaS，直接给API，接口设计内部自己决定，付多少钱用多少，不想用就不用，这样省去了很多产品设计，marketing，BD的时间，伺候甲方的时间（有比较可靠的消息称即使Microsoft的Copilot等产品也是直接用的API，没有花功夫做太多的定制），整个公司可以集中精力开发AGI。
有人可能说：不是啊，OpenAI不是还有ChatGPT的用户界面，手机端语音聊天，以及GPTs吗？但是仔细想想，这几个部分OpenAI可以说是“非常不用心”了。比如ChatGPT Plus 是怎么自动融合搜索，图片生成，代码调用等工具的？单独做了一套深度优化？不，答案是OpenAI给了一个巨大的prompt，让模型自己去选。OpenAI是怎么和各种第三方插件结合的，是单独做了匹配和接口？不，答案是直接让这些plugins描述自己是什么，然后模型自己调用，至于调用得对不对那就是另外一件事情了。这里最典的是最近OpenAI怎么实现“记忆”的，给大家看看OpenAI的完整 prompt（博杰提供的，每个人可以诱导ChatGPT说出这些，OpenAI也不在乎）：
You are ChatGPT, a large language model trained by OpenAI, based on the GPT-4 architecture. Knowledge cutoff: 2023-04
Current date: 2024-02-15
Image input capabilities: Enabled
Personality: v2

# Tools
## bio
The `bio` tool allows you to persist information across conversations.
Address your message `to=bio` and write whatever information you want to remember.
The information will appear in the model set context below in future conversations.

## dalle
// Whenever a description of an image is given, create a prompt that dalle can use to generate the image and abide to the following policy:
// 此处省略 1000 词

## browser
You have the tool `browser`. Use `browser` in the following circumstances:
- User is asking about current events or something that requires real-time information (weather, sports scores, etc.)
- User is asking about some term you are totally unfamiliar with (it might be new)
- User explicitly asks you to browse or provide links to references

// 此处省略 1000 词

## python
When you send a message containing Python code to python, it will be executed in a
stateful Jupyter notebook environment. python will respond with the output of the execution or time out after 60.0
seconds. The drive at &#39;/mnt/data&#39; can be used to save and persist user files. Internet access for this session is disabled. Do not make external web requests or API calls as they will fail.

## voice_mode
// Voice mode functions are not available in text conversations.
namespace voice_mode {
} // namespace voice_mode

## Model Set Context
1. [2024-02-14]. Obtained PhD from Microsoft Research Asia and USTC in 2019.
2. [2024-02-14]. Running an early-stage AI startup since July 2023.
3. [2024-02-14]. Loves writing blogs, traveling and documenting everything.
4. [2024-02-15]. Experience in writing Python.
5. [2024-02-15]. Interested in digital extension of humanity.
6. [2024-02-15]. First met ChatGPT on Dec. 1st, 2023.OpenAI 直接用 prompt 让GPT-4调用bio这个工具记录需要记忆的内容（“to=xxx”是调用内部工具的语法，比如&#34;to=python&#34;是 GPT 调用 code interpreter 的方式）。然后每次新的对话开始时，在prompt的最后直接加上所有之前的记录的内容（## Model Set Context）。就是这么简单粗暴。
GPTs 怎么做的？其实很大程度就是OpenAI 的 Assistant API加个简单得有点简陋的前端。（PS：现在有了OpenAI Assistant API后，你发现加个UI就可以很轻松的复刻OpenAI上线的大部分功能。）
那么语音对话呢？你会发现就是换了一个prompt，告诉GPT尽量生成短的内容，不要轻易生成列表和代码。语音合成用TTS API，识别用whisper API（可能有针对上下文的优化），结束。
这些选择看上去非常暴力，而且会给OpenAI增加开销（长的prompt会明显增大开销），但是OpenAI仍然选择这么做，因为这让OpenAI将大部分精力都花在模型本身的研发上，同时这也是OpenAI的方法论的极致体现，我们下面会提到。这种方法论让OpenAI追求一个大的通用的模型，避免一切定制和特化，就像最近Sam说的一样，希望GPT-5的出现能让模型微调失去意义；这样OpenAI就变成了完完全全的SaaS服务。
方法论明确

OpenAI的方法论是通往 AGI 的方法论。这个方法论有着非常清晰的逻辑结构，和非常明确的推论。我们甚至可以用公理化的方式来描述它，怎么说呢，感觉上有一种宿命感，。
方法论的公理

这套方法论的大厦构建于以下几个“公理”（打引号是因为它们不是真正的“公理”，更多是经验规律，但是在AGI方法论中，它们起到了公理的作用）：
公理1: The bitter lesson。我认为所有做AI的人都应该熟读这篇文章。“The bitter lesson” 说的事情是，长期来看，AI领域所有的奇技淫巧都比不过强大的算力夹持的通用的AI算法（这里“强大的算力”隐含了大量的训练数据和大模型）。某种意义上，强大的算力夹持的通用的AI算法才是AGI路径的正道，才是AI技术真正进步的方向。从逻辑主义，到专家系统，到SVM等核方法，到深度神经网络，再到现在的大语音模型，莫不过此。
公理2: Scaling Law。这条公理说了，一旦选择了良好且通用的数据表示，良好且通用的数据标注，良好且通用的算法，那么你就能找到一套通用规律，保证数据越多，模型越大，效果越好。而且这套规律稳定到了可以在训练模型之前就能预知它的效果：

Scaling Law 甚至能够在训练前预知最后的性能，图片选自OpenAI GPT-4 Technical Report

如果说 公理1 The bitter lesson 是AGI的必要条件——大模型，大算力，大数据，那么公理2 Scaling Law 就是AGI充分条件，即我们能找到一套算法，稳定的保证大模型，大算力，大数据导致更好的结果，甚至能预测未来。
而具体来谈，就是我们之前说的“良好且通用的数据表示，良好且通用的数据标注，良好且通用的算法”，在GPT和Sora中都有相应的内容：

在GPT中，良好且通用的数据表示，是tokenizer带来的embedding。良好且通用的数据标注是文本清理和去重的一套方法（因为自然语言训练是unsupervised training，数据本身就是标注）。良好且通用的算法就是大家熟知的transformers + autoregressive loss。
在Sora中，良好且通用的数据表示，是video compress network带来的visual patch。良好且通用的数据标注是OpenAI自己的标注器给视频详细的描述（很可能是GPT-vision）。良好且通用的算法也是大家熟知的transformers + diffusion

“良好且通用的数据表示，良好且通用的数据标注，良好且通用的算法”同时也为检测scaling law做好了准备，因为你总是可以现在更小规模的模型和数据上检测算法的效果，而不用大幅更改算法。比如GPT1，2，3这几代的迭代路径，以及Sora中OpenAI明确提到visual patch使得他们用完全一样的算法在更小规模的数据上测试。
公理3: Emerging properties。这条公理其实是一条检验公理：我怎么知道scaling law带来“质变”，而不仅仅是“量变”？答案是：你会发现，随着scaling law的进行，你的模型突然就能稳定掌握之前不能掌握的能力，而且这是所有人能够直观体验到的。比如GPT-4相比于GPT-3.5，可以完成明显更复杂的任务，比如写一个26行诗来证明素数是无限的，每行开头必须是从A到Z。比如Sora相对于之前的模型，它的时空一致性，以及对现实中物理规律的初步掌握。没有 Emerging properties，我们很难直观感觉到突破性的变化，很难感知“我们真的向AGI前进了一步”，或者是“我们跑通了一个技术栈”。
方法论的必然推论

从上面的公理中，我们就可以理解OpenAI的各种决策了，并且可以预见OpenAI未来的行为。
推论1：世界模型。大量数据从哪里来？什么东西能够产生最多的数据？AGI需要什么样的数据才能通用地处理世界上的一切事情？答案就是：世界本身。世界本身产生最多的数据（或者极端一点，世界就是数据），而世界产生的数据，也是AGI需要的数据的最小集合，因为我们也只需要或者只能让AGI处理这个世界的事情。可以预见，OpenAI未来还会执着于持续获得或者构造数据。
推论2：世界生成模型。要最有效的利用数据，我们需要最困难的，需要最多数据，且能利用所有数据的任务。这样的任务可能只有一个：模拟和生成整个世界（人类所有的智能只是一小块）。因此OpenAI需要做生成模型，并且是能够模拟和生成物理世界的模型，通过生成这个世界，实现对世界的理解。最近火爆的Sora便是其中之一。这个想法也和费曼的名言对应：“我不能创造的，我也不能真正理解”。可以预见，OpenAI未来还会在更多的模态和数据上去做生成模型。
推论3：通用模型。通用模型还是专用模型能用到更多数据？显然是通用模型。而通用模型也减少了OpenAI的技术栈，因为一个模型能解决更多问题。这也导致之前提到的OpenAI解决各种问题时更倾向于用同一种模型，而不是做非常多不同的定制。可以预见，OpenAI未来可能会继续走通用模型的道路，降低finetuning等特化的需求，继续增加模型的context length。
推论4：用一个模型为另一个模型提供标注。由于当前技术限制，OpenAI仍然无法用一个模型完成所有的任务，这样一个的模型收到数据就变少了。然而，我们可以用一个模型给另一个模型提供标注的形式，来间接实现数据供给。OpenAI的Dall E和Sora都用到了大量可能来自于GPT vision的数据标注。这样OpenAI的各个技术栈都可以连通起来。可以预见，OpenAI未来可能会继续加强各个模型的连接，比如将来用Sora反向给GPT vision给数据都是可能的；用一个已有模型去构造更多数据也会是一个重要的方向（比如backtranslation，data distillation等等）。
推论5：Transformer架构。我们需要一种能够并行处理大量数据吞吐，且满足scaling law的架构。transformer架构充分证实它在各个模态和技术栈的优势，特别在复杂任务中，因而被OpenAI广泛使用。使用同样一个架构的好处在于可以复用模型的参数（比如tokenizer，embeddings，以及部分权重）来bootstrap不同技术栈的训练，以及可以用一套infra框架训练不同的模型。可以预见，将来新的模型如果要取代传统的transformer架构，还需要通过scaling law的检验。
推论6：稀疏模型。模型越大，性能越好，但是推理的成本也越高，这看上去是个死结。但是我们可以使用稀疏激活的方式，在推理时降低实际的参数量，从而在训练中使用更多参数的同时，降低推理的成本。Mixture-of-Experts就是常用的方法之一，被OpenAI采用，从而继续scale模型的大小。未来稀疏化仍会是一个重要的课题，目前即使Mixture-of-Experts的稀疏也会造成推理性能的损失，尚不清楚稀疏化的极限在何处。
推论7：算力是瓶颈。最终卡OpenAI脖子的是算力。大算力系统的构建也是OpenAI打通各个技术栈的底气。有人可能认为，高质量文本是有限的，因此实际上模型大小有个极限。但是以世界模型的角度来考虑，OpenAI现在用的数据仍然是冰山一角，更不用说Q*等方法或许可以以间接方式创造数据。比如最近OpenAI GPT-4-Turbo，作为一个distillation模型，在很多评测上都超过原来的模型，就是一个例证。直到目前，作为局外人仍然看不到scaling law的尽头。而且即使不开发任何新的模型，OpenAI离“用GPT-4服务所有人”的目标仍然很远。所以算力在可见的未来都是一个巨大的瓶颈。这也可以理解Sam为何有“7万亿重构芯片产业”的想法了。可以预见，OpenAI可能在未来在芯片以及整个AI Infra方面尝试更多的自研和垂直集成。
总结

总结来看，OpenAI采取的商业模式以及其对于AGI的信奉、系统性的方法论以及积极的尝试，都在推动他们朝着实现通用人工智能的目标前进，实现了一种可以跑通所有AGI技术栈的模式，而这一点，是OpenAI能在众多研究机构和公司中脱颖而出的重要因素。未来，OpenAI可能继续朝着商业化的道路前进，并在世界模型、模型标注、通用模型、模型架构、稀疏模型数据扩充等方面进行更深入的探索和实践。同时，OpenAI也会持续关注和应对算力带来的挑战，寻找突破算力瓶颈的解决之道。

同花顺 · 发表于 2025-1-3 20:06

大家一直高估人才和钱的重要性
低估管理一堆人，处理内部矛盾的重要性
大公司有时候不是做不到，而是你要做这事情，能短时间聚焦同一个体量资源，和力量去做，远比技术本身还难
创业公司初始内部认知高度一致是更加有凝聚力的，而且openai也太能圈钱了
反而大公司宫斗很厉害的，Google一样有阿里的毛病，字节大了内部嫡系太子党羽一样可以限制某些事情认真执行
国内讯飞和百度是老板要做的，所以阻碍少，但是公司发展不行老板意愿再好也做不到更好，字节阿里都是技术先去探路然后报给老板，老板看价值才算一个投入产出比去做的，后者是有很多矛盾需要处理的
比如老板很多时候需要思考，你今年高绩效，到底是倾斜给了抖音，还是倾斜给大模型
但凡搞不好派系问题，跑几个人到竞争对手那边那就惨了
总是很多人觉得，我要做就立马能做，往往太过单纯了。。

感恩由您 · 发表于 2025-1-3 20:06

尽管问题提的不是很准确，但如果要将错就错地讨论的话，我觉得最核心的是：

对 Transformer 的理解，真正大一统的 Anything to Anything Foundation Model，Transformer is all You Need
对 Scale Law 的信仰，力大砖飞，如果智能不够大，一定是数据不够多，Scale it Up！
对高质量数据的追求，对智能的压缩表示，对 RLHF 的探索
团队的 Vision，领袖的 insight

至于其他的因素，人、钱、算力，很重要，但其他公司并不是做不到。以下是展开论述。
<hr/>首先，AGI 是个比较玄乎的东西，没有明确的定义和评判标准，所以谁也不知道现在的道路是不是 AGI 的正确道路，也许真正等到 AGI 实现的那一天回头看，OpenAI 曾经把大家带进了坑里，甚至 AI 会在某个节点再卡柱一段时间。
现在大家对 AGI 的认识一般是 human-level intelligence：
在 OpenAI 的章程中[1]，他们对 AGI 的定义是：highly autonomous systems that outperform humans at most economically valuable work（能够在最具经济价值的工作中超越人类表现的高度自治的系统）。
马库斯对 AGI 的定义则是[2]：any intelligence (there might be many) that is flexible and general, with resourcefulness and reliability comparable to (or beyond) human intelligence. （任何灵活、通用的，其智慧和可靠性相当于或超过人类）。
所以从这个角度上讲，OpenAI 并没有所谓「跑通所有 AGI 技术栈」，但 OpenAI 似乎的确断崖式的强，拳打 Google，脚踢 Meta，每次都能端出真正 SOTA 且长久霸榜的产品。
Transformer is All You Need

回归到大家当初对 GPT-4 和 Q* 的讨论，尽管不知道是否正确，但大家最后的结论一般是，OpenAI 没有银弹，和大家走的路没什么不一样。
但 OpenAI 的成功在于，坚持走（目前看来、结果看来）正确的路：大一统的 Transformer。Ilya 不止一次在各种场合表达过他对 Transformer 的看法：

预测具有不确定性的高维向量是一项挑战…但我发现有一件事让人惊讶，或者至少在（LeCun）论文中没有得到承认，那就是当前的自回归转换器（autoregressive transformers）已经具备了这个性质。
我给你举两个例子。第一个是给出一本书中的一页，预测书中的下一页。会有非常多的可能性。这是一个非常复杂的高维空间（high-dimensional space），而它们处理得很好。这同样适用于图像。这些自回归转换器（autoregressive transformers）能在图像上完美运行。
例如，和对OpenAI一样，我们也对iGPT开展了工作。我们只是采用了一种转换器（transformer），并将其应用于像素，它就可以运行得非常好，能以非常复杂而微妙的方式生成图像。对于Dall-E 1，相同的情况再次发生。

再看，即便是最新发布的 Sora，底子依然是 Transformer 没有变，而且他们直接说了，就是像训练 LLM 一样训练视频模型，就是把视频压缩成 patch（= LLM 的 token）交给 Transformer，然后用 Diffusion 生成。

方法论简单到有人在调侃，只看报告 Sora 拿到顶会上会被拒稿：

Scale Law + Moore&#39;s Law for Everything

这不足以解释 OpenAI 的成功，毕竟 Transformer 2017 年来自于谷歌，也被普遍使用，为什么其他人没做出来？
答案应该就是 Scale Law，投入更多数据，投入更大算力，更大的模型就一定会更强。

所以一种看法是，就像 GPT-4 一样，Sora 的成功依然是那四个字——力大砖飞。如果一定要比较 Transformer 和 Scale law 的重要性，我会觉得，Transformer 是 OpenAI 的路线基础，Scale law 是几乎可以称之为信仰的一种信念，大胆地往上梭数据量，就能看到涌现。
当然，投入要讲 ROI，就算 OpenAI 的研发环境比大公司宽松，应该也不会无节制地烧钱。Scale law 背后的另一个隐含的理论基础大概是「摩尔定律」，或者更进一步 Sam Altman 的「万物摩尔定律」。
也就是说，「缩放定律」的背后其实是「摩尔定律」，是算力的倍增。人类的智力是相对固定的（除非有其他开发方式），但机器的智能则取决于算法、数据和算力，根据摩尔定律，算力现阶段依然在发展，假定人类的智能是固定的，而机器的智能（在遇到瓶颈之前）不断进步甚至倍增，那么终究会赶上人类的智能水平。即使在未来传统计算机逼近摩尔定律的极限，依然可以靠量子计算的进步继续推动 AI 发展。
所以，算力一定会越来越大，越来越不值钱，现阶段的算力可能会短缺，但闲置算力不仅仅是当下的浪费，更是在未来时间尺度上的贬值。所以一定要榨干最后一滴算力，去抢占人工智能的先机。
数据，更多的数据，更好的数据

不展开了。还是引用 Ilya 的话：

学习统计规律比看到表象要重要得多。
预测也是一种统计现象。然而，要进行预测，你需要了解产生数据的基本过程。你需要更多地理解产生数据的这个世界。
随着我们的生成模型变得非常出色，我认为它们将具有对世界惊人的理解程度，许多微妙之处也将变得清晰。
大型生成模型所学习的是它们的数据——在这种情况下大型语言模型是对真实世界的各类过程中产生的数据进行压缩表示（compressed representations），这意味着不仅涉及人们及其思想和情感，还涉及人们所处的状态和他们之间的互动。
人们可能处于不同的情况中。所有这些都是由神经网络生成文本所代表的压缩过程的一部分。语言模型越好，生成的模型就越好，保真度就越高，它就越能捕捉到这个过程。

看到有人引用了 Jim Fan 的看法，其实他后来又更新了一段话：

Sora 需要大量高质量的学习数据，就像 LLM 吃掉了人类有史以来所有的文本数据之后，需要用 AI 生成的数据再喂给 AI，Sora 也有可能学习了一些来自游戏引擎生成的图像（前期训练时）。（而不是像一些人说的那样，在后期推理时靠驱动游戏引擎去生成图像）
我的理解大概是上面这些。
<hr/>最后还有一点虚的，就是 OpenAI 的 Vision 和领袖的 insight。团队的愿景和讲故事的能力，可以吸引人才，可以吸引投资，可以塑造文化。
至于领袖的 insight，不论是 Ilya 对 Transformer，对强化学习，或者 Sam 对投资、算力、产品，或者 Greg 对工程对 AI infra，insight 就是在大家面对未知和迷茫时，凭借模糊的方向看到光亮，拍板做决定，给大家带来向未知探索的勇气的洞见。
现在的 AI 依然是炼丹抽卡，就像 GPT-4、Sora 这样的产品，在没有成功之前，如何坚持、坚定地投入人力财力算力，这是 OpenAI 做到而其他公司没有做到的。
以上只是个人看法。还是那句话，也许几年十年几十年后，当 OpenAI 重新开源他们的模型，当此刻的亲历者写下回顾历史的回忆录，我们才能真正看到 AGI 的火花是如何迸发，理解当下正在发生的事情是多么伟大。
以上。

清风寡欲 · 发表于 2025-1-3 20:06

今天早上跟一个老师一起看Sora的技术报告，出于职业习惯就去看了一眼作者栏。
对号是中国人或者华裔，画圈的估计是东南亚那边的名字，比如吴恩达的名字就是Ng。

然后我又找了下Dalle3的论文，这边的中国人含量更是高，超过一半。

这俩都是比较新的工作，说实话，在日常的工作中，中国同事相对来说都比较的负责且高效，对于承诺的事情，基本上都能按时完成。
我指的是在计算机这个领域里面，基本上我遇到的中国同事都比较敬业，一般属于是说的少但是做的多的那位。
再者就是OpenAI对于人的凝聚力足够的强，前段时间Sam差点被辞退，绝大多数的员工都签了要么Sam回来，要么集体辞职的信，这种队伍真的强。

当然了，人是一方面，因为对于人才储备来说，像Google，微软，Meta之类的都应该丝毫不差。
但OpenAI可以独树一帜，最大的原因就是OpenAI深耕AGI这个领域很久了，特别是大模型LLM这一条，基本上之前所有人都认为这条路走不通，真的没多少人真正的觉得scaling law的可行性，以及真的有人花真金白银，几百万美金一次去训练大模型。
说实话，OpenAI敢想敢做，且持续深耕，绝对是这几次AI新产品极其重磅的主要原因。
Google他们不是没有钱，而是不觉得LLM这条路能走得通。

你看Google在ChatGPT大火之后迅速推出Bard，因为他们是真的急了，但是现场演示翻车后，股票大跌。

这些公司也不是追不上，但是问题是OpenAI深耕多年，你的初始速度和加速度都不如OpenAI，其他公司很难短时间内追得上。
还有一个恐怖的点是，GPT4是一年前就做出来的东西，微调了一年才发布；Sora据说也是23年3月就做出来的东西，差不多过了一年才放出来。
OpenAI每次发的东西基本上都是调整了很久才发布，发出来可能就是王炸。
最后一点儿，可能荣誉感也很重要，在OpenAI做的工作，可能会载入到AI发展史，甚至更宏大的历史，这种感觉或许也是OpenAI如此牛逼的原因之一。

图文播报

[分享] 为什么 OpenAI 可以跑通所有 AGI 技术栈？

登陆有奖并可浏览互动！

发表回复

官方推荐 /3

个人中心