大语言模型中的涌现现象是不是伪科学？

青草 · 发表于 2025-3-31 22:45

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

大语言模型中的涌现现象是不是伪科学？
原文地址：https://www.zhihu.com/question/587177332

检验医师 · 发表于 2025-3-31 22:45

本回答是专栏文章的威力加强版[1]，不保证勘误或者更新。
空门：Perturbation is the Way<hr/>TL;DR;

涌现这个说法不是很合适，因为大语言模型可以用条件概率分布表征，原始分布几乎没有零概率的 token，所以所有的合法序列都有非零概率[2]。如果借用 no-design laws 来描述，就比较科学了。不过，相关的论文都是纯粹的 observational study，即便达到 mechanistic interpretability 的高度也只是现象学，所以谈不上科学或者伪科学。
我觉得真正有意思的问题是，为什么简单的自回归训练能够让语言模型唬住各路大佬，能让 LeCun 气急败坏，也能让 Hinton 亲自下场发表观点。
我抛块砖出来 —— 这是微扰和准临界现象的功劳。
Ubiquitous Perturbation

微扰这个术语已经困扰了我多年，它似乎是物理学家最喜欢的一种计算工具。在量子力学的语境下，微扰论[3]似乎跟数学意义上的摄动法不太一样[4]，比如个别知乎大佬就认为这是中文翻译的问题[5]。抛开微扰这个翻译是否合理不谈，它显然是一种近似计算的工具，总是用一个简单的系统通过某种修正去近似更复杂的系统。大家最熟悉的泰勒展开就是微扰法的一个特例[6]。甚至有某个我关注过的知乎大佬说路径积分也是微扰论的一个方法[7]，只是以我对量子力学肤浅的了解无法判断其正确性。
由于数学中的摄动法通常是为了寻找一些非线性系统的近似解，我对它并没有太多的重视[8]。而且无论在哪个版本中，微扰都需要性质非常好的代数结构，比如泰勒展开的前提是函数是解析的，而量子力学需要 Hilbert Space[9][10]。而且我发现大多数可计算问题其实都跟 fiber bundle 和 manifold 没啥关系[11]，深度学习领域所谓的流形在数学家看来属于 not even wrong。
然而，当我后知后觉的发现 Latent Diffusion 也是微扰法的某种变体之后，我发现自己错得有点离谱。意识到这一点之后，我还用类似的策略解决了一些实际的工程问题[12]。很显然，（广义的）微扰法的适用范围比我想象的要大很多。最近开始分析 LLaMA 系列模型的名义分布之后[13]，我才发现 LLaMA-30B 这样的模型在微扰下具备稳定性，而且它所谓的涌现能力只体现在局部测地线的邻域[14]。
那么，是不是可以认为 LLaMA 这样的 LLMs 也是微扰法显灵的奇观呢？
我很不情愿地认同这种观点[15]，并宣称 —— 微扰法自古以来[16]就是修正主义路线[17]不可分割的一部分。
Edge of Stability[18]

几年前我就发现深度模型的训练过程大致是一个包含随机扰动的动力学过程。在一些小自由度的模型中，使用小 batch 训练反而能取得更好的泛化能力[19]。而且大多数监督学习都存在平衡态假设，所以我一直有个大致的概念模型，认为训练过程的轨迹大致是连续，不能在参数空间里面找到很多有趣的东西。
但是在 Latent Diffusion 开始，我之前的很多假设都不再成立。Latent Diffusion 通过引入高斯噪声破坏了平衡态假设，而且推理过程也是个动力学过程，它和简单的前馈神经网络存在实质性的区别。在刚开始接触 Stable Diffusion 的时候，我意识到 DDPM 是一个微扰求解非线性算符的算法，并热衷于利用它的性质制作插值视频[20]。仅仅用微扰和稳定性无法解释 Stable Diffusion 的成功，在各种采样视频中都能看到，图像似乎是从噪声模式中涌现出来的。后来我才逐渐发现，在 Stable Diffusion 中，CFG 破坏了可逆性[21]并且导致对称性破缺[22]。在动力学系统稳定性被破坏的时候，采样过程出现了实质性的飞跃。这种性质类似于物理学系统中的相变。
不难想象，专业的研究者很早就注意到类似的现象，并进行系统的研究——
Toy Models of Superposition (transformer-circuits.pub)

连相图都画出来了

就连 Sebastien Bubeck 都开始讨论 Physics of AI[23]，我当然也得抛出些关于准临界现象的暴论[24]。
我的猜想大致如下：
当训练过程经历某些（准）相变之后，LLaMA-[30B, 65B] 在微扰下可以探索之前无法到达的参数空间，从而具备了更强的表征能力。这类参数空间对于更小的模型是不可到达的。LLaMA-13B 很可能存在类似的参数空间，只不过很难[25]通过同样的微扰到达这些参数空间。
相变和准临界现象通常意味着系统中出现长程相关，无法用还原论的典型套路来处理。例如 Anthropic 的研究者就发现，Transformer 可能会使用所谓的 Induction Head 来做 in-context learning[26]——

个人觉得实际情况比 Toy Model 更复杂

No Design[27]

有些人似乎对涌现/Emergence 这个说法并不满意[28]，我并不能苟同。最关键的问题是并没有 emergence 的严格定义，如果使用类似相变和临界现象的定义，那么所有的计算模型都不可能出现严格意义上的涌现[29]。如果自然语言需要像数学语言那么严谨，那正常人类都没办法沟通。
不过，我们的确应该找一个比涌现更好的术语来描述所谓的涌现能力。我建议借用 Constructor Theory of Life 中的 no-design laws[30]，因为 LLaMA-[30B, 65B] 这样的模型表现出的某些能力并不是人为设计的。这些模型仅仅是一个使用了特殊位置编码的 decoder-only Transformer，设计者并未考虑过前面提到的 in-context learning 或者 induction head。这些模型只是按照自回归的语言模型进行训练，唯一的目标是预测下一个 token 的条件概率分布。Meta 并没有在模型结构和训练中编码任何特别的先验信息，但是 LLaMA-65B 却能够模拟人类的乖张和存在主义风格的吐槽[31]。
虽然还没有证据表明各种 Transformer 的变种[32]都能涌现出 LLaMA-[30B, 65B] 相当的能力，但是很多不同结构、不同数据集训练的 Transformer 都能够超越 LLaMA-13B[33]。这也间接地印证了 no-design thesis 的有效性。无需任何祖传秘方，只要有足够的算力和数据，任何人都有可能复现甚至超越 LLaMA-[30B, 65B]。
只有 no-design thesis 才能合理化[34] LLaMA-65B 注意力机制中独特的层次结构 ——

LLaMA-65B 中的注意力结构

如果 no-design thesis 成立，那么基于 Transformer 的 LLMs 可以被当作一种发现[35]，应该存在更多的计算模型可以超越现有的 LLMs。在新的计算范式下，通过精心设计在模型中引入先验信息，可能还不如用个简单但是并行度好的模型大力出奇迹。相当一部分人（包括一年前的我），都无法接受这一点。所以颇有一些人不理解 Hinton 离开 Google 的理由和言论，觉得他老了或者反应过度[36][37]。
像 Max Tegmark 这样的人认为基于 Transformer 的 LLMs 非常低效，因此优化空间非常大。我大致认同他的观点，但是他有一种对人工设计的偏好，对此我无法苟同。我们当然可以通过逆向工程对涌现出来的模型进行优化，就像生物学家可以通过 CRISP 进行基因工程一样。但是这种思路过于狭隘，是一种基于还原论的修正主义。为什么一定要拘泥于 Transformer 等已有的模型结构呢？搞不好 LLMs 的未来属于 SNN[38]。
Devalue of Intelligence?

以反动学阀 Yann LeCun 为代表的一撮专家对 LLMs 口诛笔伐，妄图将 LLMs 贬低为 Stochastic Parrot[39]。半年前我的屁股大概也坐在这边[40]。我勉强能跟他们共情，正如我以前同情 Noam Chomsky 的立场一样。
Noam Chomsky 倾向于把语言能力神圣化，所以才会有所谓的 Minimalist Program[41]。Noam Chomsky 钦定 LLMs 是一些无趣的 artifact，对语言研究和人类认知毫无价值，最多是工程应用上“useful”[42]。 Noam Chomsky 认为人脑中存在一种神圣的 Language Acquisition Device[43] —— 人脑可能仅仅是大脑皮层面积更大更多连接甚至不配被称为异端邪说。至于 more is different 这样的箴言，在 Noam Chomsky 看来大概是自欺欺人的废话。作为一个修正主义者，我显然不可能接受这样极端的原教旨主义意识形态。
在很长一段时间里，我的确认为自然语言处理是个非常困难的问题，可能需要非常复杂的模型结构和先验知识才能达到 chatGPT-3.5 的水平。作为 Church-Turing Thesis 和 PCE 的信徒[44]，我认为自然语言处理是个可计算问题，只是计算所需的模型结构和计算量超出了现有的计算能力。GPT-4 毫无悬念地把我的脸都打肿了，我亲自把玩了 LLaMA-[30B, 65B] 之后才搞清楚自己错在哪里，强化了关于 more is different 的思想钢印。
抛开事实不谈，从理论上说，LLaMA-[30B, 65B] 这种连递归计算能力都没有的模型甚至不能处理任意的递归文法[45]，更不用说高贵的自然语言了。然而，人脑也不能处理任意的递归文法，大多数人对语法的应用和中短篇文本的驾驭能力还不如 GPT-3.5。如果没有纸笔，我的心算能力和逻辑推理能力未必比 GPT-4 强。但是这并不是什么大不了的事情，毕竟运行在笔记本上的围棋程序就能吊打九段棋手[46]。即便忽略深度学习和狭义的人工智能，工业文明的很多日常计算任务压根就离不开高性能计算机和千奇百怪的算法[47]。我认为既没必要贬低 LLMs，也没有必要捧杀 LLMs[48]。

人类的神经元也存在所谓的 Superposition

对于没有宗教信仰且相信进化论的人而言，应该可以坦然接受人类的智慧和语言能力是涌现出来的能力[49]。在这个前提下，我觉得类似微扰法的机制可能在其中扮演了重要的角色。人类的意识和智慧都是进化塑造的奇观，不会因为人类对它的理解或者模仿而贬值。
Verdict

No-design thesis 不仅适用于刻画生命的起源，还能解释[50]大脑皮层中涌现出来的智能，自然也能描述大语言模型中所谓的涌现现象。
如果说人话就比较简单 —— 让专家们大跌眼镜。

大佬都想不通，就别问我了

<hr/>还在怀疑 GPT-4 能力，并称之为鹦鹉的人，请看看最新的结果[51] ——

没有搞过深度学习的非业内人士，不建议自认为比 Hinton 老爷子更懂 AI

<hr/>Pedro Domingos 的访谈[52]提到了我关心的大部分问题[53]，当然也更加深刻 ——

请大佬收下我的膝盖

<hr/>物理意义上的涌现（仅仅是猜想）——

物理意义上的涌现, Sean Caroll

https://www.youtube.com/watch?v=vjX6ZYofkhw如果你接受这个定义的涌现，那么大语言模型可以被称为涌现（只是个文字游戏）。

清风寡欲 · 发表于 2025-3-31 22:45

科学是基于实验结果来修正理论，而不是反过来，个人认为这个阶段第一关注的是多模态模型中什么时候出现涌现现象。上周正好写了一篇相关的文章，转过来：

吴海波：应用视角下ChatGPT背后的关键技术讨论
以下是相关的部分：
让我们从一个神奇的现象开始：涌现能力

深度学习在理论上的孱弱一直被诟病，但科学史上存在大量先有应用再有理论的事例，而其中不能解释的重大实验现象往往预示着理论创新的契机。我们首先从现象出发，来看下LLM中最神秘的emergent ability，如图

上图中x、y轴分别表示模型规模和模型效果。研究员们至今无法给出令人信服的解释，为什么主流的大型模型在规模超过10^22级别后，效果会突然大幅提升。这个问题非常重要，有可能搞清楚这个问题，就能终结追求AGI路上的统计和符号的路线之争。
最近LeCun批评了很多人认为ChatGPT可以带来AGI的观点，在Twitter上被骂惨了。其背后的观点是，基于统计的方法论不应该能够实现AGI，但这种 emergent ability（涌现能力）就像一朵乌云一样漂浮在人类智能的上空。
近年来，一些工作也在尝试使用大型模型在计算机视觉领域进行实验，观察是否有涌现现象。好在虽然谷歌最近将ViT推向了22B，但仍然没有观察到明显的涌现现象。如果在图像或多模态领域也出现了类似的成果，从小的方面看只是各个竞争赛道的消亡和商业逻辑的改变，但从大的方面来看，我们人类引以为豪的智能可能真的只是统计规律。
以下是一些比较有意思的解释：

模型效果评估方法并不够平滑，实际上在中间阶段就已经开始有效果了，只是指标上还没有表现出来。
一些难以理解的知识、概念和推理能力等，会在一开始就学习错误，导致效果更差，需要进一步学习才能更好。因此模型需要足够大。例如下图显示，LLM模型在scale增大的过程中会出现先下降再上升的U形曲线效果图。

量变引起质变。在学习模型知识分布时，模型类似于贝叶斯网络，在足够复杂的连接之后，量变引起质变，表现出了类似智能的能力。

以下为原文的其他讨论：
AI技术产品化的关键技术：Alignment

AI的巨大进步，在算力、数据、算法等方面已经有很多讨论，然而，在产品化过程中，Alignment发挥了关键作用，这可能是OpenAI在认知上领先整个行业的关键部分。Alignment没有标准的定义，本文只是我个人观点中的aligment，如果有错误，请指出。
AI时代的UIUX：Prompt engineer

很多人都认同把prompt比喻成新时代的UIUX，它在NLP领域取得了巨大成功，当初知乎上就有不少同学讨论该项技术对研究领域的重要性。
如何看待NLP领域最近比较火的prompt，能否借鉴到CV领域？ - 知乎
在&#34;文本转图像&#34;普及的时代，Prompt技术也同样大放异彩。可以说，Prompt是我们尝试与深度学习模型的能力对齐的一个重要尝试。当我们再次阅读GPT3的论文时，我们会惊讶于In-Context Learning理念的重要性，对Prompt的理解也不再局限于只是为了将下游任务的任务形式与预训练对齐、替代finetune等方面。
In Context Learning

初看In Context Learning似乎是为了区分zero-shot、meta learning而新造的词汇，但随着后续基于它展开的工作，比如这篇：
How does in-context learning work? A framework for understanding the differences from traditional supervised learning
大家发现就算给model输入是有错误的示例，也不会影响模型的实际效果，而如果输入的事例和需求侧任务的分布差异较大，则效果会明显下降。当然也不能不提CoT的神奇效果，LLM模型在逻辑和推理上一直比较差，然而简单的在输入中加入Let&#39;s thingk step by step，效果就会明显的提升。

种种现象表明，LLM其实已经学到了大量的知识，只是我们还没有找特别好的方法来开启它的能力，就好像今天的AI研究员就像古时候的炼金术师，在没有在原理层面突破之前，只能在一遍遍的实践中尝试不同的咒语去召回魔法。今天，ChatGPT好像找到了更好开启LLM能力的对齐方式，RLHF加GPT3.5，让AI产品化的能力提升了一截，但并不能说我们已经把LLM的能力完全发挥出来了。
因此，alignment的创新不会停止。Prompt、In Context Learning、Chain of Thoughts、Reinforcement Learning Human feedback，是整个行业多年来孜孜不倦努力下的阶段性产出。然而由于交互创新如此重要，我们不会停下创新的脚步。
LLM的创新是搜索引擎式的范畴还是AWS式的范畴

这个问题背后是关心大模型未来是类似Google一样的巨头垄断模式，还是会像AWS一样，出现多家提供大模型服务的公司。个人是倾向于LLM很难出现一家独大的情况，更像AWS的云计算的模式，给行业提供优质的计算服务，虽然会有一家公司比较领先，但是依旧会有别的公司保持强有力的竞争。
LLM和搜索推荐系统的不同，在搜索推荐系统时代，model并没有理解内容，而是基于用户投票做出的数据挖掘，比如字节掌控了强大的内容供给侧，再依靠推荐的高效分发，才形成了今天如此高壁垒的抖音。但LLM时代，model开始理解了内容本身，进而能创造内容，那么内容供给侧的垄断是否就不再存在。同时基于model在内容和需求侧的理解，天然可以做好分发。
虽然ChatGPT是目前最好的，也收集到了很多优质的用户反馈，在未来会保持一定的领先，但是LLM技术本身并没有被垄断在OpenAI，且用户的feedback在LLM领域，也不确定会对用户体验带来多大的护城河，毕竟Google、Meta都不缺用户。相信在不久的未来，其他巨头也能推出效果不错的竞品。
胡编乱造的问题

以ChatGPT为例，该模型可能会出现一些事实性错误。同时，由于模型训练的时效性，实际生产环境中也可能会存在一些问题。因此，ChatGPT目前只能扩展您的个人专业能力并扩大边界，无法替代专业人才。虽然我们团队在使用ChatGPT的过程中发现它的输出可靠性和解决问题的能力远超预期，但是仍需谨慎使用，以免提供误导性的结果。或许由于网络上存在大量高质量的IT技术相关数据集，该模型在这个方面表现出了更强大的能力。
在GPT-3之后，出现了大量的工作来研究模型如何记忆这些知识，以及如何修改和更正它们。其中一些工作研究了Transformer中占三分之二参数的FFN，认为它实际上起到了类似Key-Value Memory的作用。此外，不同层的FFN存储的知识抽象程度也不同。还有一些工作通过对优化目标加约束来实现特定知识的更新，并证明确实可以更正某些知识而不会明显影响原先记忆的其他知识。
从能耗的角度出发，我认为LLM未来应该更加注重知识的理解和推理，而不是仅仅记忆事实性的知识。为了实现这一目标，我们可以参考Augment Retrieval相关的工作，例如DeepMind提出的Retro框架，该框架将外部知识库的embedding表达与LLM融合。还有最近开源的项目，如LangChain、GPTIndex等，这些工作都利用了外部数据库。例如，新必应的实践是使用搜索召回的结果作为输入，然后让LLM处理这些输入，最终给出答案。这些方法统称为&#34;external DB&#34;，我认为它们是比较实用和可行的应用方案。此外，这些方法还为一些进行向量数据库开发的公司带来了新的机会。
多模态什么时候会来

我认为，多模态的大型模型是实现AGI的前提条件。我们人类自身是在四维世界中学习和理解世界的，而文本则是一个更为抽象的领域。视觉领域拥有更好的物理规律，这些规律可以作为锚点，帮助模型理解和学习到真正更基本的概念。然而，目前还没有出现特别出色的工作，例如Clip虽然使用起来很好，但它更像是NLP中的Bert，而不是像GPT3这样的模型。虽然ViT为我们带来了一些希望，但是像Transformer这样能够同时考虑局部和全局信息的序列结构，在某种程度上需要token是离散的。在NLP中，每个token本身都具有一定的概念意义，其分割也有实际意义。但是在CV领域中，不同组patch的方式所代表的物理意义是天然不同的。当Transformer应用于CV时，它可以与NLP保持一致，使用MAE的方式进行自监督训练，从而解决了训练数据的问题。但是就像Diffusion Model在图像生成方面非常有效，但在离散的文本场景中能力受到很大限制一样，因此Transformer在CV领域中并不一定合适。
另一个猜测是多模态的大型模型应该是稀疏的。从人类大脑神经突触的角度看（大概在100万亿的规模），GPT-3的参数估计还需要增加大约一千倍。因此，只有当模型是稀疏的时，才有可能进一步扩大模型规模，同时降低推理成本。这样的巨大挑战为整个行业注入了巨大的创新机会。举个不太恰当的比喻，谁会成为新时代的Parameter Server，是谷歌的Pathway吗？
因此，即使不考虑计算力、难以训练和模态融合等关键问题，多模态的大型模型的实现可能比预期更为困难。因此，我们应该更加务实地关注图像领域的大型模型，如果能够出现具有新兴能力的预训练模型，则会更为理想。
应用创新的新时代

许多媒体都会问哪些行业和岗位会受到AI的影响。相反，我们应该反过来问，哪些行业不容易受到影响。尽管我对AGI的前景并不那么乐观，但在ChatGPT和Diffusion展示的能力方面，很少有行业不会受到影响。我们应该尽可能地拥抱AI。在我们的文明史上，人类发明了工具，而工具又反过来塑造了新的人类。
这轮AI技术突破具有改变人机交互的能力，未来将会出现一批基于人类自然语言作为交互手段的应用，这将是一个新时代的开端。
在科技史上，技术变革引起人机交互创新，从而演化出新的商业生态的例子比比皆是。ChatGPT只是其中的一个典型应用，它展示了基于人类自然语言和机器的交互体验有多么惊人。这是历史上第一次，机器对人类的需求理解如此细致，人类可以反复多轮地表达需求，每一次都是独特的体验。
交互方式的改变将会重新定义许多应用。回想一下Office、Photoshop、视频编辑等生产力工具的学习经历，一定不是那么愉悦的。这些生产力工具本质上要求您学习一种图形化的编程语言，以便将您的需求告诉计算机执行。如果我们可以直接用自然语言描述我们的需求，那么大范围的预测是，所有的软件都可以重新制作。
当然，这并不是说基于AI的应用都会成功，每种技术都有其边界，只是我们现在还不知道它们在哪里。此外，现在的AI仍不是AGI，更像是iPhone或AWS的第一次出现。大部分围绕AI做的应用，大家都是在OpenAI的API包一层做应用，并无核心技术壁垒。更多的创新在自然语言交互下的产品动线、需求对齐上的创新，未来都是大概率都是先烈。
类比于iPhone，今天的AI与iPhone 1相似，都处于不稳定的创新状态。在AI的发展中，我们无法确定新的技术范式何时出现，或者会在何处出现，例如多模态技术，新的对齐方式是否能够让大型模型直接服务客户等问题。此外，应用的时间窗口，以及是否会出现护城河等问题，也是未知的。因此，在进行应用创新时，我们需要做好心理准备，追求自身能够存活到下一个成熟周期。
其他

许多人谈论数据质量，但在简单交流后，发现大多数人仍然认为AI模型需要大量标注数据才能训练。实际上，NLP领域是在Masked Language Model的训练方式后，才得以扩展到如此规模，并衍生出一系列后续发展。MLM最大的特点是自监督，不需要真正的人工标注。其思想非常简洁，就是在现有的文本训练语料中，随机地遮盖掉一些词（准确来说是token），让模型来预测这些被遮盖掉的词。由于这些词事先是已知的，因此可以算作自监督学习。这种方法的好处是，可以大幅提升可用于训练的数据规模。对于理解语言模型来说，这一部分非常重要。如果感兴趣，可以进一步搜索相关资料进行学习。因此，所谓数据质量是指数据本身的优质程度，例如，Wikipedia的数据天然比reddit的要好一些。
算力的摩尔定律。很多年前，大家已经在说摩尔定律遇到了物理瓶颈，除非基础科学的突破，否则我们很快就无法在提升计算机的性能。但这几年我们看到GPU的发展很快，算力增长迅速。GPU和CPU一样，同样遇到了物理瓶颈，但GPU的场景天然是并行的，可以通过堆更多晶体管来缓解问题。这个领域涉略不深，在大模型时代，算力的需求侧不在存疑，算力的供给是否真的像大家预期的一样，成本快速下降，希望有更资深的人来解答算力这部分的问题。PS：最近看到一篇有意思的工作，Looped Transformer as Programmable Computers，在探讨是否有可能用Transformer做一个通用的计算机。前几年已经有人去证明transformer是图灵完备。
新的优化算法，随机梯度下降的优化算法和模型结构，更偏圈内人员关注，比如Hinton老爷子就一直不相信SGD-based的优化算法是人工智能的未来，类比于人脑不存在有反向传播这样的东西。在前几年Router的基础上，他最新的工作FF，还是focus在这块。

最后，附一张网上流传很广的图作为结尾，祝大家周末快乐！

大力水手 · 发表于 2025-3-31 22:46

和某位大佬聊的时候提醒我“涌现的现象是宇宙中广泛存在的”，回去就简单研究了一下，非常有趣，下面摘自Wikipedia [中文翻译]:

In philosophy, systems theory, science, and art, emergence occurs when an entity is observed to have properties its parts do not have on their own, properties or behaviors that emerge only when the parts interact in a wider whole.

在哲学、系统论、科学和艺术中，当观察到一个实体具有其各个部分本身没有的属性或行为时，涌现就出现了。这些属性或行为只有在各个部分相互作用形成一个更广泛的整体时才会涌现。

Chemistry can in turn be viewed as an emergent property of the laws of physics. Biology (including biological evolution) can be viewed as an emergent property of the laws of chemistry. Similarly, psychology could be understood as an emergent property of neurobiological laws. Finally, some economic theories understand economy as an emergent feature of psychology.

化学可以被看作是物理定律的一种涌现。生物学（包括生物进化）可以看作是化学定律的涌现。同样，心理学也可以被理解为神经生物学定律的一种涌现。最后，经济学中的自由市场理论是心理学的一个涌现。
非常非常有趣的角度。

继续前进 · 发表于 2025-3-31 22:46

不光是涌现，关于复杂系统的很多研究都经常被诟病是伪科学。之所以被说伪科学是因为它无法用科学里流行的还原论来解释，还原论是说“如果你理解了整体的各个部分，以及把这些部分‘整合’起来的机制，你就能够理解这个整体”。感兴趣的可以看一本比较有名的科普书，名字就叫《复杂》，是一个专门为研究复杂系统而建立的研究机构，叫圣塔菲研究所，里面的一位研究人员写的。书里介绍了各个领域中的涌现现象，从昆虫到神经系统，从经济到免疫系统，看来很快大模型也可以在里面有一席之地了：）
回到正题，其实现在大模型被赋予了太多的神秘色彩，听上去有种伪科学的感觉。这里提供一个优化的角度，我们在训练神经网络的时候，一个很常见的现象就是loss迅速下降，而accuracy仍然保持比较低的位置，在某个training step之后突然骤升。把x轴换成大模型的参数量，是不是就变成大模型的涌现曲线了？其实去年年初我们就有这个猜想，并且试图从优化的角度解释in-context learning，即模型的前向过程可以看做对某个目标函数 f 的优化，而在in-context learning设定下这个目标函数 f 又是关于context中的小样本集 {(x, y)} 的函数，是不是跟机器学习的一般形式都对上了？当然要推出这个形式还是有困难的，要做很多近似，比如参数矩阵半正定性，逐层参数共享等等，且最终推出的 f 看起来也是某种意义不明确的 energy。后来看到有其他机构给出了类似的结论（当然做了更多的简化或单纯实验说理），说明这个角度还是挺自然的。而且在这个角度下，原本的梯度下降就变成了meta learning。
希望未来能有更多科学和形式化的解释，而不是人云亦云，任由民科和江湖骗子满天飞。

队长是我 · 发表于 2025-3-31 22:46

今天晚上不务正业，花了一点儿时间看了两篇文章：
《Emergent Abilities of Large Language Models》[1]
《PROGRESS MEASURES FOR GROKKING VIA MECHANISTIC INTERPRETABILITY》[2]
这两篇讲的都是emergent behavior，即涌现现象。
在机器学习中使用大规模神经网络时，由于增加了参数数量、训练数据或训练步骤等因素，出现了定性上的新能力和性质，这些能力和性质在小规模神经网络中往往是不存在的。
第一篇文章举了这个例子，每个图都可以理解为一个任务，横轴是神经网络的规模，而纵轴是准确率，可以理解为模型的性能。

我们拿图一来看，在10的22次方前，这些模型基本上的性能基本上都很稳定在0附近，而在10的22以后，突然在10的24次方上获得了很大的性能提升，在其他的几个任务上都表现出类似的特征。
第二篇文章更是有趣，我直接把推特一位博主的评论引用在这里：

作者发现，当我们训练用网络计算同余加法 a+b = ? (mod c) 时，网络在某个时间突然获得了 100% 准确率。分析发现，神经网络实际上“顿悟”了使用傅立叶变换来计算同余加法！这个算法可以证明是正确的，反人类直觉的。

从这俩例子里面我的感受是，只要数据量足够且真实，且模型没有硬错误的前提下，不断的训练说不定真的能够产生一些意想不到的效果。

还有就是我觉得人类现在积累的知识并不少，但是系统的少，零星的多，如果类似ChatGPT这样的大模型可以拿所有的人类已有知识进行不断学习的话，我觉得有很大概率会让它涌现出意想不到的能力。
甚至可能把人类的生产力解放提前很多。

图文播报

[分享] 大语言模型中的涌现现象是不是伪科学？

登陆有奖并可浏览互动！

发表回复

官方推荐 /3

个人中心