2024年大模型LLM还有哪些可研究的方向？

心中u你 · 发表于 2025-3-14 10:46

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

2024年大模型LLM还有哪些可研究的方向？
原文地址：https://www.zhihu.com/question/637595961

检验医师 · 发表于 2025-3-14 10:47

讲几个正在做，或者准备要做的，大概讲讲，后续有空了写一些长文来展开一下。
1. Alignment, 尤其是基于rl的alignment。我始终认为目前的xPO的各种论文都不太有意义，各种把REINFORCE方法简单改改loss的思路都是简直在浪费时间，这些论文的实验也让人非常无力吐槽。我们应该花更多的时间去关注reward model，最近的Nemotron就做的不错。接下来学术界和工业界都需要思考: 什么是好的reward？如何准确地提供细粒度的reward？一个只是关注于helpful, toxic这些维度的reward意义都是不大的。
2. llm和搜索算法的结合。这个我过去几个月跟很多人交流沟通的时候都传递了这个观点，ai永不眠，所以我们一定要利用好这个优势，一遍答不对，我们可以 “为你，千千万万遍”。这个思路目前看起来很美好，但我们会发现核心难点是如何在诗云中找到最好的那首诗，p(y|prompt) 肯定是不行的哈，目前来看，还是细粒度的reward model有希望。另外我认为llm是不可能一遍解码就推理能力达到一线科学家水平的，未来唯一的希望可能就落在搜索算法上，等待llm的alphago时刻吧。
3. 长文本。目前长文本建模是llm落地赚钱的最大希望，并且还远远没到最优。做这个方向，要么方法论有自己的想法，rope的优化，attention的优化，这些都有很大的空间。要么就是得定义好问题，rag的长文本建模目前还有很多实际问题没有被学术界意识到，工业界也没那么多精力去搞论文搞benchmark，整体还是一个各自为战的状态。
4. 其它很多答主都在说的多模态。这个我在前面的回答里提过了，目前image encoder问题比较大哈，但这玩意要做好本质还是力大砖飞，所以其实属于不好做的那种。
5. Multilingual 和 Hallucination，这两个方向也有不少能做的，毕竟现在发布的llm都开始多语言化了，研究条件基本都具备了。

最后给最新的文章引个流：
Supervised Finetuning中的Scaling Law: https://zhuanlan.zhihu.com/p/125742148?utm_psn=1795253286640676864
没想到大家这么喜欢我的回答，后续我给每个方向都写一篇长文，聊聊我的看法~ 届时都会首发于公众号: 人工智能永不眠，欢迎大家的关注！

大力水手 · 发表于 2025-3-14 10:47

越来越多的学者表明”数据“对大模型的极端重要性——甚至超过了模型算法本身。
因此，这里分享一个我们最近的一个LLM方面「以数据为中心」的研究工作——样本设计工程。LLM的应用落地，依然离不开下游样本的微调。跟大多数的研究思路——如何改善模型、改善算法这种「以模型为中心」的研究不同，本文从数据的角度，通过改善样本，来探究如何提升LLM下游任务上微调后的效果。我们期待这个工作可以抛砖引玉，激发更多的以数据为中心的LLM研究。
<hr/>

提示工程（Prompt Engineering）已经成为提升大模型的零样本、少样本推理能力的基本操作。然而，在大模型实际落地解决下游业务问题的时候，我们往往还需要一些针对性的样本对模型进行微调训练。我们在大模型实际落地研发中发现：虽然大模型已经足够强大，但是微调样本的不同设计，依然会显著影响大模型微调后的效果。因此，如何设计更好的微调样本，成为了一个新的问题。对此，本文首次提出了样本设计工程（Sample Design Engineering, SDE）的概念，系统性地探究了影响大模型下游任务微调的多种设计选项，发现了诸多有趣且引人深思的结论，并提出了一种在多个复杂下游任务上均稳定优异设计方案。本研究表明，细致地考虑大模型微调样本的设计，可以使用更少的样本训练出在下游任务上表现更好的模型。

论文标题：Sample Design Engineering: An Empirical Study of What Makes Good Downstream Fine-Tuning Samples for LLMs (https://arxiv.org/abs/2404.13033)
论文作者：Biyang Guo (1), He Wang (1), Wenyilin Xiao (1), Hong Chen (2), ZhuXin Lee (3), Songqiao Han (1), Hailiang Huang (1)
作者机构：上财人工智能实验室 (1)；蚂蚁集团 (2)；云徙科技 (3)

0. 简介

大模型（LLMs）的出现，完全改变了NLP任务处理的方式，以往需要复杂的模型设计、模型协同才能完成的一些下游任务，如今可以使用大模型轻松解决。由于大模型使用文本生成的方式来处理各种任务，因此提示工程（Prompt Engineering，下文简称PE）成为了研究的热点，许多学者提出了各种PE技术，通过改善输入给LLMs的prompt，来提升模型的推理能力。这方面的研究非常丰富，学者们和社区研究者们提出了诸如CoT, RAG, CoVe, EmotionPrompt等技术，甚至一些“咒语”，来提升LLM的零样本或少样本（ICL）推理能力。
无论学术界还是工业界，对PE的研究，主要还是围绕GPT3、GPT4、PaLM等等超大的、最先进的大模型展开的。然而，由于成本问题、政策问题、数据安全问题，许多中小企业或个人是无法使用GPT3/4这种级别的大模型的，转而选择一些开源的稍小的LLMs（尤其10B左右），这时，仅仅使用PE技巧来设计prompt是无法解决许多稍微复杂点的下游任务的，因此往往需要一些下游样本进行微调。相比于“如何设计prompt”这方面繁荣的PE研究，“如何设计下游微调样本”，相关研究则十分匮乏。正如不同的prompt设计会影响LLMs零样本推理的性能，不同的样本设计也可能会对微调后的模型有影响。对此，本文类比提示工程，提出了样本设计工程（Sample Design Engineering, SDE），并首次做了系统性的分析和实验探究，期待学界和业界未来能围绕SDE展开更多的研究。
下图展示了SDE和PE的关系：

下表罗列了最直接的差异：

	针对模型	场景	操作对象
提示工程（PE）	闭源/超大LLMs，参数冻结 (e.g. ChatGPT, PaLM)	Zero-Shot / ICL推理	模型输入（prompt）
样本设计工程（SDE）	稍小LLMs，参数可调 (e.g. LLaMA, Qwen)	下游微调	模型输入和输出（sample）

为了探究SDE的影响，研究SDE如何提高LLM下游表现，本文的研究思路和主要内容如下：

梳理典型的SDE设计方面，包括输入设计、输出设计和推理设计；
在一个典型下游场景下，通过大量的ID、OOD实验和6种常用LLMs，探究各种SDE设计选项的影响，从中发现规律；
根据规律，提出一种有效的SDE集成方案，并在多个新的任务、新的LLMs上验证了其稳定的有效性；
进一步探究了SDE背后的机理，分析PE和SDE是否存在关联关系。

1. 如何设计微调样本，是一个问题

我们希望大模型解决的下游任务，往往较为复杂。举一个例子，多方面情感分析（Multi-Aspect Sentiment Analysis，MASA），是一个常见的极具商业价值的应用场景，但是其涉及到的模型输入、预测往往是比较复杂的。下图是一个MASA任务的示意图：

如图所示，某用户针对餐厅写了一段详细点评，其中涉及了很多方面的评价。作为餐厅的一方，或者提供情感分析的服务商，我们希望对大量类似的评论进行多方面情感分析，会有一批我们预先定义的、比较关心的方面，例如食品评价、饮料评价、卫生条件、价格水平、服务态度、停车方便程度等等。MASA任务的目标就是一次性对所有方面进行情感分析，可以看出，LLM处理对于这样的任务，可能涉及到较为复杂的输入、输出设计。
经过分析和一些预先的实践经验，我们对典型的样本设计进行了分类——输入设计、输出设计、推理设计，并提出其中涉及到的一些典型的 SDE 设计选项（options）：

三类 SDE 设计选项

输入（Input）设计选项

在输入设计方面，我们可能会面临如下选择：

指令的放置问题：指令是大模型微调的重要的元素，一般包含对任务的描述、输入输出的定义等。是否要添加指令（instruction）？指令应该放置在任务文本（例如评论）前面还是后面？这些均是需要考虑的问题。对此，我们设置了三种选项：Inst-last, Inst-first 以及 No-inst.
是否建模输入：有大模型训练微调经验的人可能会发现，习惯上，在对大模型进行指令微调的时候，常见做法是不对输入部分进行建模（记为No-MI）。而如果使用模型预训练同样的方式的话，则应该将输入输出是为一个整体进行建模，我们记为MI。虽然诸如 LLaMA等模型默认采用No-MI的方式，但微调时二者的差异尚未有定量的研究。

至于输入本身的内容（例如应该如何编写指令），这里暂不考虑，我们认为是输入本身的波动。
输出（Output）设计选项

在输出设计方面，我们可能会面临如下选择：

输出的格式：复杂的任务，可能会涉及到多个预测目标（例如MASA任务中需要对多个方面同时输出预测），因此输出格式的设计成为需要考虑的问题。从最自然的方式，到最结构化的方式，我们设置了Natural, Lines 和 JSON三种选项。
对未提及目标的处理：当存在多个预测目标时，常常会有部分目标并未在任务文本中出现（例如MASA任务中可能用户只写了部分方面的评价；NER任务中，文本中只出现了部分实体类型），对于这部分目标如何处理，我们设置了两种选项：直接忽略，不进行输出（记为 OU，omitting unmentioned）或者放置占位符（记为 PU，placeholding unmentioned）。
文本/数值标签：针对大模型，我们一般会采用文本形式的标签，而一些实践表明，数字标签可能能让模型输出更加稳定，因此我们可能面临文本标签（TxtLabel）和数值标签（NumLabel）两种选择。

推理（Reasoning）设计选项

除了输入和输出之外，我们还额外考虑了一个更加全局的设计选择——推理设计。CoT是一种典型的提升模型推理能力的PE技巧，因此，我们猜测类似CoT的样本设计，可能也会影响LLM微调后的效果。因此，我们设置了No-CoT, CoT 和 R-CoT 三种推理设计选项。在使用CoT样本设计的时候，我们需要对样本额外标注一个推理的部分，可以是描述、解释或者原文抽取等，放置在预测部分的前面，从而让模型学习“先思考再预测”。R-CoT作为对照，则是将推理部分放置在预测部分的后面，即“先预测再解释”。
值得强调的是，PE中CoT是一种低成本的技巧，因为只需要添加一个咒语，或是提供极少量的推理实例即可，而针对微调样本进行CoT设计，则成本相对高昂，因为我们需要对每一个微调样本都添加推理方面的标注。
以上三个方面的设计选项，可以参照上面示意图中给出的例子来理解，更详细的解释，请参考论文原文。
2. 不同的设计选项，各有什么影响？

关于这个问题，我们进行了丰富的实验探究，来看看上一节中讲到的每一个设计选择，都有什么样的影响。
实验设置

任务和数据：
我们使用MASA作为实验场景，由合作公司提供真实业务场景中的数据（中文）和标注，包含了两个领域的方面情感标注：
D1: 食品、饮料、价格、卫生、服务态度、停车情况
D2: 交通便利程度、排队情况、上菜速度、装修情况、噪音情况
基于这两个领域，我们设计了 2 组In-Domain (ID) 任务和 2 组Out-of-Domain (OOD) 任务：D1->D1, D2->D2, D1->D2, D2->D1。对于OOD任务，我们在前一个领域上进行训练，然后在后一个领域上进行测试。
模型：
我们为了探究样本设计是否在不同LLMs上存在差异/一致性，我们采用了3个系列的 6 种被广泛使用的开源模型：

Chinese-LLaMA2：使用了 7B 大小的 chat 和 base 两个版本，分别记为 c-llama2-chat 和 c-llama2-base；
InternLM：使用了 7B 大小的 chat 和 base 两个版本，分别记为 intern-chat 和 intern-base；
Baichuan2：使用了 7B 大小的 chat 和 base 两个版本，分别记为 bc2-chat 和 bc2-base；

模型微调均采用 LoRA 参数高效微调技术，其他微调方法均可使用。
测评指标：
我们从任务本身的理解能力（情感分析能力）和格式遵循能力两方面对模型微调效果进行评价，这是因为大模型使用文本生成的方式进行任务处理，存在天然的输出不稳定的风险，因此除了任务本身的测评指标之外，能够正确按照预定义的格式进行输出，也是非常值得关注的问题。具体详见论文。
实验结果分析

不同SDE设计选项的影响（建议放大观看）

我们针对Input、output、reasoning都设置了baseline，然后通过变化其中一个选项，来探究该选择对模型性能的影响。每一种选项我们进行48次实验，包括了在6个模型、4个任务（2个ID和2个OOD）、2个训练大小（500和1000）上的实验，然后将ID、OOD内结果进行平均，不同训练大小结果进行平均，绘制了如上图所示的柱状图。
针对输入设计，我们有以下重要发现：

虽然LLMs已经很强了，但是添加指令确实能让微调效果更好：从图中可以看出，No-inst 方式，相比于baseline在多个LLMs上均有明显的下降，而且一个严重问题是，不添加指令的话，模型是无法进行OOD推理的。指令的一个重要意义就是激发模型本身的能力，因此配合微调之后，模型也拥有了很强大的OOD能力。
指令放在前面更好！这是一个很有意思的发现，6个模型共12组结果中，有11组结果中，Inst-first 效果都是优于 Inst-last，这体现了这一规律的通用性。仅仅改变指令放置的位置，就有这么明显统一的效果，是我们意想不到的。针对这个问题，我们猜测也许跟模型的注意力机制有关系，这方面的探究详见论文。
微调时，对输入建模有损性能：我们发现 MI 方式明显拖累了模型微调的性能，这可能是由于模型需要学习额外的跟任务输出无关的内容，针对下游任务，我们关心的是模型看到输入的内容之后，应该怎样输出，而看到输入的前半部分，后半部分是什么，则并不需要模型去学习。

输出方面，则有更加丰富的发现：

Lines 是一个优秀的自然表示和结构化表示的折中方案：Natural是最自然的拼接方式，而JSON则是最格式化的方式。其实我们一开始预期 JSON 会最好，因为我们日常实践中，JSON是经验中比较常用的方案，然而实验的结果表明，Lines的方式可能更好。
Base 模型更相似，而 Chat 模型各有各的不同：在各种输出设计的实验中我们发现，三个系列的 Base 模型提现出了明显的一致性，而 Chat 模型则没有。我们猜测这是由于不同系列模型在SFT或者RLHF阶段使用的数据有显著不同，而预训练阶段，由于训练方式、训练数据更加通用，因此表现出的特点也更加相似。
Base 模型更喜欢自然的格式，而 Chat 模型能接受更格式化或者更复杂的格式：我们看到，Base 模型中，JSON 格式表现较差；相反，Chat 模型中，Natural 则是最差的方案。这说明 Chat 模型在指令微调阶段，可能使用了更加格式化更加复杂的格式进行训练。
文字标签明显优于数值标签。
使用占位符来处理未提及的目标明显更好：这也是我们觉得十分有意思的一个发现！例如我们有6个预定义的方面，但是某评论中只出现了2个方面的描述，那么我们在标注输出的时候，就对剩下的4个方面，都使用占位符（比方使用“方面x：未提及”），而非忽略不输出，可以取得明显更好的效果。关于这一点我们的解释是，使用占位符，可以保持格式的一致性，虽然增加了一定的输出成本，但让模型更容易学习。

推理方面，我们有以下结论：

CoT 设计对于ID任务上没有明显效果，但是在OOD场景下效果明显：OOD任务上，CoT 方式明显提升了模型泛化性能，但是在ID上效果不明显，甚至有的还有损害，这可能因为ID任务更简单，所以CoT本身增加的训练成本抵消掉了其在这种场景下的增益。
“先思考再预测”比“先预测再解释”更好：对比R-CoT和CoT可以看到，总体上CoT还是明显更优的，这说明，单纯增加推理部分还不够，顺序也十分重要。

再来看看格式遵循方面的表现：

总体上可以看出：

Inst-first 虽然有助于模型的理解能力，但其格式遵循能力却比 Inst-last 更差：从图中可以看到，在部分模型上，Inst-first 存在稍微较高的格式错误率。
设计越格式化，格式输出错误的几率就越低：JSON >= Lines > Natural，因此 JSON 格式在这方面表现非常优秀。
部分设计则表现地非常不稳定，包括 MI， NumLabel 和 CoT，因此在设计样本时，这些设计选项可能需要谨慎使用。

值得注意的是，任务理解能力和格式遵循能力在实际应用中可能是两个互补的方面，需要根据业务需求进行权衡。
3. 一个稳定优异的样本设计方案

通过前面的大量实验，我们发现了一系列在多种LLMs上通用的规律。为了进一步验证SDE方法的影响和普适性，我们觉得根据前面的实验证据，设计一套优秀的SDE集成方案，并验证改方案是否可以拓展到其他的新任务、新模型上。
根据前面的实验，我们提出了一个实证上较强的SDE方案——ES-SDE（Empirically-Strong SDE strategy），它由如下设计选项组成：Inst-first, No-MI 的输入设计，Lines, PU, TxtLabel 的输出设计。由于考虑到CoT的不稳定性和成本问题，这里没有使用。
作为对照，我们还设置了一个 EW-SDE（Empirically-Weak SDE strategy），它的不同之处在于使用了 Inst-last, Natural 和 OU 选项，我们预期该方面应该比 ES-SDE 更差。
除此之外，我们还采用了一种经验主义方案——heuristic strategy，借鉴于其他学术论文中对某些下游任务根据人为经验而设置的prompt设计。其输入上类似于本文中的 Inst-first 和 OU，但输出格式则使用了一种类似List的方式。
我们使用了 3 个新的复杂下游任务数据集和 2 个新的 LLMs 来对上述方面进行对比：

GENIA 数据集：一个分子生物学领域的嵌套实体识别（Nested-NER）任务，一个经典的较为复杂的NLP任务；
MAVEN 数据集：一个开放域事件抽取任务，我们使用了其中的10种事件进行实验，要求判断所有事件类型并提取触发词；
Review11 数据集：我们自行收集的多方面情感分析任务数据集，包含11个方面。

对于GENIA和MAVEN两个英文数据集，我们采用 LLaMA2-7B-Chat 进行实验，对于 Review11 中文数据集，我们采用近期刚发布的性能强大的 Qwen1.5-4B-Chat 进行实验。
我们从三个方面，探究样本设计方案的效果和鲁棒性：不同训练大小、不同decoding种子、不同instruction内容。实验结果如下：

可以看出，ES-SDE 是一种优秀且鲁棒的样本设计方案，在不同任务、不同模型、不同训练大小、不同扰动的情况下，都明显优于 EW-SDE 和 heuristic 方案。例如，500 个 ES-SDE 样本的训练效果，就相当于约 2000 个 EW-SDE / heuristic 样本！这印证了 ES-SDE 生成的微调样本具有极高的质量。
4. 进一步思考：能通过 Prompt 预测什么是好样本吗？

Prompt 是打开大模型内部秘密的一把钥匙，大模型在预训练、SFT、RL 阶段的数据和训练细节往往是不可知的，但是通过 prompt，我们可以某种程度上探查大模型自身的一些特性和能力，一个效果好的 prompt 往往预示着大模型对某种模式更加熟悉或者更加擅长。于是，一个很自然的问题是：好的 Prompt，能否帮我们设计好的 Sample？或者说，PE 能否指导 SDE 呢？
为了回答这个问题，我们基于前面的各种 SDE 选项，来构造对应的 zero-shot 或 ICL prompts，让模型直接进行推理（不经过微调），来评价不同 prompt 的优劣。初次之外，有研究指出，Perplexity （PPL，困惑度）是一个很好的评价 prompt 的指标，一个 prompt 的 PPL 越低，其效果通常也更好，因此，我们还额外对 ICL prompts 和 predictions 计算 PPL。
下图给出了在 MASA 的 ID 任务中各种 SDE 选项的性能的各模型平均排名，以及对应的 prompts 的Zero-shot、ICL、PPL排名：

output 的 baseline 为 [Natural, TxtLabel, PU], 但简记为 Natural，其余方法均只在baseline上改变一个选项

从中可以看出PE和SDE有一些一致的模式：

Inst-first，对于 PE 和 SDE 都是更有效的设计；
CoT 的使用，均能提升效果；

然而，还有一些明显的不同：

OU 这种设计，在 SDE 中是一种对各种 LLMs都明显不好的设计，然而在 Zero-shot或者ICL中，其表现在一些模型中则效果明显强于 PU；
在SDE中，对于 c-llama2-base 和 intern-base 模型， Natural > Lines ，然而 PE 中却正好相反；
无论是 prompt 还是 prediction 的 PPL，都显示 JSON > Natural > Lines，这跟SDE中的结论差异较大。

这些结果表明：好的 prompt 可能并不能转化成好的 sample，PE 无法直接指导 SDE。这个发现为未来的研究挖下了一个新坑，期待有更多的学者能一起探究 SDE 背后的机理，从而帮助大模型更好地发挥其自身潜力，助力大模型的下游场景落地。
总结

本文提出了样本设计工程（Sample Design Engineering, SDE），系统性地探究了如何设计更好的大模型下游微调样本。通过在6个常用大模型上进行的一系列ID和OOD实验，我们揭示了诸多对下游微调有显著影响的样本设计选项，发现了一些有趣的规律。基于此，我们提出了一种鲁棒的样本设计方案，在3个复杂下游任务上均取得了优异且稳定的性能，大幅超越经验主义的样本设计。进一步的对PE和SDE关系的实验分析说明了在零样本/少样本推理下好的prompt，不一定能指导我们设计好的下游微调样本，这表明了SDE背后复杂的机理，期待更多的后续研究。
原文 preprint 链接:
https://arxiv.org/abs/2404.13033欢迎读者提出宝贵意见，或一起交流大模型样本设计经验！

大力水手 · 发表于 2025-3-14 10:48

多模态大模型、智能体Agents等方向，都可以深入研究。今天结合最近看到的一篇多模态大模型相关的论文来聊聊个人看法。
多模态大模型的兴起与挑战
在2023年，GPT-4的发布引发了全球范围内对多模态大模型的关注。GPT-4不仅在文本理解方面表现出色，更重要的是，它展示了从图片中读取信息、将草图转换为网页代码的能力。这一突破激发了研究者探索更多语言-视觉多模态模型的兴趣。例如，基于Meta公司LLAMA模型的Mini-GPT4（《MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models》，ICLR 2024）和LLAVA（《Visual Instruction Tuning》，NeurIPS 2023 oral），它们在理解和生成视觉与语言结合的内容方面取得了显著进展。
然而，多模态大模型并非完美。它们在处理复杂的视觉语言任务时经常出现“幻觉”现象，即模型在回答中添加了图片中并不存在的内容。这些错误通常在细致审查后才能发现，表明模型虽然能“看”，但并不总能“理解”。
思维链在多模态模型中的应用
为了解决这一问题，研究者借鉴了在文本大模型中使用的“思维链”概念。这种方法首次出现在NeurIPS 2022的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中，它通过在模型推理过程中加入更多步骤，显著提高了解决逻辑问题的能力。是否可以将此概念应用于多模态模型？《CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations》这篇论文给出了肯定的答案，并进一步将思维链适配为多模态背景下的“视觉操作链”。
例如，下图中，当我们对一张图片I0提问“What is written on the pillar in front of the man in black top?”（黑衣男子面前的柱子上写着什么？）时，如果多模态模型的输出只是一整张图片，它很难正确地关注到焦点，输出的“NO SMOKING”（禁止吸烟）是图片中不存在的内容，这个大模型就产生了“幻觉”。而作者给出的办法，是让大模型首先针对图像和问题进行一系列操作，比如首先找到“黑衣男子”与“面前的柱子”，然后把柱子上的文字部分取出、放大，这样对着正确地视觉焦点再回答问题，就能够得到正确的答案“QUICK DEPOSIT”（快速存款）。

在《CogCoM》论文中，研究者定义了多种视觉操作，如Grounding、OCR和CropZoomIn等，这些操作扩展了模型对输入的处理方式，增加了视觉操作链的多样性。
问题难点与CogCoM的亮点
数据是大模型能力的来源。要想使得大模型有“操作链”的能力，我们必须有相应的数据集。然而，现有的数据集都是单纯的问答数据集，只有图片、问题和回答，如果想要为现有的数据集人工标注新的“操作链”，那将耗费非常大的人力。
为了收集到足够多的数据，作者设计了一种自动化的数据收集流程：让大语言模型生成若干操作序列，遍历这些操作序列以找到能够到达最终答案的序列，作为操作链的训练数据。在我看来，这种生成数据的方法非常巧妙，我们可以把很多现有的简单的图像问答数据集，通过这种方式变成多步操作的“多模态思维链”数据集。以下图为例，数据集本身只包含一张图、一个问题、一个回答，为了生成回答过程的“操作链”，该论文提出用大模型在每一步建议一些操作，再通过搜索这些操作，最终到达给定答案，而搜索得到的路径就是“操作链”。

有了充足的数据加成，加上该论文使用的基座模型CogVLM本身就是一个很强的多模态大模型，本文提出的CogCoM在诸多数据集上取得了非常好的效果。因为“操作链”的正确性本身很难被自动评估，我们目前能够看到的成效主要是加上“操作链”对一些图文理解任务的提升，例如下图中显示的在多个图文问答数据集上的提升：

作者团队介绍
这篇论文来自国内的智谱AI团队。相信对于大模型圈子里的人来说，这家公司已经是很熟悉的面孔了。早在ChatGPT引起广泛关注之前，智谱AI就发布了GLM-130B，一款中英双语的千亿参数级大模型。此举不仅显示了其技术实力，也体现了其对推动全球AI研究的承诺。随着ChatGPT的流行，智谱AI迅速反应，开发了ChatGLM模型并持续保持更新，为大模型社区做出了巨大贡献，很多人都用过ChatGLM及ChatGLM2系列模型。
大模型的更多研究方向
除了多模态大模型，基于大模型的智能体（AI Agent）也是近期学术研究的热点。我们可以通过对大模型做一些订制，为它增加一些使用工具的能力，让它完成特定的任务。
智能体技术使得大模型不仅仅是信息处理工具，而是可以执行具体任务的助手；同样以上文中所关注的论文作者智谱AI为例，他们的通用大模型应用智谱清言里，就有很多“智能体”的已落地可用。

这些智能体能够执行从亲戚关系计算到小学语文教学的多样化任务；而这些功能之前通常需要专业的软件开发团队进行单独编程才能实现，现在通过定制智能体，即使是非专业用户也可以低门槛配置和使用。就像每个人都有一个自己的软件外包团队，我们只需要说出需求，就有AI助理帮我们实现功能。
个人认为，从研究的角度看，大模型的智能体技术至少有以下可供研究的方向：

功能拓展与多任务处理：探索如何设计智能体以支持更广泛的任务和更复杂的决策过程。这包括增强智能体的适应性，使其能够在更多环境和情景下有效运作。
智能体的资源效率：在实际应用中，大模型调用的次数和使用的token数量直接关联到运行成本。因此，研究如何优化智能体的调用策略和数据处理能力，减少必要的资源消耗，是非常重要的。这不仅可以降低成本，还可以提高响应速度和用户体验。
智能体的自我学习能力：考虑到大模型的强大学习和适应能力，研究如何使智能体在执行任务过程中不断学习和优化自身行为，可以显著提升其长期效能和应用价值。

通过这些研究方向的探索，我们可以不仅仅使智能体在执行单一任务时更为高效，还可以使其更好地适应复杂多变的真实世界环境。
在AI Agent方向，以智谱AI为代表的国内大模型公司也已经有很多前沿研究和实际应用努力，感兴趣的读者可以去进一步阅读或上手体验。
总结与展望
本文举例了大模型技术在2024年及以后可能的几个研究方向，特别是多模态大模型和基于大模型的智能体技术。这两年，我们见证了大模型技术如何快速演进并渗透到我们的日常生活中。在这样的背景下，CogCoM这样的创新模型所展现的解决多模态幻觉问题和提升模型逻辑推理能力方面的前瞻思考非常有参考价值。
如今，大模型能力越来越强，不仅在科技领域，也在社会和经济层面产生深远影响。这都离不开诸如ZhipuAI这样的专注于技术，比较脚踏实地的团队，也离不开千千万万研究者。展望未来，随着这些技术的不断成熟和创新，我们可以期待一个更加智能化的世界，大模型技术将继续作为第四次科技革命的核心力量，推动我们进入一个全新的技术时代。
2024年显然不会是大模型研究的最后一年，一次跨越时代的变革必然需要长久的研究。我相信，新的时代正在展开，我们的未来会更加美好。

感恩由您 · 发表于 2025-3-14 10:48

AGI的本质还是期待能获得一个无所不能的大语言模型，在这一年里我也是在这个领域探索和成长。在真实的环境中发现持续提升大模型的效果并不是一件很简单的事情，其中有很多关键的挑战和值得持续研究的方向，在此给大家分享一下。
其中pretraining的部分和 @王焱 @孙培钦 at鼎叮进行的交流沟通
Pretraining部分

Data Collection

整个pretrain阶段最重要的部分就是数据收集，尽管OpenAI已经给我们了一套标准化的数据收集流程并也有很多开源机构给予了预训练数据（例如common crawl [1]，starcoder等网络数据 [2]），但是

如何持续获取最新的互联网数据来更新模型的预训练知识，这是一个值得研究的重要问题。
模型如何针对新的互联网数据，主动发现和判断哪些数据是已经掌握的，哪些数据是新的知识，并进行自动地持续学习，这也是一个衍生出来的可能方向。
模型依据新获取的知识，如何更新相关一系列问题的答案，这也是一个比较有挑战的问题，举个例子，美国总统现在是谁，这个问题就是一直动态变化的，而2024年的答案也许和2018年的答案是冲突的，那么怎么依据2024年的新数据更新这个问题答案，也是一个non trivial的问题。
丰富的高质量数据获取是也是预训练阶段数据收集的一个重要研究方向。在Deepseek-math [3] 论文中，他们通过反复对common crawl数据进行清洗，提取丰富的高质量预训练数据，大大提升了其7B模型在math类bench mark的效果。这个实验也说明了，对于一个尺寸偏小的模型（7B以下）丰富的高质量的预训练数据是非常重要的，因为更小的模型容噪能力是偏低的，那么一个更加干净且丰富的数据集就显得尤为重要。

Data Organization

整个预训练数据收集完毕后，如何组织成为结构化的预训练数据供给模型训练是现阶段很多科研机构研究的方向。
5. 如何通过数据的依赖关系组织预训练数据可以最大限度地让模型学习到存储在预训练数据的知识，这是现阶段大家最关注的方向。其中构造更长依赖的文本数据似乎是现阶段的一个突破口，更长的文本依赖可以激活模型更丰富的attention模式，以及可以激活模型更强的reasoning的能力。例如，In context pretraining [4] 文章通过将相关的文本构建在一起，来提升模型的reasoning能力，还有Deepseek Coder [5] 也将多个code文件组合在一起成为repo-level的code文本，以获得模型更强的code能力。
6. 如何组织高质量文本进入预训练阶段，最大化发挥这些高质量数据也是数据组织的一个比较重要的方向。比如minicpm公司在预训练的第二阶段，也就是lr退火阶段加入了高质量的数据（包括sft数据，高质量code数据等）[6]，在benchmark上获取了非常大的提升。但是否该仅在退火阶段加入高质量数据，以及高质量数据的比例如何和低质量数据进行混合也是比较值得研究的方向之一。
7. 数据组织的组织格式的一些小的技巧。尽管这个问题听上去很trivial，是一些工程上的事情，但从实际提升效果的角度，也许这是尤其重要的环节。比如训练code里的python代码，选四个空格还是TAB作为你的缩进token，比如数学中的公式应该是用latex表示还是其它形式。这些选择里一定有更利于模型学习的形式，而且很可能某个trick对小模型的智能提升会有很大作用。期待有一篇可以和李牧老师的imagenet training trick [7] 媲美的论文揭露这些trick。
Synthetic Data Generation

合成数据的生成现在是一个业界和学界重点关注的问题，这个方向其实和知识蒸馏，知识编辑以及数据飞轮都有一定关系。
8. 如何通过合成数据的方式蒸馏一个大模型的知识（比如GPT4），是现阶段大家比较关注的点。由于很多著名机构会在预训练数据阶段购买很多高价值的数据，在对齐阶段引入大量人工标注，使得包括GPT4在内的很多模型的能力很强。但是对于没有这么多资源的公司或者开源机构，如何通过明文的方式蒸馏GPT4的能力，补充自己的大模型能力，这是一个非常重要的方向。现在大量的工作都是利用sft阶段来引入GPT4的能力，比如metamath [8]，wizardcoder [9] 等工作。但是我认为这个问题可能比想象得困难，因为对于不同预训练数据的底座模型，蒸馏的困难程度会非常高，你需要从对齐后的模型去想办法还原出pretrain模型在某一方面的能力。（比如你很难在对齐后的模型还原模型在长文本上的续写能力）。
9. 如何通过合成数据的方式蒸馏一个大模型的知识进入一个小模型，这也是个很有趣的问题。这个问题和8的区别可能在于模型的预训练数据是否一致。对于预训练数据一致的模型，其实这种明文蒸馏也许效率和效果上可能可以媲美soft的方式的蒸馏，类似于GPT4（3.5）-turbo应该都是采取了这种方式蒸馏。当然在蒸馏过程中，如何选择合适的prompt，来作为传输手段把大模型的所有知识蒸馏到小模型上，这是一个比较重要的点。
10. 如何通过纯合成数据进行预训练，对齐来获得某个子方向的专精模型，这是一个最近很多公司在做的任务。微软的phi系列 [10] [11] 在这个方向上做的比较深入，他们模型从pretrain到sft，甚至是rm都是合成数据做出来的。但是这样的做法的短板也很明显，模型对于prompt的鲁棒性比较低。
Metrics in Pretraining

Pretrain Model 本质是一个中间产物，它只有一定的续写能力，它最终需要服务于downstream task。那么怎么评估Pretrain Model需要一定的手段和方法。除此之外，对于数据的质量，丰富度的评估的metric也是缺失的，这样对于我们数据选择就会有影响。
11. 预训练评估metric，以及这些metric与下游任务的关系。尽管现在预训练模型有很多维度的metric，比如math的GSM8k，Code的human eval，推理的MMLU数据集 [1]。但是这些数据集效果的提升和下游任务的关系是怎么样的？以及是否有更合理更高效的预训练评估的metric是值得深入研究的方向。
12. 数据质量和丰富度的metric。尽管我们知道数据质量和丰富度在pretrain阶段依然重要，但是如何衡量数据的质量和丰富度，依然缺少有说服力的metric。以及我个人认为不同的方向也许有不同的数据质量的定义。著名的Deepseek coder & math [3][5] 就是以pretrain数据质量高闻名，但是什么是高质量数据，他们的论文中也没有详细描述和体现。所以我觉得数据质量和丰富度的metric是未来很值得研究的方向。
Scaling Law & 超参数选择

听说当年Open-AI就是靠着Scaling-Law来说服投资者相信AGI的，尽管Open-AI的论文以及后续一系列论文已经把这个方向探索得比较清楚，但Scaling law这个方向仍然有一些值得探索的地方。
13. 每个子方向（code，math，通用等）的loss收敛和benchmark预测都是符合一套公式么？在star-coder-v2中，他们在小模型上训练了接近3.3 to 4.3 trillion tokens得到最好的benchmark效果 [2]，这个数字远超了Chinchilla给予的最佳训练量，这个也说明了不同类型的数据的超参数选择也许是不一样的，不同方向也许存在specific得scaling law。
14. loss曲线的变化和超参数选择以及优化器的选择的关系。比如面壁智能在自己的分享中介绍了training loss会在lr退火阶段迅速下降，并设计了新的变化lr机制，方便进行post-pretrain [6]。
在这部分我主要介绍了pretraining相关业界比较关心的能提升模型效果的问题和可能的方向。希望大家有任何想法和有趣的问题也可以提出来分享。
[1] Brown T, Mann B, Ryder N, et al. Language models are few-shot learners[J]. Advances in neural information processing systems, 2020, 33: 1877-1901.
[2] Lozhkov A, Li R, Allal L B, et al. StarCoder 2 and The Stack v2: The Next Generation[J]. arXiv preprint arXiv:2402.19173, 2024.
[3] Shao Z, Wang P, Zhu Q, et al. Deepseekmath: Pushing the limits of mathematical reasoning in open language models[J]. arXiv preprint arXiv:2402.03300, 2024.
[4] Shi W, Min S, Lomeli M, et al. In-Context Pretraining: Language Modeling Beyond Document Boundaries[J]. arXiv preprint arXiv:2310.10638, 2023.
[5] Guo D, Zhu Q, Yang D, et al. DeepSeek-Coder: When the Large Language Model Meets Programming--The Rise of Code Intelligence[J]. arXiv preprint arXiv:2401.14196, 2024.
[6] MiniCPM：揭示端侧大语言模型的无限潜力.
[7] He T, Zhang Z, Zhang H, et al. Bag of tricks for image classification with convolutional neural networks[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 558-567.
[8] Yu L, Jiang W, Shi H, et al. Metamath: Bootstrap your own mathematical questions for large language models[J]. arXiv preprint arXiv:2309.12284, 2023.
[9] Luo Z, Xu C, Zhao P, et al. Wizardcoder: Empowering code large language models with evol-instruct[J]. arXiv preprint arXiv:2306.08568, 2023.
[10] Gunasekar S, Zhang Y, Aneja J, et al. Textbooks are all you need[J]. arXiv preprint arXiv:2306.11644, 2023.
[11] Li Y, Bubeck S, Eldan R, et al. Textbooks are all you need ii: phi-1.5 technical report[J]. arXiv preprint arXiv:2309.05463, 2023.
<hr/>接上一篇，本篇会列举对齐策略中SFT比较值得研究的方向和需要解决的问题。先给一个粗浅的认识，其实SFT可能是整个LLM流程中最容易做的过程，或者说是难度和收益都比较低的一个过程。尽管OpenAI建议大家只做SFT去微调模型，以及大量的公司focus在SFT数据构建上，但我个人认为，SFT里可能只起一个指令遵循的作用。除此之外，无论是知识蒸馏还是提升LLM效果都不该期待在SFT中完成。这个认知大概也是我个人在实践一年大模型效果优化中形成的。Anyway，其实SFT做指令遵循依然有很多具有挑战的问题和值得继续研究的方向。
SFT部分

How to construct a suitable SFT data for a specific pretrained language model ？

13. 如何选择合适的query来构造SFT数据。假设你有一个query数据集合，选择合适的query作为sft的prompt现在是SFT方向的主要工作。这个类型工作的开山鼻祖是LIMA [1]，他们通过质量和diversity选择1k query集合，beat了万级别的query集合。后续有一些延续的工作。比如：

Embedding based method：Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [2]. 阿里的这篇论文主要从query的diversity出发，从一个子集合慢慢扩展开来到一个大query集合。他们主要靠模型内部embedding表示的距离衡量query的diversity。对于embedding based method，我个人觉得未来主要研究方向应该集中在挑选更能表示模型内部对prompt的表征的embedding，如何加入answer的embedding表征，以及如何找出更高效的挑选方法。
Tag based method：InsTag [3] 利用给不同的query打tag，然后从动词维度和名词维度对query数据去重。这个工作的好处就是可解释性很强，但缺点是如何收集tag，打tag以及tag的准确性问题很难保证。Instag这个工作也是focus在query的diversity。我个人觉得未来主要研究方向应该集中在Tag打标工具更能和模型本身能力结合，以及如何调整不同Tag下prompt的分布来提升模型的效果。
Complexity based method：对于同意的query，其实并不一定要进行语意去重，可以通过升级query complexity的方式来提升query的diversity。比较著名的是 Wizard LM [4]，利用5种prompt从不同维度来升级query的complexity。但是一味对难度的升级并不能提升query的语意覆盖度，其次过高的complexity的query，如果模型pretrain本身的能力不够，反而会损害sft后模型的效果。升级难度的这一系列工作，未来的方向可能是根据模型的能力对于特定的query进行难度升级，而不是全部升级。

14. 如何为选定的query获取合适的answer？假设已经选择好合适的query集合，如何获取相应的answer来建立合适的sft数据集。现阶段比较多的方法有三类：

人工改写pretrain生成的续写结果，这个应该是原始open-ai使用的方式，但这种方式需要人工很多，现在使用的人比较少。
利用GPT4生产结果，这个是现在比较多的公开dataset使用的方式，比如Wizard LM [4]等，这个方向主要研究方向还是如何提升GPT4的生成质量，来保证sft结果的正确性？例如 Self Repair等工作 [5]。
利用一些生产环境筛选pretrain生成的续写结果，这个是code，math类型sft数据的筛选方法。Code llama [6]就是采用这个方式筛选sft数据的。这个方法的未来发展方向，是如何建立多种多样的生产环境（或者global rm model 或者是更强的world model）来筛选数据。

15. 如何在公开数据的sft dataset的筛选合适模型的sft数据。
毕竟获取query和answer是一个成本极高的事情，那么如果可以从开源的一系列数据中筛选合适自己模型的sft数据会比较低成本。

Hybrid Method （混合了多种之前列举的指标和方法。）：例如 What Make Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning [7] 文章，从complexity，diversity和quality三个方向对sft数据建模，训练了多个模型对各个指标维度进行分别衡量。我觉得混合式方法一定是最终会采取的方式，那么如何高效得混合策略，将是混合方法的一个方向。因为过复杂过重的数据筛选方式不适合实际场景。
利用sft model和pretrain model的关系筛选模型的sft数据。因为pretrain model和sft model我们是可以获得的，那么利用sft model和 pretrain model中prompt下answer的概率变化是可以直接建模出来的（贝叶斯学派）。那么通过这个建模可以更好的筛选sft数据，比如IFD [8] 方法。那么更好地建模pretrain model，sft data 和 sft model的关系，然后通过这个建模筛选sft data，也是一个值得研究的方向。

How to efficiently do supervised fine-tuning ？

16. 如何混合不同的SFT数据？

不同方向的sft数据混合：对于理科和文科的SFT数据混合是一个比较特殊的方向，由于第一版本的chatgpt是在codex基础上继续训练的，所以对于理科文科sft是否也应该先训理科后训文科，还是应该混合训一直是个疑问。对于这个问题已有的paper是来自于千问团队的 HOW ABILITIES IN LARGE LANGUAGE MODELS ARE AFFECTED BY SUPERVISED FINE-TUNING DATA COMPOSITION [9]，他们提出数学和代码应该先训，然后在训通用sft数据的时候再加少量代码和数学的sft数据。但由于他们的base model是Llama2，其本身的数学和代码能力就不太好，所以可能结果也不solid。因此不同方向的sft数据混合仍应该继续研究。
不同sft数据集合的配比问题：SFT数据集以及pretrain数据集的配比问题一直有researcher在研究，但现在的pretrain数据配比过于精细化的配比也许会过于拟合benchmark。尽管sft数据配比也有此问题，但sft方向至少有一个值得研究的问题，就是难易数据的配比问题。其中比较著名的sft数据配比的paper是skill-it [10]，通过skill建模评估数据集，通过模型loss来确定各个阶段对eval数据中skill的学习情况，然后确定最终sft数据配比。但整个过程建模有些繁琐，在过大的模型，过复杂的eval set上不太实用。所以，怎么在大模型上高效地解决sft数据配比问题是一个值得研究的方向。
不同类型sft数据的互相促进关系？尽管有很多说法，code，math会提升模型整体的推理能力。但是并没有一篇论文完整地讨论各个方向sft数据互相之间的促进减弱关系，因此这是一个很值得深入研究的方向。

17. 如何做SFT packing，以及不同SFT packing对模型的效果的影响？
这个方向其实看到的论文非常少。虽然现阶段为了充分利用batchsize的token计算量，SFT数据会像pretrain 数据一样，pack在一起。一般比较简单的做法，就是暴力地连接在一起，多余的数据进行截断。比较精巧的方法是block diagonal attention [11]。总体而言，sft packing对整体sft后模型效果的影响，是值得研究的方向之一。
How to design the format of sft data ？

18. 对于不同类型的数据，什么样的data format能够激发模型更好的泛化能力？
对于math的sft数据，COT data or (detailed scratchpad data) [12] 可以更好地激发模型的数学能力。但是其余关于代码，通用类的data format并没有很多细致地研究。那么如何设计合理的sft data format来激发模型各个方向对齐后的能力，是未来值得研究的方向之一。
[1] Zhou C, Liu P, Xu P, et al. Lima: Less is more for alignment[J]. Advances in Neural Information Processing Systems, 2024, 36.
[2] Wu S, Lu K, Xu B, et al. Self-evolved diverse data sampling for efficient instruction tuning[J]. arXiv preprint arXiv:2311.08182, 2023.
[3] Lu K, Yuan H, Yuan Z, et al. # InsTag: Instruction Tagging for Analyzing Supervised Fine-tuning of Large Language Models[C]//The Twelfth International Conference on Learning Representations. 2023.
[4] Xu C, Sun Q, Zheng K, et al. Wizardlm: Empowering large language models to follow complex instructions[J]. arXiv preprint arXiv:2304.12244, 2023.
[5] Olausson T X, Inala J P, Wang C, et al. Demystifying gpt self-repair for code generation[J]. arXiv preprint arXiv:2306.09896, 2023.
[6] Roziere B, Gehring J, Gloeckle F, et al. Code llama: Open foundation models for code[J]. arXiv preprint arXiv:2308.12950, 2023.
[7] Liu W, Zeng W, He K, et al. What makes good data for alignment? a comprehensive study of automatic data selection in instruction tuning[J]. arXiv preprint arXiv:2312.15685, 2023.
[8] Li M, Zhang Y, Li Z, et al. From quantity to quality: Boosting llm performance with self-guided data selection for instruction tuning[J]. arXiv preprint arXiv:2308.12032, 2023.
[9] Dong G, Yuan H, Lu K, et al. How abilities in large language models are affected by supervised fine-tuning data composition[J]. arXiv preprint arXiv:2310.05492, 2023.
[10] Chen M, Roberts N, Bhatia K, et al. Skill-it! a data-driven skills framework for understanding and training language models[J]. Advances in Neural Information Processing Systems, 2024, 36.
[11] Qiu J, Ma H, Levy O, et al. Blockwise self-attention for long document understanding[J]. arXiv preprint arXiv:1911.02972, 2019.
[12] Lee N, Sreenivasan K, Lee J D, et al. Teaching arithmetic to small transformers[J]. arXiv preprint arXiv:2307.03381, 2023.
<hr/>接上一篇，本篇会列举对齐策略中RLHF比较值得研究的方向和需要解决的问题。RLHF可能真的算是整个LLM比价难和吃纯技术的一个方向，相比于pretrain更多的来源于对混沌未知的洞见（除了scaling law以外，可能还没有特别有指导性的工作），SFT来源于精细化处理和更多的人工干预，那么RLHF则是需要多年的技术积累和丰富的理论保证。个人从16年开始做RL，包括理论的，学术的，业务线的RL都做过很多，之前多少有点对RL的落地有些失落，但RLHF的出现真都让我感受到奥特曼所谓的compound effect。给一个比较直观的感受，RLHF一定是AGI皇冠上的明珠，它决定了对齐后模型的上限。下面列举了我认为RLHF未来值得研究的方向：
RLHF部分
Online Algorithm 问题：
19. 提升online algorithm的efficiency的问题, 这里首先需要解决的就是online algorithm的efficiency的问题。因为online algorithm一个过程就是on policy的采样，和reward model对这些采样打分。但是如果采样的过程和打分的过程非常耗时，那么会拉长整体模型的训练时常。无论是PPO [1]和iterative DPO [2]都逃避不了这样的问题。在Instruct GPT[3] 中使用的是小型的reward model，小型的reward model就是为了降低打分过程的耗时。那么如何提升algorithm的采样和打分耗时问题会是一个重要研究方向，个人认为可以做模型performance和efficiency的trade-off。
20. 如何优化PPO算法的GPU显存占比？由于PPO里需要有4个模型，policy model，value model，ref policy model和reward model。如果四个模型同大小且需要同时放入GPU显存里，那么一个PPO过程的GPU显存占比会需要4个大模型的大小，对于现阶段算力来说是十分吃紧的。deepseek math[4]试图将value model去掉，使用类似Reinforce算法里baseline的算法，直接通过batch的平均预测值当作state baseline（value model的预测的state value）。但这种方法会使得PPO失去credit assign的能力，不利于最终模型的效果。除此之外Lora-based 方法，以及混合式Lora based 算法[5]也有人提出，但这类型case在解决编辑距离较低的response pair会有模型表达能力不够的情况。所以如何降低PPO的GPU显存占比且不伤害模型效果，是一个未来研究的重要方向。
21. PPO的reward hacking问题？在PPO过程中，尽管reward持续增加，但是很容易会发现模型会突然输出一些不符合人类价值观的输出，本质还是找到了达到reward 最高的捷径(比如length bias [5]等)，但并不符合人类价值观。尽管这里有一部分是reward model的问题，一部分也是PPO这个模型灵活度过高，容易hack reward而不是generalize reward。现有一些思路还是做一些reward hack的惩罚项 [6]，但是我觉得没有找到问题地根本。如何修改PPO使得它可以找到一个generalize reward的方案或者regularize的方案，而不是one by one地增加惩罚项，将是未来一个研究方向。
22. PPO的稳定性问题？PPO的稳定性问题一直是被人诟病最多的问题之一，这里超参数的调整简直是炼丹，前有OpenAI公布一些小游戏上的stabe-ppo baseline[7]，现在大模型中，调参数使得其稳定更是有很多trick，有一些工作已经开始focus在这个问题上了[8]。因此如何找出PPO稳定性的trick，在RLHF算法届十分值得研究。
23. Online RLHF的停止问题？因为现在默认RLHF的上限就是pretrain model的上限，但是本质Online RLHF是可以无限更新的，但是何时模型已经到了pretrain model的上限，何时继续更新虽然reward在上升（这个和21有一些联系，但21也许不要early stop），但是效果不再提升了。这样既可以提升模型效果防止reward hacking，还可以减少模型训练量，最后也可以评价rm 模型做到如何程度就可以了。因此如何直接选择一个指标衡量决定何时停止Online RLHF是一个重要研究方向。
Offline Algorithm
尽管Online Algorithm是现在公认效果最好的算法簇，但是Offline Algorithm依然有很大的市场和影响力。主要原因还是Online Algorithm资源消耗太大，很多公司和研究者负担不起。
23. 如何利用Offline算法完成On-policy的采样？这个问题似乎现在已经有了很好的答案，就是做Iterative的offline算法[9]。但是依然需要探讨的问题可能是，如何选择Iteration的评次和轮数，或者定义一个指标去规约Offline Model在一个iteration里不能过于偏离Ref Model。
24. 如何设计一个好的Offline Algorithm？其实Offline Algorithm一直是RL里一个重要方向，因为毕竟在任何一个系统中做RL都有sample efficiency问题。曾经的一系列解法主要focus在Importance Sampling[10]，Natural Policy Gradient[11], One step TRPO和One step PPO[12]。但这些算法好像还未引入到RLHF中，而且我觉得RLHF其实是个可以self-reward的model[13][14]，但好像很少Offline Algorithm 在深入利用这部分的性质改进Offline Algorithm。如何利用Offline Dataset的分布以及LLM模型的特性设计适合LLM的Offline Algorithm是一个值得研究的方向。
25. DPO算法的改造？尽管DPO这个算法本身很成熟，而且有很多工作试图对齐改造，包括loss方向的：IPO[15]和DPOP[16]，采样方向的：Iterative DPO[2]和RSO[17], 样本构造方向的：KTO [18], RLCD[19]和Self-reward [14]。但是还是没有解决DPO的一些其他问题，例如Token的Credit Assign问题。那么持续地改造提升DPO算法，会是一个很好的方向。
[1] Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv:1707.06347, 2017.
[2] Xiong W, Dong H, Ye C, et al. Gibbs sampling from human feedback: A provable kl-constrained framework for rlhf[J]. arXiv preprint arXiv:2312.11456, 2023.
[3] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in neural information processing systems, 2022, 35: 27730-27744.
[4] Shao Z, Wang P, Zhu Q, et al. Deepseekmath: Pushing the limits of mathematical reasoning in open language models[J]. arXiv preprint arXiv:2402.03300, 2024.
[5] Shen W, Zheng R, Zhan W, et al. Loose lips sink ships: Mitigating length bias in reinforcement learning from human feedback[J]. arXiv preprint arXiv:2310.05199, 2023.
[6] Chen L, Zhu C, Soselia D, et al. ODIN: Disentangled Reward Mitigates Hacking in RLHF[J]. arXiv preprint arXiv:2402.07319, 2024.
[7] https://stable-baselines3.readthedocs.io/en/master/modules/ppo.html
[8] Zheng R, Dou S, Gao S, et al. Delve into ppo: Implementation matters for stable rlhf[C]//NeurIPS 2023 Workshop on Instruction Tuning and Instruction Following. 2023.
[9] Guo S, Zhang B, Liu T, et al. Direct language model alignment from online ai feedback[J]. arXiv preprint arXiv:2402.04792, 2024.
[10] Tokdar S T, Kass R E. Importance sampling: a review[J]. Wiley Interdisciplinary Reviews: Computational Statistics, 2010, 2(1): 54-60.
[11] Kakade S M. A natural policy gradient[J]. Advances in neural information processing systems, 2001, 14.
[12] Ghraieb H, Viquerat J, Larcher A, et al. Single-step deep reinforcement learning for open-loop control of laminar and turbulent flows[J]. Physical Review Fluids, 2021, 6(5): 053902.
[13] Yuan W, Pang R Y, Cho K, et al. Self-rewarding language models[J]. arXiv preprint arXiv:2401.10020, 2024.
[14] Liu A, Bai H, Lu Z, et al. Direct Large Language Model Alignment Through Self-Rewarding Contrastive Prompt Distillation[J]. arXiv preprint arXiv:2402.11907, 2024.
[15] Azar M G, Rowland M, Piot B, et al. A general theoretical paradigm to understand learning from human preferences[J]. arXiv preprint arXiv:2310.12036, 2023.
[16] Pal A, Karkhanis D, Dooley S, et al. Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive[J]. arXiv preprint arXiv:2402.13228, 2024.
[17] Liu T, Zhao Y, Joshi R, et al. Statistical rejection sampling improves preference optimization[J]. arXiv preprint arXiv:2309.06657, 2023.
[18] Ethayarajh K, Xu W, Muennighoff N, et al. Kto: Model alignment as prospect theoretic optimization[J]. arXiv preprint arXiv:2402.01306, 2024.
[19] Yang K, Klein D, Celikyilmaz A, et al. Rlcd: Reinforcement learning from contrast distillation for language model alignment[J]. arXiv preprint arXiv:2307.12950, 2023.

未完待续… 下一章Reward Model

清风寡欲 · 发表于 2025-3-14 10:48

学术：
激发LLM的原有能力：ICL、COT
理解LLM的机制：知识定位/修改、ICL的原理、COT的原理
减少LLM的幻觉hallucination、毒性toxicity、偏见bias等
让LLM对不懂的说no
持续学习continual learning
落地：
检索增强生成RAG
高质量指令微调instruction learning
基于人类反馈的强化学习RLHF

图文播报

[分享] 2024年大模型LLM还有哪些可研究的方向？

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心