IcL（In-context Learning）值得关注的重点

空白派 · 发表于 2024-12-19 19:02

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

详细论文汇总请见：
<hr/>corpus level和instance level

corpus level和instance level是IcL prompt的两种粒度。
corpus level：面对同一个task，选出一些演示示例作为IcL prompt，也就是说对于每个测试问题，选取的演示示例都是相同的。
instance level：对于每个测试问题，选取的演示示例都不同，以保证它的效果最好。
random label

  演示示例中的random label到底有没有影响？
  论文[1] 表明random label对模型性能的破坏并不是很大，以此说明IcL更多的是去学习format，而不是mapping。也就是说随机替换演示示例中的标签几乎不会影响一系列分类和多选任务的性能，并且表明选择和问题不同分布的示例对IcL的性能影响很大。但是论文中gold label的表现也不错。
  论文[2] 对论文[1] 进行了反驳，认为random label是存在一定影响的，只是在一些简单的任务上体现不出，这取决于任务的类型，也取决于模型本身。
  论文[3] 表明，在演示示例与测试输入更接近时这一前提下，标签的正确性更为重要。此时，错误的示例，会加重预测的错误。如果不存在这个前提，演示示例中的标签的正确性远不如我们认为的那么重要。
contextual calibration

IcL的不稳定性受示例的选择和排列顺序影响，不同的设置会对模型预测带来偏差（bias）。这里定义了三种类型的标签偏差：基本标签偏差、示例标签偏差和领域标签偏差。[4]

基本标签偏差：与演示示例无关，可能与标签名称在预训练语料中的词频有关。
示例标签偏差：模型从少数示例中学习，并且对示例的设置特别敏感。
领域标签偏差：受任务语料的影响，模型在预测时依赖其对任务的先验知识。

所以就有了contextual calibration（上下文校准），校准的目的是消除prompt、llm本身的偏差：

例如模型倾向于预测预训练中常见的高频词、label；
例如模型倾向于预测演示示例中离结尾最接近的示例的label；

注意contextual calibration是一种无需训练的校准方法。论文[4][5] 直接使用context-free的方法来抵消bias，详情请参阅原论文。
demonstration

demonstration分为organization和formatting两类，organization又分为selection和ordering。
selection

unsupervised
无监督的方法
KATE[6]，基于输入问题的相似度检索，并根据检索到的示例跟问题的相似度进行排序，跟问题越相似的示例放在demonstration越后面，这是最常见的做法。
论文[7] 首先采用vote-k方法缩小检索范围，从未标注的数据中进行选择性注释，相当于选择最有代表性、多样性的候选范围。然后再进行问题相似度检索。vote-k方法平衡了多样性和代表性。
论文[8] 表明只选择相似的演示示例是不够的，因为通常没有足够的示例与输入相似（这可能是一个前提）。同样强调多样性的重要性，一组高度相似的示例可能不如一组多样化的示例有效。论文提出基于覆盖的方法，示例尽量覆盖输出中的潜在子结构或单词，并且选择具有最小相似性的示例来增加多样性。论文想解决的是组合问题。
论文[9] 提出一种filter-then-search方法，和论文[7] 的思想一样，先通过Informative Score（信息量）进行过滤缩小范围，希望找到那些信息丰富的示例。然后通过多样性迭代改进从过滤后的示例中选择示例的排列顺序组合。
supervised
  有监督的方法，通常是对相似度召回过程进行了训练。
  论文[10] 训练一个召回模型，通过一个语言模型对训练集中的示例进行打分，然后选择打分靠前的作为正样本，打分靠后的作为负样本，最后进行对比学习的训练。
  论文[11] 通过计算模型的对数似然概率去训练召回模型，计算真实target y条件下的对数似然概率，训练时引入排序损失。可以说这种方法与模型进行了对齐。
ordering

Self-adaptive[12] 是基于instance level的，旨在为每个样本都找到一组合适示例，包括示例的选择以及排序。它通过相似度检索的方式筛选出一小部分示例，再通过排序决定最终demonstration中示例的顺序。因为排列组合太多，所以随机采样排列顺序，通过Minimum Description Length（MDL）进行选择。如果有验证集，MDL等同于交叉熵，但这里不需要验证集。
论文[13] 是基于corpus level的，首先生成用来验证的无标注数据集，然后随机采样排列顺序，通过Global Entropy与Local Entropy进行选择。
这两篇论文也可以用作评估prompt好坏的指标，详情可见：
总结

1、IcL示例可以从哪里选取？
分为从预训练语料和下游数据集两种。下游数据集可以是训练集或测试集，或者同类任务数据集、甚至不同任务数据集。
2、IcL示例的排序方式有哪些？
（1）根据相似度排序，与问题越相似的示例位置越接近问题。
（2）缩小演示示例候选范围后，随机采样排列顺序，然后通过Global Entropy与Local Entropy进行选择。
（3）缩小演示示例候选范围后，随机采样排列顺序，然后通过Minimum Description Length（MDL）进行选择。
3、IcL选择示例的方式有哪些？
（1）直接进行语义相似度检索。
（2）首先通过代表性和多样性缩小检索范围，再进行检索。
（3）首先通过信息量缩小检索范围，再进行检索。
（4）寻找覆盖性与多样性高的演示示例。
（5）首先通过模型打分或者对数似然训练检索模型，然后进行检索。
warm up

  现有模型在预训练过程中并没有直接专门针对IcL模式进行训练，因此IcL能力有待提高。预训练的Next token prediction目标和下游IcL目标存在gap，所以需要插入一个中间任务对模型进行预热（warm up），warm up不是为了让模型适配某个特定的下游任务，而是让模型具备更好的通用IcL能力。
supervised

  直接在有监督的IcL数据上训练。
self-supervised

  有监督的数据毕竟是有限的，于是有研究开始借鉴预训练的方式，自监督的进行IcL训练。
PICL[14] 表明从一般的纯文本语料库中构建内在任务进行预训练可以带来更好的ICL能力，它通过收集具有相同内在任务的段落来构建训练数据集，在演示示例中执行内在任务，从而提高其ICL能力。预训练目标为构建的训练数据序列上的自回归目标以及原始数据集的自回归训练目标。
参考文献

[1] Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?
[2] Ground-Truth Labels Matter: A Deeper Look into Input-Label Demonstrations
[3] Z-ICL: Zero-Shot In-Context Learning with Pseudo-Demonstrations
[4] Mitigating Label Biases for In-context Learning
[5] Calibrate Before Use: Improving Few-Shot Performance of Language Models
[6] What Makes Good In-Context Examples for GPT-3?（KATE）
[7] Selective annotation makes language models better few-shot learners
[8] Diverse Demonstrations Improve In-context Compositional Generalization
[9] Finding supporting examples for in-context learning（Informative Score）
[10] Learning To Retrieve Prompts for In-Context Learning（EPR）
[11] Unified demonstration retriever for in-context learning（UDR）
[12] Self-Adaptive In-Context Learning: An Information Compression Perspective for In-Context Example Selection and Ordering
[13] Fantastically ordered prompts and where to find them: Overcoming few-shot prompt order sensitivity
[14] Pre-training to learn in context

原文地址：https://zhuanlan.zhihu.com/p/669947032

图文播报

[分享] IcL（In-context Learning）值得关注的重点

登陆有奖并可浏览互动！

发表回复

官方推荐 /3

个人中心