ICLR是个什么样的会议?

二维码 · 发表于 2024-9-29 10:16

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

最近看到一些来自ICLR(International Conference on Learning Representations)这个会议的不错的文章,可是网上关于ICLR的介绍很少，会议很新，CCF列表也找不到.start | ICLR/ 这个是该会议的主页。我所知道的仅仅是这个会议由几个DL领域的大牛在2013年发起，好像还有相比于之前其他会议不同的投稿/审稿方式。不知道有没有了解的人能介绍一下？谢谢！
原文地址：https://www.zhihu.com/question/47940549

继续前进 · 发表于 2024-9-29 10:16

本文介绍一篇被ICLR2023录用的旨在增强大型预训练语言模型代码生成能力的工作。生成给定编程问题的代码解决方案的任务可以从使用诸如Codex之类的预训练语言模型中受益，这些模型可以生成多种多样的代码样本。然而，这项任务的一个主要挑战是从预训练语言模型生成的多个样本中选择最合适的解决方案。评估代码解决方案的质量和正确性的一种方法是针对一组测试用例运行代码，但手动创建此类测试用例通常费时费力。在这篇论文中，作者提出了一种新颖的方法，称为CodeT，它利用相同的预训练语言模型自动生成代码样本与测试用例，从而减少人力投入，增加测试场景的覆盖范围。CodeT首先使用生成的测试用例执行代码样本，然后同时考虑代码样本与测试用例的一致性以及与其他代码样本的一致性进行排序。作者在四个基准测试集（HumanEval、MBPP、APPS和CodeContests）上进行了全面的实验，使用了五种不同大小和能力的预训练语言模型。实验结果表明，CodeT可以显著提升代码解决方案选择的性能，相较于先前的方法，无论是在不同模型还是不同基准测试集上，都实现了显著的提升。例如，CodeT在HumanEval上的pass@1指标提高到65.8%，这相对于code-davinci-002模型的提升幅度达到18.8%，并且而相对于先前的SOTA结果，提升幅度超过20%。
1. 绪论

尽管代码生成的预训练技术取得了显著进展，但从大型语言模型生成的多个候选方案中选择单个正确解决方案仍然是一个难题。例如，Codex（Chen等，2021）是用于代码生成的最先进的预训练语言模型，它可以在HumanEval基准测试集（Chen等，2021）上达到77.4%的pass@100（如果在给定问题的100个生成解决方案中有一个或多个可以通过相应的测试用例，则表示“pass”），但在pass@1（仅允许使用单个解决方案的正确率）方面仅为33.5%。这种巨大差距限制了代码生成模型的实际实用性，并激发了作者探索如何从多个候选方案中选择正确或最佳解决方案的动机。
一种直接验证解决方案正确性的方法是执行该解决方案并检查是否通过所有相应的测试用例。这种基于执行的方法已被广泛应用于各种与代码相关的任务，例如代码生成（Chen等，2021；Li等，2022b；Shi等，2022）、代码翻译（Roziere等，2021）和程序合成（Chen等，2018；Ellis等，2019）。然而，这种方法在很大程度上依赖于测试用例的质量和数量，而创建和维护测试用例通常是昂贵且耗时的。此外，在像Copilot这样的实际应用中，它是一个辅助开发人员编写代码的代码生成工具，期望用户为每个问题提供测试用例是不现实的。因此，作者提出为任意编程问题自动生成测试用例，并将其用于快速验证任何解决方案。

于是作者提出了CodeT：基于代码测试一致性驱动的代码生成方法，如图1所示。首先，作者利用同一预训练语言模型（例如Codex），通过提供详细的提示说明，生成针对每个编程问题的大量测试用例。接下来，作者采用了受经典RANSAC算法（Fischler & Bolles，1981）启发的代码测试一致性方法。作者将每个生成的代码解决方案在每个生成的测试用例上执行，并迭代地找到多组代码解决方案和测试用例配对。每个组，或称为共识集，具有通过相同测试用例的解决方案，表明它们具有相同的功能，即使在实现上不同。作者期望通过更多的测试用例的通过来判断解决方案的正确性，并且具有更多相似解决方案的解决方案，即在同一共识集中的解决方案。因此，作者通过共识集中的测试用例和解决方案的数量对每个共识集进行排名，并从排名最高的共识集中选择最佳解决方案。
论文提出的方法简单高效，因为它不需要任何标记数据或额外的排序器，但它可以实现令人惊讶的卓越性能。作者在五个不同的用于代码生成的预训练语言模型上进行了评估：三个OpenAI Codex模型（Chen等，2021）、InCoder（Fried等，2022）和CodeGen（Nijkamp等，2022），以及四个已建立的代码生成基准测试集：HumanEval（Chen等，2021）、MBPP（Austin等，2021）、APPS（Hendrycks等，2021）和CodeContests（Li等，2022b）。实验结果显示，论文提出的方法能够有效地从多个候选方案中选择正确的解决方案，在零样本情况下显著提高了所有基准测试集上的pass@1得分。例如，CodeT在使用code-davinci-002模型的情况下取得了如下改进：HumanEval（47.0% → 65.8%）、MBPP（58.1% → 67.7%）、APPS Introductory（27.2% → 34.6%）以及CodeContests（0.7% → 2.1%）。此外，当作者将最强大的预训练模型code-davinci-002与CodeT相结合时，可以在很大程度上超越先前的SOTA方法，例如在HumanEval上从42.7%（Inala等，2022）提升至 65.8%。作者还进行了详尽的分析以提供更多见解。
2.方法

代码生成任务的目标是解决一个编程问题：基于上下文c生成代码解决方案x。如图2所示，上下文c包含以代码注释形式呈现的自然语言问题描述，以及包括导入语句和函数头的代码片段。一个代码解决方案是一个解决上下文中描述的编程问题的代码片段。通常使用预训练语言模型M在给定上下文c的基础上对代码解决方案进行采样，表示为X = {x1, x2, …, xN }，其中M(c)表示生成的代码解决方案集合。我们的目标是从生成的代码解决方案集合X中选择最佳代码解决方案，其中是最有可能正确解决给定编程问题的解决方案。为此，作者提出了CodeT，希望发挥预训练语言模型M固有的能力。具体来说，作者使用M为编程问题生成测试用例（第2.1节），然后基于代码测试一致性选择最佳代码解决方案（第2.2节）。
2.1测试用例的自动生成除了生成代码解决方案外，我们还需要生成测试用例来评估代码解决方案的正确性。一个测试用例是上下文中定义的函数的输入和期望输出的成对数据。例如，在图2中，该编程问题的一个测试用例是检查是否存在列表中小于阈值的接近元素。为了生成测试用例，作者使用了与生成代码解决方案相同的预训练语言模型M，但在上下文c中添加了一个指令p作为提示，以表明作者希望生成测试用例而不是代码解决方案。如图2所示，指令p包含三个部分：（1）一个“pass”语句作为函数体的占位符，表示不需要为函数生成代码，（2）一个注释“check the correctness of [entry point]”，以阐明生成测试用例的意图，其中“[entry point]”是函数的名称，以及（3）一个“assert”语句来表示开始生成测试用例，指定测试用例的格式为输入-输出对。
然后，作者将拼接后的上下文和指令，即concat(c, p)，提供给语言模型M，然后从模型输出中采样得到一组测试用例，表示为Y = {y1, y2, …, yM}。测试用例生成的过程可以表示为Y = M(concat(c, p))。语言模型将尝试通过为函数生成合理的输入-输出对来完成指令。需要注意的是，在生成代码解决方案和测试用例之前，作者已经从上下文c中删除了所有示例输入-输出案例，以避免将真实测试用例暴露给语言模型。
2.2 代码测试的一致性排序在本小节中，作者解释了如何从生成的代码解决方案集合X = {x1, x2,…, xN }中选择最佳代码解决方案，使用生成的测试用例集合Y = {y1, y2,…, yM}作为判断标准。我们可以在测试用例y上执行代码解决方案x，这意味着在y的输入部分上运行由x定义的函数，并将输出与y的输出部分进行比较。如果代码解决方案x能够无错误地执行，并且输出与预期输出匹配，就称代码解决方案x能够通过测试用例y。此外，如果两个代码解决方案xi和xj能够通过集合Y中相同的测试用例，就说它们之间存在功能一致性协议。作者提出的方法基于以下假设：（1）在给定特定编程问题的情况下，代码解决方案和测试用例是从预训练语言模型M中独立随机采样的；（2）不正确的代码解决方案通常多种多样，并且两个不正确的代码解决方案之间具有功能一致性的概率很低。这些假设与经典的RANSAC算法（Fischler & Bolles，1981）相似，RANSAC是一种在嘈杂数据中寻找共识的鲁棒方法。受RANSAC启发，作者提出了CodeT，进行代码测试一致性的计算，这是一个迭代方法，具体如下：

首先从所有可能的配对集合D = {(x, y)|x ∈ X, y ∈ Y}中随机选择一对(x, y)。然后，尝试在测试用例y上执行代码解决方案x。如果x能够通过y，就称配对(x, y)为假设内点，因为它在假设上描述了正确的编程问题功能。否则，称(x, y)为异常值，因为它未能描述正确的功能。图3展示了一个简单的编程问题示例，即“返回一个数的平方”。(x1, y1)和(x3, y2)是两个假设的内点，而(x1, y4)和(x3, y1)则是两个异常值。
如果(x, y)是假设内点，就从D中收集与此假设内点一致的所有其他配对，形成一个称为共识集的集合S。为了找到与(x, y)一致的配对，首先找出x能够通过的所有测试用例，记为Sy。然后，找出能够通过与x完全相同的测试用例的所有代码解决方案，记为Sx。最后，共识集是由Sx中的代码解决方案和Sy中的测试用例组成的所有配对的集合，即S = {(x, y)|x ∈ Sx, y ∈ Sy}。例如，在图3中，可以从假设的内点(x1, y1)（显示在绿色框中）中得到Sx = {x1, x2}，Sy = {y1, y2, y3}，并从(x3, y2)（显示在紫色框中）中得到Sx = {x3}，Sy = {y2, y3, y4, y5}。
将共识集评分为f(S) = |Sx||Sy|，其中|Sx|是Sx中代码解决方案的数量，|Sy|是Sy中测试用例的数量。此得分等于共识集中的配对数量。根据作者的假设，与假设功能一致的配对越多，这个功能越有可能是正确的。根据图3中的示例，假设的内点(x1, y1)和(x3, y2)的共识集得分分别为6和4。

将以上过程重复固定次数，每次生成一个具有得分的共识集。最终，通过从得分最高的共识集中选择任何代码解决方案来获得最佳代码解决方案。如果我们想要获得k个代码解决方案，可以选择具有最高得分的前k个共识集，并从这k个共识集中各选择一个代码解决方案。在实际操作中，当D中的代码解决方案数量不大时，可以通过检查D中的所有可能配对来简化上述方法，而不是从D中采样配对。特别地，对于X中的每个代码解决方案x，将其与Y中的每个测试用例一一运行，并跟踪它通过了哪些测试用例。最终可以将通过相同测试用例的代码解决方案分组在一起，因为它们具有相同的功能。通过这种方式，根据它们的功能将X中的所有代码解决方案分成了不同的组，写为X = {S1x, S2x, …, SKx}，其中K是代码解决方案组的数量。每个组Sx都有一组通过的测试用例，将其写为Sy。然后，得到K个共识集，每个共识集的形式为S = {(x, y)|x ∈ Sx, y ∈ Sy}。可以像之前一样通过f(S) = |Sx||Sy|对每个共识集进行评分。这个简化版本有着相同的基本原理，但它一次性找到了所有的共识集，而不需要重复采样配对。

3. 实验设置

模型：本文的实验基于Codex（Chen等，2021）、InCoder（Fried等，2022）和CodeGen（Nijkamp等，2022）。Codex是GPT-3（Brown等，2020）的一个后继模型，能够理解提供的上下文并生成功能完备的程序。作者使用了三个由OpenAI提供不同版本的Codex模型：code-cushman-001、code-davinci-001和code-davinci-002。InCoder是一个统一的生成模型，可以执行从左到右的代码生成和代码填充，而CodeGen是一系列用于进行会话式程序合成的大规模语言模型。作者使用了InCoder 6.7B版本（InCoder 6B）和CodeGen 16B Python单语言版本（CodeGen-Mono-16B）。
评估指标和基准对比方法：作者使用pass@k（包括n个样本）作为性能评估指标，并利用地面真实测试用例来确定代码解决方案的功能正确性。对于每个问题，首先采样n个代码解决方案，然后选择其中的k个进行评估。如果其中任何一个通过了所有真实的测试用例，问题就被认为是已解决。然后pass@k是已解决问题的百分比。作者使用无偏的pass@k定义的基准对比方法（Chen等，2021），即从n个样本中随机选择k个解决方案。CodeT则使用基于代码测试一致性从n个样本中选择k个解决方案，如2.2中所述。此外，作者还包括了Li等人（2022b）使用的一种聚类方法进行比较，称为AlphaCode-C。作者复现的方法是使用CodeT生成的测试输入，在测试输入上运行解决方案，通过测试输出对解决方案进行分组，并按照大小对聚类进行排名。
基准测试数据集：本文在零样本设置下对四个公共代码生成基准测试集进行实验。基准测试集的统计数据如表1所示。（1）HumanEval（Chen等，2021）包含手写的Python编程问题。原始上下文包括示例输入-输出案例，在本文的实验中被移除，以避免暴露真实测试用例。（2）MBPP（Austin等，2021）（经过清洗的版本）包含众包编写的Python编程问题，同样按照HumanEval的方式构建了其上下文。（3）APPS（Hendrycks等，2021）包含从开源编码网站收集的编码问题，具有不同的难度级别。（4）CodeContests（Li等，2022b）包括从Codeforces平台爬取的竞技编程问题。为了进行零样本推理，作者按照以下方式构建了APPS和CodeContests的上下文：原始问题描述被视为注释，其中移除了输入-输出示例，并在注释之后放置了一个简单的函数头“def solution(stdin : str) → str :”，以适应输入/输出数据格式。
4.实验结果

4.1 HumanEval与MBPP实验结果

各种模型在HumanEval和MBPP基准测试上的实验结果总结在表2中。如果将基准列中的pass@100与pass@1进行比较，可以清楚地看到前者明显优于后者，表明CodeT有潜力从生成的100个样本中选择最佳的代码解决方案。
对于三个Codex模型，当将CodeT列与基准列进行比较时，CodeT的pass@1相对于基准pass@1实现了约10%的绝对提升。提升效果在HumanEval基准测试中始终在10%以上。令人惊讶的是，即使对于最强的基准模型code-davinci-002，提升效果也达到了18.8%，将pass@1提升到了65.8%，相对于先前报道的最佳结果（Inala等，2022）实现了20%以上的绝对提升。作者将这个更大的提升归因于code-davinci-002生成的测试用例质量更高，CodeT在MBPP基准测试中也取得了出色的表现，尽管提升幅度略低于HumanEval。以code-davinci-002为例，pass@1提高了9.6%。作者还报告了CodeT的pass@2和pass@10，以进一步展示其优越性。CodeT的pass@2结果接近基准的pass@10结果。与此同时，在HumanEval基准测试中，pass@10的提升效果也始终在10%以上。
InCoder-6B和CodeGen-Mono-16B的实验结果进一步验证了CodeT的有效性。显然，CodeT可以显著提升pass@1，绝对提升幅度在4.2%到13.1%之间。InCoder-6B在MBPP基准测试上取得了最大的提升效果，提升了13.1%。与Codex的实验结果类似，pass@2的结果接近基准的pass@10。所有结果表明，CodeT可以持续提高各种预训练语言模型的性能。
对于AlphaCode-C，无论使用不同模型在哪个基准测试上，它都始终劣于CodeT，这表明作者提出的代码测试一致性考虑了测试用例信息，具有优越性。
4.2 APPS与CodeContests实验结果

作者还在两个更具挑战性的基准测试上进行了实验，即APPS和CodeContests。作者构建了APPS和CodeContests的零样本版本，以与HumanEval和MBPP设置相一致，通过移除问题描述中的示例输入-输出案例。作者使用code-davinci-002进行代码解决方案和测试用例的生成。对于APPS，将采样数量设置为50，以节省计算成本，共有5,000个测试问题。对于CodeContests，参考Li等（2022b），将采样数量设置为1,000，以解决特别难的问题。从表3总结的结果中，我们可以清楚地观察到CodeT在这两个基准测试上的持续性能提升。在APPS的Introductory问题中，绝对的pass@1提升为7.4%，而对于APPS和CodeContest中的Competition问题，提升并不显著，表明它们的难度较大。
5. 结论

该论文提出了一种简单但有效的方法，称为CodeT，利用预训练语言模型来生成代码解决方案和测试用例。CodeT使用测试用例执行代码解决方案，并基于代码测试一致性选择最佳解决方案。作者展示了基于测试用例和其他解决方案的一致性对CodeT的成功至关重要，对生成的测试用例的质量及其对CodeT的影响进行了全面分析，并通过案例研究提供了更多的见解。实验结果清楚地证明了CodeT的优越性，在各种基准测试上显著提高了pass@1数值。虽然CodeT仍然面临挑战，即只适用于可执行代码生成，并且引入了额外的计算成本用于测试用例生成。在未来的工作中，作者会探索解决这些挑战的方法，并改进CodeT以解决更难的编程问题。

相关链接：
Humaneval数据集链接：
https://github.com/openai/human-eval
论文链接：
https://openreview.net/pdf?id=ktrw68Cmu9c
代码链接：
https://github.com/microsoft/CodeT

大力水手 · 发表于 2024-9-29 10:17

搜openreview搜到这个问题，正如这个会议的名字，学习表示，这个是非常根本一个问题，类似数理逻辑在数学里的地位，学习表示可以理解为智能里的地位，表示是推理的起点，类似数学符号之于数学，表示是物质呈现基础，可以说智能可以从一个良好表示中自然涌现，对知识/现象把握越深入，表示越深刻。

清风寡欲 · 发表于 2024-9-29 10:17

深度学习领域顶级会议——国际表征学习大会 ICLR 2020（ International Conference on Learning Representations)，将于 4 月 25 日正式线上开幕。作为首次将在非洲举办的国际 AI 学术顶会，却因为疫情完全改为线上，不过在家就能坐听大咖开讲也是种不错的选择。

1、ICLR简介
ICLR，2013 年由深度学习三座大山中的 Yoshua Bengio 和 Yann LeCun 牵头创办。众所周知，Yoshua Bengio 主管着蒙特利尔大学人工智能实验室，也就是 MILA，它是世界上最大的人工智能研究中心之一。Yann LeCun 是 Facebook 人工智能研究院的院长，被称为卷积神经网络之父。今年是第八届大会，虽举办的年限比较短，但已经被学术研究者们广泛认可，被认为是深度学习的顶级会议。
ICLR 2020 共收到了 2594 篇论文投稿，最终共有 687 篇被接收，其中 48 篇 orals，108 篇 spotlights，531 篇 poster；录取率为 26.5%，相比去年的 31.4% 略有降低。
清华大学ICLR会议智图对论文的接收比例、贡献最大的个人作者以及贡献最多的机构进行统计分析后，发现不少国内高校和学者均榜上有名。
ICLR 2020 会议专题全析：
ICLR 2020|国际学习表征会议 | AMinerICLR 2020 官方登记网址：
2020 Conference

2、作者维度分析
ICLR 2020 接收录用的 687 篇论文，共来自 2566 位作者。其中 5 篇以上(包括)入选的作者共有 15 位，入选 4 篇的作者有 15 位，入选 3 篇共 53 位，2 篇入选共 246 位，仅有 1 篇作品入选的共 2239 位作者，详情见下图。

其中，高居入选论文榜首的学者是来自 UC Berkeley 的副教授 Sergey Levine，共计 13 篇论文被录用。
两位华人学者榜上有名，清华大学计算机系朱军教授、佐治亚理工学院终身副教授宋乐分别各有 7 篇论文被接收，位居第二。
朱军教授是清华大学计算机系教授，主要从事机器学习、贝叶斯统计等基础理论、高效算法及相关应用研究，在国际重要期刊与会议发表学术论文 100 余篇。
宋乐是佐治亚理工学院计算科学与工程系终身副教授，机器学习中心副主任。他的主要研究方向包括核函数和深度学习的嵌入方法，机器学习的大规模算法和高效系统，以及静态和动态网络分析等，他曾获得过很多机器学习方面的顶级国际奖项。

美国加州大学戴维斯分校教授 Cho-Jui Hsieh，多伦多大学助理教授 Jimmy Ba，北京大学信息科学技术学院教授王立威，DeepMind 首席科学家 Pushmeet Kohli，马里兰大学计算机系副教授 Tom Goldstein，分别各有 6 篇入选，并列第三位。

从作者所属国籍来看，华人参与的论文共有 412 篇，占总论文数的 60%。其中华人一作论文共有 301 篇，占华人参与论文数的 73%，占总论文数的 44%。
可以看出，华人在此次ICLR 2020 贡献了很大一部分力量。

由投稿关键词生成的词云图，突出了深度学习、强化学习、表示学习、生成模型、图形神经网络等热点话题。

3、华人学者所在机构分析
在众多投稿单位中，都有哪些单位贡献了主要力量呢？贡献度最高的又是哪一个？
机构统计如下：

Google+DeepMind以 40 篇论文入选，再次实力霸榜；位居第二的卡耐基梅隆大学，共有 23 篇入选；清华大学以 22 篇排在第三位。
接下来，麻省理工学院 19 篇、斯坦福大学 17 篇位居第四、第五位；乔治亚理工学院、北京大学和上海交通大学都分别有 15 篇入选。
在中国高校与科研机构中，香港中文大学 7 篇，中国科学技术大学 5 篇，复旦大学 4 篇，华中科技大学 4 篇，南京大学 4 篇，浙江大学 4 篇，中国科学院 4 篇，天津大学 3 篇，香港城市大学、哈尔滨工业大学、香港科技大学、台湾大学、山东大学都有 2 篇入选。
工业界只有谷歌与微软杀入前十榜单。Facebook 此次有 11 篇入选，阿里巴巴+蚂蚁金服也有共有 11 篇高中，华为高中 7 篇，字节跳动入选 6 篇，百度 4 篇，京东与鹏城实验室各有 2 篇入选。
以上可以看出，基本上每年各种 AI 顶会的入选论文，已被这些工业界的传统豪强与计算机顶尖高校牢牢占据，而华人的力量已经凸显，逐渐成为中流砥柱。

4、ICLR高引华人榜单（ 2013 - 2020 ）

5、专业解决深度学习装备配置难题
云轩Cloudhin专注Deep learning和高性能计算服务器定制，针对主要深度学习框架（如TensorFlow、Caffe 2、Theano或Torch）进行了优化和设置，在桌面上即可提供强大的深度学习功能。

队长是我 · 发表于 2024-9-29 10:18

ICLR，全称为「International Conference on Learning Representations」（国际学习表征会议），2013 年才刚刚成立了第一届。这个一年一度的会议虽然今年(2018)才办到第六届，但已经被学术研究者们广泛认可，被认为「深度学习的顶级会议」。
为何 ICLR 还会「后来居上」，一跃成为深度学习炙手可热的无冕之王呢？
小荷才露尖尖角
首先，这个会议的来头不小，由位列深度学习三大巨头之二的 Yoshua Bengio 和 Yann LeCun 牵头创办。
Yoshua Bengio 是蒙特利尔大学教授，深度学习三巨头之一，他领导蒙特利尔大学的人工智能实验室（MILA）进行 AI 技术的学术研究。MILA 是世界上最大的人工智能研究中心之一，与谷歌也有着密切的合作。
而 Yann LeCun 就自不用提，同为深度学习三巨头之一的他现任 Facebook 人工智能研究院（FAIR）院长、纽约大学教授。作为卷积神经网络之父，他为深度学习的发展和创新作出了重要贡献。
至于创办 ICLR 的原因何在，雷锋网尝试从 Bengio 和 LeCun 于 ICLR 第一届官网所发布的公开信推测一二。
「众所周知，数据的应用表征对于机器学习的性能有着重要影响。表征学习的迅猛发展也伴随着不少问题，比如我们如何更好地从数据中学习更具含义及有效的表征。我们对这个领域展开了探索，包括了深度学习、表征学习、度量学习、核学习、组合模型、非常线性结构预测及非凸优化等问题。尽管表征学习对于机器学习及包括视觉、语音、音频及 NLP 领域起着至关重要的作用，目前还缺乏一个场所，能够让学者们交流分享该领域所关心的话题。ICLR 的宗旨正是填补这一鸿沟。」

从两人的说法中，ICLR 希望能为深度学习提供一个专业化的交流平台。但实际上 ICLR 不同于其它国际会议，得到好评的真正原因，并不只是他们二位所自带的名人光环，而在于它推行的 Open Review 评审制度。

Open Review 评审机制
目前的论文审核主要分为单盲（single-blind review）、双盲（double-blind review）及开放评审（open review）等多种形式。单盲评审的含义非常简单，即评审知道作者的名字、学校等身份信息，但作者并不知道评审论文的人是谁；而双盲评审则是双方都不知晓彼此的身份信息。这两种方式为较多学术会议及期刊评审论文的主要途径。
单盲评审的优势非常明显，即评审处于匿名身份，可以让评审免受压力，但评审由于知道了论文的作者信息，则非常有可能产生刻板印象，产生不够客观的评审结果。比如，对于比较有名的学者，评审会对论文的质量产生预设。而双盲评审则能够大幅降低作者个人信息所带来的附加效应，不过，评审也非常有可能从行文、主题中判断作者的信息。
而 Open Review 则非常不同，根据规定，所有提交的论文都会公开姓名等信息，并且接受所有同行的评价及提问（open peer review），任何学者都可或匿名或实名地评价论文。而在公开评审结束后，论文作者也能够对论文进行调整和修改。
ICLR 虽然并不一定是第一个采用 Open Review 进行论文评审的机构，但一定是做得最公开、影响范围最大的一个会议。虽然 ICLR 开了公开透明的先河，但也有可能引来争议及不必要的舆论讨论，比如前段时间雷锋网（公众号：雷锋网）提及的 ICLR 最佳论文，就在 Open Review 上引来了公开讨论。
目前 ICLR 的历届所有论文及评审讨论的内容，都完整地保存在 http://OpenReview.net 上，它也是 ICLR 的官方投稿入口。http://OpenReview.net 是马萨诸塞大学阿默斯特学院 Andrew McCAllum 为 ICLR 2013 牵头创办的一个公开评审系统，秉承公开同行评审、公开发表、公开来源、公开讨论、公开引导、公开推荐、公开 API 及开源等八大原则，得到了 Facebook、GOOGle、NSF 和马萨诸塞大学阿默斯特中心等机构的支持。此外，目前它也接受其它学术会议的论文投递。
这样的公开评审制度在双盲或单盲的学术会议环境下可谓一股清流，迅速吸引了学界的注意。

大牛背书的 ICLR
那么大家对 ICLR 的风评如何？雷锋网 AI 科技评论在 Quora 上看到不少人对 ICLR 的评价，发现几个特点：
首先，ICLR 经常与几个名声在外的大会相提并论，比如在这个提问中指出：「对于 ML&NLP 的低年级博士生，第一次在像 ICML/ACL/NIPS/ICLR？NAACL 等顶级会议中发表论文是一种怎样的体验？」
还有「像 NIPS/ICML/ICLR/AAAI 等会议是如何筛选论文的？」这样的问题，可以看出提问者对于 ICLR 还是非常看重的。
其次，Bengio 等大牛也在一些深度学习的回答中巧妙地植入了 ICLR 的「软广」，比如在 2014 年一个题为「深度学习近年有哪些活跃的研究领域？」中，Bengio 就回答道：
「我建议你看看 ICLR 2013 和 2014 的论文，可能会带给你一些启发。……」

约翰霍普金斯计算机科学教授 Jason Eisner 也提及，「我受邀在 ICLR/NIPS 和 ICML 做了 workshop 报道。」
LeCun 在一个题为「2016 年你读过的最有趣的论文是什么？」的问题中，他说：「我不想选那些什么最佳论文，但我会看看 ICLR 2016 的论文。」随后丢出了一个 ICLR 2016 的入选论文列表。

大牛们在 Quora 上的背书和关注，同样也会借助名人效应引起更多读者的关注和了解，而这样的循环往复，又能吸引优质论文的产出和评选，加上合理评审机制的学术氛围，也能形成正向的反馈。因此，也有不少巨头或大公司研究院纷纷向 ICLR 投递论文，形成了良性循环。
以谷歌为例，在 ICLR 举办第一届时，谷歌投递了 10 篇论文，2014 年投递了 9 篇，2016 年也只是不温不火的 11 篇论文，而今年这个数字达到了 88 篇（包括与其它机构合作的论文）。
值得一提的是，两位组委会成员也不遗余力地支持 ICLR，LeCun 今年一口气向 ICLR2017 投递了五篇论文，而更猛的是 Yoshua Bengio，他投递了 16 篇论文。

雷锋网原创文章，未经授权禁止转载。详情见转载须知。
责任编辑：Robot RF13015
上述答案内容是对雷锋网AI科技评论的文章进行部分删减，原文链接如下，如有侵权，请告知！
才办了五年的 ICLR 为何被誉为“深度学习的顶级会议”？| ICLR 2017

继续前进 · 发表于 2024-9-29 10:19

ICLR2017还有几天出结果，等结果中，ICLR毫无疑问是深度学习领域最重要的会议之一，尽管才第五届，已经有很多非常重要的文章，比如VGG Net,attention等，经历了今年的review过程，ICLR的过程为全程open review ，所有reviewer的意见都可以看到，同时每一个人都可以随意点评和给分

图文播报

[分享] ICLR是个什么样的会议?

登陆有奖并可浏览互动！

发表回复

官方推荐 /3

个人中心