立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 89|回复: 0

[分享] 2025年AI工程师必读:50篇文献带你直击人工智能技术前沿

[复制链接]
发表于 2025-1-30 22:25 | 显示全部楼层 |阅读模式

登陆有奖并可浏览互动!

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录 手机动态码快速登录

×


在人工智能领域,每一天都充满了令人目不暇接的创新与突破,但如何在众多研究成果中找到对实际工程工作最有价值的资源,始终是AI从业者的一大挑战。为此,我们结合硅谷科技评论(SVTR.AI)创投库,精心策划了一份“AI工程必读文献”清单,囊括了10大热门领域的50篇高质量论文、模型和博客文章()。

这份清单的设计初衷非常明确:帮助AI工程师们以最少的时间投入,获得最大化的知识增量。我们挑选的内容不仅仅代表当前领域的核心技术和趋势,更特别注重它们的工程可操作性。从LLMs到Benchmarks,从Prompting到RAG,再到生成式AI的应用领域(如CodeGen、视觉、语音和扩散模型),每一篇都经过严格筛选和注解,确保读者能够迅速掌握其关键要点,理解背后的工程价值。





第一部分:前沿大模型 %28Frontier LLMs%29


以下是关于前沿大语言模型(LLMs)发展的重要论文列表,涵盖了从最早的模型到最新的趋势。这些论文和模型的选择帮助AI工程师了解行业的关键里程碑、竞争格局以及开放模型的发展路径。

1. GPT 系列:从 GPT1 到 GPT4



  • 核心论文:从 GPT1 到 GPT4 的系列论文是理解现代语言模型演变的基础,探讨了从简单架构到复杂多任务模型的跨越。
  • 说明

    • GPT1:引入生成式预训练概念。
    • GPT2:模型规模的扩展及开放性带来的争议。
    • GPT3:大规模语言模型的性能飞跃,API商用化起点。
    • Codex 和 InstructGPT:从文本生成到代码生成,以及对人类指令的优化。
    • GPT4:多模态能力的进一步提升。




2. Claude 和 Gemini 系列



  • Claude 系列(Anthropic 开发):

    • Claude 3:了解 Claude 模型的对话能力与安全性设计。
    • 最新迭代版本为 Claude 3.5 Sonnet

  • Gemini 系列(Google DeepMind 开发):

    • Gemini 1 和 2:研究多模态模型对复杂任务的处理能力,尤其是 Gemini 2.0 Flash/Flash Thinking 的创新点。
    • Gemma 2:Google 在生成式AI领域轻量级、最先进的开源模型。




3. LLaMA 系列:开放模型的领先者



  • LLaMA 1、2 和 3:LLaMA 系列是开源模型社区的基石,其技术细节和性能直接推动了开源生态的繁荣。
  • Mistral 系列:包括 Mistral 7B 及其变种 Mixtral 和 Pixtral,可看作是 LLaMA 家族的一部分。



4. DeepSeek 系列



  • DeepSeek V1 到 V3:该系列探索了模型架构的开源路径,其进展在代码生成和多模态处理方面有重要意义。



5. Apple Intelligence



  • 这篇论文阐述了 Apple 在每台 Mac 和 iPhone 上集成 AI 模型的核心设计理念,虽未开源但对工程落地具有重要借鉴意义。



6. 其他值得关注的大模型



  • AI2 系列(包括 Olmo, Molmo, OlmOE, Tülu 3, Olmo 2):关注 AI2 在模型优化上的尝试。
  • GrokAmazon Nova:Amazon 的生成式 AI 发展方向。
  • HuggingFace SmolLM:轻量化模型的代表。
  • Alpaca 和 Vicuna:历史价值显著,展示了 LLaMA 的衍生模型如何演化。
  • Mamba 系列(Mamba 1/2)和 RWKV:未来可能具有突破性的模型架构。



7. 扩展阅读:缩放定律(Scaling Laws)



  • Kaplan 定律:模型规模与性能之间的关系。
  • Chinchilla 定律:参数和计算预算的平衡优化。
  • Emergence / Mirage 现象:理解模型性能的非线性增长。
  • Post-Chinchilla Laws:后 Chinchilla 时代对资源利用的优化。



第二部分:基准测试与评估(Benchmarks and Evals)


在构建和评估AI模型的过程中,基准测试(Benchmarks)和评估方法(Evaluations)是不可或缺的工具。以下是2025年主流实验室和研究人员重点关注的评估基准和工具,帮助AI工程师了解性能测试中的关键领域。

1. MMLU 论文


MMLU(Massive Multitask Language Understanding)是主要的知识基准测试之一,与 GPQABIG-Bench 并列。这些基准测试主要用于评估模型在广泛任务中的知识覆盖范围和准确性。
2025版本包括:

  • MMLU Pro:更复杂和高要求的知识测试。
  • GPQA Diamond:强化的问答评估。
  • BIG-Bench Hard:更具挑战性的版本。



2. MuSR 论文


MuSR 是长上下文处理评估的重要工具,与 LongBenchBABILongRULER 并列。MuSR 和其他工具帮助测试模型在长文本和复杂场景下的记忆与推理能力。
关键问题

  • 解决“Lost in the Middle”(上下文丢失)问题。
  • 处理“Needle in a Haystack”(复杂检索任务)挑战。



3. MATH 论文


MATH 是一个包含数学竞赛问题的基准数据集。MATH 数据集帮助评估模型的逻辑推理和精确计算能力,是前沿实验室的热门测试基准。
2025聚焦点

  • MATH Level 5:高级数学问题的集合。
  • AIME(美国数学邀请赛)。
  • FrontierMathAMC10/AMC12:针对顶尖模型的高难度测试。



4. IFEval 论文


IFEval 是领先的指令跟随能力评估工具,也是唯一被 Apple 采用的外部基准。IFEval 评估模型对自然语言指令的理解与执行能力,是工程应用的重要指标。
补充工具MT-Bench:作为一种间接形式的指令跟随评估。



5. ARC AGI 挑战


ARC AGI 挑战是一种著名的抽象推理基准测试,通常被视为“智商测试”。这一基准测试模型在抽象推理和逻辑能力上的潜力和瓶颈。这也是OpenAI最新的o3模型测试基准。
尽管许多基准迅速饱和,但 ARC 挑战具有持久性,仍然是评估 AGI 能力的核心工具之一。



6. 扩展阅读与补充资源



  • “Benchmarks 101” 和 “Benchmarks 201”:提供对常用基准测试的全面介绍。
  • Carlini、LMArena 和 Braintrust 系列:探讨私有评估(Private Evals)、竞技场评估(Arena Evals)和产品化评估(Product Evals)的重要性。
  • LLM-as-Judge 和 Applied LLMs:分析大模型在实际应用中的表现。
值得注意的是,所有基准测试都与其背后的数据集息息相关。例如:

  • BIG-BenchMMLU 都依赖广泛的任务数据。
  • MATHIFEval 则从特定领域数据集中提取评估能力。



第三部分:提示设计、上下文学习与推理链 %28Prompting, ICL & Chain of Thought%29


在大语言模型(LLMs)中,提示设计、上下文学习(ICL, In-Context Learning)和推理链(Chain of Thought, CoT)是提升模型性能、适应不同任务的重要方法。本节整合了相关论文和资源,帮助工程师系统掌握这三大领域。

1. 上下文学习与提示设计



  • GPT3 论文《Language Models are Few-Shot Learners》: 开创了上下文学习(ICL)的概念,展示了如何通过少量示例(Few-Shot)让模型快速适应任务。
  • 提示注入(Prompt Injection): 这是提示设计的基础知识,建议阅读 Lilian Weng 和 Simon W. 的相关文章,了解如何避免攻击性提示或设计更高效的输入。



2. 关键论文与资源



  • The Prompt Report: 一篇全面调查提示设计领域的综述论文,可通过配套播客深入了解提示的多样化应用。
  • Chain of Thought %28CoT%29 论文: 提出了“推理链”方法,强调通过逐步思考和推导提升复杂任务的准确性。与 Scratchpads 和 “Let’s Think Step By Step” 方法有相似目标。
  • Tree of Thought 论文: 将推理链进一步扩展为树状思维,加入了前瞻性(Lookaheads)和回溯机制(Backtracking),适用于更复杂的推理任务。
  • Prompt Tuning 论文: 探讨了通过前缀调整(Prefix-Tuning)、解码调整(如基于熵)以及表征工程(Representation Engineering)替代手动提示设计的可能性。
  • Automatic Prompt Engineering: 指出人类在零样本提示设计(Zero-Shot Prompting)上的局限,提出通过 LLM 本身增强提示设计的思路。DSPy 论文/框架:展示了自动化提示工程的实际应用。



3. 实用资源



  • Lilian Weng 的提示设计指南: 提供了多种任务场景下提示设计的实用技巧和注意事项。
  • Eugene Yan 的教学材料: 详细讲解提示设计的案例和策略,适合初学者和中高级工程师。
  • Anthropic 的 Prompt Engineering Tutorial 和 AI Engineer Workshop: 从基础到高级的提示工程教程,注重实际操作与工程应用。


第四部分:检索增强生成 %28Retrieval Augmented Generation, RAG%29


检索增强生成(RAG)是当前 AI 工程领域中重要的技术方向之一,其核心在于将信息检索(IR)的传统方法与生成式 AI 模型相结合,解决了许多生成任务中的信息准确性和覆盖性问题。本节总结了相关的重要资源和方法,帮助工程师全面理解 RAG 的技术及其实践。

1. 信息检索的基础



  • 推荐书籍:《信息检索导论》 尽管本书较为“严肃”,但这一领域有着超过 60 年的历史,涵盖了诸如 TF-IDF、BM25、FAISS 和 HNSW 等核心技术。理解这些“传统”方法有助于全面掌握 RAG 背后的技术逻辑。
  • 关键信息: RAG 本质是信息检索问题,掌握信息检索基础将帮助你更高效地理解和应用 RAG 技术。



2. 2020 Meta RAG 论文



  • 由 Meta 提出的论文首次定义了 RAG 的概念,是这一技术方向的奠基之作。
  • 现代 RAG 的基础功能(HyDE、分块、重排序、多模态数据处理)在此基础上逐步发展。
  • Contextual 和 RAG 2.0: 论文的原作者后续提出了 RAG 2.0 概念,扩展了这一领域的应用场景和技术实现。



3. 大规模文本嵌入基准MTEB %28Massive Text Embedding Benchmark%29



  • 当前文本嵌入领域的主流基准,但存在已知问题。
  • 嵌入模型选择

    • 常见嵌入模型如 OpenAI Embedding、Nomic Embed、Jina v3、cde-small-v1。
    • 越来越多的模型采用 Matryoshka 嵌入作为标准,值得关注。

  • 工程师可以根据实际需求选择合适的嵌入模型。



4. 知识图谱与 RAG 的结合



  • GraphRAG 论文: 来自 Microsoft 的研究,探讨了如何将知识图谱融入 RAG。这一技术趋势在 2024 年尤为热门,与 ColBERT/ColPali/ColQwen 等技术结合紧密。
  • 应用前景: 知识图谱增强的 RAG 在需要高精度领域知识的场景(如医学和法律)中尤为重要。



5. RAG 的评估方法



  • RAGAS 论文: OpenAI 推荐的简单 RAG 评估框架,广泛应用于实际工作场景。
  • 其他评估框架

    • Nvidia FACTS 框架:专注于减少生成模型的外部幻觉问题。
    • Extrinsic Hallucinations in LLMs:Lilian Weng 的调查报告全面分析了幻觉问题的原因和评估方法。
    • Jason Wei 关于召回与精确度的研究:帮助理解评估中的权衡关系。




6. 行业资源与实用工具



  • LlamaIndex(课程)LangChain(视频教程): 两者在教育资源上的投资最多,适合从基础到高级的系统学习。
  • RAG 与长上下文(Long Context)的对比: RAG:在信息检索和准确性上表现出色。长上下文:在直接处理超长文本时有优势,但对硬件和计算资源要求更高。



第五部分:智能体 %28Agents%29


智能体(Agents)是 2024 年生成式 AI 技术发展的重要领域,其核心在于赋予模型长效记忆、工具使用能力及复杂任务执行的能力。本节将整理当前顶尖的智能体设计、评估方法及其应用资源,为 AI 工程师提供系统化学习路径。

1. SWE-Bench:智能体基准测试的标杆


SWE-Bench 论文现已成为 Anthropic、Devin 和 OpenAI 等机构采用的高知名度智能体评估基准。起初是一个编程评估基准,但现已发展为测试智能体能力(而非单纯测试 LLM 能力)的工具。扩展版本

  • SWE-AgentSWE-Bench Multimodal:加入多模态能力测试。
  • Konwinski Prize:为表现出色的智能体颁发的奖项,进一步推动了领域发展。



2. ReAct 论文:工具使用与功能调用


开创了智能体使用工具和功能调用的研究方向,提出了 ReAct 架构。后续发展

  • GorillaBFCL 排行榜:工具化智能体研究的代表性项目。
  • Toolformer 和 HuggingGPT 是早期的开创性研究,虽然已被更先进方法取代,但仍具有学习价值。



3. MemGPT 论文



  • 提出了长效运行智能体的记忆模拟方法,已被 ChatGPTLangGraph 采用。
  • 相关应用: 每个智能体系统(如 MetaGPT、AutoGen 和 Smallville)几乎都以不同形式重构了 MemGPT 的核心思想。



4. Voyager:智能体认知架构


Nvidia 的 Voyager 论文提出了三大认知架构组件:

  • 学习路径规划(Curriculum)
  • 技能库(Skill Library)
  • 沙盒环境(Sandbox)
技能库和学习路径可被视为智能体工作流记忆的一种形式,适用于复杂任务的分解和管理。

5. 构建高效智能体


Anthropic 的总结,这是一篇 2024 年末的优秀综述,强调以下关键要素:

  • 任务链式处理(Chaining)
  • 路由优化(Routing)
  • 并行化与编排(Parallelization and Orchestration)
  • 智能体性能评估与优化(Evaluation and Optimization)
扩展阅读:OpenAI 的 Swarm 架构,探讨了多智能体协作的可能性。



第六部分:代码生成 %28Code Generation%29


代码生成是大语言模型(LLMs)在实际工程领域的重要应用之一。本节汇总了与代码生成相关的核心论文、基准和工具,为 AI 工程师提供全面的学习资源和实践指导。

1. The Stack 系列


The Stack 论文The Pile 的开源代码版本,专注于代码生成数据集的构建。
后续版本:The Stack v2 和 StarCoder 延续了该系列的开放代码生成工作,为研究者提供高质量的数据资源。



2. 开源代码生成模型



  • 推荐阅读以下代码生成模型的论文:

    • DeepSeek-Coder
    • Qwen2.5-Coder
    • CodeLlama

  • 3.5 Sonnet: 虽然被认为是目前最好的代码生成模型之一,但没有对应的论文。



3. 代码生成基准



  • HumanEval/Codex 论文: 经典的代码生成评估基准,尽管已趋于饱和,但仍是代码生成领域的必备知识。
  • SWE-Bench: 目前更为知名的编程评估基准,但成本较高,更适用于智能体评估而非单纯模型测试。
  • 现代替代基准

    • Aider:轻量化代码评估工具。
    • CodeforcesBigCodeBench:专注于实际编程问题。
    • LiveCodeBench:实时代码生成测试。
    • SciCode:面向科学计算代码生成的专用基准。




4. AlphaCode 系列



  • AlphaCodeium 论文: Google 的 AlphaCodeAlphaCode2 在编程问题上表现优异。
  • 引入 Flow Engineering 概念,通过优化模型流程提升性能,为基础模型带来显著增强。



5. 代码生成中的问题与解决


CriticGPT 论文: 阐述了 LLM 在生成代码时可能引发的安全问题。
解决方案

  • OpenAI 开发的 CriticGPT 专注于发现代码中的安全问题。
  • Anthropic 的 SAE:通过分析 LLM 的潜在特性识别安全风险。



6. 行业中的代码生成



  • 从研究到实践: 代码生成领域的前沿研究逐步转向行业实践。例如,Devin 等代码智能体的开发和优化,更多依赖于行业博客和实践经验,而非纯粹的学术论文。
  • 学习资源: 定期关注行业技术分享,如博客文章和技术讲座,获取更具操作性的代码生成建议。



第七部分:视觉 %28Vision%29


视觉领域(Vision)作为 AI 的重要分支,尽管近年来语言模型(LLM)的进展更为显著,但视觉模型(特别是多模态模型)依然占据重要地位。本节汇总视觉领域的核心工作、评估基准和前沿技术,为 AI 工程师提供学习和实践方向。

1. 非 LLM 的传统视觉工作



  • YOLO 系列: YOLO(You Only Look Once)从最初的版本发展到 YOLO v11,依然是目标检测领域的经典技术。
  • 近年来,像 DETRs(DEtection TRansformers)这样的 Transformer 模型在许多任务上超越了 YOLO。
  • 推荐学习路径: 对比 YOLO 与 DETRs 的方法和性能,理解两者在不同场景下的适用性。



2. CLIP 及后续模型



  • CLIP 论文: Alec Radford 的 CLIP 是首个成功的视觉 Transformer(ViT)模型,具有里程碑意义。
  • BLIP/BLIP2SigLIP/PaliGemma 已在多模态任务中超越 CLIP,但 CLIP 仍是必须掌握的基础。
相关评估基准

  • MMVP(LS Live): 提出了 CLIP 的重要问题。
  • 多模态版本基准:包括 MMMU(多模态 MMLU)和 SWE-Bench 多模态版本



3. 图像分割与视频分割



  • Segment Anything Model %28SAM%29SAM 2

    • 强大的图像和视频分割基础模型。
    • 结合 GroundingDINO 使用,可显著增强分割效果。

  • 实际应用: 在医疗影像、自动驾驶、以及多媒体内容处理中的广泛应用。



4. 早期融合 vs 晚期融合



  • 早期融合研究: 比如 Meta 的 FlamingoChameleon,以及 Apple 的 AIMv2 和 Reka Core,体现了更复杂的多模态数据联合处理能力。
  • 晚期融合的局限: 如 LLaVA,虽然实现成本低,但在处理复杂任务时表现较弱。
  • 多模态模型的四条技术流派: 工程师需理解早期融合与晚期融合的优劣,并熟悉主流模型及其技术流派。



5. 前沿视觉语言模型(VLM)



  • 最新趋势: 大量前沿视觉语言模型的工作已不再公开发表(如 GPT4V 的系统卡)。
  • 推荐掌握的模型与技术

    • GPT-4o: 熟悉其视觉能力,包括微调(finetuning)4o 视觉模型。
    • Claude 3.5 Sonnet/HaikuGemini 2.0 Flash
    • 其他值得关注的模型: PixtralLlama 3.2MoondreamQVQ




第八部分:语音 %28Voice%29


语音技术在生成式 AI 中正变得越来越重要,包括自动语音识别(ASR)和文本到语音(TTS)等领域。本节汇总语音技术的核心论文、领先模型和行业资源,为 AI 工程师提供系统化的学习方向和实践指导。

1. Whisper 系列



  • Whisper 论文: Alec Radford 的成功 ASR 模型,成为语音识别领域的标杆。
  • 后续版本

    • Whisper v2、v3distil-whisper:开源权重可用,但未发表相关论文。
    • v3 Turbo:更高效的实现。




2. AudioPaLM 和语音多模态



  • AudioPaLM 论文: Google 在 PaLM 演变为 Gemini 前的语音技术探索,展示了语音和文本多模态融合的潜力。
  • Meta 的探索Llama 3 在语音领域的应用,值得深入研究。
  • 未来趋势: 语音与视觉的融合(如 Gemini 2.0 的多模态能力)是语音技术的重要发展方向。



3. 文本到语音(TTS)技术



  • NaturalSpeech 论文: 领先的 TTS 方法之一,最新版本为 NaturalSpeech v3,在自然语言生成与语音生成间的性能提升显著。
  • Kyutai Moshi 论文: 全双工语音-文本模型,具有开源权重和高调的演示。相关技术包括Hume OCTAVE 提供了更多关于语音生成的技术细节。



4. 语音模型与实时 API



  • OpenAI Realtime API: 尽管未公开相关论文,但其在实时语音处理和生成中的表现已成为行业前沿。
  • 其他语音技术平台: 建议多样化学习,尝试以下语音技术平台: Daily、Livekit、Vapi、Assembly、Deepgram、Fireworks、Cartesia、Elevenlabs



5. 语音技术的行业状态



  • 2024 语音技术现状报告(State of Voice 2024),提供关于语音技术生态系统的深度分析。
  • NotebookLM 的语音模型: 尽管模型未公开,但其建模过程的描述是目前已知的最深入信息。



6. 语音与视觉的融合



  • Gemini 2.0 的多模态能力: 语音和视觉的原生融合,标志着多模态技术的发展方向。
  • 未来趋势: 随着语音和视觉技术的不断进步,2025 年及以后,语音和视觉的深度融合将成为多模态模型的标准配置。



第九部分:图像/视频扩散模型 %28Image/Video Diffusion%29


图像和视频扩散模型(Diffusion Models)是生成式 AI 在视觉内容生成中的重要技术方向。本节涵盖关键论文、前沿技术和行业资源,帮助 AI 工程师系统学习扩散模型的核心方法及其在图像和视频生成中的应用。

1. Latent Diffusion 系列



  • Latent Diffusion 论文: 实质上是 Stable Diffusion 的核心论文,定义了现代扩散模型的基石。
  • 后续版本

    • Stable Diffusion v2、SDXL 和 SD3:展示了模型在性能和分辨率上的逐步提升。
    • BFL Flux 系列: 由 Stable Diffusion 团队开发,分为 [schnell|dev|pro] 三个版本,继续推动扩散模型的发展。




2. DALL-E 系列


DALL-E / DALL-E-2 / DALL-E-3 论文

  • OpenAI 的图像生成模型,定义了文本到图像生成的高标准。
  • DALL-E-3: 引入了更强的文本对齐和细节生成能力。



3. Imagen 系列



  • Imagen / Imagen 2 / Imagen 3 论文: Google 的图像生成模型系列,强调高保真度和细节生成。
  • Ideogram:专注于文本与图像生成的结合,尤其是在文字样式和排版中的应用。



4. 一致性模型 %28Consistency Models%29



  • Consistency Models 论文: 提出了轻量化的一致性生成方法(LCMs),使扩散模型的生成过程更快。
  • 近期进展: 更新版本为 sCMs(stochastic Consistency Models),进一步提高生成效率。



5. 视频生成



  • Sora 博客文章: 文本到视频生成的最新突破,尽管没有正式论文,但凭借显著发布效果成为年度最重要的进展。
  • 相关研究

    • DiT 论文:同一作者的扩展研究。
    • 开放竞争者:如 OpenSora 提供了开源权重。

  • Lilian Weng 调查报告: 对视频生成的技术现状及应用场景进行全面分析。



6. 推荐工具与新兴领域



  • ComfyUI: 即将上线的扩散模型界面工具,值得工程师深入了解。
  • 新兴方向

    • 文本扩散(Text Diffusion):关注文本生成的细粒度控制。
    • 音乐扩散(Music Diffusion):探索音乐生成的潜力。
    • 自回归图像生成(Autoregressive Image Generation):虽然目前是小众方向,但在特定应用中展现出强大能力。




第十部分:微调 %28Finetuning%29


微调是使生成式 AI 模型适应特定任务或场景的重要技术路径。本节总结当前微调的核心方法、工具和相关资源,帮助 AI 工程师掌握从基础到进阶的微调技术。



1. LoRA 和 QLoRA


LoRA %28Low-Rank Adaptation%29QLoRA %28Quantized LoRA%29: 当前微调模型的事实标准,以较低成本实现高效的模型适配。
实践建议

  • 在本地模型或大模型(如 4o)上应用 LoRA。
  • FSDP+QLoRA:结合完全分布式并行(Fully Sharded Data Parallel)与 QLoRA 进行教育性实验,有助于深入理解技术细节。



2. 偏好微调


DPO %28Direct Preference Optimization%29: 作为 PPO(Proximal Policy Optimization)的替代方法,现已被 OpenAI 用于偏好微调。
尽管效率稍逊于 PPO,但实现较为简单,是偏好驱动微调的主流选择。



3. 特征微调


ReFT %28Representation Fine-Tuning%29: 提出一种不直接微调模型层,而是专注于特征的微调方法。
更高效地调整模型表现,特别是在资源有限的情况下。



4. 合成数据与指令微调


Orca 3 和 AgentInstruct 论文: 使用合成数据进行微调的典型案例。
关联资源: 参阅 NeurIPS 会议的 Synthetic Data 主题,获取高质量的微调数据生成方法。

5. 强化学习与推理微调



  • 强化学习微调RL 微调:在大模型(如 o1)上的应用仍在争议中。
  • 推理微调

    • Let’s Verify Step By Step:通过验证链式推理过程进行模型优化。
    • Noam Brown 的公开演讲:提供了关于推理微调的实践技巧和案例分析。




6. 学习资源



  • Unsloth Notebooks: 系统地展示了微调的全过程,包括数据准备、训练和评估。
  • HuggingFace 微调教程: 《如何微调开放 LLMs》提供了从入门到进阶的实践指南,覆盖多种微调场景。


硅谷科技评论(SVTR.AI),在ChatGPT问世之际,创立于美国硅谷,依托AI创投库、AI创投会和风险投资,打造全球前沿科技(AI)创新生态系统。目前覆盖全球10W+ AI从业者,孵化案例:AI超级工程师模本科技;AI教育咨询公司高考纸鸢。

联系凯瑞(pkcapital2023),加入我们,共创未来!点击文末阅读原文,访问SVTR.AI,发现更多机会与精彩内容!
Startup

+

Venture

+

Technology


+

Review


+

https://c0uiiy15npu.feishu.cn/wiki/PrShwOdJvi9hjOkyBCicrCY7nqb?from=from_qr_code (二维码自动识别)


原文地址:https://zhuanlan.zhihu.com/p/17445901865
楼主热帖
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表