Skip to content
On this page

好的,这是一个非常核心的问题。大模型应用开发的这三种模式——提示词工程RAG微调——构成了当前构建AI应用的主流技术栈。它们不是互斥的,而是适用于不同场景、具有不同成本和效果的互补工具


模式一:提示词工程

这是最基础、最直接的方式,通过与预训练好的大模型进行“对话”来完成任务。

  • 核心思想:不改变模型本身,而是通过设计、优化输入的文本(提示词)来引导模型生成期望的输出。核心方法是 “上下文学习”
  • 关键技术
    • 零样本提示:直接给出任务指令。“将以下中文翻译成英文:...”
    • 少样本提示:给出几个输入-输出的例子,让模型“照猫画虎”。
    • 思维链:通过提示词(如“让我们一步步思考”)激发模型的推理能力。
    • 提示词模板:将用户输入、系统指令、上下文等结构化地组合。
  • 优点
    • 简单快捷:无需训练,成本极低,立即可用。
    • 灵活通用:适用于所有提供API的模型。
    • 可解释性强:调试过程就是修改提示词。
  • 缺点
    • 知识受限于模型预训练数据:无法获取模型训练时未见过的新知识。
    • 易产生“幻觉”:模型可能编造看似合理但错误的信息。
    • 可控性有限:对于复杂、固定的输出格式或风格,仅靠提示难以稳定控制。
    • 上下文长度限制:无法处理超长的私有知识。
  • 典型应用:通用问答、创意写作、代码生成、简单文本分析与转换。

模式二:RAG

检索增强生成是当前解决大模型“知识更新”和“幻觉”问题的主流方案。

  • 核心思想:将传统的信息检索技术与大模型生成能力相结合。
    1. 检索:当用户提问时,先从外部知识库(如向量数据库)中检索出最相关的文档片段。
    2. 增强:将这些片段作为“上下文”或“参考依据”,与用户问题一起组成新的提示词。
    3. 生成:大模型基于这个“增强后”的提示词生成答案,并要求其答案必须基于提供的上下文。
  • 关键技术
    • 文档处理与向量化:将文本切分,用嵌入模型转换为向量。
    • 向量数据库:存储和高效检索向量(如Chroma、Milvus、Pinecone)。
    • 检索排序:结合语义相似度(向量检索)和关键词匹配(如BM25)。
    • 提示词工程:设计如何将检索到的上下文与问题结合,例如 “请仅根据以下信息回答问题:<上下文>...问题:...”
  • 优点
    • 知识实时更新:只需更新知识库,无需重新训练模型。
    • 来源可追溯:答案有据可查,减少幻觉,提高可信度。
    • 低成本:同样无需训练大模型,只需管理知识库。
    • 数据安全:私有知识无需泄露给模型厂商。
  • 缺点
    • 检索质量依赖性强:如果检索不到或检索错误,生成答案必然出错。
    • 上下文长度限制:检索到的内容不能太长。
    • 对复杂推理提升有限:主要增强“知识”,不直接增强模型的“能力”。
  • 典型应用:智能客服、企业知识库问答、研究报告生成、任何需要基于特定文档回答的场景。

模式三:微调

通过额外的训练数据,直接调整大模型内部的权重参数,使其适应特定任务或领域。

  • 核心思想:“因材施教”,让通用模型变成你的“专属模型”。
  • 关键技术
    • 全参数微调:更新模型的所有参数,效果最好,但成本极高,需要大量数据和算力。
    • 参数高效微调当前主流。只训练一小部分额外参数或特定层,大幅降低成本。
      • LoRA:在模型注意力层注入低秩适配矩阵,只训练这些矩阵。
      • QLoRA:在LoRA基础上进行量化,使得在消费级GPU上微调大模型成为可能。
      • Adapter:在模型中插入小型神经网络模块。
  • 优点
    • 效果最佳:能让模型深度掌握特定领域知识、术语、风格和指令。
    • 响应速度快:推理时无需附带大量上下文,延迟低。
    • 输出稳定可控:能固化特定的输出格式和风格。
  • 缺点
    • 成本高:需要数据准备、训练过程和计算资源。
    • 可能遗忘通用知识:过度微调可能导致模型在原有通用任务上能力下降。
    • 知识更新仍需重新训练:一旦领域知识更新,需要重新收集数据并微调。
    • 技术门槛高:涉及机器学习全流程。
  • 典型应用:专业领域模型(法律、医疗)、特定风格写作(广告文案、新闻稿)、复杂指令跟随(AI Agent)、从少量高质量示例中学习复杂任务。

如何选择:总结与对比

特性提示词工程RAG微调
核心目的引导模型能力扩展模型知识改变模型能力/风格
技术门槛极低
开发成本极低中(数据预处理、搭建检索系统)高(数据、训练、算力)
知识更新无法更新实时、低成本更新知识库成本高,需重新训练
幻觉控制强(有据可查)中(在训练域内强)
输出一致性
响应速度快(但提示词长时慢)中(需检索时间)
数据隐私差(提示可能被用作训练)好(知识本地化)好(可私有化部署)

演进与组合策略

  1. 从简到繁永远从提示词工程开始。它能解决80%的简单需求。当效果不足时,再考虑RAG或微调。
  2. 知识问题用RAG:如果你的核心需求是让模型掌握新的、外部的、动态的、私有的知识(如公司手册、产品文档),优先选择 RAG
  3. 能力/风格问题用微调:如果你的核心需求是改变模型的行为模式、输出风格、掌握深层领域逻辑,或者提示词和RAG都无法达到满意的稳定性和质量,则考虑微调
  4. 强强联合:对于最复杂、要求最高的企业级应用,通常会采用 RAG + 微调 的组合方案:
    • 微调让模型深度理解领域语言和任务格式。
    • RAG为微调后的模型提供实时、可追溯的最新知识。
    • 例如,微调一个法律分析模型,再通过RAG为其提供最新的判例法条。

总而言之,提示词是起点,RAG是知识的延伸,微调是能力的重塑。理解三者的优劣,根据具体场景灵活选用或组合,是构建高效、实用大模型应用的关键。

技术文档集合