如何微调人工智能模型

📖 8 最小阅读量

✍️ 撰写及审阅者 Karel Havlíček已更新 2026🛡️ 编辑独立

Quick Answer

微调是指如何将一般开放模型转变为您的模型，该模型可以用您的声音回答、了解您的领域或比基础更好地执行一项狭窄的任务。 2026 年的好消息：借助 LoRA 和量化，您不再需要数据中心。一个 GPU 和几百个好的例子就可以帮助您实现这一目标。

🛠️ 有用的比较

提示是向员工发出一项任务的指示。 RAG 正在给他们提供参考活页夹以供查找。微调就是送他们参加培训课程，使技能成为第二天性。每个问题都适合不同的问题，知道该解决哪个问题可以节省时间和金钱。

LoRA：突破使其价格低廉

完全微调会更新每个参数，这会占用大量内存。 LoRA（低阶适应）冻结原始模型，仅训练一小部分新的“适配器”权重，将内存和成本削减几个数量级，同时保持大部分质量。 QLoRA 增加了量化（以较低精度存储数字），因此即使是大型模型也适合一个消费级 GPU。这是今天的标准路径。

确定符合您目标的格式，通常是指令和响应对。目标是质量和一致性，而不是数量：几百到几千个干净的、有代表性的示例通常胜过数万个嘈杂的示例。删除重复项、修复错误并确保示例实际演示了您想要的行为。

如果您只需要模型使用新鲜或私有事实，检索（RAG）通常更好、更便宜，您可以添加模型在查询时读取的文档，无需重新训练。如果一个好的提示已经有效，请使用它。当您需要一致的风格、专业技能或较小的模型来实现超出其尺寸的性能时，请进行微调。

选择一个开放基础模型，准备数据集，运行 LoRA 微调（库和免费笔记本只需几个命令），评估保留的示例，然后合并或加载适配器以进行推理。使用 Ollama 在本地运行结果或私下提供结果。数据准备好后，循环速度足够快，可以在一个下午内进行迭代。

🔑 要点

通过 LoRA 或 QLoRA 进行微调，您可以花很少的钱在单个 GPU 上专门开发一个开放模型。成功更多地取决于干净、格式良好的数据集，而不是原始计算。当您需要一致的风格或狭窄的技能时，请进行微调，而当您只需要模型了解新事实时，请使用 RAG。

在本地运行的经过微调的小型模型非常适合在严格的隐私或数据驻留规则下处理敏感客户数据的亚洲企业。您将获得一个使用您的语言和领域的人工智能，保留在您的硬件上，并且永远不会将客户记录发送到外部服务器。

LoRA和全微调有什么区别？▼

完全微调会更新所有模型参数，并且需要大量 GPU 内存。 LoRA 仅训练少量增加的适配器重量，同时冻结原始适配器重量，以一小部分内存和成本实现类似的结果。 QLoRA 进一步量化了模型，因此即使是大型模型也可以安装在一个消费级 GPU 上。

我应该微调还是使用 RAG？▼

当模型只需要访问新的或私有的事实时，使用 RAG，它在查询时读取文档，无需重新训练。当您需要一致的风格、基调或模型本身的专业技能时进行微调。许多实际系统将两者结合起来。

我需要多少个例子？▼

往往比人们预期的要少。几百到几千个高质量、一致的例子可以产生强大的微调。数据质量和格式比原始数量更重要。

SHA-256 解释 →

什么是法学硕士？ →

开源理念 →

适用于 AI 的 GPU 和计算网络 →

本指南中使用的权威参考文献和主要来源。