微调
模型微调通过对预训练模型进行轻微调整,使其适应新任务,从而减少对数据和资源的需求。了解微调如何利用迁移学习、不同技术、最佳实践和评估指标,高效提升NLP、计算机视觉等领域模型性能。...
参数高效微调(PEFT)是一种人工智能(AI)和自然语言处理(NLP)领域的创新方法,通过仅更新大型预训练模型中极少量的参数,实现模型对特定任务的适应。与重新训练整个模型(通常计算量巨大、资源消耗高)相比,PEFT 只需微调模型的部分参数或在模型结构中添加轻量级模块,大幅降低了计算成本、训练时间和存储需求,使得在多种专业应用场景中部署大型语言模型(LLMs)成为可能。
随着 AI 模型规模和复杂度持续增长,传统微调方式的实用性逐渐减弱。PEFT 针对以下挑战提供了解决方案:
PEFT 包含多种针对预训练模型高效更新或增强的技术。主要方法如下:
概述:
实现方式:
W_down
)。W_up
)。优点:
应用示例:
概述:
数学基础:
ΔW = A × B^T
A
与 B
为低秩矩阵。r
远小于原始维度 d
。优势:
注意事项:
应用示例:
概述:
机制:
优点:
应用示例:
概述:
机制:
优点:
应用示例:
概述:
机制:
优点:
应用示例:
概述:
优点:
应用示例:
方面 | 传统微调 | 参数高效微调(PEFT) |
---|---|---|
参数更新量 | 全部参数(百万/十亿级) | 少量子集(通常 <1%) |
计算成本 | 高(需大量资源) | 低至中等 |
训练时长 | 长 | 短 |
内存需求 | 高 | 低 |
过拟合风险 | 高(数据有限时更明显) | 低 |
模型部署体积 | 大 | 小(便于通过轻量模块扩展) |
预训练知识保留 | 可能丢失(灾难性遗忘) | 保留更好 |
场景:
方法:
效果:
场景:
方法:
效果:
场景:
方法:
效果:
场景:
方法:
效果:
场景:
方法:
效果:
PEFT 方法能否应用于所有模型?
虽然主要是为 Transformer 架构开发,但部分 PEFT 方法经调整后也可用于其他模型。
PEFT 性能能否总与全量微调相当?
多数情况下 PEFT 能取得相近效果,但在极为专业的任务上,全量微调可能略有提升。
如何选用合适的 PEFT 方法?
需考虑任务要求、资源状况和历史经验。
PEFT 适用于大规模部署吗?
适用,PEFT 的高效性非常适合模型在多任务、多领域的大规模扩展。
参数高效微调相关研究
近期关于参数高效微调的技术取得了诸多科学进展,以下为部分代表性研究论文摘要,揭示了提升 AI 模型训练效率的创新方法:
Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates(发表于:2024-02-28)
作者:Kaifeng Lyu, Haoyu Zhao, Xinran Gu, Dingli Yu, Anirudh Goyal, Sanjeev Arora
本文研究了大型语言模型(LLMs)微调后的一致性安全性。作者指出,即便是良性的微调也可能带来不安全行为。通过在 Llama 2-Chat 和 GPT-3.5 Turbo 等多个聊天模型上的实验,发现提示模板对于安全对齐至关重要。文中提出了“纯微调,安全测试”原则,即微调时不加安全提示,但在测试阶段加入安全提示以缓解不安全行为。实验结果表明,该策略能大幅减少风险行为,凸显了提示模板的重要性。阅读全文
Tencent AI Lab – Shanghai Jiao Tong University Low-Resource Translation System for the WMT22 Translation Task(发表于:2022-10-17)
作者:Zhiwei He, Xing Wang, Zhaopeng Tu, Shuming Shi, Rui Wang
本文介绍了腾讯 AI Lab 和上海交通大学联合开发的 WMT22 英语-利沃尼亚低资源翻译系统。该系统采用 M2M100,并结合跨模型词嵌入对齐、渐进适应等新技术。研究表明,采集验证集微调和在线回译能进一步提高 BLEU 分数,有效提升翻译准确率,弥补 Unicode 归一化带来的低估。阅读全文
Towards Being Parameter-Efficient: A Stratified Sparsely Activated Transformer with Dynamic Capacity(发表于:2023-10-22)
作者:Haoran Xu, Maha Elbayad, Kenton Murray, Jean Maillard, Vedanuj Goswami
本文关注稀疏激活(MoE)模型的参数效率问题。作者提出了分层专家混合(SMoE)结构,为不同 token 分配动态容量,提升参数效率。该方法在多语言机器翻译基准测试中表现优异,显示了在降低计算负担下提升模型训练效果的潜力。阅读全文
PEFT 是一系列技术,通过仅更新大型预训练AI模型的一小部分参数,而不是重新训练整个模型,使其能够适应特定任务,从而大幅降低计算和资源需求。
PEFT 降低了计算与内存成本,加快了模型部署速度,保留了预训练模型的知识,并使组织能够在无需大量资源的情况下高效地为多个任务适配大型模型。
常见的 PEFT 方法包括适配器(Adapters)、低秩适配(LoRA)、前缀微调(Prefix Tuning)、提示微调(Prompt Tuning)、P-Tuning 以及 BitFit。每种方法通过更新不同的模型组件来实现高效适配。
传统微调会更新所有模型参数,资源消耗大,而 PEFT 只需更新极少量参数,带来更低的计算成本、更快的训练、更小的部署体积以及更低的过拟合风险。
PEFT 被应用于专业化语言理解(如医疗)、多语言模型、小样本学习、边缘设备部署和新型AI方案的快速原型开发等场景。
PEFT 方法主要为基于 Transformer 的架构设计,但经过适当调整也可应用于其他类型的模型。
PEFT 通常能取得相当的效果,尤其在许多实际任务上,但对于极为专业化的场景,全量微调可能带来细微提升。
选择依据具体任务、模型架构、可用资源,以及以往类似问题上 PEFT 技术的成功经验。
模型微调通过对预训练模型进行轻微调整,使其适应新任务,从而减少对数据和资源的需求。了解微调如何利用迁移学习、不同技术、最佳实践和评估指标,高效提升NLP、计算机视觉等领域模型性能。...
指令微调是一种人工智能技术,通过在指令-回应对数据集上对大型语言模型(LLM)进行微调,提升其遵循人类指令和执行特定任务的能力。...
超参数调优是机器学习中的一个基本过程,通过调整学习率和正则化等参数来优化模型性能。探索如网格搜索、随机搜索、贝叶斯优化等方法。...