小样本学习

小样本学习使机器学习模型能够从极少的有标签样本中泛化并做出预测,采用如元学习、迁移学习和数据增强等策略。

什么是小样本学习?

小样本学习是一种机器学习方法,使模型仅通过少量有标签的样本就能做出准确预测。与需要大量标注数据进行训练的传统监督学习方法不同,小样本学习专注于训练模型从有限数据集中泛化。其目标是开发能高效从极少实例中学习新概念或新任务的学习算法,类似于人类的学习能力。

在机器学习领域,“小样本”指的是每个类别的训练样本数量。例如:

  • 一次学习(One-Shot Learning):模型每类只从一个样本中学习。
  • 小样本学习(Few-Shot Learning):模型每类从少量(通常2到5个)样本中学习。

小样本学习属于更广泛的n-shot学习,其中 n 代表每类训练样本的数量。它与元学习密切相关,也称为“学习如何学习”,即模型在多样任务上训练,从而能以有限数据快速适应新任务。

小样本学习的应用场景

小样本学习主要用于难以获得大量标注数据集的场合。常见原因包括:

  • 数据稀缺:如罕见事件、新产品图片、独特用户意图或罕见疾病。
  • 高昂标注成本:数据标注需要专家知识或耗时较多。
  • 隐私问题:受隐私法规限制,数据无法共享或收集。

为应对这些挑战,小样本学习利用先验知识和学习策略,使模型能从极少数据中做出可靠预测。

小样本学习的核心方法

为高效实现小样本学习,发展出了多种方法:

  1. 元学习(学习如何学习)
  2. 迁移学习
  3. 数据增强
  4. 度量学习

1. 元学习(学习如何学习)

元学习是指在多种任务上训练模型,使其能够通过少量数据快速学习新任务。模型获得了关于“如何学习”的元层次理解,因此能用极少样本快速适应。

核心概念:

  • Episode(情节):训练以 episode 结构进行,每个 episode 模拟一个小样本任务。
  • Support Set(支持集):模型用于学习的小型有标签数据集。
  • Query Set(查询集):模型在学习支持集后用于预测的数据集。

流行的元学习算法:

  • 模型无关元学习(MAML):训练模型参数,使其经过少量梯度更新后能在新任务上很好泛化。
  • 原型网络(Prototypical Networks):学习度量空间,通过计算与各类别原型的距离进行分类。
  • 匹配网络(Matching Networks):利用注意力机制对支持集的嵌入进行预测。

案例举例:

在自然语言处理(NLP)领域,聊天机器人需要理解训练时未出现过的新用户意图。通过元学习,机器人在仅获得少量示例后,能快速适应并识别这些新意图。

2. 迁移学习

迁移学习利用一个任务中获得的知识,提升相关但不同任务的学习效果。模型先在大数据集上预训练,然后在目标小样本任务上进行微调。

流程:

  • 预训练:在大型、多样化数据集上训练模型,学到通用特征。
  • 微调:利用有限数据将预训练模型适应新任务。

优势:

  • 降低目标任务对大量有标签数据的需求。
  • 受益于预训练阶段获得的丰富特征表示。

案例举例:

在计算机视觉领域,先在 ImageNet 上预训练的模型可通过微调,利用极少标注样本实现对罕见疾病医学图像的分类。

3. 数据增强

数据增强是指从有限的数据集中生成更多训练数据,帮助防止过拟合并提升模型泛化能力。

常见技术:

  • 图像变换:如旋转、缩放、翻转和裁剪图片。
  • 合成数据生成:使用生成对抗网络(GAN)等生成新样本。
  • Mixup 和 CutMix:将样本对组合生成新训练样本。

案例举例:

在语音识别中,为少量音频样本叠加背景噪声、改变音调或语速,可生成更具鲁棒性的训练集。

4. 度量学习

度量学习关注于学习衡量数据点间相似性的距离函数。模型将数据映射到一个嵌入空间,使相似样本距离更近。

方法:

  • 孪生网络(Siamese Networks):使用权重共享的双网络对输入对进行嵌入,并计算它们的距离。
  • 三元组损失(Triplet Loss):保证 anchor 与正样本距离小于与负样本的距离,并有一定间隔。
  • 对比学习(Contrastive Learning):通过对比相似和不相似样本对来学习嵌入。

案例举例:

在人脸识别中,度量学习让模型能通过学习到的嵌入判断两张图片是否为同一人。

小样本学习的研究进展

小样本学习是机器学习领域快速发展的方向,专注于解决有标签数据极少情况下的模型训练难题。本节介绍几篇关键的科学论文,助力理解和推动小样本学习方法的发展。

代表性科学论文

  1. Deep Optimal Transport: A Practical Algorithm for Photo-realistic Image Restoration

    • 作者:Theo Adrai、Guy Ohayon、Tomer Michaeli、Michael Elad
    • 摘要:该论文提出了一种创新的图像恢复算法,利用小样本学习原理,仅用少量图片即可提升预训练模型的感知质量或均方误差(MSE),无需额外训练。方法基于最优传输理论,通过在变分自编码器潜在空间的线性变换,使输出分布与源数据对齐。研究展示了感知质量的提升,并提出了一种在复原图像感知质量和MSE之间平衡的插值方法。
    • 阅读原文
  2. Minimax Deviation Strategies for Machine Learning and Recognition with Short Learning Samples

    • 作者:Michail Schlesinger、Evgeniy Vodolazskiy
    • 摘要:该研究聚焦于小样本机器学习的挑战,批判了最大似然和极小极大学习策略的局限性,并提出了极小偏差学习的新概念。该方法旨在克服现有方法的不足,为小样本学习场景提供更稳健的替代方案。
    • 阅读原文
  3. Some Insights into Lifelong Reinforcement Learning Systems

    • 作者:Changjian Li
    • 摘要:虽然主要关注终身学习系统,但该论文通过指出传统强化学习范式的不足,对小样本学习也具有启发意义。研究认为,能够持续通过交互自我学习的终身学习系统,为小样本学习模型的发展提供了宝贵视角。
    • 阅读原文
  4. Dex: Incremental Learning for Complex Environments in Deep Reinforcement Learning

    • 作者:Nick Erickson、Qi Zhao
    • 摘要:Dex 工具包面向持续学习方法的训练和评估,重点在于增量学习。这种方法可视为小样本学习的一种形式,即通过先解决简单环境获得的最优权重初始化,在复杂场景中显著优于传统方法。
    • 阅读原文
  5. Augmented Q Imitation Learning (AQIL)

    • 作者:Xiao Lei Zhang、Anish Agarwal
    • 摘要:本论文探讨了模仿学习与强化学习的交叉,这两者与小样本学习密切相关。AQIL 融合了这两种学习范式,构建了一个面向无监督学习的强大框架,展示了通过模仿和反馈机制提升小样本学习效果的新思路。
    • 阅读原文

常见问题

什么是小样本学习?

小样本学习是一种机器学习方法,使模型能够从极少的有标签样本中做出准确预测。它侧重于让模型从有限的数据中泛化,模拟类人学习方式。

小样本学习在什么情况下使用?

当获得大量有标签数据集不现实时会用到小样本学习,例如稀有事件、独特案例、高昂标注成本或隐私问题。

小样本学习的关键方法有哪些?

关键方法包括元学习(学习如何学习)、迁移学习、数据增强和度量学习。

元学习在小样本学习中是如何工作的?

元学习在许多任务上训练模型,使其能通过有限数据快速适应新任务,采用模拟小样本场景的 episode 结构。

能举个小样本学习的例子吗?

在自然语言处理(NLP)中,聊天机器人只需看到极少的例子就能学会识别新的用户意图,这得益于元学习技术。

小样本学习有什么优势?

小样本学习减少了对大量有标签数据的需求,降低标注成本,支持隐私保护,并能更快适应新任务。

试用 FlowHunt 的 AI 工具

开始使用智能聊天机器人和自动化构建您自己的 AI 解决方案。体验小样本学习及其他先进 AI 技术的强大力量。

了解更多

零样本学习

零样本学习

零样本学习是一种人工智能方法,模型在没有针对特定类别进行过明确训练的情况下,通过语义描述或属性来进行推理,从而识别对象或数据类别。当收集训练数据非常困难或不可能时,这种方法尤其有用。...

1 分钟阅读
Zero-Shot Learning AI +3
序列建模

序列建模

探索人工智能和机器学习中的序列建模——利用RNN、LSTM、GRU和Transformer对文本、音频和DNA等数据序列进行预测与生成。了解关键概念、应用、挑战及最新研究进展。...

1 分钟阅读
Sequence Modeling RNN +7
判别模型

判别模型

了解判别式人工智能模型——专注于分类和回归,通过建模类别之间决策边界的机器学习模型。理解其工作原理、优势、挑战及其在自然语言处理、计算机视觉和人工智能自动化中的应用。...

1 分钟阅读
Discriminative Models AI +6