Remote Sensing Image Scene Classification with Noisy Label Distillation

  1. 摘要

基于卷积神经网络的遥感图像场景分类由于缺乏具有清晰注释的大规模数据集而受到严重影响。从互联网或其他来源爬取的数据允许以低成本最快速地扩展现有的数据集。然而,直接在这种扩展数据集上训练会导致网络过拟合噪声标签。传统的方法通常将这个有噪声的数据集分成多个部分。每个部分分别对网络进行微调,以进一步提高性能。这些方法效率低下,有时甚至会损害性能。针对这些问题,本研究提出了一种基于端到端师生框架的噪声标签精馏方法(NLD)。首先,与一般知识蒸馏方法不同,NLD不需要对干净或噪声数据进行预先训练。其次,NLD有效地从标签中提取知识,跨越全范围的噪声水平,可以获得更好的性能。此外,NLD还可以利用完全干净的数据集作为模型蒸馏方法来提高学生分类器的性能。在UC Merced土地利用、NWPU-RESISC45和AID三个遥感图像数据集上对NLD进行评估,其中注入了各种噪声模式和噪声量。实验结果表明,NLD优于目前广泛使用的直接微调方法和遥感伪标签方法。

  1. 主要内容

本工作的重点是在已有的人工验证的标记数据集上增加附加的噪声标记数据,以提高遥感场景分类器的性能。探索了一种从大量噪声中学习知识的更有效的方法,而不是简单地混合所有数据或对标记图像进行微调。受深度互学习的启发,本文提出了一种基于决策网络师生方法学的新型噪声标签蒸馏框架NLD,如图所示。首先,学生和老师共同学习。预训练不再是一个必需的过程。其次,教师将噪声数据中所学的知识进行提炼,方便学生从完整的数据集中学习。NLD甚至可以应用于完全无噪声的数据集。这意味着我们的方法可以在广泛的遥感应用中使用。第三,引入了基于《Learning to compare image patches via convolutional neural networks.》的决策网络,在实际应用中易于优化,可以替代模拟损失的计算。针对遥感图像场景分类缺乏带有噪声注释的公共数据集的问题,本文通过将一系列噪声注入注释良好的数据集来实现模拟。

本文主要贡献如下:

  • 将噪声标签引入到遥感图像场景分类中,减少了外界监督。在实际应用中,有可能以低成本为数百万幅图像贴上噪声标签。
  • 提出了一种新的基于师生模型的端到端框架,即NLD,用于噪声标签的蒸馏。NLD可以有效地提高含有大量噪声注释的遥感场景分类器的性能。
  • NLD对完全干净的数据集有效。因此,NLD可以进一步扩展到网络压缩的模型蒸馏。
  • 伪标记方法可以自动生成几乎无限的噪声注释图像,而不需要额外的成本。NLD训练的网络比其他伪标记方法具有更好的性能。
  • 针对不同类型噪声标签的遥感图像场景分类,提出了几个新的实用基准。

我们的方法属于一个实用流,假设数据集的干净标签和噪声标签都是已知的。这是一个更实际的场景,允许研究人员专注于利用噪声标记数据来增强现有的完全监督算法。

  1. 方法主要框架

本文概述了从带噪声标签的大数据集Dn和带人工验证标签的小数据集Dc训练遥感场景分类器的框架。该框架由教师网络T、学生网络S、决策网络、全连通层和softmax预测器组成。在训练阶段,Lg和Lh两个损失(一个带噪声标签的CE损失和一个带干净标签的CE损失)联合最小化。教师模型T通过决策网络将从噪声子集中提取的“暗知识”传递给学生模型S。在推理阶段,由学生网络S、全连通层和softmax组成的分类器可以给出正确的预测。

  1. 噪声蒸馏

与之前针对师生模型的工作相比,我们需要用一小部分或整个数据集对教师模型进行预训练,教师模型和学生模型一起进行训练,学习潜在的噪声标签分布,以提高干净子集监督下的学生网络的性能,通过比较学生和教师的同时输出来提取噪声知识。

与教师网络T相比,学生网络S具有相似的表示能力,但很难学习到合适的参数。我们的教师网络T有噪音标签,我们的学生网络S有清洁标签。学生网络S不应该完全模仿教师网络t的输出,通过模仿和比较,目的是从嘈杂的数据集中提取知识,这是干净的学生特征和嘈杂的教师特征的交集。

为了解决这些问题,NLD将两个网络的输出同时输入决策网络,决策网络由具有单一输出的完全连接层组成,该网络使用siamese网络来度量两幅不同图像之间的相似度。此外,该决策网络具有可学习的参数。它不依赖于不同损失函数与超参数的组合,可以自动学习适合噪声标签知识蒸馏的权重。由于原始的logit是来自同一幅图像的映射,所以决策网络的输出r仍然是原始的图像特征映射。由决策网络给出的样本~xj的m类概率计算为

随后,分类器g由噪声标签监督,分类器h由干净标签监督。这样,学生网络可以学到清洁知识以及清洁标签和噪声标签之间的相似知识,即噪声蒸馏。同时,NLD不需要模拟损失,训练速度快,比传统蒸馏方法更灵活。同时,由于决策网络需要两个向量的组合,增加了推理时间。然而,我们的目标是培养一个以教师网络为指导的学生网络。因此,只使用学生网络进行测试,而不使用决策网络。

  1. 模型训练

在原始知识蒸馏和DML中,整个目标函数由一个监督损失(如CE损失)和一个模仿损失(如KL损失)组成。而对于分类器g和h,则分别使用CE损失作为监督损失。此外,它们可以重写为:

其中,α和β表示需要根据学生网络、教师网络和噪声数据集设置的权重因子。

用有噪声的数据集训练网络可以使网络记住这些噪声。为了避免教师网络对有噪声的数据进行过拟合,使噪声的提取性能下降,甚至可能误导学生产生爆炸梯度,在教师网络和决策网络之间应用了概率恒定为0.6的Batch归一化(BN)和dropout层。

  1. 伪标签的额外思考

半监督学习需要少量的手工标记干净数据,这与NLD一致。然而,半监督学习数据集通常包含少量的标记数据和大量的未标记数据。因为NLD不使用额外的模拟损失,所以不能直接使用未标记的数据。伪标记属于自学习场景,常用于半监督学习中。在自训练设置下,通过对标记数据训练的模型对未标记数据进行预测,得到伪标签。一些伪标签将被错误标记。这些带有伪标签的数据可以被视为一个大的噪声数据集,NLD可以扩展到半监督学习。

图示伪标签方法包括两个阶段:训练两个分类器和伪标记。(a)两种不同的分类器f1和f2分别在人工标记的小子集Dl上训练。它们提供数据的两个视图。(b)训练后的模型可以对一批未标记数据进行标签预测。当预测相同时,预测的标签将保留为对应图像的伪标签,其余的将被丢弃。

  1. 实验与结果

数据集的噪声分为2种:

  • 对称噪声:对称噪声是一种均匀噪声,它是由类之间的一个随机标签产生的,以等概率取代地真标签。这种类型的噪声子集代表了一种几乎零成本的注释方法,这意味着有许多未标记的图像,标签以完全随机的方式标记。对该噪声的实验可以证明,通过NLD,这种标记方法在一些成本极低的情况下也是可行的。
  • 非对称噪声:这种类型的噪声是类相关的噪声,它模仿了一些视觉相似和语义相似类别的真实世界噪声。

部分非对称噪声示例:

伪标记噪声:伪标记方法可以自动为未标记的图像分配标签,可以降低成本。然而,并没有完全正确的伪标签。为了保证比较的公平性,遵循SSGA-E的思想,将整个训练集随机分为6个部分,随机选取其中一个作为小的干净子集。然后,在小的干净子集上训练两个不同的分类器(VGG-19),并为训练集的其余部分制作伪标签。这些带有自动生成标签的未标记子集可以看作是噪声子集。此外,由于该方法没有对所有的图像进行标记,因此将一些不确定的图像从子集中去除,使噪声子集比原始子集小。

分类精度(%):在UC Merced Land-use使用不同训练方法训练原始无噪声的数据集和对称的标签噪声数据集。

分类精度(%):在UC Merced Land-use使用不同训练方法训练原始无噪声的数据集和非对称的标签噪声数据集。

  1. 启发

本文的方法契合了使用干净数据训练教师模型并指导学生模型在噪声数据中进行学习的思路,不过本文中的教师模型和学生模型位置互换了。其中主要的思路是使用一个决策网络来确定干净知识与噪声知识的权重,即噪声蒸馏,可以参考。

Remote Sensing Image Scene Classification with Noisy Label Distillation

  1. 摘要

基于卷积神经网络的遥感图像场景分类由于缺乏具有清晰注释的大规模数据集而受到严重影响。从互联网或其他来源爬取的数据允许以低成本最快速地扩展现有的数据集。然而,直接在这种扩展数据集上训练会导致网络过拟合噪声标签。传统的方法通常将这个有噪声的数据集分成多个部分。每个部分分别对网络进行微调,以进一步提高性能。这些方法效率低下,有时甚至会损害性能。针对这些问题,本研究提出了一种基于端到端师生框架的噪声标签精馏方法(NLD)。首先,与一般知识蒸馏方法不同,NLD不需要对干净或噪声数据进行预先训练。其次,NLD有效地从标签中提取知识,跨越全范围的噪声水平,可以获得更好的性能。此外,NLD还可以利用完全干净的数据集作为模型蒸馏方法来提高学生分类器的性能。在UC Merced土地利用、NWPU-RESISC45和AID三个遥感图像数据集上对NLD进行评估,其中注入了各种噪声模式和噪声量。实验结果表明,NLD优于目前广泛使用的直接微调方法和遥感伪标签方法。

  1. 主要内容

本工作的重点是在已有的人工验证的标记数据集上增加附加的噪声标记数据,以提高遥感场景分类器的性能。探索了一种从大量噪声中学习知识的更有效的方法,而不是简单地混合所有数据或对标记图像进行微调。受深度互学习的启发,本文提出了一种基于决策网络师生方法学的新型噪声标签蒸馏框架NLD,如图所示。首先,学生和老师共同学习。预训练不再是一个必需的过程。其次,教师将噪声数据中所学的知识进行提炼,方便学生从完整的数据集中学习。NLD甚至可以应用于完全无噪声的数据集。这意味着我们的方法可以在广泛的遥感应用中使用。第三,引入了基于《Learning to compare image patches via convolutional neural networks.》的决策网络,在实际应用中易于优化,可以替代模拟损失的计算。针对遥感图像场景分类缺乏带有噪声注释的公共数据集的问题,本文通过将一系列噪声注入注释良好的数据集来实现模拟。

本文主要贡献如下:

  • 将噪声标签引入到遥感图像场景分类中,减少了外界监督。在实际应用中,有可能以低成本为数百万幅图像贴上噪声标签。
  • 提出了一种新的基于师生模型的端到端框架,即NLD,用于噪声标签的蒸馏。NLD可以有效地提高含有大量噪声注释的遥感场景分类器的性能。
  • NLD对完全干净的数据集有效。因此,NLD可以进一步扩展到网络压缩的模型蒸馏。
  • 伪标记方法可以自动生成几乎无限的噪声注释图像,而不需要额外的成本。NLD训练的网络比其他伪标记方法具有更好的性能。
  • 针对不同类型噪声标签的遥感图像场景分类,提出了几个新的实用基准。

我们的方法属于一个实用流,假设数据集的干净标签和噪声标签都是已知的。这是一个更实际的场景,允许研究人员专注于利用噪声标记数据来增强现有的完全监督算法。

  1. 方法主要框架

本文概述了从带噪声标签的大数据集Dn和带人工验证标签的小数据集Dc训练遥感场景分类器的框架。该框架由教师网络T、学生网络S、决策网络、全连通层和softmax预测器组成。在训练阶段,Lg和Lh两个损失(一个带噪声标签的CE损失和一个带干净标签的CE损失)联合最小化。教师模型T通过决策网络将从噪声子集中提取的“暗知识”传递给学生模型S。在推理阶段,由学生网络S、全连通层和softmax组成的分类器可以给出正确的预测。

  1. 噪声蒸馏

与之前针对师生模型的工作相比,我们需要用一小部分或整个数据集对教师模型进行预训练,教师模型和学生模型一起进行训练,学习潜在的噪声标签分布,以提高干净子集监督下的学生网络的性能,通过比较学生和教师的同时输出来提取噪声知识。

与教师网络T相比,学生网络S具有相似的表示能力,但很难学习到合适的参数。我们的教师网络T有噪音标签,我们的学生网络S有清洁标签。学生网络S不应该完全模仿教师网络t的输出,通过模仿和比较,目的是从嘈杂的数据集中提取知识,这是干净的学生特征和嘈杂的教师特征的交集。

为了解决这些问题,NLD将两个网络的输出同时输入决策网络,决策网络由具有单一输出的完全连接层组成,该网络使用siamese网络来度量两幅不同图像之间的相似度。此外,该决策网络具有可学习的参数。它不依赖于不同损失函数与超参数的组合,可以自动学习适合噪声标签知识蒸馏的权重。由于原始的logit是来自同一幅图像的映射,所以决策网络的输出r仍然是原始的图像特征映射。由决策网络给出的样本~xj的m类概率计算为

随后,分类器g由噪声标签监督,分类器h由干净标签监督。这样,学生网络可以学到清洁知识以及清洁标签和噪声标签之间的相似知识,即噪声蒸馏。同时,NLD不需要模拟损失,训练速度快,比传统蒸馏方法更灵活。同时,由于决策网络需要两个向量的组合,增加了推理时间。然而,我们的目标是培养一个以教师网络为指导的学生网络。因此,只使用学生网络进行测试,而不使用决策网络。

  1. 模型训练

在原始知识蒸馏和DML中,整个目标函数由一个监督损失(如CE损失)和一个模仿损失(如KL损失)组成。而对于分类器g和h,则分别使用CE损失作为监督损失。此外,它们可以重写为:

其中,α和β表示需要根据学生网络、教师网络和噪声数据集设置的权重因子。

用有噪声的数据集训练网络可以使网络记住这些噪声。为了避免教师网络对有噪声的数据进行过拟合,使噪声的提取性能下降,甚至可能误导学生产生爆炸梯度,在教师网络和决策网络之间应用了概率恒定为0.6的Batch归一化(BN)和dropout层。

  1. 伪标签的额外思考

半监督学习需要少量的手工标记干净数据,这与NLD一致。然而,半监督学习数据集通常包含少量的标记数据和大量的未标记数据。因为NLD不使用额外的模拟损失,所以不能直接使用未标记的数据。伪标记属于自学习场景,常用于半监督学习中。在自训练设置下,通过对标记数据训练的模型对未标记数据进行预测,得到伪标签。一些伪标签将被错误标记。这些带有伪标签的数据可以被视为一个大的噪声数据集,NLD可以扩展到半监督学习。

图示伪标签方法包括两个阶段:训练两个分类器和伪标记。(a)两种不同的分类器f1和f2分别在人工标记的小子集Dl上训练。它们提供数据的两个视图。(b)训练后的模型可以对一批未标记数据进行标签预测。当预测相同时,预测的标签将保留为对应图像的伪标签,其余的将被丢弃。

  1. 实验与结果

数据集的噪声分为2种:

  • 对称噪声:对称噪声是一种均匀噪声,它是由类之间的一个随机标签产生的,以等概率取代地真标签。这种类型的噪声子集代表了一种几乎零成本的注释方法,这意味着有许多未标记的图像,标签以完全随机的方式标记。对该噪声的实验可以证明,通过NLD,这种标记方法在一些成本极低的情况下也是可行的。
  • 非对称噪声:这种类型的噪声是类相关的噪声,它模仿了一些视觉相似和语义相似类别的真实世界噪声。

部分非对称噪声示例:

伪标记噪声:伪标记方法可以自动为未标记的图像分配标签,可以降低成本。然而,并没有完全正确的伪标签。为了保证比较的公平性,遵循SSGA-E的思想,将整个训练集随机分为6个部分,随机选取其中一个作为小的干净子集。然后,在小的干净子集上训练两个不同的分类器(VGG-19),并为训练集的其余部分制作伪标签。这些带有自动生成标签的未标记子集可以看作是噪声子集。此外,由于该方法没有对所有的图像进行标记,因此将一些不确定的图像从子集中去除,使噪声子集比原始子集小。

分类精度(%):在UC Merced Land-use使用不同训练方法训练原始无噪声的数据集和对称的标签噪声数据集。

分类精度(%):在UC Merced Land-use使用不同训练方法训练原始无噪声的数据集和非对称的标签噪声数据集。

  1. 启发

本文的方法契合了使用干净数据训练教师模型并指导学生模型在噪声数据中进行学习的思路,不过本文中的教师模型和学生模型位置互换了。其中主要的思路是使用一个决策网络来确定干净知识与噪声知识的权重,即噪声蒸馏,可以参考。