这是一篇关于无监督学习的综述,里面主要就自监督学习进行了介绍.无监督学习研究的主要目标是预训练一个模型网络,供其他任务(downstream tasks)使用。在无监督方式中产生的通用的特征通常能够用到分类任务中:例如在 ImageNet 上训练会表现出很好的结果,这与监督模型非常接近。 迄今为止,监督模型总是比无监督的预训练模型表现的要好。其主要原因是监督模型对数据集的特性编码的更好。但如果模型运用到其他任务,监督工作是可以减少的。在这方面,希望达到的目标是无监督训练可以提供通用的特征,用于学习并实现其它任务(downstream tasks)。
摘要:
为了在计算机视觉应用中从图像或视频中获得更好的视觉特征学习性能,通常需要大规模的标记数据来训练深度神经网络。为了避免大规模数据集收集和标注的大量开销.自监督学习作为无监督学习方法的一个子集,在不使用任何人类标注的标签的情况下,从大规模无标记数据中学习图像和视频的通用的特征。本文对基于深度学习的自监督通用视觉特征学习方法进行了广泛的综述。首先,描述了该领域的动机、通用流程(pipeline)和术语。在此基础上,总结了常用的用于自监督学习的深度神经网络体系结构。接下来,回顾了自监督学习方法的模式和评价指标,然后介绍了常用的图像和视频数据集以及现有的自监督视觉特征学习方法。最后,总结和讨论了基于基准数据集的定量性能比较方法在图像和视频特征学习中的应用。最后,对本文的研究进行了总结,并提出了一套具有发展前景的自监督视觉特征学习方法