-
- Few-shot learning:即小样本学习,训练集中每个类别数量很少,包括
one-shot
和zero-shot
; - large-scale learning:大规模样本学习,也是现在主流的分类方法,这也是由于深度学习对数据集的要求。
1. 图像分类(Image Classification)
图像分类,也可以称为图像识别,顾名思义,就是辨别图像是什么,或者说图像中的物体属于什么类别。
图像分类根据不同分类标准可以划分为很多种子方向。
比如根据类别标签,可以划分为:
- 二分类问题,比如判断图片中是否包含人脸;
- 多分类问题,比如鸟类识别;
- 多标签分类,每个类别都包含多种属性的标签,比如对于服饰分类,可以加上衣服颜色、纹理、袖长等标签,输出的不只是单一的类别,还可以包括多个属性。
根据分类对象,可以划分为:
- 通用分类,比如简单划分为鸟类、车、猫、狗等类别;
- 细粒度分类,目前图像分类比较热门的领域,比如鸟类、花卉、猫狗等类别,它们的一些更精细的类别之间非常相似,而同个类别则可能由于遮挡、角度、光照等原因就不易分辨。
2. 目标检测(Object Detection)
目标检测通常包含两方面的工作,首先是找到目标,然后就是识别目标。
目标检测可以分为单物体检测和多物体检测,即图像中目标的数量,例子如下所示:
以上两个例子是来自 VOC 2012 数据集的图片,实际上还有更多更复杂的场景,如 MS COCO 数据集的图片例子:
目标检测领域,其实有很多方法,其发展史如下所示:
3. 图像分割(Object Segmentation)
图像分割是基于图像检测的,它需要检测到目标物体,然后把物体分割出来。
图像分割可以分为三种:
- 普通分割:将不同分属于不同物体的像素区域分开,比如前景区域和后景区域的分割;
- 语义分割:普通分割的基础上,在像素级别上的分类,属于同一类的像素都要被归为一类,比如分割出不同类别的物体;
- 实例分割:语义分割的基础上,分割出每个实例物体,比如对图片中的多只狗都分割出来,识别出来它们是不同的个体,不仅仅是属于哪个类别。
一个图形分割的例子如下所示,下图就是一个实例分割的例子,用不同的颜色表示不同的实例。
4. 风格迁移(Style Transfer)
风格迁移是指将一个领域或者几张图片的风格应用到其他领域或者图片上。比如将抽象派的风格应用到写实派的图片上。
一个风格迁移的例子如下, 图 A 是原图,后面的 B-F 五幅图都是根据不同风格得到的结果。
一般数据集采用常用的数据集加一些著名的艺术画作品,比如梵高、毕加索等。
5. 图像重构(Image Reconstruction)
图像重构,也称为图像修复(Image Inpainting),其目的就是修复图像中缺失的地方,比如可以用于修复一些老的有损坏的黑白照片和影片。通常会采用常用的数据集,然后人为制造图片中需要修复的地方。
一个修复的例子如下所示,总共是四张需要修复的图片,例子来自论文"Image Inpainting for Irregular Holes Using Partial Convolutions"。
6. 超分辨率(Super-Resolution)
超分辨率是指生成一个比原图分辨率更高、细节更清晰的任务。一个例子如下图所示,图例来自论文"Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network"。
通常超分辨率的模型也可以用于解决图像恢复(image restoration)和修复(inpainting),因为它们都是解决比较关联的问题。
7. 图像生成(Image Synthesis)
图像生成是根据一张图片生成修改部分区域的图片或者是全新的图片的任务。这个应用最近几年快速发展,主要原因也是由于 GANs 是最近几年非常热门的研究方向,而图像生成就是 GANs 的一大应用。
一个图像生成例子如下:
8. 人脸
人脸方面的应用,包括人脸识别、人脸检测、人脸匹配、人脸对齐等等,这应该是计算机视觉方面最热门也是发展最成熟的应用,而且已经比较广泛的应用在各种安全、身份认证等,比如人脸支付、人脸解锁。
这里就直接推荐几个 Github 项目、论文、文章和数据集
- Few-shot learning:即小样本学习,训练集中每个类别数量很少,包括