笔记|卷积神经网络 —— 图像识别与深度学习

视频教程学习链接: https://www.icourse163.org/learn/XUST-1206363802?tid=1467124640#/learn/content?type=detail&id=1248319353&cid=1275090253
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

原始数据的形式是多种多样的,除了数字之外,还可能是文字、图像、视频、音频等,下面,就以图像识别为例,来了解深度学习在计算机视觉领域中的应用。
图像识别就是指利用计算机对图像进行处理和分析,使机器能够理解图像中的内容。
在计算机中,灰度图像表示为二维张量的形式,例如这个手写数字 5 ,
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

就被保存为一个 28 x 28 的二维张量。

其中的每一个元素都对应着图像中的一个像素点的灰度信息。
而彩色图像,则可以表示为一个三维张量,增加的这个维度是 RGB 三个色彩通道,
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

这个图比较大,我们取其中的一小块显示出其对应的张量 。
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

数据表是计算机看到的图片,可以发现,图像对人来说,很容易理解,而对计算机来说,却非常困难。
因此,
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

图像特征 1、颜色特征
颜色往往和图像中包含的物体或场景十分相关,因此,颜色特征在图像检索和分类中应用非常广泛,最简单的颜色特征,是颜色直方图。
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

颜色直方图描述了图像中每种颜色的统计信息,例如,下图所示的图像中的颜色直方图都是近似的。
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

但是仅仅使用颜色直方图这一个特征去识别图像,是远远不够的。例如,下图所示图像中的颜色直方图也是近似的,但却不是我们要找的图像。
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

这是因为颜色直方图只是描述了不同色彩在整幅图中所占的比例,但是并没有描述图像中颜色的局部分布,以及每种颜色所处的空间位置。
因此,颜色特征需要和其他特征配合使用。
2、形状特征和纹理特征
形状特征可以提取出图像中景物的轮廓,或者形状轮廓。纹理特征描述了图像或图像区域中景物的表面性质。
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

通过这些视觉特征的组合应用,能够更加准确的描述出图像。
例如,苹果的三个特征如下。
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

而橘子,
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

在深度学习成为主流之前,解决视觉问题首先需要依靠特征工程,设计出一种最适合当前任务的特征,在过去的 20 年中,出现了很多优秀的图像特征,例如,
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

特征工程不仅需要大量的专业知识和经验,而且和具体的任务密切相关,对于不同的视觉任务,需要设计出适合这个任务的特征,例如识别图像中的行人,
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

往往采用 Hog 特征。
而识别人脸,则常常采用 haar 特征。
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

我们很难设计出应对多种识别任务的特征,而且即使通过精心设计过的视觉特征,计算机对图像的理解仍然可能和人类存在很大的差异。
例如,下图中的两个图像的视觉特征非常相似,
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

但是,他们的高层语义却完全不同,一个是人,一个是狗。
这种现象,被称为语义鸿沟。
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

可以看到,下图中的两组图片,也有着相同的问题,即
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

另外,还有些图像虽然表达同样的语义概念,视觉特征却相差很大。这可能由于光照、拍摄视角、尺寸、形变、背景干扰或者遮挡等原因导致。也可能同类的语义本身就种类繁多,外观差异很大。
语义鸿沟的存在给图像识别带来很大的困扰。例如,下图中都是猫的图像,我们可以轻松的识别它们,但是它们的视觉特征却相差很大,对于计算机来说,是一项极具挑战性的任务。
近年来,随着数据、算法、计算能力的快速发展,深度学习在计算机视觉领域得到了成功的应用。深度学习采用端到端的学习方法,避免了特征工程这项令人头痛的工作。
例如,一个区分猫和狗的程序,只需要把各种猫和狗的照片送入神经网络中,
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

然后根据图片的标签去训练这个网络,当网络收敛时,神经网络的隐含层就从这些图片中自动的学习到了猫和狗的特征。
现在,输入没有标签的图像,神经网络就能正确的判断出它是猫还是狗。
笔记|卷积神经网络 —— 图像识别与深度学习
文章图片

至于隐含层提取出的特征究竟是什么,我们并不知道,也不需要关心。
这个过程和我们人类的学习过程非常的相似。当我们教小孩子识别猫和狗时,只要让他们看到各种猫和狗的照片,同时告诉他这是猫还是狗,并且与实际的猫和狗进行对照,经过一段时间之后,他基本上就可以认识了,这就是端到端的学习方法。
【笔记|卷积神经网络 —— 图像识别与深度学习】我们并不用给他详细的描述猫和狗在外观上的区别,只需要告诉他这是猫还是狗,一开始,也许会认错,但是只要立刻纠正,告诉他正确的答案,经过一段时间的训练之后,它的正确率就会越来越高了。

深度神经网络可以看成是对人脑分层机制的模仿,它通过多层隐含层不断组合低层隐含层特征,从而形成更加抽象的高层特征,神经网络中的隐含层越多,提取出的特征就更加抽象,表达能力也就越好。

    推荐阅读