文章转自:https://blog.csdn.net/jiaoyangwm/article/details/80011656
文章目录
-
-
- 1、卷积神经网络的概念
- 2、 发展过程
- 3、如何利用CNN实现图像识别的任务
- 4、CNN的特征
- 5、CNN的求解
- 6、卷积神经网络注意事项
- 7、CNN发展综合介绍
- 8、LeNet-5结构分析
- 9、AlexNet
- 10、ZFNet
-
- 10.1 意义
- 10.2 实现方法
- 10.3 训练细节
- 10.4 卷积网络可视化
- 10.6 总结
- 11、VGGNet
-
- 11.1 结构
- 11.2 网络特点:
- 11.3 分类框架:
- 12、GoogLeNet
-
- 12.1 GoogLeNet Inception V1——22层
- 12.2 GoogLeNet
- 12.3 GoogleNet Inception V2
- 12.4 GoogLeNet Inception V3
-
- 12.4.1 简介
- 12.4.2 一般情况的设计准则
- 12.4.3 利用大尺度滤波器进行图像的卷积
- 13、ResNet
-
- 13.1 ResNet的提出
- 13.2 ResNet的意义
- 13.3 ResNet结构
- 13.4 ResNet50和ResNet101
- 13.5 基于ResNet101的Faster RCNN
- 14、区域 CNN:R-CNN(2013年)、Fast R-CNN(2015年)、Faster R-CNN(2015年)
- 15、生成式对抗网络
- 16、深度学习在计算机视觉上的应用
- 17、深度有监督学习在计算机视觉领域的进展
-
- 17.1 图像分类
- 17.2 图像检测(Image Dection)
- 17.4 图像标注–看图说话(Image Captioning)
- 18、强化学习(Reinforcement Learning)
-
1、卷积神经网络的概念
计算机视觉和 CNN 发展十一座里程碑
上世纪60年代,Hubel等人通过对猫视觉皮层细胞的研究,提出了感受野这个概念,到80年代,Fukushima在感受野概念的基础之上提出了神经认知机的概念,可以看作是卷积神经网络的第一个实现网络,神经认知机将一个视觉模式分解成许多子模式(特征),然后进入分层递阶式相连的特征平面进行处理,它试图将视觉系统模型化,使其能够在即使物体有位移或轻微变形的时候,也能完成识别。
卷积神经网络是多层感知机(MLP)的变种,由生物学家休博尔和维瑟尔在早期关于猫视觉皮层的研究发展而来,视觉皮层的细胞存在一个复杂的构造,这些细胞对视觉输入空间的子区域非常敏感,称之为感受野。
CNN由纽约大学的Yann Lecun于1998年提出,其本质是一个多层感知机,成功的原因在于其所采用的局部连接和权值共享的方式:
-
一方面减少了权值的数量使得网络易于优化
-
另一方面降低了模型的复杂度,也就是减小了过拟合的风险
该优点在网络的输入是图像时表现的更为明显,使得图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建的过程,在二维图像的处理过程中有很大的优势,如网络能够自行抽取图像的特征包括颜色、纹理、形状及图像的拓扑结构,在处理二维图像的问题上,特别是识别位移、缩放及其他形式扭曲不变性的应用上具有良好的鲁棒性和运算效率等。
名称 | 特点 |
---|---|
LeNet5 | 没啥特点-不过是第一个CNN应该要知道 |
AlexNet | 引入了ReLU和dropout,引入数据增强、池化相互之间有覆盖,三个卷积一个最大池化+三个全连接层 |
VGGNet | 采用11和33的卷积核以及2*2的最大池化使得层数变得更深。常用VGGNet-16和VGGNet19 |
Google Inception Net | 这个在控制了计算量和参数量的同时,获得了比较好的分类性能,和上面相比有几个大的改进:1、去除了最后的全连接层,而是用一个全局的平均池化来取代它; 2、引入Inception Module,这是一个4个分支结合的结构。所有的分支都用到了11的卷积,这是因为11性价比很高,可以用很少的参数达到非线性和特征变换。3、Inception V2第二版将所有的55变成2个33,而且提出来著名的Batch Normalization;4、Inception V3第三版就更变态了,把较大的二维卷积拆成了两个较小的一维卷积,加速运算、减少过拟合,同时还更改了Inception Module的结构。 |
微软ResNet残差神经网络(Residual Neural Network) | 1、引入高速公路结构,可以让神经网络变得非常深2、ResNet第二个版本将ReLU激活函数变成y=x的线性函数 |