在2016年出版的《哈佛商业评论》上,人工智能和机器学习领域最权威的学者之一吴恩达(Andrew Ng)将人工智能比作电力,他说:“100年前,电力改变了无数行业,20年前,互联网也是如此,人工智能也将如此。”人工智能的研究在最近一段时间一直在加速发展。所有的科学研究领域,从社会科学到神经科学,都在应用人工智能工具来寻找新的见解和进一步的研究。在深度学习的成功推动下,人工智能能够在解决具有挑战性的小问题(比如下围棋和国际象棋)方面与人类匹敌。然而,复制并最终超越人类智能是人工智能研究人员的乌托邦目标。
近年来,人工智能研究的一个重要方向——深度神经网络受到了越来越多的关注,并在图像处理和计算机视觉的许多领域得到了成功的应用。首先,神经网络可以学习,从训练数据集中提取特征,不需要像经典的程序那样设计特征,非常简洁。其次,神经网络在训练过程中可以从数据中提取出一系列高阶非线性特征,这些非线性特征是通过卷积层构造的,也可自适应训练数据,可比传统的特征更准确地表示数据的分布。最后,深度神经网络是端到端的系统。当神经网络将检测或识别两个基本步骤结合在一起时,输入原始图像,输出期望的结果。由于深度神经网络的巨大容量,它们在许多计算机视觉任务中取得了巨大的成功,包括目标检测和识别。
本书的目的是为当前基于深度学习目标检测和识别的发展提供一个全面的概述。全书共6章,通过对深度神经网络不同方面的介绍,全面地讲述了深度神经网络的结构、特点和性能。希望读者能从不同的领域获得一些灵感,设计适合自己任务的深度神经网络。
第1章简要回顾了深度神经网络的历史。然后,讨论了常用的堆叠自编码器网络、卷积神经网络、深度信念网络、递归神经网络和生成对抗网络。通过介绍神经网络的基本概念和理论,读者可以获得深度神经网络的背景知识。
第2章讨论了深度神经网络在目标检测中的应用。利用神经网络进行目标检测主要有两种方法,即两阶段方法和一阶段方法。对于两阶段方法,首先选取目标的可能候选区域,然后分类进行检测。R-CNN、Fast R-CNN和Faster R-CNN两阶段方法已经达到了检测任务的最新水平,但是这些方法的速度相对较慢。对于一阶段方法,如YOLO、SSD和RetinaNet,它们可以同时预测目标的位置和类别,因此,速度比两阶段方法快得多,但精度下降。最后,简单讨论了TensorFlow、PyTorch、PaddlePaddle三种目标检测开源框架。
第3章在介绍和分析基于深度学习的单阶段目标检测代表算法YOLO和两阶段目标检测代表算法Faster R-CNN基础上,通过对两种算法优缺点的考量,选取Faster R-CNN作为目标检测系统的基本算法,并针对其现阶段检测性能上的不足,做出相应改进。首先使用深层线性卷积神经网络充分提取目标特征;然后针对难以检测的目标,在区域推荐网络中引入难例挖掘思想,使训练更加充分,并用聚类算法确定推荐框长宽比例。另外,对于远处小尺度目标检测问题,在目标区池化层引入双线性插值的ROI归一化算法;最后对网络的主要参数进行分析与修改。分别对这几点改进策略进行了实验验证,证明其有效性与可行性。
第4章介绍了目标检测采用的另一项重要技术——领域自适应及在目标检测中的两种应用。在目标识别或分类中,由于背景、摄像机视点、目标变换和人类选择偏好不同,训练图像可能与目标图像不同。然而,这些性能背后的关键因素是标记数据的可用性。然而,在实践中,收集和注释大量数据以充分训练模型来完成所需任务并不总是可行的,因此产生了领域自适应,目的是克服源域和目标域之间的域转移,研究出一种只从源域学习并推广到目标域的鲁棒映射模型。
第5章介绍了基于深度学习的图像识别技术。计算机在图像识别过程中,无法像人一样做到对图像做出自主辩证的判断,只能机械化地寻找图像的特性,从而完成对图像的识别。因此通过图像识别模型改进提高图像识别率。另外,通过融入注意力机制的残差网络来研究面部表情识别,构建的RARNet网络相比于ResNet50网络识别率有一定提升。
第6章为结论与展望。
从这6章中可以看出,基于深度学习的方法在目标检测与识别的应用上有了很大的突破。研究人员对深度网络模型参数调整、网络结构改进、引入领域自适应和注意力机制等,使其适应目标检测的具体要求。希望读者更多地思考如何应用、如何改进深度神经网络,使其在自己的学习和研究等任务中有更好的体验。
本书的出版得到了“2019年北京市社会科学基金项目(19JYB003)”“2020年北京建筑大学研究生教育教学质量重点提升项目(J2020002)”和“2020年北京建筑大学重点教育科学研究项目(Y2013)”的直接和间接资助,在此表示由衷的感谢。
同时感谢所有被本书直接或间接引用其文献资料的同行学者。
感谢镡帅、刘兴业、史志博等研究生所做的工作。
由于笔者水平有限,加之时间仓促,书中的遗漏和不足之处在所难免,敬请专家和读者批评指正。
著者
2021年4月20日