视觉:对人类如何表示和处理视觉信息的计算研究pdf下载pdf下载

视觉:对人类如何表示和处理视觉信息的计算研究百度网盘pdf下载

作者:
简介:本篇主要提供视觉:对人类如何表示和处理视觉信息的计算研究pdf下载
出版社:电子工业出版社
出版时间:2022-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

编辑推荐

适读人群 :本书可供心理学、神经科学、计算机科学、人工智能、计算机视觉等相关专业的研究人员、 研究生及高年级本科生等学习使用或作为研究参考。

√影响一代脑、认知、计算机视觉专家的经典著作

√详细阐述Marr提出的用于研究和理解视觉感知的一般框架

√厘清计算理论、算法、实现三个研究层次

√掌握本书介绍的视觉计算理论,对在人工智能和计算机视觉领域内开展进一步探索至关重要

√吴佳俊教授倾情翻译

内容简介

本书研究了人类对视觉信息的表示和处理,并对视觉计算处理过程提出了全面的计算理论。全书立足于计算机科学、视觉神经科学和心理物理学的进展,是跨学科交叉研究的经典教科书,并对多个学科的研究都有深刻启发作用。特别值得一提的是,在近年深度学习的热潮之中,掌握本书介绍的视觉计算理论,对于在人工智能和计算机视觉领域内开展进一步探索是至关重要的。

作者简介

作者:David Courtnay Marr是计算神经科学领域的创始人之一,曾任麻省理工学院心理学教授。Shimon Ullman是位于以色列雷霍沃特的魏茨曼科学研究所的计算机科学Samy和Ruth Cohn讲席教授。Tomaso Poggio是麻省理工学院脑和认知科学系的Eugene McDermott讲席教授。Ullman和Poggio都曾在麻省理工学院与David Marr共事。


译者:吴佳俊,斯坦福大学计算机科学系助理教授,研究方向是计算机视觉、机器学习和计算认知科学。 加入斯坦福大学之前,曾是谷歌研究院的访问研究员,并分别在清华大学和麻省理工学院获得了学士和博士学位。 他的研究曾获ACM博士学位论文荣誉提名奖、AAAI/ACM SIGAI博士学位论文奖、麻省理工学院George M. Sprowls人工智能与决策博士学位论文奖,以及2020年三星人工智能年度研究人员奖。

精彩书评

Marr是一位跨学科的传奇人物,他在1970年代将神经科学、心理学的成果与数学方法相结合,提出了视觉计算的理论框架,并厘清了计算理论、算法、实现三个研究层次,对计算机视觉在1980—1990年代的蓬勃发展提供了指导思想。我在1989年作为一名大三学生有幸读到这本书的第一个中译本,从而走上了计算机视觉的科研道路。

朱松纯 北京通用人工智能研究院院长,北京大学、清华大学讲席教授


我看过的第一本计算机视觉英文书就是David Marr的Vision。非常高兴看到吴佳俊教授将此书翻译成中文。Marr提出的用于研究和理解视觉感知的计算框架,以及如何通过神经科学和认知科学问题来达成闭环的思路,深刻影响了几十年来计算机视觉领域的发展。我也特别喜欢本书第七章自问自答的写作风格。在深度学习广泛应用于计算机视觉的今天,再读1980年出版的Marr的经典著作,同时参考Ullman、Poggio和Grimson 教授为中文版特别撰写的推荐序和后记,我相信会对人工智能从业者和学生们有非常大的启发作用。

沈向洋 粤港澳大湾区数字经济研究院理事长,美国国家工程院外籍院士



Marr的《视觉》在35年前我开始职业生涯时发挥了极其关键的作用。按照Marr提出的框架,视觉表示从图像到初草图(边缘提取)到2.5维草图(深度图重建)到三维模型表示。那时边缘提取已经非常成熟,深度图重建已经有了长足的发展,但三维模型表示才起步不久,我义无反顾地投入三维视觉的研究及在移动机器人领域的应用,很幸运参与并为后续近20年三维视觉的蓬勃发展做出了一点贡献。

Marr的《视觉》成书于40多年前,它不是一本计算机视觉的书,而是关于人类视觉的计算理论。在深度学习时代,有了足够的数据,端到端的训练似乎不需要计算理论,但我观察到在过去的两三年,一个有趣的现象悄悄发生——无论是视觉、语音,还是自然语言处理,数据红利慢慢消失,新的突破往往来自在神经网络结构设计中加入对领域的深入理解,而这,离不开计算理论的指导。强烈推荐Marr的《视觉》一书。

张正友 腾讯17级杰出科学家,AI Lab和Robotics X实验室主任


很高兴看到这本Marr的经典著作的中文版的面世,仿佛又回到了九十年代在MIT读书时的课堂。经典永流传,四十年后,在深度学习开启的人工智能时代,本书仍旧在不断启发我们对计算机视觉的研究。

汤晓鸥 香港中文大学教授,工程学院杰出学人,商汤科技创始人


Marr在《视觉》一书中描述的视觉计算理论的思想,在数十年间主导了计算机视觉的发展。四十年后的今天,我们再读这本书,会发现虽然Marr的具体计算理论可能是理想化的,但他对计算理论这一概念的追求,启发了我们找到了物体识别这个新的计算目标,构建了ImageNet这样的数据集,并最终影响了今日计算机视觉的发展。在此,我向大家郑重推荐我的同事吴佳俊翻译的《视觉》中文版。

李飞飞 斯坦福大学红杉讲席教授,美国国家工程院、国家医学院、艺术与科学院院士

目录

第Ⅰ部分 引言和哲学基础

第1章 哲学原理和方法 7

1.1 背景知识 7

1.2 理解复杂的信息处理系统 16

表示和描述 16

处理 17

信息处理的三个层次 19

计算理论的重要性 21

J. J. Gibson 的方法 22

1.3 视觉的表示框架 24

第Ⅱ部分 视觉

第2章 图像的表示 33

2.1 早期视觉的物理背景 33

图像的表示 35

基本物理假设 35

图像表示的一般性质 40

2.2 过零点和原初草图 42

过零点 42

生物学的意义 48

原初草图 54

哲学私语 59

2.3 图像的空间排布 62

2.4 光源和透明度 68

其他光源效果 70

透明 70

结论 71

2.5 聚合过程和全初草图 71

主要论点 75

纹理辨别的计算方法及其心理物理学意义 76

第3章 从图像到表面 78

3.1 人类视觉处理的模块化组织 78

3.2 图像的处理、约束和可用表示 81

3.3 立体视觉 87

测量立体视差 87

从视差中计算距离和表面朝向 121

3.4 方向选择性 124

视觉运动引言 124

利用方向选择性来分离独立运动的表面 136

渐进 141

3.5 似动 141

为什么要研究似动 142

把问题一分为二 143

对应问题 146

从运动中恢复结构 158

光流 164

3.6 形状轮廓 166

一些例子 167

遮挡轮廓 168

表面朝向的不连续 173

表面轮廓 175

3.7 表面纹理 180

分离纹理元素 180

小结 184

3.8 明暗和光度立体视觉 184

梯度空间 185

表面光照、表面反射和图像强度 188

反射率图 189

从明暗中恢复形状 191

光度立体视觉 192

3.9 明度、亮度和色彩 194

Helson-Judd 方法 195

关于亮度和色彩的视网膜—皮层理论 196

同时对比的重要性的物理依据 200

对强度非线性变化的表层起源的假设 202

测量三色图像的意义 203

本方法小结 204

3.10 本章小结 205

第4章 可见表面的直接表示 208

4.1 引言 208

4.2 图像分割 209

4.3 对问题的重新建模 211

4.4 需要表示的信息 213

4.5 2.5 维草图的一般形式 215

4.6 表示的可能形式 216

4.7 可能的坐标系 220

4.8 插值、延续性和不连续性 221

4.9 插值问题的计算 224

不连续 224

插值方法 226

4.10 其他内部计算 228

第5章 用于识别的形状表示 230

5.1 引言 230

5.2 形状表示引起的问题 231

评判形状表示的有效性的标准 232

形状表示的设计选择 233

5.3 三维模型表示 235

自然坐标系 236

基于坐标轴的描述 236

三维模型表示的模块化组织 237

三维模型的坐标系 239

5.4 自然推广 241

5.5 推导和使用三维模型表示 244

三维模型描述的推导 244

以观察者为中心的坐标系和以物体为中心的坐标系的关系 247

三维模型的索引和目录 247

推导和识别的交互 250

5.6 心理学的考量 253

第6章 总结 256

第Ⅲ部分 尾声

第7章 对计算方法的辩护 261

7.1 引言 261

7.2 一段对话 261

原书第2版后记Marr的《视觉》和计算神经科学 284

中文版后记从Marr的《视觉》到人类智能问题 288

术语表 292

参考文献 298

前言/序言

深度学习和相关领域的进步向Marr对视觉和人工智能的看法提出了多重挑战。也许最核心的一点是挑战了Marr的基本方法,即为人类视觉和人工智能问题寻求他所谓的“计算理论”。在Marr的书中,他提出了如今已众所周知的划分,即将对信息处理系统的理解分为三个层次:计算理论层次、算法层次和硬件实现层次。粗略地说,Marr的重点是在计算理论层次,而当前的深度网络建模则侧重于算法和实现层次,摒弃了计算理论的概念。



例如,在处理从双眼视觉计算三维形状的问题时,Marr和Poggio描述了许多使该任务成为可能的一般原则。简而言之,计算任务依赖于在左右眼获得的两张图像中建立视觉特征之间的对应关系。为了获得可靠的对应关系,最合适的特征是多个层次上清晰的图像强度变化(边)。通过将问题简化为沿所谓的极线进行一维搜索,对相应特征的搜索就变得容易了。根据这样的分析,他们描述了基于这一任务的基本原理的计算理论,并继续描述了两种均以该理论为指导的不同算法(详见本书第3章)。 类似地,基于Horn从明暗中提取三维形状的工作,第3章还使用了图像形成的基本物理方程来描述这个视觉任务的基本理论,并使用了平滑约束来恢复表面朝向,并以此恢复表面的三维形状。



相比之下,在深度学习方法中,视觉问题是通过对任务进行端到端的训练来解决的。这些训练基于图像示例,并将其与所需的输出配对。作为计算理论支柱的基本原则在这里并不起直接作用。这些原则可能会被网络模型隐式地发现并使用,但它们不会被从外部提供或显式地使用。这种方法上的差异会对Marr的方法和方法论的其他核心问题产生影响。例如,Marr强调基于计算理论的模块化设计的用处,而深度学习方法则强调端到端训练的价值。由于Marr寻求解法背后独立于特定的实现算法的基本原则,他自然认为对人类感知和人脑的研究与计算机视觉和人工智能密切相关。这是因为在基本的层次上,类似的问题很可能以类似的原则为基础进行处理。本书中的大部分讨论都关乎这些相似性的本质。那么,Marr的方法和深度学习是两种相反的可能,其在算法层次上是否对比了计算理论与端到端学习?需要注意的一点是,这两种方法其实并不能被明确地区分开来。Marr在一篇不太为人所知的论文中讨论了这个问题。该论文发表于本书英文版成书之前,题为“Artificial Intelligence–A Personal View”。在这篇论文中,Marr区分了两种类型的理论,称之为“类型 1”与“类型 2”。类型1理论受一套清晰的基本原则支配,而完整的理论正遵循这些原则。相比之下,类型2理论被描述为“通过大量进程的同时运作所解决的问题,这些进程的交互是对这个问题最简单的描述”。Marr强调视觉和人工智能中的许多问题可能是类型1和类型2的混合,而不属于“纯”类型1,而有些问题则可能完全是类型2的。



对我们人类来说,有充分的理由去寻找理论中类型1的那些层面,并在可能的情 况下使它们显式化。这是因为这些有原则的理论提供了类型2的黑盒理论所缺乏的解释。但是,在解决视觉、人工智能和人类认知方面的问题时,这些原则是否真的必要,或者至少非常有用?可能有人会说并非如此:如果我们将进化视为长期试错学习的一部分,并最终导向了我们目前的视觉和认知系统,那么扩展的端到端学习处理过程,在没有指导原则或模块化设计且结合进化和个体学习的情形下,必须足以获取视觉和认知。然而,使用当今的深度学习来实现这种扩展的学习方法是否可行,仍是一个悬而未决的问题。有很多通过当前的网络模型和训练方法取得成功的视觉算法的例子。与此同时,这种学习仍然存在根本的困难。首先是超大规模的有监督数据集被广泛且越来越多地使用。其次是当前方案在远远超出训练示例所代表的分布的情况下的泛化能力很有限。这种限制可能与当前方法发现和使用的类型1原则的短缺有关。最后,目前的学习模型是否走在正确的轨道上,以在视觉、自然语言和一般认知方面达到“真 实”的、类似人类的理解,这一点仍不清楚,也难以确定。人类证明了学习此类处理过程是可能的,但我们可能需要额外的学习方法来实现这种学习,而这可能超出了当前的技术能力。



在Marr的方法的框架中,为了获得类似人类的理解和通用的人工智能,我们可能需要更能发现他的类型1通用原则的方法。对此类方法的发现可能来自理论和计算研究,并且正如Marr所建议的那样,我们还可以尝试采用人脑和认知系统已经使用的类型1原则。