《视觉：对人类如何表示和处理视觉信息的计算研究》[90M]百度网盘pdf下载

视觉：对人类如何表示和处理视觉信息的计算研究百度网盘pdf下载

作者:

简介:本篇主要提供视觉：对人类如何表示和处理视觉信息的计算研究pdf下载

出版社：电子工业出版社

出版时间：2022-01

pdf下载价格：0.00￥

免费下载

前去下载

书籍下载

下载地址

内容介绍

编辑推荐

适读人群：本书可供心理学、神经科学、计算机科学、人工智能、计算机视觉等相关专业的研究人员、研究生及高年级本科生等学习使用或作为研究参考。

√影响一代脑、认知、计算机视觉专家的经典著作

√详细阐述Marr提出的用于研究和理解视觉感知的一般框架

√厘清计算理论、算法、实现三个研究层次

√掌握本书介绍的视觉计算理论，对在人工智能和计算机视觉领域内开展进一步探索至关重要

√吴佳俊教授倾情翻译

内容简介

本书研究了人类对视觉信息的表示和处理，并对视觉计算处理过程提出了全面的计算理论。全书立足于计算机科学、视觉神经科学和心理物理学的进展，是跨学科交叉研究的经典教科书，并对多个学科的研究都有深刻启发作用。特别值得一提的是，在近年深度学习的热潮之中，掌握本书介绍的视觉计算理论，对于在人工智能和计算机视觉领域内开展进一步探索是至关重要的。

作者简介

作者：David Courtnay Marr是计算神经科学领域的创始人之一，曾任麻省理工学院心理学教授。Shimon Ullman是位于以色列雷霍沃特的魏茨曼科学研究所的计算机科学Samy和Ruth Cohn讲席教授。Tomaso Poggio是麻省理工学院脑和认知科学系的Eugene McDermott讲席教授。Ullman和Poggio都曾在麻省理工学院与David Marr共事。

译者：吴佳俊，斯坦福大学计算机科学系助理教授，研究方向是计算机视觉、机器学习和计算认知科学。加入斯坦福大学之前，曾是谷歌研究院的访问研究员，并分别在清华大学和麻省理工学院获得了学士和博士学位。他的研究曾获ACM博士学位论文荣誉提名奖、AAAI/ACM SIGAI博士学位论文奖、麻省理工学院George M. Sprowls人工智能与决策博士学位论文奖，以及2020年三星人工智能年度研究人员奖。

精彩书评

Marr是一位跨学科的传奇人物，他在1970年代将神经科学、心理学的成果与数学方法相结合，提出了视觉计算的理论框架，并厘清了计算理论、算法、实现三个研究层次，对计算机视觉在1980—1990年代的蓬勃发展提供了指导思想。我在1989年作为一名大三学生有幸读到这本书的第一个中译本，从而走上了计算机视觉的科研道路。

朱松纯北京通用人工智能研究院院长，北京大学、清华大学讲席教授

我看过的第一本计算机视觉英文书就是David Marr的Vision。非常高兴看到吴佳俊教授将此书翻译成中文。Marr提出的用于研究和理解视觉感知的计算框架，以及如何通过神经科学和认知科学问题来达成闭环的思路，深刻影响了几十年来计算机视觉领域的发展。我也特别喜欢本书第七章自问自答的写作风格。在深度学习广泛应用于计算机视觉的今天，再读1980年出版的Marr的经典著作，同时参考Ullman、Poggio和Grimson 教授为中文版特别撰写的推荐序和后记，我相信会对人工智能从业者和学生们有非常大的启发作用。

沈向洋粤港澳大湾区数字经济研究院理事长，美国国家工程院外籍院士

Marr的《视觉》在35年前我开始职业生涯时发挥了极其关键的作用。按照Marr提出的框架，视觉表示从图像到初草图（边缘提取）到2.5维草图（深度图重建）到三维模型表示。那时边缘提取已经非常成熟，深度图重建已经有了长足的发展，但三维模型表示才起步不久，我义无反顾地投入三维视觉的研究及在移动机器人领域的应用，很幸运参与并为后续近20年三维视觉的蓬勃发展做出了一点贡献。

Marr的《视觉》成书于40多年前，它不是一本计算机视觉的书，而是关于人类视觉的计算理论。在深度学习时代，有了足够的数据，端到端的训练似乎不需要计算理论，但我观察到在过去的两三年，一个有趣的现象悄悄发生——无论是视觉、语音，还是自然语言处理，数据红利慢慢消失，新的突破往往来自在神经网络结构设计中加入对领域的深入理解，而这，离不开计算理论的指导。强烈推荐Marr的《视觉》一书。

张正友腾讯17级杰出科学家，AI Lab和Robotics X实验室主任

很高兴看到这本Marr的经典著作的中文版的面世，仿佛又回到了九十年代在MIT读书时的课堂。经典永流传，四十年后，在深度学习开启的人工智能时代，本书仍旧在不断启发我们对计算机视觉的研究。

汤晓鸥香港中文大学教授，工程学院杰出学人，商汤科技创始人

Marr在《视觉》一书中描述的视觉计算理论的思想，在数十年间主导了计算机视觉的发展。四十年后的今天，我们再读这本书，会发现虽然Marr的具体计算理论可能是理想化的，但他对计算理论这一概念的追求，启发了我们找到了物体识别这个新的计算目标，构建了ImageNet这样的数据集，并最终影响了今日计算机视觉的发展。在此，我向大家郑重推荐我的同事吴佳俊翻译的《视觉》中文版。

李飞飞斯坦福大学红杉讲席教授，美国国家工程院、国家医学院、艺术与科学院院士

前言/序言

深度学习和相关领域的进步向Marr对视觉和人工智能的看法提出了多重挑战。也许最核心的一点是挑战了Marr的基本方法，即为人类视觉和人工智能问题寻求他所谓的“计算理论”。在Marr的书中，他提出了如今已众所周知的划分，即将对信息处理系统的理解分为三个层次：计算理论层次、算法层次和硬件实现层次。粗略地说，Marr的重点是在计算理论层次，而当前的深度网络建模则侧重于算法和实现层次，摒弃了计算理论的概念。

例如，在处理从双眼视觉计算三维形状的问题时，Marr和Poggio描述了许多使该任务成为可能的一般原则。简而言之，计算任务依赖于在左右眼获得的两张图像中建立视觉特征之间的对应关系。为了获得可靠的对应关系，最合适的特征是多个层次上清晰的图像强度变化（边）。通过将问题简化为沿所谓的极线进行一维搜索，对相应特征的搜索就变得容易了。根据这样的分析，他们描述了基于这一任务的基本原理的计算理论，并继续描述了两种均以该理论为指导的不同算法（详见本书第3章）。类似地，基于Horn从明暗中提取三维形状的工作，第3章还使用了图像形成的基本物理方程来描述这个视觉任务的基本理论，并使用了平滑约束来恢复表面朝向，并以此恢复表面的三维形状。

相比之下，在深度学习方法中，视觉问题是通过对任务进行端到端的训练来解决的。这些训练基于图像示例，并将其与所需的输出配对。作为计算理论支柱的基本原则在这里并不起直接作用。这些原则可能会被网络模型隐式地发现并使用，但它们不会被从外部提供或显式地使用。这种方法上的差异会对Marr的方法和方法论的其他核心问题产生影响。例如，Marr强调基于计算理论的模块化设计的用处，而深度学习方法则强调端到端训练的价值。由于Marr寻求解法背后独立于特定的实现算法的基本原则，他自然认为对人类感知和人脑的研究与计算机视觉和人工智能密切相关。这是因为在基本的层次上，类似的问题很可能以类似的原则为基础进行处理。本书中的大部分讨论都关乎这些相似性的本质。那么，Marr的方法和深度学习是两种相反的可能，其在算法层次上是否对比了计算理论与端到端学习？需要注意的一点是，这两种方法其实并不能被明确地区分开来。Marr在一篇不太为人所知的论文中讨论了这个问题。该论文发表于本书英文版成书之前，题为“Artificial Intelligence–A Personal View”。在这篇论文中，Marr区分了两种类型的理论，称之为“类型 1”与“类型 2”。类型1理论受一套清晰的基本原则支配，而完整的理论正遵循这些原则。相比之下，类型2理论被描述为“通过大量进程的同时运作所解决的问题，这些进程的交互是对这个问题最简单的描述”。Marr强调视觉和人工智能中的许多问题可能是类型1和类型2的混合，而不属于“纯”类型1，而有些问题则可能完全是类型2的。

对我们人类来说，有充分的理由去寻找理论中类型1的那些层面，并在可能的情况下使它们显式化。这是因为这些有原则的理论提供了类型2的黑盒理论所缺乏的解释。但是，在解决视觉、人工智能和人类认知方面的问题时，这些原则是否真的必要，或者至少非常有用？可能有人会说并非如此：如果我们将进化视为长期试错学习的一部分，并最终导向了我们目前的视觉和认知系统，那么扩展的端到端学习处理过程，在没有指导原则或模块化设计且结合进化和个体学习的情形下，必须足以获取视觉和认知。然而，使用当今的深度学习来实现这种扩展的学习方法是否可行，仍是一个悬而未决的问题。有很多通过当前的网络模型和训练方法取得成功的视觉算法的例子。与此同时，这种学习仍然存在根本的困难。首先是超大规模的有监督数据集被广泛且越来越多地使用。其次是当前方案在远远超出训练示例所代表的分布的情况下的泛化能力很有限。这种限制可能与当前方法发现和使用的类型1原则的短缺有关。最后，目前的学习模型是否走在正确的轨道上，以在视觉、自然语言和一般认知方面达到“真实”的、类似人类的理解，这一点仍不清楚，也难以确定。人类证明了学习此类处理过程是可能的，但我们可能需要额外的学习方法来实现这种学习，而这可能超出了当前的技术能力。

在Marr的方法的框架中，为了获得类似人类的理解和通用的人工智能，我们可能需要更能发现他的类型1通用原则的方法。对此类方法的发现可能来自理论和计算研究，并且正如Marr所建议的那样，我们还可以尝试采用人脑和认知系统已经使用的类型1原则。

查看全部↓