万益资讯网

电子书《计算机视觉基础》Foundations of Computer Visi

电子书《计算机视觉基础》Foundations of Computer Vision地址:visionbook.mit.edu/

"本书从图像处理与机器学习的视角,系统介绍计算机视觉的基础主题。我们致力于培养读者的直觉,因此书中包含大量可视化内容。目标读者是刚进入该领域的本科生和研究生,但也希望经验丰富的从业者能从中获益。

我们最初的目标是撰写一本全面覆盖该领域的大型著作。遗憾的是,计算机视觉领域过于庞大,难以实现这一目标。于是我们转而决定编写一本小型书籍,将每章篇幅限制在五页以内。这一目标迫使我们聚焦于理解每个主题所需的核心概念。撰写短小精悍的书籍堪称完美——因为我们无暇编写长篇巨著,而您也无暇通读。可惜,我们连这个目标也未能达成。

过去十年间,计算机视觉经历了一场革命。如今使用的方法似乎与十年前的方法关联甚微,但事实并非如此。名称确实变了,某些思想也确实是全新的,但当今的方法实则深深植根于计算机视觉与人工智能的历史。全书将强调所呈现概念背后的统一主题。部分章节会从不同视角重新审视之前介绍过的概念。

视觉的核心隐喻之一是多视角观察。真实物理场景存在于外部世界,我们通过不同角度、不同传感器、不同时间对其进行观察。通过收集多重视角,我们得以理解潜在的现实。本书同样呈现了多重视角,我们的目标是识别其背后的基础原理。

全书分为多个部分,每部分包含若干章节,围绕计算机视觉中的连贯主题展开。建议按顺序阅读,因为多数章节假设读者已熟悉前文内容。各部分内容如下:

第一部分:通过动机性主题介绍视觉问题,并将其置于社会背景中。我们将引入一个简易视觉系统,用于呈现全书有用的概念,并复习基础数学工具。

第二部分:涵盖图像形成过程。

第三部分:以视觉案例为基础,介绍具有广泛适用性的学习基础概念。

第四部分:介绍信号与图像处理基础,这是计算机视觉的基石。

第五部分:描述一系列实用的线性滤波器(高斯核、二项式滤波器、图像导数、拉普拉斯滤波器、时间滤波器)及其应用。

第六部分:介绍多尺度图像表示。

第七部分:介绍视觉神经网络,包括卷积神经网络、循环神经网络和Transformer。这些章节将聚焦核心原理,不深入具体架构。

第八部分:介绍图像统计模型与图模型。

第九部分:聚焦神经网络时代的两种强大建模方法——生成式建模与表示学习。生成式图像模型是统计图像模型,能创建遵循自然图像形成规律与几何规则的合成图像。表示学习则致力于寻找有用的图像抽象表示,如向量嵌入。

第十部分:由简短章节组成,讨论构建基于学习的视觉系统时面临的挑战。

第十一部分:介绍几何工具及其在计算机视觉中的应用,用于从二维图像重建三维世界结构。

第十二部分:聚焦序列处理与运动测量。

第十三部分:涉及场景理解与目标检测。

第十四部分:汇集为初级研究者提供的建议章节,涵盖有效演示方法、论文写作技巧及高效研究者的思维方式。

第十五部分:回归简易视觉系统,应用书中介绍的技术解决第一部分提出的玩具问题。“How I AI ”