[登录] | [注册]

深度学习(deep learning)

我要购买
我要购买该图书
书名
深度学习(deep learning)
书号
页数
500
出版日期
2017-08-01
分类
人工智能
我要购买
我要购买该图书
  • 图书简介
459
《深度学习》由全球知名的三位专家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰写,是深度学习领域奠基性的经典教材。全书的内容包括3个部分:第 1部分介绍基本的数学工具和机器学习的概念,它们是深度学习的预备知识;第 2部分系统深入地讲解现今已成熟的深度学习方法和技术;第3部分讨论某些具有前瞻性的方向和想法,它们被公认为是深度学习未来的研究重点。 《深度学习》适合各类读者阅读,包括相关专业的大学生或研究生,以及不具有机器学习或统计背景、但是想要快速补充深度学习知识,以便在实际产品或平台中应用的软件工程师。
  • 本书特色
深度学习是机器学习的一个分支,它能够使计算机通过层次概念来学习经验和理解世界。因为计算机能够从经验中获取知识,所以不需要人类来形式化地定义计算机需要的所有知识。层次概念允许计算机通过构造简单的概念来学习复杂的概念,而这些分层的图结构将具有很深的层次。本书会介绍深度学习领域的许多主题。 

本书囊括了数学及相关概念的背景知识,包括线性代数、概率论、信息论、数值优化以及机器学习中的相关内容。同时,它还介绍了工业界中实践者用到的深度学习技术,包括深度前馈网络、正则化、优化算法、卷积网络、序列建模和实践方法等,并且调研了诸如自然语言处理、语音识别、计算机视觉、在线推荐系统、生物信息学以及视频游戏方面的应用。最后,本书还提供了一些研究方向,涵盖的理论主题包括线性因子模型、自编码器、表示学习、结构化概率模型、蒙特卡罗方法、配分函数、近似推断以及深度生成模型。 

封面特色:由艺术家Daniel Ambrosi提供的中央公园杜鹃花步道梦幻景观。在Ambrosi的亿级像素全景图上,应用Joseph Smarr(Google)和Chirs Lamb(NVIDIA)修改后的Google DeepDream开源程序,创造了Daniel Ambrosi的“幻景”。
  • 目录
目 录 
第 1 章 引言 . . . . . . . . . 1 
1.1 本书面向的读者 . . . . . . . . . . . . . . . . . . . .7 
1.2 深度学习的历史趋势 . . . . . . . . . . . . . . . 8 
1.2.1 神经网络的众多名称和命运变迁 . 8 
1.2.2 与日俱增的数据量 . . . . . . . . . . . . . 12 
1.2.3 与日俱增的模型规模 . . . . . . . . . . .13 
1.2.4 与日俱增的精度、复杂度和对现实世界的冲击 . . . . . . . . . . . . . 15

第 1 部分 应用数学与机器学习基础 
第 2 章 线性代数 . . . 19 
2.1 标量、向量、矩阵和张量 . . . . . . . . . . 19 
2.2 矩阵和向量相乘. . . . . . . . . . . . . . . . . . .21 
2.3 单位矩阵和逆矩阵 . . . . . . . . . . . . . . . . 22 
2.4 线性相关和生成子空间 . . . . . . . . . . . 23 
2.5 范数. . . . . . . . .24 
2.6 特殊类型的矩阵和向量 . . . . . . . . . . . 25 
2.7 特征分解 . . . . 26 
2.8 奇异值分解 . . . . . . . . . . . . . . . . . . . . . . . 28 
2.9 Moore-Penrose 伪逆 . . . . . . . . . . . . . . . 28 
2.10 迹运算 . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 
2.11 行列式 . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 
2.12 实例:主成分分析. . . . . . . . . . . . . . . .30 
第 3 章 概率与信息论. . . . . . . . . . . . . . . . . . . . .34 
3.1 为什么要使用概率 . . . . . . . . . . . . . . . . 34 
3.2 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . 35 
3.3 概率分布 . . . . . . . . . . . . . . . . . . . . . . . . . . 36 
3.3.1 离散型变量和概率质量函数 . . . . 36 
3.3.2 连续型变量和概率密度函数 . . . . 36 
3.4 边缘概率 . . . . . . . . . . . . . . . . . . . . . . . . . . 37 
3.5 条件概率 . . . . . . . . . . . . . . . . . . . . . . . . . . 37 
3.6 条件概率的链式法则 . . . . . . . . . . . . . . 38
3.7 独立性和条件独立性 . . . . . . . . . . . . . . 38 
3.8 期望、方差和协方差 . . . . . . . . . . . . . . 38 
3.9 常用概率分布 . . . . . . . . . . . . . . . . . . . . . 39 
3.9.1 Bernoulli 分布 . . . . . . . . . . . . . . . . 40 
3.9.2 Multinoulli 分布 . . . . . . . . . . . . . . 40 
3.9.3 高斯分布 . . . . . . . . . . . . . . . . . . . . . 40 
3.9.4 指数分布和 Laplace 分布 . . . . . . 41 
3.9.5 Dirac 分布和经验分布 . . . . . . . . . 42 
3.9.6 分布的混合 . . . . . . . . . . . . . . . . . . . 42 
3.10 常用函数的有用性质. . . . . . . . . . . . .43 
3.11 贝叶斯规则 . . . . . . . . . . . . . . . . . . . . . . 45 
3.12 连续型变量的技术细节 . . . . . . . . . . 45 
3.13 信息论 . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 
3.14 结构化概率模型 . . . . . . . . . . . . . . . . . 49 
第 4 章 数值计算 . . . . . . . . . . . . . . . . . . . . . . . . . 52 
4.1 上溢和下溢 . . . . . . . . . . . . . . . . . . . . . . . 52 
4.2 病态条件 . . . . . . . . . . . . . . . . . . . . . . . . . . 53 
4.3 基于梯度的优化方法 . . . . . . . . . . . . . . 53 
4.3.1 梯度之上:Jacobian 和 Hessian 矩阵 . . . . . . . . . . . . . . . . . . . . . 56 
4.4 约束优化 . . . . . . . . . . . . . . . . . . . . . . . . . . 60 
4.5 实例:线性最小二乘 . . . . . . . . . . . . . . 61 
第 5 章 机器学习基础. . . . . . . . . . . . . . . . . . . . .63 
5.1 学习算法 . . . . . . . . . . . . . . . . . . . . . . . . . . 63 
5.1.1 任务 T . . . . . . . . . . . . . . . . . . . . . . 63 
5.1.2 性能度量 P . . . . . . . . . . . . . . . . . . . 66 
5.1.3 经验 E . . . . . . . . . . . . . . . . . . . . . . . 66 
5.1.4 示例:线性回归 . . . . . . . . . . . . . . . 68 
5.2 容量、过拟合和欠拟合 . . . . . . . . . . . . 70 
5.2.1 没有免费午餐定理 . . . . . . . . . . . . . 73 
5.2.2 正则化 . . . . . . . . . . . . . . . . . . . . . . . 74 
5.3 超参数和验证集. . . . . . . . . . . . . . . . . . .76 
5.3.1 交叉验证 . . . . . . . . . . . . . . . . . . . . . 76 
5.4 估计、偏差和方差. . . . . . . . . . . . . . . . .77 
5.4.1 点估计 . . . . . . . . . . . . . . . . . . . . . . . 77 
5.4.2 偏差 . . . . . . . . . . . . . . . . . . . . . . . . . 78 
5.4.3 方差和标准差 . . . . . . . . . . . . . . . . . 80 
5.4.4 权衡偏差和方差以最小化均方误差 . . . . . . . . . . . . . . . . . . . . . . . 81 
5.4.5 一致性 . . . . . . . . . . . . . . . . . . . . . . . 82 
5.5 最 大似然估计 . . . . . . . . . . . . . . . . . . . . . 82 
5.5.1 条件对数似然和均方误差. . . . . . .84
5.5.2 最 大似然的性质 . . . . . . . . . . . . . . . 84 
5.6 贝叶斯统计 . . . . . . . . . . . . . . . . . . . . . . . 85 
5.6.1 最 大后验 (MAP) 估计 . . . . . . . . . 87 
5.7 监督学习算法 . . . . . . . . . . . . . . . . . . . . . 88 
5.7.1 概率监督学习 . . . . . . . . . . . . . . . . . 88 
5.7.2 支持向量机 . . . . . . . . . . . . . . . . . . . 88 
5.7.3 其他简单的监督学习算法. . . . . . .90 
5.8 无监督学习算法. . . . . . . . . . . . . . . . . . .91 
5.8.1 主成分分析 . . . . . . . . . . . . . . . . . . . 92 
5.8.2 k-均值聚类 . . . . . . . . . . . . . . . . . . . .94 
5.9 随机梯度下降 . . . . . . . . . . . . . . . . . . . . . 94 
5.10 构建机器学习算法 . . . . . . . . . . . . . . . 96 
5.11 促使深度学习发展的挑战 . . . . . . . . 96 
5.11.1 维数灾难 . . . . . . . . . . . . . . . . . . . . 97 
5.11.2 局部不变性和平滑正则化 . . . . . 97 
5.11.3 流形学习 . . . . . . . . . . . . . . . . . . . . 99 

第 2 部分 深度网络:现代实践 
第 6 章 深度前馈网络 . . . . . . . . . . . . . . . . . . . 105 
6.1 实例:学习 XOR. . . . . . . . . . . . . . . . . 107 
6.2 基于梯度的学习 . . . . . . . . . . . . . . . . . 110 
6.2.1 代价函数 . . . . . . . . . . . . . . . . . . . . 111 
6.2.2 输出单元 . . . . . . . . . . . . . . . . . . . . 113 
6.3 隐藏单元. . . . . . . . . . . . . . . . . . . . . . . . .119 
6.3.1 整流线性单元及其扩展 . . . . . . . 120 
6.3.2 logistic sigmoid 与双曲正切函数 . . . . . . . . . . . . . . . . . . . . . . . . 121 
6.3.3 其他隐藏单元 . . . . . . . . . . . . . . . . 122 
6.4 架构设计. . . . . . . . . . . . . . . . . . . . . . . . .123 
6.4.1 万能近似性质和深度. . . . . . . . . .123 
6.4.2 其他架构上的考虑 . . . . . . . . . . . .126 
6.5 反向传播和其他的微分算法. . . . . .126 
6.5.1 计算图 . . . . . . . . . . . . . . . . . . . . . . 127 
6.5.2 微积分中的链式法则. . . . . . . . . .128 
6.5.3 递归地使用链式法则来实现反向传播 . . . . . . . . . . . . . . . . . . . . 128 
6.5.4 全连接 MLP 中的反向传播计算 . . . . . . . . . . . . . . . . . . . . . . . . 131 
6.5.5 符号到符号的导数 . . . . . . . . . . . .131 
6.5.6 一般化的反向传播 . . . . . . . . . . . .133 
6.5.7 实例:用于 MLP 训练的反向传播 . . . . . . . . . . . . . . . . . . . . . . .135 
6.5.8 复杂化 . . . . . . . . . . . . . . . . . . . . . . 137
6.5.9 深度学习界以外的微分 . . . . . . . 137 
6.5.10 高阶微分 . . . . . . . . . . . . . . . . . . . 138 
6.6 历史小记. . . . . . . . . . . . . . . . . . . . . . . . .139 
第 7 章 深度学习中的正则化 . . . . . . . . . . . . 141 
7.1 参数范数惩罚 . . . . . . . . . . . . . . . . . . . . 142 
7.1.1 L2 参数正则化 . . . . . . . . . . . . . . . 142 
7.1.2 L1 正则化 . . . . . . . . . . . . . . . . . . . 144 
7.2 作为约束的范数惩罚. . . . . . . . . . . . .146 
7.3 正则化和欠约束问题. . . . . . . . . . . . .147 
7.4 数据集增强 . . . . . . . . . . . . . . . . . . . . . . 148 
7.5 噪声鲁棒性 . . . . . . . . . . . . . . . . . . . . . . 149 
7.5.1 向输出目标注入噪声. . . . . . . . . .150 
7.6 半监督学习 . . . . . . . . . . . . . . . . . . . . . . 150 
7.7 多任务学习 . . . . . . . . . . . . . . . . . . . . . . 150 
7.8 提前终止. . . . . . . . . . . . . . . . . . . . . . . . .151 
7.9 参数绑定和参数共享. . . . . . . . . . . . .156 
7.9.1 卷积神经网络 . . . . . . . . . . . . . . . . 156 
7.10 稀疏表示. . . . . . . . . . . . . . . . . . . . . . . .157 
7.11 Bagging 和其他集成方法. . . . . . . .158 
7.12 Dropout . . . . . . . . . . . . . . . . . . . . . . . . .159 
7.13 对抗训练. . . . . . . . . . . . . . . . . . . . . . . .165 
7.14 切面距离、正切传播和流形正切分类器 . . . . . . . . . . . . . . . . . . 167 
第 8 章 深度模型中的优化. . . . . . . . . . . . . . .169 
8.1 学习和纯优化有什么不同 . . . . . . . . 169 
8.1.1 经验风险最小化 . . . . . . . . . . . . . . 169 
8.1.2 代理损失函数和提前终止 . . . . . 170 
8.1.3 批量算法和小批量算法 . . . . . . . 170 
8.2 神经网络优化中的挑战 . . . . . . . . . . 173 
8.2.1 病态 . . . . . . . . . . . . . . . . . . . . . . . . 173 
8.2.2 局部极小值 . . . . . . . . . . . . . . . . . . 174 
8.2.3 高原、鞍点和其他平坦区域 . . . .175 
8.2.4 悬崖和梯度爆炸 . . . . . . . . . . . . . . 177 
8.2.5 长期依赖 . . . . . . . . . . . . . . . . . . . . 177 
8.2.6 非精确梯度 . . . . . . . . . . . . . . . . . . 178 
8.2.7 局部和全局结构间的弱对应 . . . 178 
8.2.8 优化的理论限制 . . . . . . . . . . . . . . 179 
8.3 基本算法. . . . . . . . . . . . . . . . . . . . . . . . .180 
8.3.1 随机梯度下降 . . . . . . . . . . . . . . . . 180 
8.3.2 动量 . . . . . . . . . . . . . . . . . . . . . . . . 181 
8.3.3 Nesterov 动量. . . . . . . . . . . . . . . .183
8.4 参数初始化策略 . . . . . . . . . . . . . . . . . 184 
8.5 自适应学习率算法 . . . . . . . . . . . . . . . 187 
8.5.1 AdaGrad . . . . . . . . . . . . . . . . . . . 187 
8.5.2 RMSProp . . . . . . . . . . . . . . . . . . . 188 
8.5.3 Adam . . . . . . . . . . . . . . . . . . . . . . . 189 
8.5.4 选择正确的优化算法. . . . . . . . . .190 
8.6 二阶近似方法 . . . . . . . . . . . . . . . . . . . . 190 
8.6.1 牛顿法 . . . . . . . . . . . . . . . . . . . . . . 190 
8.6.2 共轭梯度 . . . . . . . . . . . . . . . . . . . . 191 
8.6.3 BFGS. . . . . . . . . . . . . . . . . . . . . . . 193 
8.7 优化策略和元算法 . . . . . . . . . . . . . . . 194 
8.7.1 批标准化 . . . . . . . . . . . . . . . . . . . . 194 
8.7.2 坐标下降 . . . . . . . . . . . . . . . . . . . . 196 
8.7.3 Polyak 平均 . . . . . . . . . . . . . . . . . 197 
8.7.4 监督预训练 . . . . . . . . . . . . . . . . . . 197 
8.7.5 设计有助于优化的模型 . . . . . . . 199 
8.7.6 延拓法和课程学习 . . . . . . . . . . . .199 
第 9 章 卷积网络 . . . . . . . . . . . . . . . . . . . . . . . . 201 
9.1 卷积运算. . . . . . . . . . . . . . . . . . . . . . . . .201 
9.2 动机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 
9.3 池化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 
9.4 卷积与池化作为一种无限强的先验 . . . . . . . . . . . . . . . . . . . . . . . 210 
9.5 基本卷积函数的变体. . . . . . . . . . . . .211 
9.6 结构化输出 . . . . . . . . . . . . . . . . . . . . . . 218 
9.7 数据类型. . . . . . . . . . . . . . . . . . . . . . . . .219 
9.8 高效的卷积算法 . . . . . . . . . . . . . . . . . 220 
9.9 随机或无监督的特征. . . . . . . . . . . . .220 
9.10 卷积网络的神经科学基础 . . . . . . . 221 
9.11 卷积网络与深度学习的历史 . . . . 226 
第 10 章 序列建模:循环和递归网络 . . . . 227 
10.1 展开计算图 . . . . . . . . . . . . . . . . . . . . . 228 
10.2 循环神经网络 . . . . . . . . . . . . . . . . . . .230 
10.2.1 导师驱动过程和输出循环网络 232 
10.2.2 计算循环神经网络的梯度 . . . . 233 
10.2.3 作为有向图模型的循环网络 . . 235 
10.2.4 基于上下文的 RNN 序列建模 237 
10.3 双向 RNN . . . . . . . . . . . . . . . . . . . . . . 239 
10.4 基于编码 - 解码的序列到序列架构 . . . . . . . . . . . . . . . . . . . . . . . 240 
10.5 深度循环网络 . . . . . . . . . . . . . . . . . . .242 
10.6 递归神经网络 . . . . . . . . . . . . . . . . . . .243
10.7 长期依赖的挑战 . . . . . . . . . . . . . . . . 244 
10.8 回声状态网络 . . . . . . . . . . . . . . . . . . .245 
10.9 渗漏单元和其他多时间尺度的策略 . . . . . . . . . . . . . . . . . . . . . . 247 
10.9.1 时间维度的跳跃连接. . . . . . . . .247 
10.9.2 渗漏单元和一系列不同时间尺度 . . . . . . . . . . . . . . . . . . . . . . . 247 
10.9.3 删除连接 . . . . . . . . . . . . . . . . . . . 248 
10.10 长短期记忆和其他门控 RNN . 248 
10.10.1 LSTM . . . . . . . . . . . . . . . . . . . . 248 
10.10.2 其他门控 RNN. . . . . . . . . . . . .250 
10.11 优化长期依赖. . . . . . . . . . . . . . . . . .251 
10.11.1 截断梯度 . . . . . . . . . . . . . . . . . . 251 
10.11.2 引导信息流的正则化 . . . . . . . 252 
10.12 外显记忆 . . . . . . . . . . . . . . . . . . . . . . 253 
第 11 章 实践方法论 . . . . . . . . . . . . . . . . . . . . 256 
11.1 性能度量. . . . . . . . . . . . . . . . . . . . . . . .256 
11.2 默认的基准模型 . . . . . . . . . . . . . . . . 258 
11.3 决定是否收集更多数据 . . . . . . . . . 259 
11.4 选择超参数 . . . . . . . . . . . . . . . . . . . . . 259 
11.4.1 手动调整超参数 . . . . . . . . . . . . .259 
11.4.2 自动超参数优化算法. . . . . . . . .262 
11.4.3 网格搜索 . . . . . . . . . . . . . . . . . . . 262 
11.4.4 随机搜索 . . . . . . . . . . . . . . . . . . . 263 
11.4.5 基于模型的超参数优化 . . . . . . 264 
11.5 调试策略. . . . . . . . . . . . . . . . . . . . . . . .264 
11.6 示例:多位数字识别 . . . . . . . . . . . . 267 
第 12 章 应用. . . . . . . . . . . . . . . . . . . . . . . . . . . .269 
12.1 大规模深度学习 . . . . . . . . . . . . . . . . 269 
12.1.1 快速的 CPU 实现 . . . . . . . . . . . 269 
12.1.2 GPU 实现 . . . . . . . . . . . . . . . . . . 269 
12.1.3 大规模的分布式实现. . . . . . . . .271 
12.1.4 模型压缩 . . . . . . . . . . . . . . . . . . . 271 
12.1.5 动态结构 . . . . . . . . . . . . . . . . . . . 272 
12.1.6 深度网络的专用硬件实现 . . . . 273 
12.2 计算机视觉 . . . . . . . . . . . . . . . . . . . . . 274 
12.2.1 预处理 . . . . . . . . . . . . . . . . . . . . . 275 
12.2.2 数据集增强 . . . . . . . . . . . . . . . . . 277 
12.3 语音识别. . . . . . . . . . . . . . . . . . . . . . . .278 
12.4 自然语言处理 . . . . . . . . . . . . . . . . . . .279 
12.4.1 n-gram . . . . . . . . . . . . . . . . . . . . .280 
12.4.2 神经语言模型 . . . . . . . . . . . . . . . 281
12.4.3 高维输出 . . . . . . . . . . . . . . . . . . . 282 
12.4.4 结合 n-gram 和神经语言模型 286 
12.4.5 神经机器翻译 . . . . . . . . . . . . . . . 287 
12.4.6 历史展望 . . . . . . . . . . . . . . . . . . . 289 
12.5 其他应用. . . . . . . . . . . . . . . . . . . . . . . .290 
12.5.1 推荐系统 . . . . . . . . . . . . . . . . . . . 290 
12.5.2 知识表示、推理和回答 . . . . . . . 292 

第 3 部分 深度学习研究 
第 13 章 线性因子模型 . . . . . . . . . . . . . . . . . . 297 
13.1 概率 PCA 和因子分析 . . . . . . . . . . 297 
13.2 独立成分分析 . . . . . . . . . . . . . . . . . . .298 
13.3 慢特征分析 . . . . . . . . . . . . . . . . . . . . . 300 
13.4 稀疏编码. . . . . . . . . . . . . . . . . . . . . . . .301 
13.5 PCA 的流形解释 . . . . . . . . . . . . . . . 304 
第 14 章 自编码器 . . . . . . . . . . . . . . . . . . . . . . . 306 
14.1 欠完备自编码器 . . . . . . . . . . . . . . . . 306 
14.2 正则自编码器 . . . . . . . . . . . . . . . . . . .307 
14.2.1 稀疏自编码器 . . . . . . . . . . . . . . . 307 
14.2.2 去噪自编码器 . . . . . . . . . . . . . . . 309 
14.2.3 惩罚导数作为正则. . . . . . . . . . .309 
14.3 表示能力、层的大小和深度 . . . . . 310 
14.4 随机编码器和解码器. . . . . . . . . . . .310 
14.5 去噪自编码器详解 . . . . . . . . . . . . . . 311 
14.5.1 得分估计 . . . . . . . . . . . . . . . . . . . 312 
14.5.2 历史展望 . . . . . . . . . . . . . . . . . . . 314 
14.6 使用自编码器学习流形 . . . . . . . . . 314 
14.7 收缩自编码器 . . . . . . . . . . . . . . . . . . .317 
14.8 预测稀疏分解 . . . . . . . . . . . . . . . . . . .319 
14.9 自编码器的应用 . . . . . . . . . . . . . . . . 319 
第 15 章 表示学习 . . . . . . . . . . . . . . . . . . . . . . . 321 
15.1 贪心逐层无监督预训练 . . . . . . . . . 322 
15.1.1 何时以及为何无监督预训练有效有效 . . . . . . . . . . . . . . . . . . . 323 
15.2 迁移学习和领域自适应 . . . . . . . . . 326 
15.3 半监督解释因果关系. . . . . . . . . . . .329 
15.4 分布式表示 . . . . . . . . . . . . . . . . . . . . . 332 
15.5 得益于深度的指数增益 . . . . . . . . . 336 
15.6 提供发现潜在原因的线索 . . . . . . . 337
第 16 章 深度学习中的结构化概率模型 . 339 
16.1 非结构化建模的挑战. . . . . . . . . . . .339 
16.2 使用图描述模型结构. . . . . . . . . . . .342 
16.2.1 有向模型 . . . . . . . . . . . . . . . . . . . 342 
16.2.2 无向模型 . . . . . . . . . . . . . . . . . . . 344 
16.2.3 配分函数 . . . . . . . . . . . . . . . . . . . 345 
16.2.4 基于能量的模型 . . . . . . . . . . . . .346 
16.2.5 分离和 d-分离 . . . . . . . . . . . . . . .347 
16.2.6 在有向模型和无向模型中转换 350 
16.2.7 因子图 . . . . . . . . . . . . . . . . . . . . . 352 
16.3 从图模型中采样 . . . . . . . . . . . . . . . . 353 
16.4 结构化建模的优势 . . . . . . . . . . . . . . 353 
16.5 学习依赖关系 . . . . . . . . . . . . . . . . . . .354 
16.6 推断和近似推断 . . . . . . . . . . . . . . . . 354 
16.7 结构化概率模型的深度学习方法. . . . . . . . . . . . . . . . . . . . . . . . .355 
16.7.1 实例:受限玻尔兹曼机 . . . . . . . 356 
第 17 章 蒙特卡罗方法 . . . . . . . . . . . . . . . . . . 359 
17.1 采样和蒙特卡罗方法. . . . . . . . . . . .359 
17.1.1 为什么需要采样 . . . . . . . . . . . . .359 
17.1.2 蒙特卡罗采样的基础. . . . . . . . .359 
17.2 重要采样. . . . . . . . . . . . . . . . . . . . . . . .360 
17.3 马尔可夫链蒙特卡罗方法 . . . . . . . 362 
17.4 Gibbs 采样. . . . . . . . . . . . . . . . . . . . . .365 
17.5 不同的峰值之间的混合挑战 . . . . 365 
17.5.1 不同峰值之间通过回火来混合 367 
17.5.2 深度也许会有助于混合 . . . . . . 368 
第 18 章 直面配分函数 . . . . . . . . . . . . . . . . . . 369 
18.1 对数似然梯度 . . . . . . . . . . . . . . . . . . .369 
18.2 随机最 大似然和对比散度 . . . . . . . 370 
18.3 伪似然 . . . . . . . . . . . . . . . . . . . . . . . . . . 375 
18.4 得分匹配和比率匹配. . . . . . . . . . . .376 
18.5 去噪得分匹配 . . . . . . . . . . . . . . . . . . .378 
18.6 噪声对比估计 . . . . . . . . . . . . . . . . . . .378 
18.7 估计配分函数 . . . . . . . . . . . . . . . . . . .380 
18.7.1 退火重要采样 . . . . . . . . . . . . . . . 382 
18.7.2 桥式采样 . . . . . . . . . . . . . . . . . . . 384 
第 19 章 近似推断 . . . . . . . . . . . . . . . . . . . . . . . 385 
19.1 把推断视作优化问题. . . . . . . . . . . .385 
19.2 期望最 大化 . . . . . . . . . . . . . . . . . . . . . 386 
19.3 最 大后验推断和稀疏编码 . . . . . . . 387
19.4 变分推断和变分学习. . . . . . . . . . . .389 
19.4.1 离散型潜变量 . . . . . . . . . . . . . . . 390 
19.4.2 变分法 . . . . . . . . . . . . . . . . . . . . . 394 
19.4.3 连续型潜变量 . . . . . . . . . . . . . . . 396 
19.4.4 学习和推断之间的相互作用 . . 397 
19.5 学成近似推断 . . . . . . . . . . . . . . . . . . .397 
19.5.1 醒眠算法 . . . . . . . . . . . . . . . . . . . 398 
19.5.2 学成推断的其他形式. . . . . . . . .398 
第 20 章 深度生成模型 . . . . . . . . . . . . . . . . . . 399 
20.1 玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . 399 
20.2 受限玻尔兹曼机 . . . . . . . . . . . . . . . . 400 
20.2.1 条件分布 . . . . . . . . . . . . . . . . . . . 401 
20.2.2 训练受限玻尔兹曼机. . . . . . . . .402 
20.3 深度信念网络 . . . . . . . . . . . . . . . . . . .402 
20.4 深度玻尔兹曼机 . . . . . . . . . . . . . . . . 404 
20.4.1 有趣的性质 . . . . . . . . . . . . . . . . . 406 
20.4.2 DBM 均匀场推断 . . . . . . . . . . . 406 
20.4.3 DBM 的参数学习 . . . . . . . . . . . 408 
20.4.4 逐层预训练 . . . . . . . . . . . . . . . . . 408 
20.4.5 联合训练深度玻尔兹曼机 . . . . 410 
20.5 实值数据上的玻尔兹曼机 . . . . . . . 413 
20.5.1 Gaussian-Bernoulli RBM . . . . 413 
20.5.2 条件协方差的无向模型 . . . . . . 414 
20.6 卷积玻尔兹曼机 . . . . . . . . . . . . . . . . 417 
20.7 用于结构化或序列输出的玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . 418 
20.8 其他玻尔兹曼机 . . . . . . . . . . . . . . . . 419 
20.9 通过随机操作的反向传播 . . . . . . . 419 
20.9.1 通过离散随机操作的反向传播 420 
20.10 有向生成网络. . . . . . . . . . . . . . . . . .422 
20.10.1 sigmoid 信念网络 . . . . . . . . . . 422 
20.10.2 可微生成器网络 . . . . . . . . . . . .423 
20.10.3 变分自编码器 . . . . . . . . . . . . . .425 
20.10.4 生成式对抗网络 . . . . . . . . . . . .427 
20.10.5 生成矩匹配网络 . . . . . . . . . . . .429 
20.10.6 卷积生成网络 . . . . . . . . . . . . . .430 
20.10.7 自回归网络 . . . . . . . . . . . . . . . . 430 
20.10.8 线性自回归网络 . . . . . . . . . . . .430 
20.10.9 神经自回归网络 . . . . . . . . . . . .431 
20.10.10 NADE . . . . . . . . . . . . . . . . . . . 432 
20.11 从自编码器采样 . . . . . . . . . . . . . . . 433
20.11.1 与任意去噪自编码器相关的马尔可夫链 . . . . . . . . . . . . . . . . 434 
20.11.2 夹合与条件采样 . . . . . . . . . . . .434 
20.11.3 回退训练过程 . . . . . . . . . . . . . .435 
20.12 生成随机网络. . . . . . . . . . . . . . . . . .435 
20.12.1 判别性 GSN . . . . . . . . . . . . . . . 436 
20.13 其他生成方案. . . . . . . . . . . . . . . . . .436 
20.14 评估生成模型. . . . . . . . . . . . . . . . . .437 
20.15 结论 . . . . . 438 
参考文献. . . . . . . . . . . . .439 
索引 . . . . . . . . . . . . . . . . . 486
显示全部目录
  • 作者介绍
Ian Goodfellow,谷歌公司(Google) 的研究科学家,2014 年蒙特利尔大学机器学习博士。他的研究兴趣涵盖大多数深度学习主题,特别是生成模型以及机器学习的安全和隐私。Ian Goodfellow 在研究对抗样本方面是一位有影响力的早期研究者,他发明了生成式对抗网络,在深度学习领域贡献卓越。

Yoshua Bengio,蒙特利尔大学计算机科学与运筹学系(DIRO) 的教授,蒙特利尔学习算法研究所(MILA) 的负责人,CIFAR 项目的共同负责人,加拿大统计学习算法研究主席。Yoshua Bengio 的主要研究目标是了解产生智力的学习原则。他还教授“机器学习”研究生课程(IFT6266),并培养了一大批研究生和博士后。

Aaron Courville,蒙特利尔大学计算机科学与运筹学系的助理教授,也是LISA 实验室的成员。目前他的研究兴趣集中在发展深度学习模型和方法,特别是开发概率模型和新颖的推断方法。Aaron Courville 主要专注于计算机视觉应用,在其他领域,如自然语言处理、音频信号处理、语音理解和其他AI 相关任务方面也有所研究。

中文版审校者简介
张志华,北京大学数学科学学院统计学教授,北京大学大数据研究中心和北京大数据研究院数据科学教授,主要从事机器学习和应用统计学的教学与研究工作。

译者简介
赵申剑,上海交通大学计算机系硕士研究生,研究方向为数值优化和自然语言处理。
黎彧君,上海交通大学计算机系博士研究生,研究方向为数值优化和强化学习。
符天凡,上海交通大学计算机系硕士研究生,研究方向为贝叶斯推断。
李凯,上海交通大学计算机系博士研究生,研究方向为博弈论和强化学习。