封面
版权信息
内容提要
引言
第1章 人工智能云平台简介
1.1 人工智能发展
1.2 人工智能云平台
1.3 云计算与人工智能云平台
1.4 智能框架与人工智能云平台
1.5 人工智能云平台的主要环节与基本组成
1.6 小结
参考文献
第2章 人工智能云平台案例概览
2.1 谷歌AI云平台
2.2 微软Azure机器学习平台
2.3 亚马逊 SageMaker平台
2.4 企业自有智能平台
2.5 小结
参考文献
第3章 共享存储与数据管理
3.1 基本概念
3.2 古老而有活力的NFS
3.3 活跃于超算领域的Lustre
3.4 数据集管理
3.5 小结
参考文献
第4章 资源管理与调度
4.1 概述
4.2 Docker简介
4.3 任务调度系统架构简介
4.4 基于YARN的调度系统实现
4.5 基于Kubernetes的调度系统实现
4.6 小结
参考文献
第5章 运维监控系统
5.1 Prometheus概述
5.2 数据采集之Exporter
5.3 数据格式与编程——Prometheus查询语言
5.4 数据可视化之Grafana
5.5 告警系统之AlertManager
5.6 小结
参考文献
第6章 机器学习框架
6.1 SciPy
6.2 scikit-learn
6.3 Pandas
6.4 Spark MLlib和Spark ML
6.5 XGBoost
6.6 TensorFlow
6.7 PyTorch
6.8 其他
6.9 小结
参考文献
第7章 分布式并行训练
7.1 并行训练概述
7.2 并行编程工具
7.3 深度学习中的并行
7.4 小结
参考文献
第8章 自动机器学习
8.1 AutoML概述
8.2 特征工程
8.3 模型选择
8.4 优化算法选择
8.5 神经架构搜索
8.6 搜索优化和评估
8.7 小结
参考文献
第9章 模型构建与发布
9.1 模型构建流程
9.2 基于TensorFlow构建方案
9.3 基于Seldon Core的模型部署
9.4 小结
参考文献
第10章 可视化开发环境
10.1 Jupyter Notebook
10.2 PyCharm
10.3 Visual Studio Code
10.4 code-server
10.5 TensorBoard
10.6 小结
参考文献
第11章 DIGITS实践
11.1 DIGITS配置
11.2 DIGITS示例
11.3 DIGITS源码解析
11.4 小结
参考文献
第12章 Kubeflow实践
12.1 什么是Kubeflow?
12.2 Kubeflow部署
12.3 JupyterHub
12.4 Kubeflow-operator
12.5 Katib
12.6 小结
参考文献
第13章 OpenPAI实践
13.1 直观感受
13.2 平台架构
13.3 集群运维
13.4 OpenPAI代码导读
13.5 小结
参考文献
更新时间:2020-10-13 18:12:24