Spark大数据实例开发教程.pdf

Spark大数据实例开发教程.pdf
 

书籍描述

内容简介
书中第1章首先通过介绍Spark的生态系统和RDD编程模型,使读者能够快速的对Spark技术的生态环境以及对Spark的RDD编程模型有个*常直观的了解。第2章,首先介绍了Spark应用的两种部署模式;然后在应用部署模式基础上,开始Spark实战的案例与解析,通过提供一个完整的基础案例,使读者了解一个Spark应用的大致处理流程;接着对实战中的重点部分,结合源码分析、监控日志分析等深入解析了Spark运行机制、DAG图等关键内容;*后给出Spark开发者常用的应用程序构建案例与分析,以及调试环境搭建的案例与应用调试的案例。第3章重点针对SparkSQL子模块进行实战,首先概要分析了Spark1.3版本中引入的DataFrame,然后基于DataFrame编程模型给出一个完整的基础案例与解析,接着也是针对实战中的难度、重点部分,给予了更丰富的案例与深入地分析,*后,重点关注Spark1.3版本中DataFrame当前支持的各种数据源,并给出各种数据源基础上的案例与分析,数据源包括各种结构化数据文件、Hive表、外部数据库或现有的RDD。第4章针对流处理进行实战,首先分析流处理中的关键点和难度,并通过实例进行深入解析。然后针对各种数据源的情景,给出由浅入深的实战案例与解析,并结合部分源码,分析流处理的性能调优等,并给出实例与分析。第5章针对*著名的分布式内存存储系统Tachyon进行实战,并对实战案例进行分析,内容包括从Tachyon集群部署的案例与分析、Tachyon集群配置的案例与分析等,*后关注Tachyon对Spark应用的性能调优的影响,给出实战案例及其深入解析。第6章通过大约30个动手实践的案例循序渐进地展示SparkGraphX框架方方面面的功能和使用方法,并对SparkGraphX的源码进行解析,并用综合实战案例巩固知识;第7章从快速入门机器学习开始,详细解析MLlib框架,通过对线性回归、聚类、协同过滤的算法解析、源码解析和案例实战,循序渐进地揭秘MLLib,*后通过对MLlib中BasicStatics、朴素贝叶斯算法、决策树的解析和实战,进一步提升掌握Spark机器学习的技能。

编辑推荐
大数据资深培训师、Spark大数据畅销书《大数据Spark企业级实战》作者王家林新作。

内容广度和深度兼顾,覆盖了Spark技术的核心知识点,全程注重从架构的底层到上层,由宏观到微观的讲解。

秉承“实战”类图书特色,解析大量案例和代码的编写操作,具有较强的可操作性,便于读者学习和理解。

作者简介
国内最早一批从事Android、Hadoop、Spark、Docker的研究者,在Spark、Hadoop、Android、Docker等方面有丰富的源码、实务和性能优化经验。是该领域的知名咨询顾问、培训专家;

Spark最佳畅销书《大数据spark企业级实战》作者,Android移动互联网 兴起以来,近10本的IT畅销书作者;

为大量企业进行技术培训和服务,包括:

三星、摩托罗拉、索尼、华为、夏普、南方航空公司、中国国际航空公司、金立、海信、长虹、英特尔、阿尔法特、中国联通、华三、AIA、亿迅、中国电信、网龙、福赛、中国人寿、阳光保险、兴业银行

目录
第1章Spark简介

11什么是Spark

12Spark生态圈

121伯克利数据分析协议栈

122Spark开源社区发展

13RDD编程模型

131RDD抽象概念

132RDD的操作

133RDD的依赖关系

134一个典型的DAG示意图

第2章Spark RDD实践案例与解析

21Spark应用程序部署

211Spark应用的基本概念

212应用程序的部署方式

22RDD数据的输入、处理、输出的基本案例与解析

221集群环境的搭建

222交互式工具的启动

223文本数据的ETL案例实践与解析

224文本数据的初步统计案例实践与解析

225文本数据统计结果的持久化案例实践与解析

226RDD的Lineage关系的案例与源码解析

227RDD的持久化案例与解析

228RDD的构建案例与解析

229分区数设置的案例与源码解析

23RDD API的应用案例与解析

231如何查找RDD API的隐式转换

232RDD\[T\]的分区相关的API

233RDD\[T\]常用的聚合API

234DoubleRDDFunctions(self:RDD\[Double\])常用的API

235PairRDDFunctions[K,V]聚合相关的API

236RDD相互间操作的API

237PairRDDFunctions[K,V]间的相关API

238OrderedRDDFunctions[K,V,P<:Product2[K,V]]常用的API 24Spark应用程序构建 241基于SBT构建Spark应用程序的实例 242基于IDEA构建Spark应用程序的实例 243Spark提交应用的调试实例 25移动互联网数据分析案例与解析 251移动互联网数据的准备 252移动互联网数据分析与解析 26Spark RDD实践中的常见问题与解答 第3章Spark SQL实践案例与解析 31Spark SQL概述 32DataFrame处理的案例与解析 321DataFrame编程模型 322DataFrame基本操作案例与解析 323DataFrame与RDD之间的转换案例与解析 324缓存表(列式存储)的案例与解析 325DataFrame API的应用案例与分析 33Spark SQL处理各种数据源的案例与解析 331通用的加载/保存功能的案例与解析 332Parquet文件处理的案例与解析 333JSON数据集操作的案例与解析 334操作Hive表的案例与解析 335使用JDBC 操作其他数据库的案例与解析 336集成Hive数据仓库的案例与解析 34基于Hive的人力资源系统数据处理案例与解析 341人力资源系统的数据库与表的构建 342人力资源系统的数据的加载 343人力资源系统的数据的查询 第4章Spark Streaming实践案例与解析 41Spark Streaming概述 42Spark Streaming基础概念 43企业信息实时处理的案例与解析 431处理TCP数据源的案例与解析 432处理HDFS文件数据源的案例与解析 433处理Kafka数据源的准备工作 434基于Receiver读取Kafka数据的案例与解析 435直接读取(无Receiver)Kafka数据的案例与解析 436处理Flume数据源的实践准备 437基于Flume风格的推送数据案例与解析 438定制FlumeSink的拉取数据案例与解析 44性能调优 441减少批处理的时间 442设置正确的批间隔 443内存调优 第5章Tachyon实践案例与解析 51Tachyon概述 52重新编译部署包 521重新编译Tachyon的部署包 522重新编译Spark的部署包 53Tachyon部署的案例与解析 531单机模式部署的案例与解析 532集群模式部署的案例与解析 533集群Master容错部署的案例与解析 54Tachyon配置的案例与解析 541底层存储系统的配置案例与解析 542配置属性与解析 55命令行接口的案例与解析 551命令行接口的说明 552命令行接口的案例实践与解析 56同步底层文件系统的案例与解析 561同步HDFS底层文件系统的案例与解析 562同步本地底层文件系统的案例与解析 57基于Tachyon运行的案例与解析 571基于Tachyon运行Spark的案例与解析 572基于Tachyon运行Hadoop MR的案例与解析 附录Spark 14版本新特性

购买书籍

当当网购书 京东购书 卓越购书

PDF电子书下载地址

相关书籍

搜索更多