大数据•互联网大规模数据挖掘与分布式处理.pdf

大数据•互联网大规模数据挖掘与分布式处理.pdf
 

书籍描述

编辑推荐
《大数据•互联网大规模数据挖掘与分布式处理》由拉贾拉曼Anand Rajarama、厄尔曼Jeffrey David Ullman所著,主要关注极大规模数据的挖掘。由于重点强调数据的规模,所以《大数据•互联网大规模数据挖掘与分布式处理》的例子大都来自web本身或者web上导出的数据。另外,《大数据•互联网大规模数据挖掘与分布式处理》从算法的角度来看待数据挖掘,即数据挖掘是将算法应用于数据,而不是使用数据来“训练”某种类型的机器学习引擎。

作者简介
Jeffrey David Ullman 斯坦福大学计算机科学系Stanford W. Ascherman教授,数据库技术专家。他独立或与人合作出版了15本著作,发表了170多篇技术论文。他的研究兴趣包括数据库理论、数据库集成、数据挖掘和利用信息基础设施进行教育。他是美国国家工程院成员,曾获得Knuth奖、SIGMOD贡献奖、Karlstrom杰出教育家奖和Edgar F. Codd发明奖。
Anand Rajaraman 数据库和Web技术领域权威,1创业投资基金Cambrian联合创始人,斯坦福大学计算机科学系助理教授。Rajaraman职业生涯非常成功:1996年创办Junglee公司,两年后该公司被亚马逊以2。5亿美元收购,Rajaraman被聘为亚马逊技术总监,推动亚马逊从一个零售商转型为零售平台;2000年与人合创Cambrian,孵化出几个后来被谷歌收购的公司;2005年创办Kosmix公司并任CEO,该公司2011年被沃尔玛集团收购。Rajaraman生于印度,在斯坦福大学获得计算机科学硕士和博士学位。求学期间与人合著的一篇论文荣列近20年来被引用次数最多的论文之一。

目录
第1章 数据挖掘基本概念
第2章 大规模文件系统及map-reduce
第3章 相似项发现
第4章 数据流挖掘
第5章 链接分析
第6章 频繁项集
第7章 聚类
第8章 web广告
第9章 推荐系统
索引

内容简介
《大数据•互联网大规模数据挖掘与分布式处理》由斯坦福大学的“web 挖掘”课程的内容总结而成,由拉贾拉曼、厄尔曼所著,主要关注极大规模数据的挖掘。 《大数据•互联网大规模数据挖掘与分布式处理》主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。其中相关章节有对应的习题,以巩固所讲解的内容。读者更可以从网上获取相关拓展材料。
《大数据•互联网大规模数据挖掘与分布式处理》适合本科生、研究生及对数据挖掘感兴趣的读者阅读。

购买书籍

当当网购书 京东购书 卓越购书

PDF电子书下载地址

相关书籍

搜索更多