New Internet:大数据挖掘.pdf

New Internet:大数据挖掘.pdf
 

书籍描述

编辑推荐
《New Internet:大数据挖掘》全面介绍了数据挖掘和大数据的基本概念和技术;大量采用了实际案例,实用性强;详细介绍了大数据挖掘领域最新的商业应用。《New Internet:大数据挖掘》是从事数据挖掘研究和开发,或者是互联网相关行业从事数据运营的专业人员理想的参考书,同时也可作为了解数据挖掘应用的入门指南。

名人推荐
本书是一本可读性极佳的教材。它从互联网广告的角度全面系统地介绍了数据挖掘的基本概念、方法和技术以及数据挖掘对互联网广告的实际意义,重点关注其可行性、有用性、有效性和可伸缩性问题。本书不仅适合作为数据挖掘和知识发现课程的教材,也非常适合作为电子商务、数据挖掘相关领域从业人员的参考资料。
——复旦大学计算机学院教授,博导@黄萱菁
随着大数据时代的到来,数据科学家这一专业职位变得炙手可热。在2012年10月,《哈佛商业评论》甚至宣布“数据科学家是21世纪最性感的职业”。在本书中,作者基于大量实际项目开发和培训经验,借助最新的互联网应用案例,深入浅出地介绍了数据挖掘领域的基本技术和常用工具。本书是数据科学家完美的入门读物。
——微软亚洲研究院主管研究员,博导@谢幸Xing
随着云时代的来临,大数据也吸引了越来越多的关注。之前我对大数据的了解还是停留在概念上,读谭磊的新书让我有了豁然开朗的感觉,明确了自己企业在大数据方向上的目标也了解了相关的理论和方法。我相信很多关心大数据的朋友都会从书中受益良多。
——凤凰网CTO,@吴华鹏
谭磊在这本书中展示了数据挖掘的基本理念和应用场景,让你在几个小时内读懂数据挖掘,是进入大数据时代的一个敲门砖。
——前腾讯产品总监,现火花无线CEO吴国鸿,@火花无线吴国鸿
一场长跑竞赛,并不是—开始冲在最前的人就可以获得最后的冠军,而是取决于战术和耐力。对于互联网产品而言亦是如此。随着海量数据的堆砌,其在商业上的价值已经成为企业对未来发展的巨大依托。未来的互联网不再是速度的对决,而是深度的较量!如何正确且深度挖掘数据背后蕴藏的宝藏,这本书将会给出大家希望得到的答案。
——车邻会、卡内网络科技创始人兼CEO,@吕笋
数据就是一座巨大而未知的矿藏,是所有公司最值钱的财富之一,也是当下所有公司都想挖掘的秘密。数据是会说话的,关键是我们如何读懂和理解她,本书能引导我们大家如何读懂她,如何用她指导我们的产品运营和产品设计,如何做精准营销,是非常值得推荐的一本数据分析类书籍。
——著名互联网数据库架构师金官丁,@mysqlops

作者简介
谭磊,复旦大学计算机学士,美国杜克大学计算机硕士,在美国微软服务时间超过13年,曾经担任多家公司多个层级技术管理岗位,在搜索、互联网广告、数据挖掘、电子商务等方面有丰富的经验,是互联网技术领域资深专家。

目录
第1章绪论——从淘金客到矿山主
1.1大数据时代的“四V”
1.2什么是大数据挖掘
1.2.1从数据分析到数据挖掘
1.2.2Web挖掘
1.2.3大数据挖掘之“大”
1.3大数据挖掘的国内外发展
1.3.1数据挖掘的应用发展
1.3.2数据挖掘研究发展
1.4本书内容
第2章一小时了解数据挖掘
2.1数据挖掘是如何解决问题的
2.1.1尿不湿和啤酒
2.1.2Target和怀孕预测指数
2.1.3电子商务网站流量分析
2.2分类:从人脸识别系统说起
2.2.1分类算法的应用
2.2.2数据挖掘分类技术
2.2.3分类算法的评估
2.3一切为了商业
2.3.1什么是商业智能(BusinessIntelligence)
2.3.2数据挖掘的九大定律
2.4数据挖掘很纠结
2.5数据挖掘的基本流程
2.5.1数据挖掘的一般步骤
2.5.2几个数据挖掘中常用的概念
2.5.3CRISP-DM
2.5.4数据挖掘的评估
2.5.5数据挖掘结果的知识表示
2.6本章相关资源
第3章数据仓库——数据挖掘的基石
3.1存放数据的仓库
3.1.1数据仓库的定义
3.1.2数据仓库和数据库
3.2传统的数据仓库介绍
3.3数据仓库基本结构
3.4OLAP联机分析处理
3.5云存储上的数据仓库
3.5.1Google公司的云架构
3.5.2开源的分布式系统Hadoop
3.5.3Facebook的数据仓库
3.5.4NoSQL
3.6本章相关资源
第4章数据挖掘算法及原理
4.1数据挖掘中的算法
4.2数据挖掘十大经典算法
4.3分类算法(Classification)
4.4聚类算法(Clustering)
4.5关联算法
4.5.1关联算法中的概念
4.5.2关联规则数据挖掘过程
4.5.3关联规则的分类
4.5.4Apriori算法的执行实例
4.5.5关联规则挖掘算法的研究与优化
4.6序列挖掘(SequenceMining)
4.7数据挖掘建模语言PMML
4.8本章相关资源
第5章在进行数据挖掘之前
5.1数据集成
5.2为何要做数据预处理
5.3数据预处理
5.3.1数据清理
5.3.2数据转换
5.3.3数据规约
5.4本章相关资源
第6章R语言和其他数据挖掘工具
6.1R语言的历史
6.1.1R语言的特点
6.1.2R语言和数据挖掘
6.2其他数据挖掘工具
6.2.1MATLAB
6.2.2其他商用数据挖掘工具
6.2.3开源数据挖掘工具Weka
6.3数据挖掘和云
6.4本章相关资源
第7章互联网上的日志分析
7.1网站日志简介
7.2网站日志处理
7.2.1Web日志预处理
7.2.2Web日志分析和数据挖掘
7.3邮件日志
7.4本章相关资源
第8章数据挖掘和电子邮件
8.1邮件营销与垃圾邮件过滤
8.2数据挖掘和邮件营销
8.2.1如何有效地进行邮件营销
8.2.2邮件营销案例分享之一
8.2.3邮件营销案例分享之二
8.2.4运用数据挖掘RFM模型提高邮件营销效果
8.3数据挖掘和垃圾邮件过滤
8.3.1垃圾邮件
8.3.2垃圾邮件过滤技术
8.3.3垃圾邮件过滤案例
8.4本章相关资源
第9章数据挖掘和互联网广告
9,1互联网广告
9.2广告作弊行为
9.3网站联盟广告
9.4网站联盟广告上的数据挖掘
9.4.1数据助力网盟广告
9.4.2如何应对网盟广告作弊
9.5本章相关资源
第10章数据挖掘和电子商务
10.1中国电子商务现状
10.2在互联网上卖米
10.3用数据来掌握客户
10.3.1客户何时来,从哪来
10.3.2客户最喜欢哪种商品
10.3.3竞争与反竞争分析
10.3.4客户还会买什么
10.3.5哪些客户是我们需要的
10.4电子商务案例
10.4.1电子商务企业案例一
10.4.2电子商务企业案例二
10.5本章相关资源
……
第11章数据挖掘和Web挖掘
第12章数据挖掘和移动互联网
附录A技术词汇表
附录B英语参考文献表
附录C中文参考文献表
附录D微博
附录E博客和其他网址

文摘
版权页:

New Internet:大数据挖掘

插图:

New Internet:大数据挖掘

在研究采掘关联规则的过程中,许多学者发现在一些实际应用中,对于很多的应用来说,由于数据分布的分散性,数据比较少,所以很难在数据最细节的层次上发现一些强关联规则。要想在原始的概念层次上发现强的(Strong)和有意义的(Interesting)关联规则是比较困难的,因为好多项集往往没有足够的支持数。当我们引入概念层次后,就可以在较高的层次上进行挖掘。虽然较高层次上得出的规则可能是更普通的信息,但是对于一个用户来说是普通的信息,对于另一个用户却未必如此。所以数据挖掘应该提供这样一种在多个层次上进行挖掘的功能。
概念层次在要采掘的数据库中是经常存在的,比如在一个超市中会存在这样的概念层次:蒙牛牌牛奶是牛奶,伊利牌牛奶是牛奶,王子牌饼干是饼干,康师傅牌饼干是饼干等。如果我们只是在数据基本层发掘关系,{蒙牛牌牛奶,王子牌饼干},{蒙牛牌牛奶,康师傅牌饼干},{伊利牌牛奶,王子牌饼干},{伊利牌牛奶,康师傅牌饼干}都不符合最小支持度。如若上升一个层级,我们会发现{牛奶,饼干}的关联规则是有一定支持度的。
我们称高层次的项是低层次项的父亲层次(Parent),这种概念层次关系通常用一个有向非循环图(DAG)来表示。这样我们就可以在较高的概念层次上发现关联规则。
根据规则中涉及的层次和多层关联的规则,我们可以把关联规则分为同层关联规则和层间关联规则。多层关联规则的挖掘基本上可以沿用“支持度-置信度”的框架。不过,在支持度设置的问题上有一些要考虑的东西。
同层关联规则可以采用两种支持度策略:
统一的最小支持度。对于不同的层次,都使用同一个最小支持度。这样对于用户和算法实现来说都比较容易,但是弊端也是显然的。

内容简介
《New Internet:大数据挖掘》全面地介绍了如何使用数据挖掘技术从各种结构的(数据库)或非结构(Web)的海量数据中提取和产生业务知识。作者梳理了各种数据挖掘常用算法和信息采集技术,系统地描述了实际应用时如何在互联网日志分析、电子邮件营销、互联网广告和电子商务上进行数据挖掘,着重介绍了数据挖掘的原理和算法在互联网海量数据挖掘中的应用。

购买书籍

当当网购书 京东购书 卓越购书

PDF电子书下载地址

相关书籍

搜索更多