计算机科学丛书:数据挖掘与R语言.pdf

计算机科学丛书:数据挖掘与R语言.pdf
 

书籍描述

编辑推荐
《计算机科学丛书:数据挖掘与R语言》的支持网站给出了案例研究的所有代码、数据集以及R函数包,不要求读者具有R、数据挖掘或统计技术的基础知识。
《计算机科学丛书:数据挖掘与R语言》利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术。

作者简介
作者:(葡萄牙)Luís Torgo 译者:李洪成 陈道轮 吴立明

Luís Torgo葡萄牙波尔图大学计算机科学系副教授,现在在LIAAD实验室从事研究工作。他是APPIA会员,同时还是OBEGEF的创办会员。

目录
Data Mining with R:Learning with Case Studies
出版者的话
推荐序
中文版序
译者序
前言
致谢
第1章简介
1 1如何阅读本书
1 2R简介
1 2 1R起步
1 2 2R对象
1 2 3向量
1 2 4向量化
1 2 5因子
1 2 6生成序列
1 2 7数据子集
1 2 8矩阵和数组
1 2 9列表
1 2 10数据框
1 2 11构建新函数
1 2 12对象、类和方法
1 2 13管理R会话
1 3MySQL简介
第2章预测海藻数量
2 1问题描述与目标
2 2数据说明
2 3数据加载到R
2 4数据可视化和摘要
2 5数据缺失
2 5 1将缺失部分剔除
2 5 2用最高频率值来填补缺失值
2 5 3通过变量的相关关系来填补缺失值
2 5 4通过探索案例之间的相似性来填补缺失值
2 6获取预测模型
2 6 1多元线性回归
2 6 2回归树
2 7模型的评价和选择
2 8预测7类海藻的频率
2 9小结
第3章预测股票市场收益
3 1问题描述与目标
3 2可用的数据
3 2 1在R中处理与时间有关的数据
3 2 2从CSV文件读取数据
3 2 3从网站上获取数据
3 2 4从MySQL数据库读取数据
3 3定义预测任务
3 3 1预测什么
3 3 2预测变量是什么
3 3 3预测任务
3 3 4模型评价准则
3 4预测模型
3 4 1如何应用训练集数据来建模
3 4 2建模工具
3 5从预测到实践
3 5 1如何应用预测模型
3 5 2与交易相关的评价准则
3 5 3模型集成:仿真交易
3 6模型评价和选择
3 6 1蒙特卡罗估计
3 6 2实验比较
3 6 3结果分析
3 7交易系统
3 7 1评估最终测试数据
3 7 2在线交易系统
3 8小结
第4章侦测欺诈交易
4 1问题描述与目标
4 2可用的数据
4 2 1加载数据至R
4 2 2探索数据集
4 2 3数据问题
4 3定义数据挖掘任务
4 3 1问题的不同解决方法
4 3 2评价准则
4 3 3实验方法
4 4计算离群值的排序
4 4 1无监督方法
4 4 2有监督方法
4 4 3半监督方法
4 5小结
第5章微阵列样本分类
5 1问题描述与目标
5 1 1微阵列实验背景简介
5 1 2数据集ALL
5 2可用的数据
5 3基因(特征)选择
5 3 1基于分布特征的简单过滤方法
5 3 2ANOVA过滤
5 3 3用随机森林进行过滤
5 3 4用特征聚类的组合进行过滤
5 4遗传学异常的预测
5 4 1定义预测任务
5 4 2模型评价标准
5 4 3实验过程
5 4 4建模技术
5 4 5模型比较
5 5小结
参考文献
主题索引
数据挖掘术语索引
R函数索引

序言
【前言】
Data Mining with R:Learning with Case Studies
本书的主要目的是向读者介绍如何用R进行数据挖掘。R是一个可以自由下载的语言,它提供统计计算和绘图环境,其功能和大量的添加包使它成为一款优秀的、多个已有(昂贵)数据挖掘工具的替代软件。
数据挖掘的一个关键问题是数据量。典型的数据挖掘问题包括一个大的数据库,需要从中提取有用的信息。在本书中,我们用MySQL作为核心数据库管理系统。对多个计算机平台,MySQL也是免费的。这意味着,我们可以不用付任何费用就可以进行“重要的”数据挖掘任务。同时,我们希望说明解决方案质量上并没有任何损失。昂贵的工具并不意味着一定更好!只要你愿意花时间来学习如何应用它们,R和MySQL就是一对很难超越的工具。我们认为这是值得的,希望在读完本书之后,你也相信这点。
本书的目的不是介绍数据挖掘的各个方面。许多已有的书籍覆盖了数据挖掘领域。我们用几个案例来向读者介绍R的数据挖掘能力。显然,这几个案例不能代表我们在现实世界中碰到的所有数据挖掘问题。同时,我们给出的解决方案也不是最完全的方案。我们的目的是通过这些实际案例向读者介绍如何用R进行数据挖掘。因此,我们案例分析的目的是展示用R进行信息提取的例子,而不是提供数据挖掘案例的完整分析报告。它们可以作为任何数据挖掘项目的可能思路,或者作为开发数据挖掘项目解决方案的基础。尽管如此,我们尽力尝试覆盖多方面的问题,展示数据大小、不同数据类型、分析目标和进行分析所必需的工具所带来的挑战。然而,这里的实践方式也是有代价的。实际上,作为具体案例研究的一种形式,为了让读者在自己的计算机上执行我们所描述的步骤,我们也做了某些妥协。也就是说,我们不能处理太大的问题,这些问题要求的计算机资源不是每个人都具备的。尽管这样,我们认为本书涵盖的问题也不算小,并对不同的数据类型和维度给出了解决方案。
这里并不要求读者具有R的先验知识。没有学过R和数据挖掘的读者应该可以学习书中的案例。书中的各个案例相互独立,读者可以从书中任何一个案例开始。在第一个简单案例中,给出了一些基本的R知识。这意味着,如果你没有学过R,至少应该从第一个案例开始学习。而且,第1章给出了R和MySQL的简介,它可以帮助你理解后面的章节。我们也没有假设你熟悉数据挖掘和统计技术。在每个案例的必要地方,都对不同的数据挖掘技术进行了介绍。本书的目的不是向读者介绍这些技术的理论细节和全面知识,我们对这些工具的描述包括了它们的基本性质、缺点和分析目标。如果需要进一步了解技术细节,可以参考其他书籍。在某些节的末尾,我们提供了“参考资料”,如果需要,可以参考它们。总之,本书的读者应该是数据分析工具的用户,而不是研究人员或者开发人员。同时,我们希望后者把本书作为进入R和数据挖掘“世界”的一种方式,从而发现本书的用途。
本书有一个免费的R代码集,可以从本书网站下载。其中含有案例研究中的所有代码,这可以帮助你的实践学习。我们强烈建议读者在阅读本书时安装R并实验书中的代码。而且,我们创建了一个名为DMwR的R添加包,它包含本书用到的多个函数和以R格式保存的案例数据集。你应该按照本书的指示,安装并加载该添加包(第1章给出了细节)。

内容简介
《计算机科学丛书:数据挖掘与R语言》首先简要介绍了R软件的基础知识(安装、R数据结构、R编程、R的输入和输出等)。然后通过四个数据挖掘的实际案例(藻类频率的预测、证券趋势预测和交易系统仿真、交易欺诈预测、微阵列数据分类)介绍数据挖掘技术。这四个案例基本覆盖了常见的数据挖掘技术,从无监督的数据挖掘技术、有监督的数据挖掘技术到半监督的数据挖掘技术。全书以实际问题、解决方案和对解决方案的讨论为主线来组织内容,脉络清晰,并且各章自成体系。读者可以从头至尾逐章学习,也可以根据自己的需要进行学习,找到自己实际问题的解决方案。
《计算机科学丛书:数据挖掘与R语言》不需要读者具备R和数据挖掘的基础知识。不管是R初学者,还是熟练的R用户都能从书中找到对自己有用的内容。读者既可以把《计算机科学丛书:数据挖掘与R语言》作为学习如何应用R的一本优秀教材,也可以作为数据挖掘的工具书。

购买书籍

当当网购书 京东购书 卓越购书

PDF电子书下载地址

相关书籍

搜索更多