D001

《数据分析与数据挖掘》图书目录

内容简介 本书讲解了数据分析与数据挖掘的理论和方法,包括描述性统计、假设检验、方差分析、回归分析、关联规则、决策树、贝叶斯模型、判别分析、支持向量机、神经网络、聚类分析、离群点分析等,同时配有应用举例。大数据分析、人工智能与互联网的发展为该领域的研究提出了新的需求,本书在阐述理论方法的同时,也注重实践,更注重知识体系结构。书中的理论和技术既能作为科研的基础,也能直接用来解决实际问题。本书可作为相关专业高年级本科生和研究生的教学用书,也可作为数据分析与数据挖掘研究人员的参考用书。各种编程语言均可实现本书中的理论方法,如Python、C++和R等,还有许多软件工具可用,如SPSS等。本书配套的编程软件工具有利于将理论和技术应用于实践。本书配套软件、更多案例、技术文档、PPT课件等,请登录http://www.orsci.cn和http://www.jiangw.cn查阅。
目录

第1章 数据分析与数据挖掘基础 1
1.1 数据分析与数据挖掘需求 1
1.1.1 数据分析与数据挖掘 1
1.1.2 大数据处理需求 2
1.1.3 数据分析误区与隐私问题 3
1.2 数据分析与数据挖掘的工作过程 3
1.2.1 数据分析的主要工作过程 3
1.2.2 数据收集 5
1.2.3 数据展示 6
1.3 数据的组织和数据的类型 7
1.3.1 数据的一般组织形式 7
1.3.2 数据类型 8
1.3.3 分类数据的编码 9
1.4 数据的常用描述性统计量 11
1.4.1 数据的中心趋势 11
1.4.2 数据的离散程度 12
1.4.3 数据的形态统计量 15
1.5 数据的基本描述性统计分析 18
1.5.1 数据的描述性统计 18
1.5.2 五数概括与盒图 19
1.5.3 数据的描述性统计图 20
1.6 本章小结 22
本章概念与关键词 22
练习与思考 23


第2章 数据抽样与推断检验 24
2.1 随机变量概率分布 24
2.1.1 概率分布 24
2.1.2 正态分布 26
2.1.3 二项分布与泊松分布 28
2.1.4 几何分布与超几何分布 29
2.2 抽样统计分析 31
2.2.1 抽样的相关概念 31
2.2.2 概率抽样的典型方法 33
2.2.3 非随机抽样的典型方法 34
2.3 基本抽样分布 34
2.3.1 经验分布、理论分布与抽样分布 34
2.3.2 三大抽样分布 36
2.3.3 小概率事件 38
2.4 常用的抽样分布与区间估计 40
2.4.1 常用的统计量抽样分布 40
2.4.2 置信区间与区间估计 42
2.5 常用的参数检验 45
2.5.1 假设检验一般过程 45
2.5.2 常用的参数检验统计量 47
2.6 常用的单样本非参数检验 48
2.6.1 卡方检验 48
2.6.2 二项分布检验 49
2.6.3 固定参数的超几何分布检验 49
2.6.4 游程检验 50
2.6.5 单样本K-S检验 54
2.7 本章小结 56
本章概念与关键词 57
练习与思考 57

第3章 可视化图与分组检验 59
3.1 数据的常用可视化图分析 59
3.1.1 数据的常用可视化图 59
3.1.2 基于图的可视化观测一般过程 62
3.2 均值比较和t检验 62
3.2.1 分组统计 62
3.2.2 数据标准化与Z-Score 63
3.2.3 单样本t检验 64
3.2.4 两独立样本t检验 65
3.2.5 两配对样本t检验 67
3.3 方差齐性检验 68
3.3.1 Levene方差齐性检验 68
3.3.2 基于F检验的方差齐性检验 69
3.3.3 Brown-Forsythe方差齐性检验 70
3.3.4 Bartlett’s方差齐性检验 70
3.4 两独立样本的非参数检验 71
3.4.1 Mann-Whitney U检验 71
3.4.2 两独立样本K-S检验 74
3.4.3 两独立样本游程检验 76
3.4.4 两独立样本Moses极端反应检验 77
3.4.5 两独立样本Brown-Mood中位数检验 78
3.5 两配对样本的非参数检验 81
3.5.1 两配对样本符号检验 81
3.5.2 中位数、分位数及比例的符号检验 82
3.5.3 两配对样本Wilcoxon符号秩检验 83
3.5.4 Wilcoxon符号秩单样本检验 85
3.5.5 两配对样本McNemar检验 86
3.5.6 边缘齐性检验 88
3.6 多样本的非参数检验 88
3.6.1 多独立样本中位数检验 88
3.6.2 多独立样本Kruskal-Wallis检验 90
3.6.3 多独立样本Jonckheere-Terpstra检验 91
3.6.4 多配对样本Friedman检验 94
3.6.5 多配对样本Kendall协同系数检验 96
3.6.6 多配对样本Cochran’s Q检验 97
3.7 本章小结 98
本章概念与关键词 99
练习与思考 99

第4章 方差分析与相关性分析 102
4.1 方差分析 102
4.1.1 方差分析中的变量 102
4.1.2 单因素方差分析 103
4.1.3 单因素方差Brown-Forsythe检验 105
4.1.4 单因素方差Welch’s t检验 106
4.1.5 无交互作用的双因素方差分析 107
4.1.6 有交互作用的双因素方差分析 109
4.2 Post Hoc检验 111
4.2.1 LSD检验 111
4.2.2 Studentized极差分布 112
4.2.3 Tukey’s Range检验 113
4.2.4 Tukey-Kramer检验 115
4.2.5 SNK检验 117
4.2.6 其他几种常用检验方法 118
4.3 连续属性数据的相关性分析 119
4.3.1 协方差的线性相关性度量 119
4.3.2 相关系数的线性相关性度量 122
4.3.3 Spearman秩相关系数 124
4.4 离散属性相关性分析 126
4.4.1 交叉列联表分析 126
4.4.2 用卡方检验进行离散相关性分析 127
4.4.3 列联表上常用的指标 128
4.4.4 Fisher’s exact检验 129
4.5 本章小结 131
本章概念与关键词 132
练习与思考 132

第5章 数据的预处理与距离分析 134
5.1 数据的预处理 134
5.1.1 数据清理 134
5.1.2 数据集成 136
5.1.3 数据变换 137
5.1.4 数据归约 137
5.2 数据的常用组织方式 138
5.2.1 数据的常用逻辑组织 138
5.2.2 数据的常用物理组织 139
5.2.3 高精度计算与矩阵计算 139
5.2.4 编程语言、软件工具 140
5.3 相似度计算与距离分析 140
5.3.1 相似度与距离的转换 140
5.3.2 闵可夫斯基距离 143
5.3.3 马氏距离 145
5.3.4 混合属性的相似度与距离 147
5.4 kNN分类模型 148
5.4.1 kNN分类模型概述 148
5.4.2 距离加权kNN分类模型 150
5.5 参数的点估计 151
5.5.1 原点矩与中心矩 151
5.5.2 矩估计法 152
5.5.3 极大似然估计法 153
5.6 本章小结 156
本章概念与关键词 156
练习与思考 156

第6章 回归分析 158
6.1 一元线性回归 158
6.1.1 一元线性回归问题描述 158
6.1.2 一元线性回归模型与求解 159
6.1.3 确认回归方程的精度 161
6.1.4 总体回归的方差分析 162
6.1.5 残差分析 164
6.1.6 回归方程参数检验 167
6.1.7 回归方程预测与控制 168
6.2 多元线性回归 170
6.2.1 多元线性回归问题描述 170
6.2.2 多元线性回归模型与求解 172
6.2.3 确认回归方程的精度 173
6.2.4 残差分析 174
6.2.5 回归方程参数检验 175
6.2.6 回归方程预测 176
6.3 常用的曲线回归 177
6.3.1 曲线回归问题 177
6.3.2 多项式回归 177
6.3.3 指数回归与对数回归 179
6.3.4 其他常见曲线回归 179
6.4 最小二乘法及其应用 179
6.4.1 最小二乘法线性拟合 179
6.4.2 伪逆矩阵求解 180
6.4.3 Moore-Pseudo逆矩阵 181
6.4.4 最小均方误差算法 182
6.4.5 非线性回归 183
6.4.6 智能优化求解技术 183
6.5 Logistic回归 184
6.5.1 Logistic回归分类与基本函数 184
6.5.2 Logistic回归系数计算 185
6.6 本章小结 186
本章概念与关键词 187
练习与思考 187

第7章 空间降维技术 189
7.1 主成分分析 189
7.1.1 主成分分析描述 189
7.1.2 基于协方差矩阵的主成分分析 190
7.1.3 基于相关系数矩阵的主成分分析 192
7.1.4 主成分分析与因子分析的联系 193
7.1.5 主成分分析的作用 194
7.2 因子分析案例研究 196
7.2.1 研究的目的与内容 196
7.2.2 变量选取与数据来源 196
7.2.3 因子分析过程 197
7.2.4 因子回归分析 198
7.2.5 案例研究结论 199
7.3 奇异值分解 200
7.3.1 SVD的协同过滤推荐 200
7.3.2 SVD在协同过滤中的应用 203
7.3.3 SVD增量式协同过滤方法 204
7.4 主成分回归与逐步回归 205
7.4.1 多重共线性 205
7.4.2 主成分回归 207
7.4.3 逐步回归 207
7.5 本章小结 208
本章概念与关键词 208
练习与思考 209

第8章 关联规则与点对相关性 210
8.1 频繁模式与关联规则的基本概念 210
8.1.1 频繁模式的基本概念 210
8.1.2 关联规则的基本概念 211
8.1.3 极大频繁模式与闭频繁模式 212
8.2 频繁模式挖掘 213
8.2.1 Apriori算法 213
8.2.2 垂直数据格式 214
8.2.3 基于频繁模式计算关联规则 215
8.3 频繁模式树 216
8.3.1 频繁模式树的构建 216
8.3.2 频繁模式树的递归过程 219
8.4 点对相似度的典型度量 220
8.4.1 点对关系常见度量 220
8.4.2 点对相关性度量的几种特性 222
8.5 信息熵及其应用与点对相关性度量 224
8.5.1 信息熵 224
8.5.2 联合熵与互信息 226
8.5.3 信息增益、相对熵和交叉熵 228
8.5.4 互信息、交叉熵用于相关性 229
8.6 本章小结 230
本章概念与关键词 230
练习与思考 231

第9章 决策树 232
9.1 分类问题与模型训练 232
9.1.1 分类问题描述 232
9.1.2 分类问题举例与泛化问题 233
9.1.3 分类模型的常见评价指标 235
9.2 决策树及ID3算法 236
9.2.1 决策树概述 236
9.2.2 ID3算法 238
9.3 C4.5算法与连续属性特征分类树 241
9.3.1 C4.5算法 241
9.3.2 连续属性的决策树构建 241
9.4 CART决策树 243
9.4.1 CART分类树 243
9.4.2 CART回归树 244
9.5 决策树剪枝 250
9.5.1 剪枝问题的提出与先剪枝技术 250
9.5.2 错误率降低剪枝法 251
9.5.3 悲观剪枝法 251
9.5.4 代价复杂度剪枝法 254
9.6 ROC曲线与AUC指标 255
9.6.1 ROC曲线描述与绘制 255
9.6.2 ROC曲线绘制与作用 257
9.6.3 AUC指标与应用 258
9.7 本章小结 259
本章概念与关键词 259
练习与思考 260

第10章 贝叶斯分类 261
10.1 连续属性贝叶斯分类器 261
10.1.1 单个连续属性贝叶斯分类 261
10.1.2 多个连续属性的最小总风险决策 262
10.1.3 多个连续属性的最小平均误差率决策 263
10.2 正态概率分布下的贝叶斯分类器 264
10.2.1 分类器的判别函数表示形式 264
10.2.2 正态分布下的贝叶斯判别函数 264
10.2.3 正态分布下的贝叶斯判别举例 265
10.3 离散属性贝叶斯分类器 267
10.3.1 离散属性贝叶斯模型 267
10.3.2 朴素贝叶斯分类器 267
10.4 朴素贝叶斯文本分类和TAN贝叶斯模型 270
10.4.1 朴素贝叶斯文本分类器 270
10.4.2 TAN贝叶斯分类模型 272
10.5 贝叶斯分类器中的参数估计与非参数估计 276
10.5.1 贝叶斯分类器中的参数估计 276
10.5.2 非参数估计 277
10.6 本章小结 278
本章概念与关键词 279
练习与思考 279

第11章 特征空间与判别分析 280
11.1 特征空间 280
11.1.1 特征空间构造 280
11.1.2 特征空间评价 282
11.1.3 特征空间变换 284
11.1.4 证据空间 285
11.2 特征提取与特征选择 285
11.2.1 特征提取 285
11.2.2 特征选择 285
11.2.3 jiang相关系数 286
11.2.4 过滤式特征选择 288
11.2.5 封装式特征选择 288
11.2.6 嵌入式特征选择 289
11.3 极大似然判别分析 289
11.3.1 极大似然判别分析的工作过程 289
11.3.2 极大似然判别分析的应用举例 290
11.4 距离判别分析 290
11.4.1 距离与相似度的常用度量 290
11.4.2 距离判别分析的工作原理 291
11.4.3 距离判别法的检验与多总体距离判别 293
11.4.4 两总体方差是否有相同的检验 294
11.4.5 加权的距离或相似度应用于距离判别分析与kNN分类模型 296
11.5 Fisher判别分析 296
11.5.1 两类别的线性判别中的最佳投影方向 296
11.5.2 两类别的线性判别过程 298
11.5.3 多重线性判别分析 299
11.5.4 Fisher判别分析应用举例 301
11.6 本章小结 303
本章概念与关键词 303
练习与思考 303

第12章 感知机与支持向量机 305
12.1 线性判别函数 305
12.1.1 线性判别函数表示 305
12.1.2 多重线性判别函数 306
12.1.3 广义线性判别函数 306
12.2 感知机分类器 307
12.2.1 M-P模型 307
12.2.2 感知机结构 308
12.2.3 感知机训练算法 309
12.2.4 感知机应用举例 312
12.3 感知机训练算法扩展 313
12.3.1 感知机的典型训练算法 313
12.3.2 感知机松弛算法 314
12.3.3 最小均方误差求解算法 314
12.3.4 Ho-kashyap求解算法 316
12.3.5 多分类扩展伪逆求解 317
12.3.6 感知机的对偶形式 318
12.4 最大间隔超平面与结构风险 319
12.4.1 最大间隔超平面 319
12.4.2 经验风险最小化与结构风险最小化 320
12.5 支持向量机 323
12.5.1 线性可分时的支持向量机 323
12.5.2 数据不可分时的线性SVM 327
12.5.3 非线性支持向量机 332
12.5.4 支持向量机中的其他问题 336
12.6 本章小结 338
本章概念与关键词 339
练习与思考 339

第13章 人工神经网络 341
13.1 激活函数与多层感知机 341
13.1.1 常见激活函数 341
13.1.2 多层感知机结构 344
13.1.3 多层感知机设计 345
13.2 BP神经网络 347
13.2.1 BP神经网络及BP算法 347
13.2.2 BP算法训练中的注意事项 351
13.3 BP神经网络应用 355
13.3.1 二分类问题应用 355
13.3.2 多分类问题与拟合问题 359
13.4 深度学习 361
13.4.1 深度学习技术环境 361
13.4.2 卷积神经网络 363
13.4.3 卷积神经网络训练与应用举例 368
13.4.4 循环神经网络 373
13.4.5 其他深度学习技术 376
13.5 本章小结 378
本章概念与关键词 379
练习与思考 379

第14章 集成学习 381
14.1 机器学习中的若干问题 381
14.1.1 机器学习的主要任务类型 381
14.1.2 机器学习的泛化问题 382
14.1.3 维数灾难问题 384
14.1.4 机器学习模型的优越性问题 385
14.2 统计量重抽样技术 386
14.2.1 偏差与方差 386
14.2.2 刀切法统计量估计 387
14.2.3 自助法统计量估计 388
14.3 分类器重抽样技术与组合分类器 389
14.3.1 Bagging法 389
14.3.2 Boosting法 389
14.3.3 Bagging法与Boosting法的主要特点 390
14.3.4 组合分类器 390
14.4 随机森林与Adaboost算法 393
14.4.1 随机森林 393
14.4.2 Adaboost算法 396
14.5 分类模型中的若干问题 397
14.5.1 用二分类器处理多分类问题 397
14.5.2 多标签分类方法 399
14.5.3 类别数据不平衡问题 400
14.5.4 单纯提高精确率与单纯提高召回率的方法 401
14.6 本章小结 402
本章概念与关键词 403
练习与思考 403

第15章 聚类分析与离群点分析 404
15.1 聚类问题与聚类类型 404
15.1.1 聚类问题 404
15.1.2 聚类类型 405
15.2 基于划分的聚类 406
15.2.1 k-means聚类 406
15.2.2 k-medoids聚类 408
15.3 层次聚类 410
15.3.1 簇间距离的计算 410
15.3.2 层次聚类方法 410
15.4 基于密度的聚类 412
15.4.1 DBSCAN聚类 412
15.4.2 OPTICS聚类 415
15.5 基于网格的聚类与基于模型的聚类 417
15.5.1 CLIQUE聚类 417
15.5.2 自组织神经网络聚类原理 418
15.6 离群点分析 420
15.6.1 离群点分析 420
15.6.2 离群点检测 420
15.7 本章小结 421
本章概念与关键词 422
练习与思考 422

附录A Mann-Whitney U检验的
临界表 424
附录B Wilcoxon signed-rank检验按符号秩
和的临界表 424
附录C Wilcoxon signed-rank检验按min
(正号秩,负号秩)的临界表 425
附录D q分布(Studentized range distribution)
的临界表 426
附录E Dunnett双尾检验的临界表 428
附录F 相关系数R和判定系数R2的
临界表 430
附录G 鸢尾花数据集 431
参考文献 433

书籍 姜维.《数据分析与数据挖掘》。电子工业出版社.2023.
软件 各种软件或编程语言