数据挖掘导论（2）

这写一下第三第四章的主要内容

1.第三章包括汇总统计、可视化和OLAP

统计的特征数据点包括：频数,众数,百分位数,位置度量:均值和中位数,散布度量：极差和方差，绝对平均偏差、中卫偏差，多元统计包括协方差矩阵。

协方差矩阵：
$$ covariance(x_i,x_j)=\frac{1}{m-1}\sum_{k=1}^m(x_{ki} - \overline{x_i})(x_{kj}-\overline{x_j}) $$

相关矩阵元素：$ r_{ij} = \frac{covariance(x_i,x_j)}{s_is_j}$

2.可视化

目的：1.快速吸收信息 2.充分调用人的领域知识
利用一些图示模型：叶箱图、直方图、相对频率直方图、二维直方图、盒状图、饼图、经验累计分布函数、散布图、可视高维

3.OLAP

计算聚集量、维归约和转轴、切片和切块、上卷下钻

第四章：分类、决策树和模型评估

基本概念

1.建立决策树
Hunt算法，采用贪心选择划分数据的属性
关键问题：如何分裂训练数据，如何停止分裂
首先是选择最佳划分的度量,用纯性度量,信息增益:
$$ Entropy(t)= -\sum_{i=0}^{c=1}p(i|t)log_2p(i|t) $$
$$ Gini(t)= 1-\sum_{i=0}^{c=1}[p(i|t)]^2 $$
$$ Classification_error(t)=1-max_i[p(i|t)] $$
归纳算法:

TreeGrowth(E,F)
if stopping_cond(E,F)=true then
    leaf = createNode()
    leaf.label = Classify(E)
    return leaf
else
    root = createNode()
    root.test_cond = find_best_split(E,F)
    make V = {v|v is one of the output in root.test_cond}
    for each v in V do
    E(v) = {e|root.test_cond(e)=v and e in E}
    child = TreeGrowth(E(v) ,F)
    将child作为root派生结点添加到树，将边(root->child)标记为v
    end for 
end if 
return root

2.奥卡姆剃刀：给定两个相同泛化误差的模型，较简单的更可取。

4.6 比较分类器的方法

这里讨论一些比较不同模型和分类器的性能的方法
估计准确度的置信区间
关于二项分布实验，对于准确率acc的置信估计，当实验次数N充分大，可以使用正态分布来近似。 $P(-Z_{\frac{\alpha}{2}}<= \frac{acc-p}{\sqrt{p(1-p)/N}} <= Z_{1-\frac{\alpha}{2}}) = 1-\alpha$
这里p为模型真正的准确率，X/N。 X为正确次数，N为实验次数，acc为经验准确率。

比较模型的性能
M1,M2在检验及D1,D2上评估，n1，n2为D1，D2上的记录，e1,e2为对应错误率，在置信空间上比较错误率和错误的误差大小

总结

思想：地柜选择一个属性对对象集合的类标进行分类，如果分类某一属性时发现剩下的对象属于同一类，此时不必再选择属性分类，用一个叶节点代表。否则，继续选择下一属性，知道某一分类结果全在一类或没属性为止。根据选择属性顺序可以分为ID3,C4.5.针对决策树归纳中的过分拟合，可以使用先剪枝和后剪枝的方法。

特点：* 找到最优决策树是NP-C

* 采用避免过拟合的方法后，决策树对噪声干扰具有较好鲁棒性。