数据挖掘绪论

魔法师LQ

这是选修清华大学深圳研究生院袁博老师《数据挖掘》课程资料整理。

DRIP

Data Rich Information Poor

学习资源

教材

  • 数据挖掘概念和技术
  • 模式分类
  • Data Mining
  • Beautiful Data

顶级会议

数据挖掘顶级会议

软件工具

学习方法

  • 课堂:认真思考,讨论
  • 阅读材料
  • 勤于动手
  • 主动思考,刨根问底

大数据

特点3V

  • Velocity速度
  • Varity种类
  • Volume体量

大数据核心特点——3V

数据挖掘==知识发现

定义

从大规模,不完整,有噪声的数据中,自动提取有趣有用且原来未知的模式的过程。

从数据到智能:数据是最底层的

数据整合和分析(传统方式ETL)

  • E:Extration,提取
  • T:Transform,转换
  • L:Load,装载

ETL:提取,转换和装载

流程

数据挖掘流程:定义问题;数据收集;数据预处理;数据建模;分析评估;应用部署不断迭代

分类问题

定义

给定一个训练集${(x_1,y_1),(x_2, y_2), …, (x_n, y_n)}$,产生一个分类器(函数)对于未知的对象$x_i$将其映射到其类别标记$y_i$上。

本质

超平面上的分界面。

分界面特点

  • 防止过拟合
  • 应当平滑

交叉验证

将数据集分成训练集验证集测试集

验证集用来验证模型的好坏。

混淆矩阵

混淆矩阵:TP真正例;TN真负例;FP假正例;FN假负例

Accuracy正确率,Precision查准率,Recall查全率和F1度量F1-Measure

  • Accuracy正确率/准确率

表示猜对的在总样本中占比

  • Precision查准率/精确率

表示真正例在所有猜测为正例中的占比

  • Recall召回率/查全率

表示真正例在所有实际为正例中的占比

  • F1(基于查准率和查全率的调和平均$\frac{1}{F1}=\frac{1}{2}\left(\frac{1}{P}+\frac{1}{R}\right)$得到)

由这些度量可以做出不同的曲线,如P-R曲线,纵轴为P,横轴为R;ROC曲线,纵轴为TPR, 横轴为FPR。

真正例率(True Positive Rate, TPR)和假正例率(False Positive Rate)

ROC和AUC

ROC:受试者工作特征(Receiver Operating Characteristic)

AUC:Area under ROC curve,ROC曲线下的面积。面积越大一般表明该机器学习算法更好。

代价敏感

不同类型的错误后果(权重)不同

Lift分析

一种机器学习性能评价指标