1.3 数据挖掘的流程介绍

目前应用较多的数据挖掘流程主要有三种,一是KDD(数据库知识发现),二是CRISP-DM(跨行业的数据挖掘标准),三是SAS公司提出的SEMMA数据挖掘流程。

1.3.1 KDD介绍

数据挖掘是属于KDD中最重要的一环,Fayyad(1996)给出了数据挖掘的定义:The nontrivial process of identifying valid、novel、potentially useful,and ultimately understandable pattern in data,即发现数据中有效的、新奇的、潜在有用的,并被最终形成可理解模式的过程,如图1-15所示。

图1-15

图1-15中的流程含义分别为:

● Selection指数据的筛选

● Preprocessing指数据预处理

● Transformation指数据的转换

● Data Mining指数据挖掘的建模过程

● Interpretation/Evaluation指模型的评估和解释

1.3.2 CRISP-DM

CRISP-DM(全称:Cross Industry Standard Process for Data Mining)是一种跨行业的数据挖掘标准,是在1999年,由European Commission、SIG、SPSS、Teradata、automotive giant Daimler-Benz and Dutch insurer OHRA等公司提出。其分析流程如图1-16所示。

图1-16

● 商业理解(Business Understanding),即期望通过数据挖掘获得什么。

● 数据理解(Data Understanding),即访问数据及探索数据。

● 数据准备(Data Preparation),是数据挖掘最重要的阶段之一,实际的数据准备工作通常占60%~80%的工程时间和工作量。主要包括合并数据集和/或记录,选择数据子集样本汇总记录,导出新的属性,排序数据以便建模、删除或替换空值或缺失值,分为训练数据集和测试数据集。

● 建立模型(Modeling),即根据需求寻找合适的数据挖掘模型。

● 模型评估(Evaluation),即评估模型的效果,稳定性等。

● 方案实施(Deployment),将模型发现的规则部署到实际业务系统中去。

1.3.3 SEMMA

SEMMA的数据挖掘流程由SAS公司提出,主要包含以下五方面的内容:

● Sample——数据取样,当进行数据挖掘时,首先要从企业的大量数据中取出一个与需要探索问题相关的样板数据子集,而不是动用全部企业数据。

● Explore——数据特征探索、分析和预处理

● Modify——问题明确化、数据调整和技术选择

● Model——模型的研发、知识的发现

● Assess——模型和知识的综合解释和评价

1.3.4 三种数据挖掘流程的比较

我们看到三种方法都强调了数据理解与数据准备的过程,数据的预处理约占数据挖掘60%~80%的时间,数据预处理的好坏直接影响到后续的建模,本书将侧重于数据准备的相关任务。