课程简介:
本课程是计算机科学与技术和软件工程专业硕士研究生的学科选修课。主要介绍数据挖掘的基本概念和基本算法等,并对数据挖掘前沿问题进行讨论和探索。目的是为学生的学习和研究提供知识储备。
课程负责人(主讲教师):王倩,女,1987年生,副教授,博士,博士生导师,主要研究方向为数据挖掘、机器学习、网络安全,2015年3月至2016年3月,在英国赫尔大学从事计算机科学与技术相关研究工作。邮箱:wangqianysu@163.com
主讲教师:何海涛,女,1968生,教授,博士,博士生导师,主要研究方向为人工智能、数据挖掘,2011年9月至2012年3月,在英国华威大学从事计算机科学与技术相关研究工作。邮箱:haitao@ysu.edu.cn
主讲教师:何洪豆,男,1991生,讲师,博士,硕士生导师,主要研究方向为数据挖掘、机器学习。邮箱:hhd@ysu.edu.cn
一、本课程的基本要求
1.掌握数据挖掘的重要概念和任务、数据仓库和OLAP分析技术以及数据挖掘的常用算法。
2.掌握数据挖掘的具体操作过程,能够运用简单的数据挖掘算法,具备一定的数据分析和处理能力,以及解决实际问题的能力。
3.掌握算法评价指标,能够对数据挖掘算法性能进行多角度评估。
4.了解数据挖掘当前的研究动向和研究热点,了解数据挖掘技术的发展方向和动态。
二、课程的基本内容
(一)理论教学
1.引言 (2学时)
教学目标:了解数据挖掘相关的概念,数据挖掘的功能。
主要内容:
(1)数据挖掘的基本概念
(2)对何种数据进行挖掘
(3)数据挖掘的功能
2.数据预处理(2学时)
教学目标:掌握数据清洗、数据集成和变换、数据规约的定义和方法。初步了解数据预处理的过程、方法以及离散化、概念分层的概念和方法。
主要内容:
(1)数据清理方法
(2)数据集成和变换的定义与方法
(3)数据归约的定义和方法
(4)离散化和概念分层的产生
3.数据仓库与OLAP技术概述(2学时)
教学目标:掌握数据仓库的数据模型、数据仓库的系统结构、多维数据模型上的OLAP操作。
主要内容:
(1)数据仓库的概念
(2)多维数据模型、星形和雪花形数据库模式、
(3)多维数据模型上的OLAP操作
(4)数据仓库的系统结构
4.数据立方体计算与数据泛化(3学时)
教学目标:掌握概念描述、数据概化的定义和基于汇总的特征化,了解属性相关分析和区分不同的类。
主要内容:
(1)数据立方体计算的有效方法
(2)数据概化和基于汇总的特征化
(3)解析特征化:属性相关分析
(4)挖掘类比较:区分不同的类
5.挖掘频繁模式、关联和相关(2学时)
教学目标:掌握关联规则的Apriori等挖掘算法,熟悉挖掘算法的挖掘过程。
主要内容:
(1)关联规则挖掘基本概念
(2)有效和可伸缩的频繁项集挖掘方法
(3)由事务数据库挖掘多层关联规则
(4)由关联规则到相关分析
6.分类和预测(3.5学时)
教学目标:掌握分类和预测的概念及数据的准备,掌握决策树等分类算法。
主要内容:
(1)分类和预测的概念和步骤
(2)分类和预测的数据准备
(3)决策树归纳分类算法
(4)贝叶斯分类算法
7.聚类分析(2.5学时)
教学目标:掌握聚类分析的概念,了解聚类与分类的区别,掌握K-means等聚类算法。
主要内容:
(1)聚类分析的概念
(2)聚类分析中的数据类型
(3)主要聚类方法的分类
(4)基于划分的方法
(二)讨论课
1.教学目标
讨论课是围绕某一问题进行讨论,目的是加深学生对数据挖掘理论知识的理解,培养学生独立思考、独立分析问题、解决问题和口头表达的能力。
2.主要内容
(1)举例说明生活中需要的数据挖掘模式
(2)数据仓库模型及数据预处理方法举例
(3)数据挖掘经典算法评价及优缺点的比较
(4)数据挖掘研究热点及发展趋势
邮箱 :