CS 583 2024年春季

CS 583-2024年春季

数据挖掘和文本挖掘

课程目标

本课程有三个目标。首先，为学生提供扎实的经典数据挖掘和机器学习技术并介绍最新研究课题（例如。，分布外（新颖性）检测、模型部署后的学习以及终身/持续学习). 其次，确保学生能够阅读和批判性地评估数据挖掘研究论文。第三，确保学生能够实现和使用一些重要的数据挖掘和文本挖掘算法。

思考和提问！如果你对任何主题或作业有疑问，请询问我、助教或你的同学们需要帮助，我是来修这门课的理解。不要拖延你的问题。没有什么是愚蠢的问题。学习的唯一障碍是懒惰。

一般信息

讲师：刘冰
- 电子邮件：刘冰（Bing Liu）
- 办公室：图书馆三楼北端CS 3190c

第1节

课程电话号码：25479
讲座时间段：周一下午6:00-8:40
演讲厅：B10 BH
讲师办公时间：周一下午4:00-下午5:30

分级

期末考试：30%

日期、时间和教室：4月29日星期一，下午6:00-8:00，2BH B10

中期：25%

测验：20%

分配：25%

编程作业：
一个小型文本挖掘研究项目：

作业和研究项目分为两组进行。与的讨论允许其他学生，但每个小组必须编写自己的代码。

评分：现场演示+代码提交
MOSS公司：不能与同学共享代码！！！所有程序都将使用Moss（软件相似性度量）系统进行筛选。

前提条件

概率和算法知识
具备任何项目编程语言的知识

教材

必修教材：
- Web数据采矿-探索超链接、内容和使用数据，刘冰，第二版，施普林格出版社，2011年7月，ISBN 978-3-642-19459-7
- 终身机器学习陈志远、刘冰，摩根克莱普尔出版社，2018年（第二版）。
- 情绪分析：挖掘观点、情绪和情感刘冰著，剑桥大学出版社，2020年（第二版）。
工具书类
- 《数据挖掘：概念与技术》，Han Jiawei和Micheline Kamber著，Morgan Kaufmann出版社，ISBN 1-55860-489-8。
- 《数据挖掘导论》，作者：Pang-Ning Tan、Michael Steinbach和Vipin Kumar，Pearson/Addison Wesley，ISBN 0-321-32136-7。
- 数据Miining。作者：Charu Aggarwal，Springer，2015年。国际标准图书编号978-3-319-14142-8
- 机器学习，作者：Tom M.Mitchell，McGraw-Hill，ISBN 0-07-042807-7
- 《数据挖掘原理》，作者：David Hand、Heikki Mannila、Padhrac Smyth，麻省理工学院出版社，ISBN 0-262-08290-X。
数据挖掘资源站点：KDnuggets目录

主题（可能会更改；阅读清单在每个章节标题之后）

介绍
数据预处理
- 数据清理
- 数据转换
- 数据缩减
- 离散化
关联规则和序列模式（第2.1-2.7节）
- Apriori算法
- 挖掘具有多个最小支持度的关联规则
- 挖掘类关联规则
- 序列模式挖掘
- 总结
监督学习和线性回归、梯度下降和神经网络（第三章）
- 决策树归纳
- 分类器评估
- 天真的巴耶斯式学习
- 文本分类的朴素贝叶斯学习
- 支持向量机
- 线性回归和梯度下降
- 神经网络
- K-最近邻
- 装袋和增压
- 总结
无监督学习（聚类）（第四章）
- K-means算法
- 集群的表示
- 分层聚类
- 距离功能和数据标准化
- 集群评估
- 发现漏洞和数据区域
- 总结
半监督学习（第5.1.1、5.1.2、5.2.1-5.2.4节）
- LU学习：从标记和未标记的示例中学习
- PU学习：从正面和未标记的示例中学习
- 新颖性（或分发外）检测
信息检索和网络搜索导论（第6.1-6.6和6.8节）
- 信息检索模型
- 基本文本处理和表示
- 余弦相似度
- 相关反馈与Rocchio算法
社交网络分析（第7.1-7.4节）
- 中央和威望
- 引文分析：共引与书目耦合
- （谷歌的）PageRank算法
- HITS算法：权限和中心
情绪分析和意见挖掘（第11.1-11.6节；查看我的两本书)
- 情绪分析和情绪分析问题
- 文档级情感分类
- 句子层面的主观性与情感分类
- 方面级情绪分析
- 挖掘比较意见
- 情感词汇生成
推荐系统
- 基于内容的建议
- 基于协同过滤的推荐
  - K-最近邻
  - 关联规则
  - 矩阵分解
终身学习和持续学习（终身机器学习书籍和研究论文）较短版本
- 终身/持续学习简介
- 课堂和任务持续学习
- 分布式检测和开放世界学习
- 模型部署后的学习（在职学习）
信息集成（第10.8节）

规则和政策

诉讼时效：在有问题的项目被退回一周后，将不会听取任何评分问题或投诉，无论其理由如何。
作弊：作弊是不能容忍的。你提交的所有作品都必须是你自己的。学生作业（包括考试和课程）之间任何可疑的相似之处都将被记录下来，并提请院长注意。对于任何被发现作弊的学生，最低处罚是对所讨论的项目获得0分，并放弃你最后一门课的一年级成绩。最高罚款是开除大学。
迟交：除非由于特殊情况，否则不接受延迟提交作业或测验。

UIC咨询中心

作为UIC学生体验的一部分，我们重视您的心理健康和情绪健康。UIC咨询中心提供一系列服务，在您在UIC期间提供额外的支持，包括研讨会、同侪支持小组、咨询、自助工具以及与心理健康顾问就您的担忧进行初步咨询。有关更多信息，请访问咨询中心网站(https://councising.uic.edu/). 此外，如果你认为情绪上的担忧可能会影响你的学业成功，请联系你的教员和学术顾问，制定一个计划，以保持正轨。

我的主页

刘冰，2024年1月1日