CS 583 2024年春季

CS 583-2024年春季

数据挖掘和文本挖掘

课程目标

本课程有三个目标。首先,为学生提供扎实的经典数据挖掘和机器学习技术并介绍最新研究课题(例如。,分布外(新颖性)检测、模型部署后的学习以及终身/持续学习). 其次,确保学生能够阅读和批判性地评估数据挖掘研究论文。第三,确保学生能够实现和使用一些重要的数据挖掘和文本挖掘算法。

思考和提问!如果你对任何主题或作业有疑问,请询问我、助教或你的同学们需要帮助,我是来修这门课的理解。不要拖延你的问题。没有什么是愚蠢的问题。学习的唯一障碍是懒惰。

一般信息

第1节

  • 课程电话号码:25479
  • 讲座时间段:周一下午6:00-8:40
  • 演讲厅:B10 BH
  • 讲师办公时间:周一下午4:00-下午5:30

分级

  • 期末考试:30%
  • 中期:25%
  • 测验:20%
  • 分配:25%
  • 作业和研究项目分为两组进行。与的讨论允许其他学生,但每个小组必须编写自己的代码。

    前提条件

    教材

    主题(可能会更改;阅读清单在每个章节标题之后)

    1. 介绍
    2. 数据预处理
      • 数据清理
      • 数据转换
      • 数据缩减
      • 离散化
    3. 关联规则和序列模式(第2.1-2.7节)
      • Apriori算法
      • 挖掘具有多个最小支持度的关联规则
      • 挖掘类关联规则
      • 序列模式挖掘
      • 总结
    4. 监督学习线性回归、梯度下降和神经网络(第三章)
      • 决策树归纳
      • 分类器评估
      • 天真的巴耶斯式学习
      • 文本分类的朴素贝叶斯学习
      • 支持向量机
      • 线性回归和梯度下降
      • 神经网络
      • K-最近邻
      • 装袋和增压
      • 总结
    5. 无监督学习(聚类)(第四章)
      • K-means算法
      • 集群的表示
      • 分层聚类
      • 距离功能和数据标准化
      • 集群评估
      • 发现漏洞和数据区域
      • 总结
    6. 半监督学习(第5.1.1、5.1.2、5.2.1-5.2.4节)
      • LU学习:从标记和未标记的示例中学习
      • PU学习:从正面和未标记的示例中学习
      • 新颖性(或分发外)检测
    7. 信息检索和网络搜索导论(第6.1-6.6和6.8节)
      • 信息检索模型
      • 基本文本处理和表示
      • 余弦相似度
      • 相关反馈与Rocchio算法
    8. 社交网络分析(第7.1-7.4节)
      • 中央和威望
      • 引文分析:共引与书目耦合
      • (谷歌的)PageRank算法
      • HITS算法:权限和中心
    9. 情绪分析和意见挖掘(第11.1-11.6节;查看我的两本书)
      • 情绪分析和情绪分析问题
      • 文档级情感分类
      • 句子层面的主观性与情感分类
      • 方面级情绪分析
      • 挖掘比较意见
      • 情感词汇生成
    10. 推荐系统
      • 基于内容的建议
      • 基于协同过滤的推荐
        • K-最近邻
        • 关联规则
        • 矩阵分解
    11. 终身学习和持续学习(终身机器学习书籍和研究论文)较短版本
      • 终身/持续学习简介
      • 课堂和任务持续学习
      • 分布式检测和开放世界学习
      • 模型部署后的学习(在职学习)
    12. 信息集成(第10.8节)

    规则和政策

    UIC咨询中心

    作为UIC学生体验的一部分,我们重视您的心理健康和情绪健康。UIC咨询中心提供一系列服务,在您在UIC期间提供额外的支持,包括研讨会、同侪支持小组、咨询、自助工具以及与心理健康顾问就您的担忧进行初步咨询。有关更多信息,请访问咨询中心网站(https://councising.uic.edu/). 此外,如果你认为情绪上的担忧可能会影响你的学业成功,请联系你的教员和学术顾问,制定一个计划,以保持正轨。

    我的主页

    刘冰,2024年1月1日