Forecasting Students Dropout: A UTAD University Study

Moreira da Silva, Diogo E.; Solteiro Pires, Eduardo J.; Reis, Arsénio; de Moura Oliveira, Paulo B.; Barroso, João

doi:10.3390/fi14030076

开放式访问第条

预测学生辍学：UTAD大学的一项研究

¹

ECT–UTAD Escola de Ciências e Tecnologia，Trás-os-Montes e Alto Douro大学，葡萄牙维拉雷亚尔5000-811

²

INESC TEC-INESC科技（UTAD Pole），葡萄牙维拉里尔5001-801

^*

信件应寄给的作者。

未来互联网 2022,14(3), 76;https://doi.org/10.3390/fi14030076

收到的提交文件：2022年1月18日/修订日期：2022年2月22日/接受日期：2022年2月27日/发布日期：2022年2月28日

（本文属于特刊用于社会公益的智能对象和技术)

下载

浏览地物

版本注释

摘要

:

在葡萄牙，大学课程的辍学率约为29%。了解高逃课率背后的原因可以大大提高学生和大学的成功率。这项工作应用现有的数据挖掘技术来预测学业辍学，主要使用学业成绩。介绍并分析了四种不同的机器学习技术。该数据集由331名学生组成，他们之前就读于塔斯-奥斯-蒙特斯大学（UTAD）计算机工程学位。这项研究的目的是利用现有的方法检测可能提前辍学的学生。使用排列特征重要性技术确定最相关的数据特征。在第二阶段，采用了几种预测辍学率的方法。然后，显示并比较每种机器学习技术的结果，以选择最佳的方法来预测辍学。所使用的方法取得了良好的结果，在最终测试集中达到81%的F1-Score，结论是学生的分数在某种程度上反映了他们的生活条件。

关键词：

学生辍学;随机森林;XGBoost公司;CatBoost公司;人工神经网络;置换特征重要性

1.简介

根据报告的统计数据Direço Geral de Estatística da Educaço e Ciáncia（DGEEC）[1]葡萄牙大学的辍学率约为29%，其余14%的学生没有在规定的时间内完成课程。这些高比率不仅是葡萄牙的教育机构，也是全世界的教育机构都非常关注的问题。就大学教育而言，教育机构可以采取不同的传统行动来降低辍学率。这些措施包括对面临风险的学生进行个性化监控，需要大量的人力资源和时间，或者调整课程大纲。尽管如此，对于任何用于降低失败率的方法来说，尽早确定和了解大学辍学的原因都是至关重要的。因此，正确预测辍学率已成为当务之急[2].

葡萄牙最近旨在提高学术成就的政策引导教育机构监督学生的进步，防止学生辍学。从这个意义上说，教育机构一直在努力分析和预测这些情况，以部署预防行动。多年来，各机构只收集学生学术数据注册和运行所需的数据。因此，社会经济数据的缺乏限制了机构对这一问题进行可靠研究。从这个意义上讲，一些机构仅限于进行这种类型的分析。

人工智能（AI）、数据科学等新领域的出现，加上当前海量数据、快速分析工具以及大量存储这些数据的能力，使得准确预测学术成就变得越来越可行。

在这项工作中，研究了几种机器学习模型，并将其应用于UTAD大学提供的包含学生信息的数据集。由于缺乏学生的社会经济数据，本研究仅考虑学术数据。因此，论文的目标是建立分析模型，仅使用学业成绩和学生年龄即可准确预测辍学人数。其中一些模型将集成UTAD的教育支持基础设施。

本文的其余部分安排如下：背景理论和文献综述(第2节); 数据和方法(第3节); 结果和讨论(第4节); 结论和未来工作(第5节).

2.背景理论与文献综述

一些关于预测学术成功的数据挖掘（DM）的出版物侧重于人工智能驱动的远程学习平台和辅导系统[三,4,5]. Queoga等人[三]开发了一种解决方案，仅使用学生与虚拟学习环境的交互及其衍生功能，用于早期预测巴西远程技术高中课程中的风险学生。他们使用精英遗传算法（GA）来调整机器学习算法的超参数。种群由几个分类器组成：决策树（DT）、随机森林（RF）、多层感知器（MLP）、逻辑回归（LG）和具有不同超参数的元算法AdaBoost（ADA）。该方法获得的AUC中值为0.845。穆巴拉克等人提议的其他工作[4]使用卷积神经网络（CNN）和长短期记忆（LSTM），称为CONV-LSTM，自动从大规模开放在线课程原始数据中提取特征，并预测学生是否会辍学。他们在损失函数中使用了成本敏感技术，该技术考虑了假阴性和假阳性的各种误分类成本。他们声称，与基线方法相比，提出的模型更好。数据集存储了学生的活动记录，记录了他们参加的课程。Dass等人[5]结合日常学习进度的特点，提出了一个预测网络课程学生辍学的模型。他们使用随机森林模型，获得87.5%的F1核心。

在传统教育系统中，发现了几种使用多个分类器系统的方法。Alban和Mauricio证明并认为人工神经网络（ANN）的应用前景广阔[6]. 他们的研究是根据厄瓜多尔公立大学2670名学生三年（2014-2017年）的数据进行的。使用了两种类型的算法：多层神经网络和径向基函数网络（使用径向基函数作为激活函数的ANN，RNN），这两种算法的辍学预测率都很高，分别为96.3%和96.8%。在另一项研究中，普拉格[7]结论是，使用人工神经网络时，使用两个学期的数据时预测率相对较高，而仅使用一个学期时预测率急剧下降。

钟和李[8]使用RF预测有辍学风险的学生。他们使用了2014年韩国国家教育信息系统中165715名高中生的数据。他们获得了95%的二进制分类准确率。

佩雷拉和赞布拉诺[9]使用决策树（DT）从纳里尼奥大学本科生的社会经济、学术、学科和机构数据中识别学生辍学模式。他们使用了三个数据集，获得了大于80%的置信阈值。

Fernádez-García等人[10]主要使用学术数据定义了从入学到第四学期的几个模型。该方法考虑了前几个阶段的输出，即每个步骤都假设生成了先验知识。该模型的目标包括确定辍学概率较高的工科学生，以便有效地设计和实施辍学预防政策。预测模型可以识别72%的辍学学生。第四学期末，成绩可以达到91.5%。

Hutagaol等人[11]考虑了三个单一分类器：K-Nearest Neighbor（KNN）、Naive Bayes（NB）和Decision Tree（DT），以确定预测雅加达私立大学学生辍学的最佳方法。他们使用人口统计指标和学业成绩来预测学生辍学。他们的模型达到了79.12%的准确率。

Kiss等人[12]使用预测分析工具确定匈牙利一所大型技术大学存在辍学风险的学生。他们使用了10196名学生的数据，这些学生在2013年至2018年间完成了本科学习（无论是毕业还是辍学）。他们使用3种ML方法对问题进行建模：梯度增强树（GB）、XGB和ANN，精确度在68.0%到85.8%之间。

也可以找到使用“外部”特征的研究。Dharmawan等人[13]使用了具有非学术特征的模型。他们得出结论，家庭成员的数量、对进一步研究的兴趣以及与讲座的关系是影响辍学的因素。Hasbun等人[14]研究了课外活动对预测两个理学学士学位（工程和商业）学生辍学的重要性，表明课外活动是优秀的辍学预测因素。

以下作品修正了学生的辍学预测。Mduma等人[15]修订了机器学习算法，以预测发展中国家的辍学率。他们的结论是，许多研究人员忽视了不平衡的数据，导致了不恰当的结果。另一方面，他们的主要重点是提供早期预测，包括解决辍学学生问题的排名和预测机制。De Oliveira等人[16]检索高等教育中的科学索引出版物，分析高等教育学生的保留和辍学情况。他们确定了使用的数据和技术，并考虑到几个学生和外部特征，提出了使用几个类别的分类器。

表1总结了模型、特征、使用的度量以及获得的结果。第1列表示工作，第2列表示使用的功能。“分数”特征意味着作品使用课程单元分数。学术特征表明了学术数据的使用，如出勤率、平均成绩和分数。“社会经济”特征表示使用社会和经济数据，“机构”是指与学习计划和大学相关的数据，“个人”是指地址、年龄和性别等个人数据，“人口统计”是指居住区的居民数量和其他人口统计数据，“动机”指学生行为和其他心理现象背后的驱动力。“体育”是指学生进行体育活动。“高中”包括与学生高中及其所获得分数相关的数据。“活动”是通过与计算机学习系统交互获得的数据，例如学生一天所花费的时间。“出勤率”是指学校出勤率。“知识”是学生所拥有的知识程度。最后，“志愿者”表示学生是否从事志愿活动。列方法列举了作品中使用的方法。“结果”列指示相应的度量值（例如，ACC：精度，AUC：曲线下面积）。

3.数据和方法

本节描述了用于此工作的数据集和方法。

3.1. 数据收集

UTAD数据库旨在存储2011年至2019年期间在UTAD大学注册计算机工程学位的学生的数据。它包含人口统计信息、父母的职业、教育和每个学生的学业记录。表2展示了这些特征及其相应的名称、首字母缩写和比例。然而，UTAD的工作人员通常填写学生的姓名、分数和年龄。因此，工作数据集仅包含年龄和标记特征。

然而，一般来说，数据库只包含有关学生分数和年龄的数据。通常，UTAD的员工不会登记其他数据。因此，工作数据集课程单元（课程）在表2其分数范围为[10,20]（如果学生成功）或0（如果失败）。

图1绘制了在第3.6节一个网格划分了图形，其中每个特征将在y轴和x轴上共享。对角线图是每列中的边际特征单变量分布。

3.2. 人工神经网络

人工神经网络是一种数学模型，受生物大脑中用于数据处理的神经元的启发，当存在大量解决方案来研究问题实例时，它允许计算机学习并进行归纳[17]. 生物神经元只不过是简单的相互连接的处理单元，但它们的行为会引起复杂的问题[17]. 在计算版本中，概念是获取主要信息，通过几个节点的连接，有可能产生一种紧急行为，这转化为高认知水平的决策和分类。

3.3. 集成方法

集成方法（EM）是一种机器学习技术，它由几个基本模型组合而成，以产生高精度分类器。通常，所有新兴市场共享相同的两个步骤。首先，产生了有限数量的学习者。然后，将基础学习者聚合到单个模型中[18]. 由于每种机器学习方法都有一定的偏差、噪声和方差，EM有助于将此问题降至最低，因为它已被证明“优于集成中的任何单个分类器”[19].

3.3.1. 随机森林

决策树是一种用于机器学习的预测模型。当输出变量取值范围离散时，DT被指定为分类树。这些由布罗德利和弗里德尔定义[20]作为“根据每个分支定义的一组测试，递归地将数据集划分为更小的细分”的分类过程。DT具有层次结构，由根节点、内部节点集合和末端节点组成，这些节点称为叶。叶子表示类标签，每个分支表示导致这些标签的特征的组合。

DT的使用有几个优点，例如，由于DT可以处理定量和定性数据，因此需要低数据预处理。该模型最显著的优点之一是，它们被视为白色盒子模型不同于ANN，因为它们易于理解和解释。然而，该模型存在一些局限性，鲁棒性较低，这意味着数据的微小变化可能会导致结果发生重大变化。DT也容易受到过拟合的影响，因为生成的树可能过于复杂，无法概括为新数据。

随机森林（RF）是许多决策树的集合。在RFs中，通过使用训练数据的随机样本独立地训练每棵树。然后，每棵树进行预测，投票最多的类被视为最终预测。该模型的基本原理由群体智慧组成，其中独立解决方案的聚合优于单个解决方案[21].

3.3.2. 梯度增强

梯度提升（GB）是一种集成技术，它构建一系列弱学习者，通常是决策树。GB单独创建树，随后的树尝试纠正先前训练的树所犯的错误。在每一次不同的迭代中，都会训练一个新的弱基学习者模型，与到那时为止学习到的整个集成的错误有关[22]. 简而言之，该算法通过依次选择指向负梯度方向的函数来优化任意损失函数。本文使用了该算法的两种变体，即：XGBoost[23]和CatBoost[24].

3.4. 排列特征重要性

排列特征重要性（PFI）技术由Breiman介绍[25]RFs。它被定义为当单个特征值被随机排列时模型得分的减少。此过程打破了特征和正确输出之间的关联。当随机改变其值时，特征的重要性很低，因为它不会导致模型得分的显著下降。相反，当模型得分显著下降时，这意味着模型依赖于特征来预测正确的输出。

3.5. 随机过采样

一个类中的实例数对于另一个或多个类来说通常是不均衡的。解决此问题的一种方法是在预处理阶段执行类分布平衡。随机过采样（ROS）[26]是一种在未充分呈现的类中生成新样本的技术。ROS通过随机抽样来实现这一点，并替换当前可用的样本。

3.6. 数据预处理

图2说明了此工作中使用的管道。在第一步中，准备数据在使用PFI技术之前，数据被摄取，并进行了一些清理。然而，当使用ANN模型时，会进行一些额外的数据操作（参见第4节). 第二步涉及模型构建、培训和验证。在最后一步中，实现模型，用于预测新样本并进行监控。在本节中，将描述第一步。

本研究中考虑的数据在预处理之前进行了匿名处理，以符合当前的数据保护法规。原始数据集在一行中包含每个学生的学术信息。因此，每列提取第一年的等级。然后，只保存了每个学生的学业记录以及他们的年龄。之所以这样做，是因为其他功能包含几个空字段，这无助于正确预测。此外，所有仍在完成课程的学生和加入大学后不久辍学的学生（所有科目得分为零的学生）都被排除在数据集中。创建了一个新的二进制变量，指示学生是否退出，该变量将用作输出变量。它产生了一个新的、干净的数据集，其中包含了331名学生的信息。本研究存在一些重大数据不平衡，124例辍学学生和207例学生成功完成了学习计划。

使用PFI技术提取最相关的特征(第3.4节). 结果显示在图3。选择了前六个特征（以蓝色突出显示），因为发现这些特征会导致精确度显著下降。

在这项分析中，年轻学生在完成学习计划时表现出更强的弹性，这表明年龄是辍学的一个重要因素。图4揭示了年龄在辍学研究中的重要性。第三个四分之一的学生辍学率几乎与成功学生的中位数相同。另一方面，要求最高的课程单元的成功也对学生学习的连续性起着决定性的作用。图5显示了每个课程单元的失败次数。模型中使用红色的课程单元作为重要特征，而丢弃蓝色的课程单元。一般来说，该模型使用失败次数较多的课程单元作为最重要的特征。这个规则的例外是数学分析II。在这种情况下，在课程中取得成功的学生中，失败的次数也很重要。因此，该模型不能很好地区分使用此功能辍学的学生。

应用的数据划分策略展示在图6对数据集进行分层分割，保留80%用于培训，20%作为测试集进行最终评估。在训练部分，使用了分层交叉验证技术，将其分成10倍。模型随后进行了9次训练，并在剩余的折叠中进行了验证。因此，无需将数据划分为三个不同的数据集，这将大大减少学习样本的数量，因为可用数据量很低。

4.结果和讨论

建立了四种不同的模型（CatBoost、Random Forest、XGBoost和ANN）。由于除ANN之外的所有模型都是基于树的，因此它们无法从特征缩放中获益。因此，将ANN模型实现到管道中(图7)，它在融入模型之前应用额外的数据预处理。首先，特征在0到1之间进行缩放。然后使用ROS技术对数据进行平衡(第3.5节)，因为它提供了比不平衡数据更可靠的结果。

然后将每个模型提交给之前描述的分层10倍交叉验证测试。在此测试期间，对每个模型的超参数进行了调整，因为这些超参数对模型的预测性能有重大影响。每个模型使用的超参数如所示表3.

然后将每个模型提交给分层的10倍交叉验证测试。这种技术可以根据未发现的数据估计每个模型的性能。结果显示在表4值得注意的是，RF提供了最佳的总体指标[27]，只是在召回中输给了XGBoost。

一个重要的指标是AUROC，它定义了每个模型区分类的准确性。它是衡量模型在分类问题中性能的最常用指标之一。上一次测试中获得的RF ROC曲线显示在图8该模型的平均值为0.91，标准偏差为0.05，能够非常准确、一致地区分辍学学生和非辍学学生。

RF的F1-Score为0.81，标准偏差为0.22，是所有车型中最好的。该度量表示召回率和精确度之间的调和平均值，是模型性能的良好度量。然后将最终验证数据（未发现的数据）拟合到每个模型中，作为对其泛化能力的最后一次健全性测试。结果显示在表5在这项测试中，XGBoost显示了最佳结果。然而，由于交叉验证中获得的结果稍微更可靠，预计RF将呈现更稳定的性能。

回顾的大多数文章都考虑到了学术背景之外的几个特征进行了预测。当有数据提供时，这些模型很好。在UTAD，记录的特征很少，有必要使用现有数据的模型。在此背景下，仅考虑学业成绩和学生年龄的模型被用于预测辍学，取得了良好的结果（F1-分数为0.87）。回顾的一些论文表明，非学术数据，尤其是社会经济数据，也会影响学术结果。由于所提出的模型给出了令人满意的结果，因此可以得出结论，学生取得的成绩在某种程度上也包含了他们的社会背景和生活方式。

5.结论和未来工作

在本研究中，考虑了对辍学的预测。虽然辍学取决于经济、社会、父母培训和机构条件等多个因素，但本研究以课程单元的成功作为数据来源。根据所取得的结果，可以得出结论，即使在学生数据稀少的情况下，这种分析也是可能的。事实上，本文中考虑的所有方法在预测学业退学方面都显示出了良好的结果，重点是RF和XGBoost，在最终测试集中的准确率分别为88%和90%。这种预测是可能的，因为学生的成绩在某种程度上已经融入了他们的生活条件。另一方面，对特征重要性的研究表明，课程的成功完成取决于学生的成熟度（年龄）和在要求更高的课程单元中的成功。

作为未来的研究，这些新的数据挖掘技术将应用于其他研究计划，从而部署最合适的模型。因此，UTAD的信息系统中将包含一个分类器，以支持学术人员预测学生辍学。另一方面，当UTAD收集大量数据时，将考虑学生的个人信息，如经济和个人数据。

作者贡献

概念化，E.J.S.P.、P.B.d.M.O.、A.R.和J.B。；方法，D.E.M.D.S。；软件，D.E.M.D.S。；验证，D.E.M.D.S。；形式分析，D.E.M.D.S。；调查，D.E.M.D.S。；资源，A.R.和J.B。；数据管理，D.E.M.D.S。；书面原稿编制，D.E.M.D.S。；写作审查和编辑，D.E.M.D.S.、E.J.S.P.、P.B.D.M.O.、A.R.和J.B。；可视化，D.E.M.D.S。；监督，E.J.S.P.、P.B.d.M.O.、A.R.和J.B。；项目管理、E.J.S.P.、P.B.d.M.O.、A.R.和J.B。；资金收购、A.R.和J.B.所有作者均已阅读并同意手稿的出版版本。

基金

这项工作得到了“SAMA EDU.IA”项目的支持，项目编号：POCI-05-5762-FSE-000199，由2020年葡萄牙竞争计划资助。

数据可用性声明

不适用，本研究未报告任何数据。

利益冲突

作者声明没有利益冲突。

缩写

本手稿中使用了以下缩写：

行政协调会	准确性
美国残疾人协会	ADABoost公司
年龄	年龄
人工神经网络	人工神经网络
AUC公司	曲线下面积
加利福尼亚州	计算机体系结构（CU）
氯	计算逻辑（CU）
美国有线电视新闻网	卷积神经网络
铜	课程单元
DGEEC公司	Direço Geral de Estatística a Educaço e Ciáncia
DS公司	数字系统（CU）
DT公司	决策树
E-I公司	英语I（CU）
E-II型	英语II（CU）
通用航空公司	遗传算法
GB（英国）	梯度增强树
内燃机	计算机工程概论
白介素-I	综合实验室I（CU）
千年网络	K-最近邻
洛杉矶	线性代数（CU）
LG公司	逻辑回归
LSTM公司	长-短时间存储器
MA-I公司	数学分析I（CU）
MA-II公司	数学分析II（CU）
毫升	机器学习
MLP公司	多层感知器
MP-I型	编程方法I（CU）
注	天真的贝叶斯
射频	随机森林
世界车王争霸赛	运行特性曲线
S-I系列	研讨会I（CU）
支持向量机	支持向量机
联合技术开发署	塔斯-奥斯-蒙特斯-阿尔托·杜罗大学
XGB公司	额外增压树

工具书类

Engrácia，P。；奥利维拉，J。；DGEEC公司。Percursos no Ensino Superior 2018年。在线可用：https://www.dgeec.mec.pt/np4/292/%7B$clientServletPath%7D/？newsId=516&fileName=DGEEC_SituacaoApos4AnosLicenciatures.pdf（2022年1月17日访问）。
Siri，A.使用人工神经网络预测大学学生辍学。意大利语。J.社会学。教育。 2015,7, 225–247. [谷歌学者]
基洛加，E.M。；洛佩斯，J.L。；卡佩尔，K。；Aguiar，M。；阿劳约，R.M。；穆尼奥斯，R。；Villarroel，R。；Cechinel，C.《确定有辍学风险的学生的学习分析方法：远程技术教育课程的案例研究》。申请。科学。 2020,10, 3998. [谷歌学者] [交叉参考]
穆巴拉克，A.A。；曹，H。；Hezam，I.M.大规模开放在线课程中学生辍学预测的深度分析模型。计算。选举人。工程师。 2021,93, 107271. [谷歌学者] [交叉参考]
达斯，S。；Gary，K。；坎宁安，J.使用随机森林模型预测自学MOOC课程中的学生辍学。问询处 2021,12, 476. [谷歌学者] [交叉参考]
奥尔本，M。；Mauricio，D.预测大学辍学的神经网络。国际J·马赫。学习。计算。 2019,9, 149–153. [谷歌学者] [交叉参考] [绿色版本]
Plagge，M.使用人工神经网络预测一年级传统学生二年级保留率。2013年4月4日至6日在美国佐治亚州萨凡纳举行的年度东南会议记录；ACM出版社：美国纽约州纽约市，2013年；第1页。[谷歌学者] [交叉参考]
Chung，J.Y。；Lee，S.使用机器学习的高中生辍学预警系统。儿童。青年服务生。版次。 2019,96, 346–353. [谷歌学者] [交叉参考]
佩雷拉，R.T。；Zambrano，J.C.决策树在检测学生辍学情况中的应用。2017年12月18日至21日在墨西哥坎昆举行的2017年IEEE第16届机器学习和应用国际会议（ICMLA）会议记录；第528-531页。[谷歌学者]
弗南德斯·加西亚，a.J。；Preciado，J.C。；梅尔彻，F。；罗德里格斯·埃切韦里亚（Rodriguez-Echeverria，R.）。；科内杰罗，J.M。；Sánchez-Figueroa，F.使用学术数据预测不同阶段大学辍学的真实机器学习经验。IEEE接入 2021,9, 133076–133090. [谷歌学者] [交叉参考]
Hutagaol，北卡罗来纳州。；Suharjito，S.在高等教育中使用集成分类器方法对学生辍学进行预测建模。高级科学。Technol公司。工程系统。J。 2019,4, 206–211. [谷歌学者] [交叉参考] [绿色版本]
亲吻，B。；Nagy，M。；莫伦泰，R。；Csabay，B.使用高中和第一学期学业成绩指标预测辍学。2019年11月21日至22日在斯洛伐克斯塔尔·斯莫科维奇举行的2019年第17届新兴在线学习技术和应用国际会议（ICETA）会议记录；第383–389页。[谷歌学者]
Dharmawan，T。；Ginardi，H。；Munif，A.使用非学术数据进行辍学检测。2018年8月7日至8日在印度尼西亚日惹举行的2018年第四届国际科学技术大会（ICST）会议记录；第1-4页。[谷歌学者]
哈斯本，T。；Araya，A。；Villalon，J.利用决策树将课外活动作为高等教育辍学预测因素。2016年IEEE第16届高级学习技术国际会议（ICALT）会议记录，2016年8月7日至8日，印度尼西亚日惹；第242-244页。[谷歌学者]
北卡罗来纳州姆杜马。；Kalegele，K。；Machuve，D.2019年学生辍学预测的机器学习方法和技术调查。在线可用：https://dspace.nm-aist.ac.tz/handle/20.50012479/71（2022年1月17日访问）。
德奥利维拉，C.F。；Sobral，S.R。；费雷拉，M.J。；Moreira，F.学习分析如何有助于防止学生在高等教育中辍学：系统的文献综述。大数据认知。计算。 2021,5, 64. [谷歌学者] [交叉参考]
Kriesel，D.神经网络。2007年。在线提供：https://www.dkriesel.com/_media/science/neuronalenetze-en-zeta2-2col-dkrieselcom.pdf（2022年1月17日访问）。
周，Z.H.合奏学习。在生物统计学百科全书; 施普林格：波士顿，马萨诸塞州，美国，2009年；第270-273页。[谷歌学者] [交叉参考]
Dietterich，T.G.机器学习中的集成方法。在多分类器系统国际讲习班; 计算机科学课堂讲稿（包括人工智能子系列课堂讲稿和生物信息学课堂讲稿）；施普林格：德国柏林/海德堡，2000年；第1857卷，第1-15页。[谷歌学者] [交叉参考] [绿色版本]
布罗德利，C.E。；Friedl，M.A.根据遥感数据对土地覆盖进行决策树分类。遥感环境。 1997,61, 399–409. [谷歌学者] [交叉参考]
Trainor，P.J。；Yampolskiy，R.V.公司。；DeFilippis，A.P.《人工人群在非靶向代谢组学中的智能特征选择：血栓性心肌梗死血液诊断试验的开发应用》。J.生物识别。通知。 2018,81, 53–60. [谷歌学者] [交叉参考] [公共医学]
Natekin，A。；Knoll，A.梯度增强机器，教程。前面。神经机器人。 2013,7, 21. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
陈，T。；Guestrin，C.XGBoost：一个可扩展的树木提升系统。ACM SIGKDD知识发现和数据挖掘国际会议论文集。计算机协会，美国加利福尼亚州旧金山，2016年8月13日至17日；第785-794页。[谷歌学者] [交叉参考] [绿色版本]
Dorogush，A.V.公司。；埃尔绍夫，V。；Gulin，A.CatBoost：支持分类功能的梯度增强。arXiv公司 2018，arXiv:1810.11363。[谷歌学者]
Breiman，L.《随机森林》。机器。学习。 2001,45, 5–32. [谷歌学者] [交叉参考] [绿色版本]
He，H。；Garcia，E.A.从不平衡数据中学习。IEEE传输。知识。数据工程。 2009,21, 1263–1284. [谷歌学者] [交叉参考]
Vishwakarma，G。；Sonpal，A。；Hachmann，J.《标杆管理和不确定性量化指标：化学机器学习的质量、适用性和最佳实践》。趋势化学。 2021,三, 146–156. [谷歌学者] [交叉参考]

图1。最重要特征之间的成对关系{0-成功，1-退出}。

图2。机器学习模块化流水线。

图3。排列重要性方框图。

图4。年龄重要性方框图（红色：成功，洋红色：辍学）。

图5。每个课程单元的失败次数（红色特征：用于模型，蓝色特征：丢弃）。

图6。数据分割策略。改编自：https://scikit-learn.org/stable/modules/cross_validation.html（于2022年1月17日访问）。

图6。数据分割策略。改编自：https://scikit-learn.org/stable/modules/cross_validation.html（2022年1月17日访问）。

图7。ANN管道结构。

图8。Random Forest通过10倍交叉验证测试获得的不同ROC曲线。

表1。使用的模型、特性和度量以及获得的结果。

工作	特征	方法	韵律学	结果
阿尔班和莫里西奥[6]	个人的	人工神经网络	行政协调会	0.963
	知识	循环神经网络	行政协调会	0.968
钟和李[8]	个人的	射频	行政协调会	0.95
	测试标记		AUC公司	0.97
	出勤		敏感	0.85
	志愿者		特异性	0.95
Dass等人。 [5]	活动	射频	F1芯	0.875
			AUC公司	0.945
			行政协调会	0.875
			召回	0.875
			精密度	0.88
Dharmawan等人。 [13]	人口统计学	DT公司	行政协调会	0.660
	经济	支持向量机	行政协调会	0.660
	社交迭代	千年网络	行政协调会	0.564
	动机
	个人的
Fernádez-García等人。 [10]	标志	GB（英国）	行政协调会	0.682
	个人的	射频	行政协调会	0.686
		支持向量机	行政协调会	0.686
		合奏	行政协调会	0.670
Hasbun等人。 [14]	学术	DT公司	行政协调会	0.793
	个人的		行政协调会	0.939
	体育
	高中数据
Hutagaol等人。 [11]	学术	千年网络	行政协调会	0.753
	人口统计学	天真的贝叶斯	行政协调会	0.629
		DT公司	行政协调会	0.649
		GB（英国）	行政协调会	0.791
Kiss等人。 [12]	学术	GB（英国）	行政协调会	0.680-0.858
	个人的	XGB公司	精密度	0.670–0.863
	高中数据	MLP公司	召回	0.735–0.818
			AUC公司	0.729–0.920
穆巴拉克等人。 [4]	活动	CNN-LSTM公司	AUC公司	0.76–0.86
		深度神经网络	F1芯	0.86–0.89
		支持向量机	精密度	0.90–0.97
		线性回归	召回	0.79–0.88
佩雷拉和赞布拉诺[9]	标志	DT公司	信心	0.800
	社会经济
	个人的
	机构
普拉格[7]	学术	人工神经网络	行政协调会	0.750
Queoga等人。 [三]	活动	GA（ADA、DT、RF、MLP、LG）	AUC公司	0.845

表2。初始数据集功能。

功能名称	首字母缩写	课程单位（CU）	比例
年龄	年龄		依次的
西蒂			标称
父亲就业状况			标称
父亲教育			标称
父亲职业			标称
母亲就业状况			标称
母亲教育			标称
母亲职业			标称
最终成绩			依次的
毕业年份			依次的
注册状态			标称
计算逻辑	氯	是的	依次的
计算机体系结构	加利福尼亚州	是的	依次的
数字系统	DS公司	是的	依次的
英语I	E-I公司	是的	依次的
英语II	E-II型	是的	依次的
综合实验室I	白介素-I	是的	依次的
计算机工程导论	内燃机	是的	依次的
线性代数	洛杉矶	是的	依次的
数学分析I	MA-I公司	是的	依次的
数学分析II	MA-II公司	是的	依次的
程序设计方法I	MP-I公司	是的	依次的
研讨会I	S-I系列	是的	依次的

表3。模型的超参数。

模型	超参数
CatBoost公司	`迭代次数=50`
	`learning_rate=0.9`
	`l2_leaf_reg=11`
	`类权重=[1,1.67]`
	`eval_metric=AUC`
	`最大深度=1`
随机森林	`类权重=[1，1.67]`
	`最大深度=7`
	`min_samples_leaf=2`
	`最小样本分割=10`
XGBoost公司	`learning_rate=0.15`
	`scale_pos_weight=1.67`
	`colsample_bytree=0.7`
	`n_估计值=100`
	`最小儿童体重=7`
	`最大深度=5`
	`伽马=0.4`
人工神经网络	`激活=逻辑`
	`α=0.001`
	`early_stopping=真`
	`隐藏层大小=12`
	`学习率=0.6`

表4。对训练数据进行分层10倍交叉验证测试的不同模型结果之间的比较。

	精密度¹	召回¹	F1-芯¹	AUROC公司¹	准确性¹
CatBoost公司	$0.78 \pm 0.26$	$0.82 \pm 0.25$	$0.79 \pm 0.19$	$0.90 \pm 0.12$	$0.84 \pm 0.14$
随机森林	$0.81 \pm 0.21$	$0.81 \pm 0.29$	$0.81 \pm 0.22$	$0.91 \pm 0.10$	$0.86 \pm 0.15$
XGBoost公司	$0.78 \pm 0.25$	$0.83 \pm 0.30$	$0.80 \pm 0.23$	$0.91 \pm 0.11$	$0.85 \pm 0.16$
人工神经网络	$0.85 \pm 0.28$	$0.71 \pm 0.38$	$0.75 \pm 0.23$	$0.92 \pm 0.09$	$0.83 \pm 0.14$

¹交叉验证中十个不同验证集的平均值±标准偏差。

表5。比较不同模型对最终测试集的预测。

	精密度	召回	F1-芯	AUROC公司	准确性
CatBoost公司	0.84	0.84	0.84	0.95	0.88
随机森林	0.81	0.88	0.85	0.96	0.88
XGBoost公司	0.82	0.92	0.87	0.95	0.90
人工神经网络	0.77	0.80	0.78	0.94	0.84

出版商备注：MDPI对公布的地图和机构关联中的管辖权主张保持中立。

分享和引用

MDPI和ACS样式

莫雷拉·达席尔瓦，D.E。；E.J.Solteiro Pires。；Reis，A。；de Moura Oliveira，P.B。；巴罗佐，J。预测学生辍学：UTAD大学研究。未来互联网 2022,14, 76.https://doi.org/10.3390/fi14030076

AMA风格

Moreira da Silva DE、Solteiro Pires EJ、Reis A、DE Moura Oliveira PB、Barroso J。预测学生辍学：UTAD大学研究。未来互联网. 2022; 14(3):76.https://doi.org/10.3390/fi14030076

芝加哥/图拉宾风格

莫雷拉·达席尔瓦（Moreira da Silva）、迪奥戈·E.（Diogo E.）、爱德华多·索尔泰罗·皮雷斯（Eduardo J.Solteiro Pires）、阿尔塞尼奥·里斯（Arsénio Reis）、保罗·德·莫拉·奥利维拉（Paulo B.de Moura Oliveira。2022.“预测学生辍学：UTAD大学研究”未来互联网第14页，第3页：第76页。https://doi.org/10.3390/fi14030076

请注意，从2016年第一期开始，本期刊使用文章编号，而不是页码。请参阅更多详细信息在这里.

文章菜单