学习风格理论研究
赫伯特·塞伦(Herbert Thelen)首先定义了“学习风格”(learning style)的概念,后来发展成为数十种学习风格理论,并在教育领域付诸实践。随着“因材施教”和“以学习者为中心”中描述的教学方法,越来越多的学者将注意力转移到学习者的学习风格上,希望在MOOC设计过程中充分考虑到这一点。近年来,MOOC等在线教育工具的迅速发展促使学者们考虑如何在在线教育中反映不同的学习风格,从而提出相应的材料和方法,以帮助提高学习效率[11,12,13,14,15,17].
学习风格理论经过长期的研究,已经相对成熟。许多学者提出了复杂的学习风格模型。根据柯里的学习风格模型,所有的学习风格都可以分为三个层次,即“教学偏好”的外部层次、“信息处理模式”的中间层次和“认知风格”的内部层次[18]. 这类学习风格模型包括Kolb[19]蜂蜜和芒福德[20],邓恩[21]Felder-Silverman的学习风格模型[11]. 此外,认知风格、VARK和Keefe的学习风格模型等其他模型对学习风格提出了不同的定义。
邓恩的学习风格模型是“洋葱模型”在外部层面的代表性理论。邓恩主要关注影响学习活动的刺激因素[19]. 这些刺激与学习环境、社会环境、生理因素、心理因素和情感因素有关。然而,所有这些刺激都非常不稳定,很容易观察到。相反,科尔布对学习过程感兴趣。他建议每个学习过程都要经历四个自我相关的阶段。学习者对这些阶段表现出不同的偏好[19]. 基于中的学习模型[19,22]、和[20]Felder-Silverman提供了一个全新的学习风格模型[11]它关注学习者的个体认知特征,通过信息处理、信息认知、信息输入和信息理解相结合,对学习风格进行全面描述。
费尔德还根据学习风格模型设计了所罗门学习风格量表,为测量学习风格提供了一种很好的方法。因此,Felder-Silverman的模型不仅在实践中得到了广泛应用,而且也适用于基于网络的学习环境。此外,所罗门量表具有较好的信度和效度,已在教育领域广受欢迎[23,24]. 尽管学者们提供了不同的定义,但它们都包括学习风格的三个主要特征。首先,学习风格因个体而异,这意味着不同的学习者倾向于有不同的学习风格偏好。其次,学习风格的形成受到外部环境和内部自我的刺激,如文化差异、家庭因素、教育因素和生理因素。第三,学习风格影响学习行为。不同学习风格的学习者在学习策略和学习习惯上表现出差异。
由于Felder-Silverman的测量方法偏向于基本特征(认知特征),因此适合网络学习,并且Felder-Silverman模型已通过大量实验证明在实践中获得了较高的频率,如表所示1,本文选择费尔德西尔弗曼作为基础学习风格模型[25]. 然而,Felder-Silverman的模型中没有考虑诸如新学习环境中的社交互动等特征,即使这些特征应该在网络学习中考虑。因此,尽管基于费尔德-西尔弗曼模型,但本文将扩展社会互动维度,使其更适合MOOC教学环境。
学习风格识别
传统的测量学习风格的问卷调查方法在MOOC教学环境中并不适用,主要是因为受访者的主观意识、不理解问题以及在特定点测量的学习偏好等因素会对结果的准确性产生负面影响。因此,越来越多的国内外学者转而通过自动检测方法研究学习风格[26,27,28,29,30]. 自动检测方法是一种自动检测学习者学习风格的方法,它通过收集网络学习平台记录的关于学习者的真实数据,并将数据挖掘、神经网络或简单计算规则应用于网络学习环境中出现的学习行为集[31,32,33,34,35].
维也纳大学分析了学习平台会议期间形成的学习平台数据和网络日志,以识别学习者的学习行为[31]. 在[32],作者通过使用BP神经网络分析日志数据来预测学生的学习风格,而[33]使用贝叶斯网络方法识别参加人工智能在线课程的学生的学习风格,发现从不同维度预测学习风格的准确性存在显著差异[34]结合决策树和隐马尔可夫模型评估学习行为,解决序列数据中的困难,从理解维度更准确地分析序列和综合学习风格。对比试验在[26]适应性学习风格的教学效率。结果表明,参加适应性课程的学生学习效率更高,考试成绩更好。的作者[28]据报道,标准成绩评估不仅可以评估学生的学习能力,还可以检测个人的学习特征并预测结果[29]. 分析和处理网络学习者访问的网页,以研究学习风格,以及[30]记录网络学习者的学习需求和活动,探索其个性化特征,研究学习绩效评估。
传统的学习算法和带自适应学习速率的反向传播(BPAL)网络算法都有两个弱点。首先,原始数据不能包含太多属性;属性的数量越多,组成相应向量的难度就越大。在执行分类算法时,计算复杂性随着向量长度的增加呈指数级增加。其次,原始数据属性和学习风格之间的映射关系不能太复杂。因此,这些算法不适用于复杂的映射关系。传统的方法无法分析和处理网络学习行为数据与学习风格之间的复杂关系。然而,深度学习是一种逐步从向量中提取特征的方法,通过构建具有多个隐藏层和大量训练数据的机器学习模型来研究更有用的特征,以提高分类和预测的准确性。
深度信念网络
深度信念网络(DBN)是由Hinton等人于2006年首次提出的[36]. DBN通过构建多层神经网络模型分析文本、图像和语音的潜在特征[37]. 训练数据逐层遍历网络,每一层提取比前一层更高级的特征。与传统的神经网络学习方法相比,深度学习具有两个方面的显著优势。一是每个层次的训练大大提高了训练效率。二是避免了传统神经网络在无监督学习环境下陷入局部极小值的风险。DBN模型可以是多层RBM(无监督学习网络)的组合[38],BP(监督分类器)[39]或其他预测模型。
如图所示1,RBM由两层组成:可见层(可见单元)和隐藏层(隐藏单元)。。神经元之间的连接具有以下特征:层内无连接,内层完全连接,其中内层包括可见层神经元和隐藏层神经元。术语完全连接是指可见层和隐藏层中每个神经元之间的连接。在RBM中,每个神经元只有两种状态:0或1。
RBM是一种基于能量的无向生成模型。对于给定的一组状态,其能量函数公式如下(v(v), 小时):
$$ {电子}_{\theta}\left(\mathrm{v},\mathrm{h}\right)=-{\sum}{i=1}^{nv}{b} _ i{v} _ i-{\总和}_{j=1}^{nh}{a} _j(_j){h} _j(_j)-{\sum}{i=1}^{nv}{\sum}{j=1}^}{nh}{w}_{ij}{v} _ i{h} _j(_j), $$
(1)
其术语描述如下:
\(\mathrm{v}={\左({v} _1个,{v} _2,\t个,{v}(v)_{n_v}\右)}^T\):可见层的状态向量,v(v)我表示可见层中第一个i神经元的状态;
\(\mathrm{h}={\左({h} _1个,{h} _2,\t个,{h}(小时)_{n_h}\右)}^T\):隐藏层的状态向量,小时j个表示隐藏层中第一个j神经元的状态;
\(\mathrm{a}={\左({a} _1个,{a} _2,\t个,{一}_{n_v}\右)}^T\在{\mathrm{R}}^{n_v}\中:可见层的偏移矢量,一我表示可见层i神经元的偏倚;
\(\mathrm{b}=左({b} _1个,{b} _2,\t个,{b}_{n_h}\右)}^T\在{\mathrm{R}}^{n_h}\中:隐藏层的偏置矢量,b条j个表示可见层中j个神经元的偏差;
\(W=\左({w}_{ij}\right)在{\mathrm{R}}^{n_h\times中{n} _v(_v)} \):隐藏层和可见层之间的权重矩阵。w个ij公司表示隐藏层中的i个神经元和可见层中的j个神经元之间的连接权重。
上面显示了组件形式,但可以以矩阵形式重写:
$$ {电子}_{\theta}\left(v,h\right)=-{\tathrm{b}}^Th-{mathrm{a}}^Tv-Wvh$$
(2)
使用公式中定义的能量函数1,状态(V,H)的联合概率分布如下所示:
$$ {P}(P)_{\theta}\左(v,h\右)=\frac{1}{Z{\theta}}\ast{e}^{-{电子}_{\θ}\左(v,h\右)}$$
(3)
哪里
$$ {Z}(Z)_{\theta}={\sum}{v,h}{e}^{-{电子}_{\θ}\左(v,h\右)}$$
(4)
这是一个归一化因子,也称为配分函数。
通过推导,我们得到
$$ {P}(P)_{\θ}\左({h} k(_k)=1\|\v\right)=乙状结肠\left({b} k(_k)+{\总和}_{i=1}^{nv}{w}_{k,i}{v} _ i\右侧)$$
(5)
$$ {P}(P)_{\θ}\左({v} k(_k)=1\|\h\right)=乙状结肠\left({a} k(_k)+{\总和}_{i=1}^{nh}{w}_{j,k}{h} _j(_j)\右侧)$$
(6)
sigmoid函数是神经网络中常用的激活函数,定义如下:
$$sigmoid(x)=\left(\frac{1}{1+{e}^{-x}}\right)$$
(7)
成果管理制培训
给定训练样本,RBM训练旨在调整参数θ{W,a,b}以适应给定的训练样本。对于该参数,相应RBM表示的概率分布应尽可能与训练数据相匹配。数学描述如下:
假设训练样本集为
$$\mathrm{S}=\left\{v}^1,{v}^2,\cdots,{v{^n\right\}$$
(8)
哪里n个秒是训练样本数,\({\mathrm{v}}^i=\左({v} _1个^我,{v} _2^i、 \t个,{v}(v)_{n_v}^i\右)\),我 = 1, 2,⋯,n个秒,并且样本是独立的且分布相同。训练RBM的目标是最大化似然函数。
$${\mathcal{L}}_{\theta,S}={\prod}_{i=1}^{n_s}P\左({v}^i\右)$$
(9)
产品\({\prod}_{i=1}^{n_s}P\左({v}^i\右)解决特殊问题的方法可以从函数ln的严格单调性中推导出来x个; 最大化\({mathcal{L}}_{theta,S}\)相当于\(\ln\{\mathcal{L}}_{\theta,S}\)因此,训练RBM的目标是最大化似然函数。
$$\mathit{\ln}\{\mathcal{L}}_{\theta,S}=\mathit{\ln{\prod}_{i=1}^{n_s}P\左({v}^i\right)={\sum}_{i=1}^{n_s}\mathit{\ln}\P\left({v{i\rift)$$
(10)
为了简单起见,如下所示:,\({mathcal{L}}_{theta,S}\)简化为\({\mathcal{L}}_S\).
然后,最大似然函数计算梯度
$$\frac{\部分lnP(v)}{\部分\theta}=-{\sum}_hP\left(h|v\right)\frac{\partialE\left_{v,h}P\left(v,h\right)\ frac{\partialE\left(v,h\right)}{\parial\theta}$$
(11)
的最大似然函数w个我,j个, 一我, b条我对于偏导数为
$$\压裂{\部分lnP(v)}{\部分{w}_{i,j}}\约P\左({h} _ i=1|v\右){v} _j(_j)-{\sum}_vP(v)P\左({h} _ i=1|v\右){v} _j(_j) $$
(12)
$$\压裂{\部分lnP(v)}{\部分{a} _ i}\近似值{v} _ i-{\sum}_vP(v){v} _ i $$
(13)
$$\压裂{\部分lnP(v)}{\部分{b} _ i}\大约P\左({h} _ i=1|v\右)-{\sum}_vP(v)P\左({h} _ i=1|v\right)$$
(14)
对比度差异(CD)是训练RBM的标准方法[40]. 中的步骤k个-步骤CD算法(缩写为CD-k)很简单。具体来说,大约∀v(v)∈ S取初始值v(v)(0) ≔ v(v) ; 然而,实现k步采集吉布斯采样,这构成了第一个t步(t吨 = 1, 2, ⋯, k个),执行如下:
使用对(小时 | v(v)(t吨 − 1))取样小时(t吨 − 1);
使用对(小时 | v(v)(t吨 − 1))取样v(v)t吨;
然后,通过k个-步骤吉布斯采样,我们得到v(v)(k个)近似对应期望项目的公式\({\sum}_vP(v)\)(或平均项),具体如(12)、(13)和(14)所示。
$$\压裂{\部分lnP(v)}{\部分{w}_{i,j}}\约P\左({h} _ i=1|{v}^{(0)}\右){v} _j(_j)^{(0)}-P\左({h} _ i=1|{v}^{(k)}\右){v} _j(_j)^{(k)}$$
(15)
$$\压裂{\部分lnP(v)}{\部分{a} _ i}\近似值{v} _ i^{(0)}-{v} _ i^{(0)} $$
(16)
$$\压裂{\部分lnP(v)}{\部分{b} _ i}\大约P\左({h} _ i=1|{v}^{(0)}\右)-P\左({h} _ i=1|{v}^{(k)}\右)$$
(17)
事实上,上述近似值可以视为使用
$$C美元{D} k(_k)\left(\theta,v\right)=-{\sum}_hP\left(h|{v}^{(0)}\right$$
(18)
近似值(11)
$$\frac{\partial lnP(v)}{\parial\theta}=-{\sum}_hP\left(h|{v}^{(0)}\right)\ frac{\ partial E\left a}$$
(19)
这样,通过使用随机梯度上升法最大化对数似然并估计训练数据上的函数值,每个参数的更新标准可以描述如下:
$$\增量{西}_{ij}={\langle\langle{v} _ i{h} _j(_j)\右\rangle}_{数据}-{\left\langle(左){v} _ i{h} _j(_j)\右\rangle}_{recon}=\Delta{西}_{ij}+P\左({h} _ i=1|{v}^{(0)}\右){v} _j(_j)^{(0)}-P\左({h} _ i=1|{v}^{(k)}\右){v} _j(_j)^{(k)}$$
(20)
$$\增量\{a} _ i={\左边\语言{v} _ i\右\rangle}_{数据}-{\left\langle(左){v} _ i\右\rangle}_{recon}=\Delta\{a} _ i+{v} _ i^{(0)}-{v} _ i^{(0)} $$
(21)
$$\增量{b} _j(_j)={\左边\语言{h} _j(_j)\右\rangle}_{数据}-{\left\langle(左){h} _j(_j)\右\rangle}_{recon}=\Delta{b} _j(_j)+P\左({h} _ i=1|{v}^{(0)}\右)-P\左({h} _ i=1|{v}^{(k)}\右)$$
(22)