用户界面设计对测试的影响

杰森·戴尔发表了一篇精彩的评论美国研究所(American Institute for Research)制定的一些考试项目和界面选择,以及他们开发的新公共核心考试。他审查的那一个被称为“SAGE”。

设计用户界面是一项艰巨的工作。尤其是当你的用户界面将为成千上万的人服务时。但对于教育测试而言,UI最重要的部分是,应尽一切努力将UI对学生测试成绩/分数测量的影响降至最低。

我认为SAGE测试存在巨大缺陷,会影响测试结果的有效性。如果要根据这些结果来评判学生、教师、学校、地区甚至公共核心标准本身,我认为UI设计需要做更多的工作。

下面是Dyer描述的一个缺陷示例:

问题中的百分比意味着答案也将以x%的形式给出,但绝对无法在行中键入百分比符号(仅用键盘键入%是无法识别的)。所以像51%这样的数字需要输入为.51。分数也无法识别。

(此外,问题的措辞也不准确,如果我吹毛求疵,而且我挑剔,那么我会重述一遍,”如果琼斯女士从班上随机挑选一名学生,概率是多少…“)

我们可能直觉地认为,这个问题及其界面的作者和设计者要么(a)没有考虑到.51%和51%之间的差异,要么(b)确实给出了,但决定输入框的限制可能足以引导到十进制响应。请注意,在这两种情况下,作者和设计者都认为从问题到答案的格式变化并不重要。什么会斯特兰克和怀特说什么?

对于一个数学相当成熟的人来说,很明显,.51%和51%在这种情况下可以互换,但在形式上并不等同。但这些测试应该用来测量数学成熟度有问题的人群。

这种UI设计的另一个更微妙的元素是,输入框引导用户执行某些操作。在某种程度上,这是问题的一部分。学生不能输入51/100。试图键入“%”的学生被无声阻止。应注意这些未说出的交流和交互规则。它们会影响学生/用户的行为吗?是效果吗?”回归的“从某种意义上说,表现差的学生更有可能难以破译界面?(因此更有可能在该测试项目上表现不佳)

另一个例子表明UI受到的关注程度很低:

 

在单独的一行中输入每个数字“与上述百分比问题正好相反。在这种情况下,作者和设计者认为他们的界面需要关于如何响应的直接指示。除了风格不协调外,这很简单罗嗦的.

这些测试的设计者似乎急于摆脱选择题的提问方式。多项选择有一个很大的缺点,那就是答案是给出的,只隐藏在分心物中,分心物作为一组可能会提供线索,说明哪些反应与其他反应不同。一定是这样的仔细考虑过创建MC测试时。因此,探索由该技术支持的替代响应系统是合理的。

也许作者不想给输入框贴标签?第一位_____第二位_____我当然明白为什么要避免使用“第一个”和“第二个”以及“数字1”或“一个数字”和“另一个”。

也许作者不想使用变量? 两个数字x和y的乘积为323,差为2。x=___ y=___好的,也许变量超出了测试范围,或者学生在那个阶段可能不熟悉。

但还有其他选择。答案输入框可以嵌入完整的句子。 这两个数字是___和___。

最后,戴尔指出,这个问题意味着一个解决方案{17,19},但还有另一个{-17,-19}。这让我想知道该如何给考试评分。Wolfram Alpha已经证明了软件解释各种数学输入的能力。我们可以通过计算检查答案而不是比较答案来给这些测试打分吗?如果学生输入-17和-19,为什么不计算乘积和差值,看看它是否与词干匹配?计算机代数系统或动态几何软件通过计算检查学生输入的结果?

我认为很难很好地设计这些项目,我确实认为探索各种输入方法是值得的,然而,我认为需要付出更多的努力来标准化输入方法。我认为,这些测试的最佳界面是用户最不了解的界面,即用户不必弄清楚怎样除了参加考试,还要参加考试。