计算机科学>计算与语言
标题: 测验设计任务:通过自动问题生成帮助教师创建测验
摘要: 问题生成(QGen)模型通常使用基于n-gram重叠的标准化NLG度量进行评估。 在本文中,我们衡量这些指标的改进是否在实际环境中转化为收益,重点关注帮助教师自动生成阅读理解测验的用例。 在我们的研究中,教师在组织测验时会收到问题建议,他们可以接受,也可以有理由拒绝。 尽管我们发现QGen的最新进展导致问题接受率显著提高,但仍有很大的改进空间,参与我们研究的十位老师只接受了最佳模型中68.4%的问题。 然后,我们利用收集到的注释来分析标准NLG指标,发现模型性能已达到预期上限,这表明需要新的自动指标来指导QGen研究向前发展。