研究论文

开放式访问

程序设计教育中人工智能生成（GPT-4）和人工生成MCQ的比较研究

作者：
雅各布·道蒂

美国卡内基梅隆大学

美国卡内基梅隆大学

0009-0008-5430-7282
查看个人资料

，
紫胶湾

美国卡内基梅隆大学

美国卡内基梅隆大学

0009-0002-5866-2376
查看个人资料

，
阿尼什卡·邦佩利

美国卡内基梅隆大学

美国卡内基梅隆大学

0009-00007-0420-3429号
查看个人资料

，
朱巴赫德·卡尤姆

美国卡内基梅隆大学

美国卡内基梅隆大学

0009-0006-0956-447X
查看个人资料

，
王韬之

美国卡内基梅隆大学

美国卡内基梅隆大学

0009-0000-7945-0319
查看个人资料

，
张汝兰（Juran Zhang）

美国卡内基梅隆大学

美国卡内基梅隆大学

0009-0003-8689-0357
查看个人资料

，
郑玉佳

美国卡内基梅隆大学

美国卡内基梅隆大学

0009-0001-6121-0621
查看个人资料

，
艾丹·道尔

卡内基梅隆大学-LTI，美国

卡内基梅隆大学-LTI，美国

0009-0008-6260-7517
查看个人资料

，
Pragnya Sridhar公司

卡内基梅隆大学-LTI，美国

卡内基梅隆大学-LTI，美国

0000-0003-2160-288X
查看个人资料

，
阿拉夫·阿加瓦尔

美国卡内基梅隆大学

美国卡内基梅隆大学

0000-0001-9848-1663
查看个人资料

，
克里斯托弗·鲍嘉

美国卡内基梅隆大学

美国卡内基梅隆大学

0000-0001-8581-115X
查看个人资料

，
埃里克·凯勒

美国卡内基梅隆大学

美国卡内基梅隆大学

0009-0006-9782-658X
查看个人资料

，
Can Kulture公司

美国卡内基梅隆大学

美国卡内基梅隆大学

0000-0002-6427-4161
查看个人资料

，
杰罗米尔·萨维尔卡

美国卡内基梅隆大学

美国卡内基梅隆大学

0000-0002-3674-5456
查看个人资料

，
马吉德·萨克

美国卡内基梅隆大学

美国卡内基梅隆大学

0000-0002-3739-298X
查看个人资料

作者信息和声明

ACE’24：第26届澳大利亚计算机教育会议记录2024年1月第114-123页https://doi.org/10.1145/3636243.3636256

出版：2024年1月29日出版历史

ACE’24：第26届澳大利亚计算机教育会议记录

第114-123页

摘要

教育工作者始终需要制定并保持有效的最新评估。虽然在计算教育中越来越多地研究如何在生成和参与编码练习中使用大型语言模型（LLM），但尚未广泛探讨如何使用LLM生成编程MCQ。我们分析了GPT-4生成多项选择题（MCQ）的能力，这些问题与高等教育中Python编程类的特定学习目标（LO）相一致。具体来说，我们开发了一个LLM-powered（GPT-4）系统，用于从高级课程上下文和模块级LO生成MCQ。我们评估了6门Python课程中651个LLM生成的MCQ和449个符合246个LO的人工MCQ。我们发现GPT-4能够用清晰的语言、单一的正确选择和高质量的干扰物产生MCQ。我们还观察到，生成的MCQ似乎与LO一致。希望利用最先进的生成模型支持MCQ创作的教育工作者可以利用我们的研究结果。

工具书类

阿拉夫·阿加瓦尔、卡蒂克·米塔尔、艾丹·道尔、普拉格尼亚·斯里达尔、齐皮奥·万、雅各布·道蒂、雅罗米尔·萨维尔卡和马吉德·萨克尔。2023.通过GPT-4了解温度在产生各种问题中的作用。谷歌学者
阿里·穆罕默德·纳比勒·阿拉姆和穆罕默德·哈桑·哈加格。2012.问答系统：调查。《国际信息科学研究与评论杂志》（IJRRIS）2、3（2012）。谷歌学者
安德鲁·巴特勒。2018.教育中的多项选择测试：评估的最佳实践也有利于学习吗？《记忆与认知应用研究杂志》7，3（2018），323–331。谷歌学者
Dhawaleswar Rao Ch和Sujan Kumar Saha。2018.根据文本自动生成多项选择题：一项调查。IEEE学习技术汇刊13，1（2018），14-25。谷歌学者交叉引用
陈英红和范耀昌。2019.基于BERT的循环问题生成模型。第二届机器阅读问答研讨会论文集。154-162。谷歌学者交叉引用
Billy Ho Hung Cheung、Gary Kui Kai Lau、Gordon Tin Chun Wong、Elaine Yuen Phin Lee、Dhananjay Kulkarni、Choon Sheong Seow、Ruby Wong和Michael Tiong Hong Co.2023年。ChatGPT与人类在生成医学研究生考试问题上的对比——一项国际前瞻性研究。medRxiv（2023年），2023年5月。谷歌学者
Woon Sang Cho、Yizhe Zhang、Sudha Rao、Asli Celikyilmaz、Chenyan Xiong、Jianfeng Gao、Mengdi Wang和Bill Dolan。2019.对比多文档问题生成。arXiv预印本arXiv:1911.03047（2019）。谷歌学者
Paul Denny、John Hamer、Andrew Luxton-Reilly和Helen Purchase。2008.PeerWise：学生分享他们的多项选择题。第四届计算机教育研究国际研讨会论文集。51–58.谷歌学者数字图书馆
保罗·丹尼、维拉伊·库马尔和纳赛尔·贾卡曼。2022.与Copilot对话：探索使用自然语言解决CS1问题的即时工程。arxiv:2210.15157[cs.HC]谷歌学者
雅各布·德夫林（Jacob Devlin）、张明伟（Ming Wei Chang）、肯顿·李（Kenton Lee）和克里斯蒂娜·图塔诺娃（Kristina Toutanova）。2018年，伯特：深度双向变压器语言理解预培训。arXiv预印arXiv:1810.04805（2018）。谷歌学者
杜新亚、邵俊茹和克莱尔·卡迪。2017.学会提问：为阅读理解生成神经问题。计算语言学协会第55届年会论文集（第1卷：长篇论文）。1342–1352.谷歌学者交叉引用
南段、杜玉堂、陈鹏和周明。2017.问答问题生成。2017年自然语言处理实证方法会议记录。866–874.谷歌学者交叉引用
高一凡、李东兵、李皮吉、欧文·金和迈克尔·吕。2019.为真实考试中的阅读理解问题制造干扰因素。《AAAI人工智能会议论文集》，第33卷。6423–6430之间。谷歌学者数字图书馆
迈克尔·海尔曼。2011.根据文本自动生成事实问题。博士。论文。卡内基·梅隆大学。谷歌学者
Sepp Hochreiter和Jürgen Schmidhuber。1997.长短期记忆。神经计算9，8（1997），1735-1780。谷歌学者数字图书馆
舒江（Shu Jiang）和约翰·SY·李（John SY Lee）。2017年。中国填空项目的干扰生成。在第12次关于创新使用NLP构建教育应用程序研讨会的会议记录中。143–148.谷歌学者交叉引用
Dmytro Kalpakchi和Johan Boye。2021.使用小规模数据集，基于BERT的瑞典阅读理解问题分心符生成。arXiv预打印arXiv:2108.03973（2021）。谷歌学者
马吉德·卡泽米塔巴尔（Majeed Kazemitabar）、贾斯汀·周（Justin Chow）、卡尔·卡托·马（Carl Ka To Ma）、芭芭拉·埃里克森（Barbara J Ericson）、大卫·温特洛普（David Weintrop）和托维·格罗斯曼。2023.研究AI代码生成器对入门编程初学者的支持作用。在2023年CHI计算机系统人为因素会议记录中。1–23.谷歌学者数字图书馆
大卫·R·克拉斯沃尔。2002.布鲁姆分类法的修订：概述。理论与实践41，4（2002），212-218。谷歌学者
Archana Praveen Kumar、Ashalatha Nayak、Manjula Shenoy、Shashank Goyal，2023年。一种产生多项选择题干扰因素的新方法。应用专家系统225（2023），120022。谷歌学者数字图书馆
Ghader Kurdi、Jared Leo、Bijan Parsia、Uli Sattler和Salam Al-Emari.2020年。对出于教育目的的自动问题生成的系统回顾。《国际人工智能教育杂志》30（2020），121-204。谷歌学者交叉引用
丹尼尔·莱克（Daniel Leiker）、萨拉·芬尼根（Sara Finnigan）、阿什利·里克·吉伦（Ashley Ricker Gyllen）和穆特鲁·库库洛娃（Mutlu Cukurova）。2023.原型化使用大型语言模型（LLM）大规模创建成人学习内容。在AIED有限责任公司。 https://api.semanticscholar.org/CorpusID:259076210谷歌学者
朱霍·莱诺宁（Juho Leinonen）、保罗·丹尼（Paul Denny）、斯蒂芬·麦克尼尔（Stephen MacNeil）、萨米·萨尔萨（Sami Sarsa）、赛斯·伯恩斯坦（Seth Bernstein）、乔安娜·金（Joanne Kim）、安德鲁·特兰（Andrew Tran）和阿尔托。2023.比较学生创建的代码解释和大型语言模型。arxiv:2304.03938[cs.CY]谷歌学者
李玉恒、拉科维奇、波文欣、加西维奇和陈冠良。2022.基于布鲁姆分类法的学习目标自动分类。在EDM中，Antonija Mitrovic和Nigel Bosch（编辑）。国际EDM协会，英国达勒姆，530-537。https://doi.org/10.5281/zenodo.6853191谷歌学者交叉引用
陈亮、肖扬、内萨·戴夫、德鲁·沃姆、巴特·帕塞尔和C·李·贾尔斯。2018年。利用学习排名分散多项选择题的注意力。在第十三次关于创新使用NLP构建教育应用程序研讨会的会议记录中。284–290.谷歌学者交叉引用
Mark Liffiton、Brad Sheese、Jaromir Savelka和Paul Denny。2023.代码帮助：使用带有护栏的大型语言模型，在编程类中提供可伸缩支持。arXiv预印arXiv:2308.06921（2023）。谷歌学者
路易斯·恩里科·洛佩兹（Luis Enrico Lopez）、黛安·凯瑟琳·克鲁兹（Diane Kathryn Cruz）、简·克里斯蒂安·布莱斯·克鲁兹（Jan Christian Blaise Cruz）和Charibeth Cheng。2020年。基于转换器的端到端问题生成。arXiv预印arXiv:2005.01107 4（2020）。谷歌学者
斯蒂芬·麦克尼尔（Stephen MacNeil）、安德鲁·特兰（Andrew Tran）、阿尔托·海拉斯（Arto Hellas）、乔安娜·金（Joanne Kim）、萨米·萨尔萨（Sami Sarsa）、保罗·丹尼（Paul Denny）、塞斯·伯恩斯坦（Seth Bernstei。2023.在Web软件开发电子书中使用大型语言模型生成的代码解释的经验（SIGCSE 2023）。美国纽约州纽约市ACM，931-937。https://doi.org/10.1145/3545945.3569785谷歌学者数字图书馆
Stephen MacNeil、Andrew Tran、Dan Mogil、Seth Bernstein、Erin Ross和Ziheng Huang。2022.使用GPT-3大型语言模型生成不同的代码解释（ICER’22）。美国纽约州纽约市计算机协会，共3页。https://doi.org/10.1145/3501709.3544280谷歌学者数字图书馆
维贾亚·拉朱·马德里（Vijaya Raju Madri）和斯列尼瓦苏鲁·梅鲁瓦（Sreenivasulu Meruva）。2023.从文本生成MCQ的全面综述。多媒体工具和应用（2023），1–20。谷歌学者
NEA Nasution公司。2023.使用人工智能为高等教育创建生物多项选择题。农业与环境教育2，1（2023年）。谷歌学者
Jeroen Offerijns、Suzan Verberne和Tessa Verhoef。2020年。更好的分心：基于变换的分心物生成和多项选择问题过滤。arXiv预打印arXiv:2010.09598（2020）。谷歌学者
开放人工智能。2023.GPT-4技术报告。(2023). arxiv:2303.08774[cs.CL]谷歌学者
董鹏、何塞·巴勃罗·坎布罗内罗、苏米特·古尔瓦尼、托比亚斯·科恩、鲁帕克·马朱姆达尔、阿迪什·库马尔·辛格拉和古斯塔沃·索亚雷斯。2023.使用大型语言模型生成编程语法错误的高精度反馈。ArXiv abs/2302.04662（2023）。谷歌学者
斯蒂芬·R。Piccolo、Paul Denny、Andrew Luxton-Reilly、Samuel Payne和Perry G。山脊。2023.许多生物信息学编程任务可以通过ChatGPT实现自动化。arxiv:2303.13528[q-bio.OT]谷歌学者
詹姆斯·普拉瑟（James Prather）、保罗·丹尼（Paul Denny）、朱奥·莱诺宁（Juho Leinonen）、布雷特·贝克尔（Brett A Becker）、易卜拉欣·阿尔布鲁维（Ibrahim Albluwi）、米歇尔·克雷格（Michelle Craig）、海克·基宁（Hieke Keuring）、娜塔。机器人在这里：引领计算机教育中的生成性人工智能革命。arXiv预打印arXiv:2310.00658（2023）。谷歌学者
邱欣英、薛海伟、梁凌峰、谢泽新、廖树轩、史国锋。2021.老挝语言学习多选完形填空题的自动生成。2021年亚洲语言处理国际会议（IALP）。IEEE，125–130。谷歌学者交叉引用
亚历克·拉德福德（Alec Radford）、杰弗里·吴（Jeffrey Wu。2019.语言模型是无监督的多任务学习者。(2019).谷歌学者
任思玉（Siyu Ren）和朱肯尼（Kenny Q Zhu）。2021.知识驱动型多选题的分心词生成。《AAAI人工智能会议论文集》，第35卷。4339–4347.谷歌学者交叉引用
里卡多·罗德里格斯-托雷阿尔巴、伊娃·加西亚-洛佩斯和安东尼奥·加西亚-卡伯特。2022.使用文本到文本转换转换器模型端到端生成多选问题。专家系统与应用208（2022），118258。谷歌学者数字图书馆
萨米·萨萨（Sami Sarsa）、保罗·丹尼（Paul Denny）、阿尔托·海拉斯（Arto Hellas）和尤霍·莱诺宁（Juho Leinonen）。2022.使用大型语言模型自动生成编程练习和代码解释。ACM公司。https://doi.org/10.1145/3501385.3543957谷歌学者数字图书馆
雅罗米尔·萨维尔卡（Jaromir Savelka）、阿拉夫·阿加瓦尔（Arav Agarwal）、马歇尔·安（Marshall An）、克里斯·博加特（Chris Bogart）和马吉德·萨克尔（Majd Sakr）。2023.为你的进步而震惊！大型语言模型（GPT-4）不再为通过高等教育编程课程的评估而苦苦挣扎。arXiv预印arXiv:2306.10073（2023）。谷歌学者数字图书馆
雅罗米尔·萨维尔卡、阿拉夫·阿加瓦尔、克里斯托弗·鲍嘉和马吉德·萨克尔。2023.从GPT-3到GPT-4：关于LLM在回答高等教育程序设计课程的多种选择问题方面的发展效力。arXiv预印arXiv:2311.09518（2023）。谷歌学者
雅罗米尔·萨维尔卡、阿拉夫·阿加瓦尔、克里斯托弗·鲍嘉和马吉德·萨克尔。2023.大型语言模型（gpt）难以回答有关代码的多项选择问题。arXiv预印arXiv:2303.08033（2023）。谷歌学者
雅罗米尔·萨维尔卡（Jaromir Savelka）、阿拉夫·阿加瓦尔（Arav Agarwal）、克里斯托弗·鲍嘉（Christopher Bogart）、宋一凡（Yifan Song）和马吉德·萨克尔（Majd Sakr）。2023.生成性预训练变形金刚（GPT）能否通过高等教育编程课程的评估？。《2023年计算机科学教育创新与技术会议论文集第1卷（芬兰图尔库）》（ITiCSE 2023）。美国纽约州纽约市计算机协会，117-123。https://doi.org/10.1145/3587102.3588792谷歌学者数字图书馆
Jaromir Savelka、Paul Denny、Mark Liffiton和Brad Sheese。2023.使用大型语言模型编程课程中学生帮助请求的有效分类。arxiv:2310.20105[cs.CY]谷歌学者
Brad Sheese、Mark Liffiton、Jaromir Savelka和Paul Denny。2023.学生在使用大型语言模型驱动的编程助手时寻求帮助的模式。arxiv:2310.16984[cs.CY]谷歌学者
Jinnie Shin、Qi Guo和Mark J Gierl。2019.使用主题建模方法开发多项选择项目干扰因素。心理学前沿10（2019），825。谷歌学者
马可·安东尼奥·卡利约恩·索尔斯和费尔南多·席尔瓦·帕雷拉斯。2020年，问答技术、范式和系统的文献综述。《沙特国王大学学报-计算机和信息科学》32，6（2020），635-646。谷歌学者交叉引用
布拉尼亚·斯里达尔、艾丹·道尔、阿拉夫·阿加瓦尔、克里斯托弗·鲍嘉、杰罗米尔·萨维尔卡和马吉德·萨克尔。2023.在课程设计中利用llms：使用gpt-4支持编写学习目标。arXiv预印arXiv:2306.17459（2023）。谷歌学者
杜玉堂、南段、陶琴、赵燕和明周。2017.作为双重任务的问题回答和问题生成。arXiv预印本arXiv：1706.02027（2017）。谷歌学者
Marcy H Towns公司。2014.制定高质量、可靠和有效的多项选择评估指南。《化学教育杂志》91，9（2014），1426-1431。谷歌学者交叉引用
Andrew Tran、Kenneth Angelikas、Egi Rama、Chiku Okechukwu、David H Smith IV和Stephen MacNeil。【名词】。使用大型语言模型为计算课程生成多项选择题。（[日期]）。谷歌学者
Des Traynor和J Paul Gibson。2005年，CS1中自动评估方法的综合与分析：生成智能MCQ。ACM SIGCSE公告37，1（2005），495–499。谷歌学者数字图书馆
克里斯蒂安·瓦切夫（Kristiyan Vachev）、蒙奇尔·哈达洛夫（Momchil Hardalov）、格奥尔吉·卡拉季霍夫（Georgi Karadzhov）、格尔吉·乔治耶夫（Geoggi Georgiev）、伊万·科切夫（Ivan Koychev）和普雷斯。2022.叶：多选择问题生成。在欧洲信息检索会议上。施普林格，321-328。谷歌学者数字图书馆
阿什什·瓦斯瓦尼（Ashish Vaswani）、诺姆·沙泽尔（Noam Shazeer）、尼基·帕尔玛（Niki Parmar）、雅各布·乌斯科雷特（Jakob Uszkoreit）、利昂·琼斯（Llion Jones）、艾丹·戈麦斯（Aidan N Gomez）、尤卡斯·凯泽（ukasz Kaiser。2017年。你所需要的就是关注。神经信息处理系统进展30（2017）。谷歌学者
王子超、安德鲁·斯兰、聂伟力、安德鲁·沃特斯、菲利普·格里马尔迪和理查德·巴拉纽克。2018.QG-net：教育内容的数据驱动问题生成模型。第五届ACM规模学习年会论文集。1-10。谷歌学者数字图书馆
N.Wongpakaran、T.Wongbakaran，D.Wedding和K.Gwet。2013年，科恩（Cohen）的卡帕（Kappa）和格威特（Gwet）的AC1（AC1）在计算跨学科信度系数时的比较：一项针对人格障碍样本的研究。BMC医学研究方法（2013）。https://doi.org/10.1186/1471-2288-13-61谷歌学者交叉引用
S.Zec、N.Soriani、R.Comoretto和I.Baldi。2017年，高度一致和高度流行：科恩的卡帕悖论。《开放护理杂志》（2017），221–218。https://doi.org/10.2174/1874434601711010211谷歌学者交叉引用
周晓瑞、罗森林和吴云芳。2020年。共同注意层次网络：为阅读理解产生连贯的长分心物。《AAAI人工智能会议论文集》，第34卷。9725–9732.谷歌学者交叉引用

索引术语

程序设计教育中人工智能生成（GPT-4）和人工生成MCQ的比较研究
1. 以人为中心的计算
  1. 人机交互（HCI）
    1. 交互式系统和工具
2. 社交和专业话题
  1. 专业主题
    1. 计算机教育
      1. 计算机教育课程
        计算机科学教育
        软件工程教育

建议

计算机生成的三维训练环境：基于仿真、用户和问题的学习SUPL方法

基于问题的学习是一种教学策略，强调通过基于经验的积极解决问题的方法积累和发展知识。这个教学框架可以用游戏技术实例化。。。
阅读更多信息
从教育文本自动生成问题
人工智能XL
摘要
基于问题的活动（QBA）在教育中广泛使用，传统上是学习和评估过程的一个组成部分。在本文中，我们设计并评估了一个用于形成性和。。。
阅读更多信息
通过GPT-4了解温度在生成各种问题中的作用
SIGCSE 2024：第55届ACM计算机科学教育技术研讨会论文集V.2

我们对GPT的温度参数对GPT4生成问题的多样性的影响进行了初步研究。我们发现，使用更高的温度值会导致显著更高的多样性，不同的温度暴露出不同的。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

发布于
ACE’24：第26届澳大利亚计算机教育会议记录
2024年1月
208页
国际标准图书编号：9798400716195
内政部：10.1145/3636243
编辑：
妮可·赫伯特
塔斯马尼亚大学
，
卡罗琳·塞顿
南十字大学
版权所有©2024所有者/作者
本作品根据Creative Commons Attribution International 4.0许可证授权。
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2024年1月29日
检查更新
作者标记
评估
自动化内容生成
自动生成
GPT-4型
有限责任经理
洛杉矶
大型语言模型
学习目标
多项选择题
多项选择题
限定符
- 研究论文
- 研究
- 推荐有限公司
会议

接受率
总体验收率161属于359提交，45%
资金来源
其他指标
查看文章指标

文章指标
- 1
  引文总数
  查看引文
- 1,014
  下载总量
- 下载次数（过去12个月）1,014
- 下载次数（最近6周）349
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

HTML格式

以HTML格式查看本文。

查看HTML格式

程序设计教育中人工智能生成（GPT-4）和人工生成MCQ的比较研究

ACE’24：第26届澳大利亚计算机教育会议记录

摘要

工具书类

引用人

索引术语

建议

计算机生成的三维训练环境：基于仿真、用户和问题的学习SUPL方法

从教育文本自动生成问题

通过GPT-4了解温度在生成各种问题中的作用

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

检查更新

作者标记

限定符

会议

接受率

资金来源

其他指标

文章指标

其他指标

引用人

PDF格式

电子阅读器

数字版

HTML格式

解说词

程序设计教育中人工智能生成（GPT-4）和人工生成MCQ的比较研究

ACE’24：第26届澳大利亚计算机教育会议记录

摘要

工具书类

引用人

索引术语

建议

计算机生成的三维训练环境：基于仿真、用户和问题的学习SUPL方法

从教育文本自动生成问题

通过GPT-4了解温度在生成各种问题中的作用

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

检查更新

作者标记

限定符

会议

接受率

资金来源

文章指标

其他指标

PDF格式

电子阅读器

数字版

HTML格式

共享此出版物链接

在社交媒体上分享