跳到主要内容
10.1145/3636243.3636256其他会议文章/章节视图摘要出版物页面aus-ce公司会议记录会议集合
研究论文
开放式访问

程序设计教育中人工智能生成(GPT-4)和人工生成MCQ的比较研究

作者信息和声明
出版:2024年1月29日出版历史

摘要

教育工作者始终需要制定并保持有效的最新评估。虽然在计算教育中越来越多地研究如何在生成和参与编码练习中使用大型语言模型(LLM),但尚未广泛探讨如何使用LLM生成编程MCQ。我们分析了GPT-4生成多项选择题(MCQ)的能力,这些问题与高等教育中Python编程类的特定学习目标(LO)相一致。具体来说,我们开发了一个LLM-powered(GPT-4)系统,用于从高级课程上下文和模块级LO生成MCQ。我们评估了6门Python课程中651个LLM生成的MCQ和449个符合246个LO的人工MCQ。我们发现GPT-4能够用清晰的语言、单一的正确选择和高质量的干扰物产生MCQ。我们还观察到,生成的MCQ似乎与LO一致。希望利用最先进的生成模型支持MCQ创作的教育工作者可以利用我们的研究结果。

工具书类

  1. 阿拉夫·阿加瓦尔、卡蒂克·米塔尔、艾丹·道尔、普拉格尼亚·斯里达尔、齐皮奥·万、雅各布·道蒂、雅罗米尔·萨维尔卡和马吉德·萨克尔。2023.通过GPT-4了解温度在产生各种问题中的作用。谷歌学者谷歌学者
  2. 阿里·穆罕默德·纳比勒·阿拉姆和穆罕默德·哈桑·哈加格。2012.问答系统:调查。《国际信息科学研究与评论杂志》(IJRRIS)2、3(2012)。谷歌学者谷歌学者
  3. 安德鲁·巴特勒。2018.教育中的多项选择测试:评估的最佳实践也有利于学习吗?《记忆与认知应用研究杂志》7,3(2018),323–331。谷歌学者谷歌学者
  4. Dhawaleswar Rao Ch和Sujan Kumar Saha。2018.根据文本自动生成多项选择题:一项调查。IEEE学习技术汇刊13,1(2018),14-25。谷歌学者谷歌学者交叉引用交叉引用
  5. 陈英红和范耀昌。2019.基于BERT的循环问题生成模型。第二届机器阅读问答研讨会论文集。154-162。谷歌学者谷歌学者交叉引用交叉引用
  6. Billy Ho Hung Cheung、Gary Kui Kai Lau、Gordon Tin Chun Wong、Elaine Yuen Phin Lee、Dhananjay Kulkarni、Choon Sheong Seow、Ruby Wong和Michael Tiong Hong Co.2023年。ChatGPT与人类在生成医学研究生考试问题上的对比——一项国际前瞻性研究。medRxiv(2023年),2023年5月。谷歌学者谷歌学者
  7. Woon Sang Cho、Yizhe Zhang、Sudha Rao、Asli Celikyilmaz、Chenyan Xiong、Jianfeng Gao、Mengdi Wang和Bill Dolan。2019.对比多文档问题生成。arXiv预印本arXiv:1911.03047(2019)。谷歌学者谷歌学者
  8. Paul Denny、John Hamer、Andrew Luxton-Reilly和Helen Purchase。2008.PeerWise:学生分享他们的多项选择题。第四届计算机教育研究国际研讨会论文集。51–58.谷歌学者谷歌学者数字图书馆数字图书馆
  9. 保罗·丹尼、维拉伊·库马尔和纳赛尔·贾卡曼。2022.与Copilot对话:探索使用自然语言解决CS1问题的即时工程。arxiv:2210.15157[cs.HC]谷歌学者谷歌学者
  10. 雅各布·德夫林(Jacob Devlin)、张明伟(Ming Wei Chang)、肯顿·李(Kenton Lee)和克里斯蒂娜·图塔诺娃(Kristina Toutanova)。2018年,伯特:深度双向变压器语言理解预培训。arXiv预印arXiv:1810.04805(2018)。谷歌学者谷歌学者
  11. 杜新亚、邵俊茹和克莱尔·卡迪。2017.学会提问:为阅读理解生成神经问题。计算语言学协会第55届年会论文集(第1卷:长篇论文)。1342–1352.谷歌学者谷歌学者交叉引用交叉引用
  12. 南段、杜玉堂、陈鹏和周明。2017.问答问题生成。2017年自然语言处理实证方法会议记录。866–874.谷歌学者谷歌学者交叉引用交叉引用
  13. 高一凡、李东兵、李皮吉、欧文·金和迈克尔·吕。2019.为真实考试中的阅读理解问题制造干扰因素。《AAAI人工智能会议论文集》,第33卷。6423–6430之间。谷歌学者谷歌学者数字图书馆数字图书馆
  14. 迈克尔·海尔曼。2011.根据文本自动生成事实问题。博士。论文。卡内基·梅隆大学。谷歌学者谷歌学者
  15. Sepp Hochreiter和Jürgen Schmidhuber。1997.长短期记忆。神经计算9,8(1997),1735-1780。谷歌学者谷歌学者数字图书馆数字图书馆
  16. 舒江(Shu Jiang)和约翰·SY·李(John SY Lee)。2017年。中国填空项目的干扰生成。在第12次关于创新使用NLP构建教育应用程序研讨会的会议记录中。143–148.谷歌学者谷歌学者交叉引用交叉引用
  17. Dmytro Kalpakchi和Johan Boye。2021.使用小规模数据集,基于BERT的瑞典阅读理解问题分心符生成。arXiv预打印arXiv:2108.03973(2021)。谷歌学者谷歌学者
  18. 马吉德·卡泽米塔巴尔(Majeed Kazemitabar)、贾斯汀·周(Justin Chow)、卡尔·卡托·马(Carl Ka To Ma)、芭芭拉·埃里克森(Barbara J Ericson)、大卫·温特洛普(David Weintrop)和托维·格罗斯曼。2023.研究AI代码生成器对入门编程初学者的支持作用。在2023年CHI计算机系统人为因素会议记录中。1–23.谷歌学者谷歌学者数字图书馆数字图书馆
  19. 大卫·R·克拉斯沃尔。2002.布鲁姆分类法的修订:概述。理论与实践41,4(2002),212-218。谷歌学者谷歌学者
  20. Archana Praveen Kumar、Ashalatha Nayak、Manjula Shenoy、Shashank Goyal,2023年。一种产生多项选择题干扰因素的新方法。应用专家系统225(2023),120022。谷歌学者谷歌学者数字图书馆数字图书馆
  21. Ghader Kurdi、Jared Leo、Bijan Parsia、Uli Sattler和Salam Al-Emari.2020年。对出于教育目的的自动问题生成的系统回顾。《国际人工智能教育杂志》30(2020),121-204。谷歌学者谷歌学者交叉引用交叉引用
  22. 丹尼尔·莱克(Daniel Leiker)、萨拉·芬尼根(Sara Finnigan)、阿什利·里克·吉伦(Ashley Ricker Gyllen)和穆特鲁·库库洛娃(Mutlu Cukurova)。2023.原型化使用大型语言模型(LLM)大规模创建成人学习内容。AIED有限责任公司。 https://api.semanticscholar.org/CorpusID:259076210谷歌学者谷歌学者
  23. 朱霍·莱诺宁(Juho Leinonen)、保罗·丹尼(Paul Denny)、斯蒂芬·麦克尼尔(Stephen MacNeil)、萨米·萨尔萨(Sami Sarsa)、赛斯·伯恩斯坦(Seth Bernstein)、乔安娜·金(Joanne Kim)、安德鲁·特兰(Andrew Tran)和阿尔托。2023.比较学生创建的代码解释和大型语言模型。arxiv:2304.03938[cs.CY]谷歌学者谷歌学者
  24. 李玉恒、拉科维奇、波文欣、加西维奇和陈冠良。2022.基于布鲁姆分类法的学习目标自动分类。在EDM中,Antonija Mitrovic和Nigel Bosch(编辑)。国际EDM协会,英国达勒姆,530-537。https://doi.org/10.5281/zenodo.6853191谷歌学者谷歌学者交叉引用交叉引用
  25. 陈亮、肖扬、内萨·戴夫、德鲁·沃姆、巴特·帕塞尔和C·李·贾尔斯。2018年。利用学习排名分散多项选择题的注意力。在第十三次关于创新使用NLP构建教育应用程序研讨会的会议记录中。284–290.谷歌学者谷歌学者交叉引用交叉引用
  26. Mark Liffiton、Brad Sheese、Jaromir Savelka和Paul Denny。2023.代码帮助:使用带有护栏的大型语言模型,在编程类中提供可伸缩支持。arXiv预印arXiv:2308.06921(2023)。谷歌学者谷歌学者
  27. 路易斯·恩里科·洛佩兹(Luis Enrico Lopez)、黛安·凯瑟琳·克鲁兹(Diane Kathryn Cruz)、简·克里斯蒂安·布莱斯·克鲁兹(Jan Christian Blaise Cruz)和Charibeth Cheng。2020年。基于转换器的端到端问题生成。arXiv预印arXiv:2005.01107 4(2020)。谷歌学者谷歌学者
  28. 斯蒂芬·麦克尼尔(Stephen MacNeil)、安德鲁·特兰(Andrew Tran)、阿尔托·海拉斯(Arto Hellas)、乔安娜·金(Joanne Kim)、萨米·萨尔萨(Sami Sarsa)、保罗·丹尼(Paul Denny)、塞斯·伯恩斯坦(Seth Bernstei。2023.在Web软件开发电子书中使用大型语言模型生成的代码解释的经验(SIGCSE 2023)。美国纽约州纽约市ACM,931-937。https://doi.org/10.1145/3545945.3569785谷歌学者谷歌学者数字图书馆数字图书馆
  29. Stephen MacNeil、Andrew Tran、Dan Mogil、Seth Bernstein、Erin Ross和Ziheng Huang。2022.使用GPT-3大型语言模型生成不同的代码解释(ICER’22)。美国纽约州纽约市计算机协会,共3页。https://doi.org/10.1145/3501709.3544280谷歌学者谷歌学者数字图书馆数字图书馆
  30. 维贾亚·拉朱·马德里(Vijaya Raju Madri)和斯列尼瓦苏鲁·梅鲁瓦(Sreenivasulu Meruva)。2023.从文本生成MCQ的全面综述。多媒体工具和应用(2023),1–20。谷歌学者谷歌学者
  31. NEA Nasution公司。2023.使用人工智能为高等教育创建生物多项选择题。农业与环境教育2,1(2023年)。谷歌学者谷歌学者
  32. Jeroen Offerijns、Suzan Verberne和Tessa Verhoef。2020年。更好的分心:基于变换的分心物生成和多项选择问题过滤。arXiv预打印arXiv:2010.09598(2020)。谷歌学者谷歌学者
  33. 开放人工智能。2023.GPT-4技术报告。(2023). arxiv:2303.08774[cs.CL]谷歌学者谷歌学者
  34. 董鹏、何塞·巴勃罗·坎布罗内罗、苏米特·古尔瓦尼、托比亚斯·科恩、鲁帕克·马朱姆达尔、阿迪什·库马尔·辛格拉和古斯塔沃·索亚雷斯。2023.使用大型语言模型生成编程语法错误的高精度反馈。ArXiv abs/2302.04662(2023)。谷歌学者谷歌学者
  35. 斯蒂芬·R。Piccolo、Paul Denny、Andrew Luxton-Reilly、Samuel Payne和Perry G。山脊。2023.许多生物信息学编程任务可以通过ChatGPT实现自动化。arxiv:2303.13528[q-bio.OT]谷歌学者谷歌学者
  36. 詹姆斯·普拉瑟(James Prather)、保罗·丹尼(Paul Denny)、朱奥·莱诺宁(Juho Leinonen)、布雷特·贝克尔(Brett A Becker)、易卜拉欣·阿尔布鲁维(Ibrahim Albluwi)、米歇尔·克雷格(Michelle Craig)、海克·基宁(Hieke Keuring)、娜塔。机器人在这里:引领计算机教育中的生成性人工智能革命。arXiv预打印arXiv:2310.00658(2023)。谷歌学者谷歌学者
  37. 邱欣英、薛海伟、梁凌峰、谢泽新、廖树轩、史国锋。2021.老挝语言学习多选完形填空题的自动生成。2021年亚洲语言处理国际会议(IALP)。IEEE,125–130。谷歌学者谷歌学者交叉引用交叉引用
  38. 亚历克·拉德福德(Alec Radford)、杰弗里·吴(Jeffrey Wu。2019.语言模型是无监督的多任务学习者。(2019).谷歌学者谷歌学者
  39. 任思玉(Siyu Ren)和朱肯尼(Kenny Q Zhu)。2021.知识驱动型多选题的分心词生成。《AAAI人工智能会议论文集》,第35卷。4339–4347.谷歌学者谷歌学者交叉引用交叉引用
  40. 里卡多·罗德里格斯-托雷阿尔巴、伊娃·加西亚-洛佩斯和安东尼奥·加西亚-卡伯特。2022.使用文本到文本转换转换器模型端到端生成多选问题。专家系统与应用208(2022),118258。谷歌学者谷歌学者数字图书馆数字图书馆
  41. 萨米·萨萨(Sami Sarsa)、保罗·丹尼(Paul Denny)、阿尔托·海拉斯(Arto Hellas)和尤霍·莱诺宁(Juho Leinonen)。2022.使用大型语言模型自动生成编程练习和代码解释。ACM公司。https://doi.org/10.1145/3501385.3543957谷歌学者谷歌学者数字图书馆数字图书馆
  42. 雅罗米尔·萨维尔卡(Jaromir Savelka)、阿拉夫·阿加瓦尔(Arav Agarwal)、马歇尔·安(Marshall An)、克里斯·博加特(Chris Bogart)和马吉德·萨克尔(Majd Sakr)。2023.为你的进步而震惊!大型语言模型(GPT-4)不再为通过高等教育编程课程的评估而苦苦挣扎。arXiv预印arXiv:2306.10073(2023)。谷歌学者谷歌学者数字图书馆数字图书馆
  43. 雅罗米尔·萨维尔卡、阿拉夫·阿加瓦尔、克里斯托弗·鲍嘉和马吉德·萨克尔。2023.从GPT-3到GPT-4:关于LLM在回答高等教育程序设计课程的多种选择问题方面的发展效力。arXiv预印arXiv:2311.09518(2023)。谷歌学者谷歌学者
  44. 雅罗米尔·萨维尔卡、阿拉夫·阿加瓦尔、克里斯托弗·鲍嘉和马吉德·萨克尔。2023.大型语言模型(gpt)难以回答有关代码的多项选择问题。arXiv预印arXiv:2303.08033(2023)。谷歌学者谷歌学者
  45. 雅罗米尔·萨维尔卡(Jaromir Savelka)、阿拉夫·阿加瓦尔(Arav Agarwal)、克里斯托弗·鲍嘉(Christopher Bogart)、宋一凡(Yifan Song)和马吉德·萨克尔(Majd Sakr)。2023.生成性预训练变形金刚(GPT)能否通过高等教育编程课程的评估?。《2023年计算机科学教育创新与技术会议论文集第1卷(芬兰图尔库)》(ITiCSE 2023)。美国纽约州纽约市计算机协会,117-123。https://doi.org/10.1145/3587102.3588792谷歌学者谷歌学者数字图书馆数字图书馆
  46. Jaromir Savelka、Paul Denny、Mark Liffiton和Brad Sheese。2023.使用大型语言模型编程课程中学生帮助请求的有效分类。arxiv:2310.20105[cs.CY]谷歌学者谷歌学者
  47. Brad Sheese、Mark Liffiton、Jaromir Savelka和Paul Denny。2023.学生在使用大型语言模型驱动的编程助手时寻求帮助的模式。arxiv:2310.16984[cs.CY]谷歌学者谷歌学者
  48. Jinnie Shin、Qi Guo和Mark J Gierl。2019.使用主题建模方法开发多项选择项目干扰因素。心理学前沿10(2019),825。谷歌学者谷歌学者
  49. 马可·安东尼奥·卡利约恩·索尔斯和费尔南多·席尔瓦·帕雷拉斯。2020年,问答技术、范式和系统的文献综述。《沙特国王大学学报-计算机和信息科学》32,6(2020),635-646。谷歌学者谷歌学者交叉引用交叉引用
  50. 布拉尼亚·斯里达尔、艾丹·道尔、阿拉夫·阿加瓦尔、克里斯托弗·鲍嘉、杰罗米尔·萨维尔卡和马吉德·萨克尔。2023.在课程设计中利用llms:使用gpt-4支持编写学习目标。arXiv预印arXiv:2306.17459(2023)。谷歌学者谷歌学者
  51. 杜玉堂、南段、陶琴、赵燕和明周。2017.作为双重任务的问题回答和问题生成。arXiv预印本arXiv:1706.02027(2017)。谷歌学者谷歌学者
  52. Marcy H Towns公司。2014.制定高质量、可靠和有效的多项选择评估指南。《化学教育杂志》91,9(2014),1426-1431。谷歌学者谷歌学者交叉引用交叉引用
  53. Andrew Tran、Kenneth Angelikas、Egi Rama、Chiku Okechukwu、David H Smith IV和Stephen MacNeil。【名词】。使用大型语言模型为计算课程生成多项选择题。([日期])。谷歌学者谷歌学者
  54. Des Traynor和J Paul Gibson。2005年,CS1中自动评估方法的综合与分析:生成智能MCQ。ACM SIGCSE公告37,1(2005),495–499。谷歌学者谷歌学者数字图书馆数字图书馆
  55. 克里斯蒂安·瓦切夫(Kristiyan Vachev)、蒙奇尔·哈达洛夫(Momchil Hardalov)、格奥尔吉·卡拉季霍夫(Georgi Karadzhov)、格尔吉·乔治耶夫(Geoggi Georgiev)、伊万·科切夫(Ivan Koychev)和普雷斯。2022.叶:多选择问题生成。在欧洲信息检索会议上。施普林格,321-328。谷歌学者谷歌学者数字图书馆数字图书馆
  56. 阿什什·瓦斯瓦尼(Ashish Vaswani)、诺姆·沙泽尔(Noam Shazeer)、尼基·帕尔玛(Niki Parmar)、雅各布·乌斯科雷特(Jakob Uszkoreit)、利昂·琼斯(Llion Jones)、艾丹·戈麦斯(Aidan N Gomez)、尤卡斯·凯泽(ukasz Kaiser。2017年。你所需要的就是关注。神经信息处理系统进展30(2017)。谷歌学者谷歌学者
  57. 王子超、安德鲁·斯兰、聂伟力、安德鲁·沃特斯、菲利普·格里马尔迪和理查德·巴拉纽克。2018.QG-net:教育内容的数据驱动问题生成模型。第五届ACM规模学习年会论文集。1-10。谷歌学者谷歌学者数字图书馆数字图书馆
  58. N.Wongpakaran、T.Wongbakaran,D.Wedding和K.Gwet。2013年,科恩(Cohen)的卡帕(Kappa)和格威特(Gwet)的AC1(AC1)在计算跨学科信度系数时的比较:一项针对人格障碍样本的研究。BMC医学研究方法(2013)。https://doi.org/10.1186/1471-2288-13-61谷歌学者谷歌学者交叉引用交叉引用
  59. S.Zec、N.Soriani、R.Comoretto和I.Baldi。2017年,高度一致和高度流行:科恩的卡帕悖论。《开放护理杂志》(2017),221–218。https://doi.org/10.2174/1874434601711010211谷歌学者谷歌学者交叉引用交叉引用
  60. 周晓瑞、罗森林和吴云芳。2020年。共同注意层次网络:为阅读理解产生连贯的长分心物。《AAAI人工智能会议论文集》,第34卷。9725–9732.谷歌学者谷歌学者交叉引用交叉引用

索引术语

  1. 程序设计教育中人工智能生成(GPT-4)和人工生成MCQ的比较研究

        建议

        评论

        登录选项

        检查您是否可以通过登录凭据或您的机构访问本文。

        登录

        完全访问权限

        PDF格式

        以PDF文件查看或下载。

        PDF格式

        电子阅读器

        使用eReader联机查看。

        电子阅读器

        HTML格式

        以HTML格式查看本文。

        查看HTML格式