{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期部分”:[[2024,5,11]],“日期时间”:“2024-05-11T05:18:32Z”,“时间戳”:1715404712771},“引用-计数”:0,“发布者”:“人工智能发展协会(AAAI)”,“问题”:“20”,“内容域”:{“域”:[],“交叉标记限制”:false},“short container-title”:[“AAAI”],“抽象”:“大型语言模型(LLM)能够遵循自然语言指令,并在人的层面上流利地进行操作,这表明在医疗保健领域有很多机会减少行政负担,提高护理质量。然而,评估医疗保健现实文本生成任务的LLM仍然具有挑战性。现有的电子健康记录(EHR)数据问答数据集无法捕获临床医生所经历的信息需求和文档负担的复杂性。为了应对这些挑战,我们引入了MedAlign,这是一个包含983条EHR数据自然语言指令的基准数据集。MedAlign由15名临床医生(7个专业)管理,包括针对303条指令的临床医生编写的参考答案,并为基础指令响应对提供276个纵向EHR。我们使用MedAlign评估了6种一般领域LLM,让临床医生对每种LLM反应的准确性和质量进行排名。我们发现GPT-4的错误率很高,从35%(GPT-4)到68%(MPT-7B-Instruct)不等,GPT-4从32k到2k上下文长度的准确性下降了8.3%。最后,我们报告了临床医生排名和自动自然语言生成指标之间的相关性,作为一种在无需人工审查的情况下对LLM进行排名的方法。我们根据研究数据使用协议提供MedAlign,以便根据临床医生的需求和偏好对任务进行LLM评估<\/jats:p>“,”DOI“:”10.1609\/aaai.v38i20.30205“,”type“:”journal-article“,”created“:{”date-parts“:[[2024,3,25]],”date-time“:”2024-03-25T12:33:44Z“,”timestamp“:1711370024000},”page“:“22021-22030”,“source”:“Crossref”,“is-referenced-by-count”:2,“title”:[“MedAlign:一个临床医生生成的电子病历指令数据集”],“前缀“:”10.1609“,”卷“:”38“,”作者“:[{”给定“:”斯科特·L“,”家族“:”弗莱明“,”序列“:”第一“,”从属“:[]},{”给出“:”亚历杭德罗“,”家庭“:”洛扎诺“,”sequence“:”附加“,”affiliation“:[]},“family”:“Jindal”,“sequence”:“additional”,“affiliation“:[]},{”given“:”Eduardo“,”family“:”Reis“,”sequence“:”additional“,”affiliance“:[]},,{“given”:“Rahul”,“family”:“Thapa”,“sequence”:“additional”,“affiliationation”:[]{“给定”:“Louis”,“家人”:“Blankemier”,“序列”:“附加”,“从属关系”:[]{“Givent”:“Julian Z.”,“家庭”:“Genkins”,”序列:“”附加“,”从属“:[]},{”给定“:”Ethan“,”family“:”Steinberg“,”sequence“:”additional“,”affiliation“:[]},”{“given”:”Ashwin“,”家庭“:”Nayak“,”sequence“:”additionable“,”filiation”:[]{,”given“:”Birju“,“family”:“Patel”,“sequence”:“additional”,“affiliance”:[]},Alison“,”family“:”Callahan“,”sequence“:”additional“,”affiliation“:[]},{”given“:”Zepeng“,”family“:”Hou“,”sequence”:”additive“,”filiation”:[]{“given”:”Sergios“,”家庭“:”Gatidis“,”序列“:”additional“”,“affiliance”:[]},}“giving”:“Scott”,“family”:“Adams”,“sequencence”:“additional”,“abfiliation(从属关系):[]neneneep,{“给定”:“Oluseyi”,“家庭”:“Fayanju”,“sequence”:“additional”,“affiliation”:[]},{“given”:“Shreya J.”,“family”:“Shah”,“sequence”:“additional”,“affiliation”:[]},{”given“:”Thomas“,”family“:”Savage“,”sequence“:”additional“,”affiliance“:[]{,”givent“:”Ethan“,”家人“:”Goh“,”序列“:”additional]},{“给定”:“Nima”,“家庭”:“Aghaeepour”,“sequence”:“additional”,“affiliation”:[]},{“given”:“Christopher”,”family“:”Sharp“,”sequence“:”additional“,”affiliance“:[]{“给定的”:“Michael A.”,“family”:“Pfeffer”,“序列”:“附加的”,“从属关系”:[]}:“陈”,“序列”:“additional”,“affiliation”:[]},{“given”:“Keith E.”,“family”:“Morse”,“sequence”:“additive”,“abfiliation“:[]{”given“:”Emma P.“,”family“:”Brunskill“,“segment”:“附加”,“从属关系”:[]},“givent”:“Jason A.”,“家族”:“Fries”,“sequence”:“additional”,“affiliation”:[]}],“member”:“9382”,“published-online”:{“date-parts”:[[2024,3,24]]},“container-title”:[“AAAI人工智能会议记录”],“original-title“:[],”link“:[{”URL“:”https:\/\/ojs.AAAI.org\/index.php\/AAAAI\/article\/download\/30205\/32141“,”content-type“:”application\/pdf“,”content-version“:”vor“,”intended-application“:“text-mining”},{“URL”:“https:\/\/ojs.aaai.org\/index.php\/aaai\/article\/download\/30205\/32142”,“内容类型”:“unspecified”,“content-version”:“vor”,“intended-application”:“text-mining”{“URL”:“http://\/ojs.aaai.org\/index.php\/aaai\/artracle\/dwnload\/30205\/32141”“:”vor“,”intended-application“:“相似性检查”}],“存放”:{“日期部分”:[[2024,3,25]],“日期时间”:“2024-03-25T12:33:44Z”,“时间戳”:1711370024000},“分数”:1,“资源”:{“主要”:}“URL”:“https:\/\/ojs.aaai.org\/index.php\/AAAAI\/article\/view\/30205”}},”副标题“:[],”短标题“:[],”已发布“:{”日期部分“:[[2024,3,24]]},“引用计数”:0,“日志发布”:{“发布”:“20”,“在线发布”:{“日期部分”:[[2024,3,25]]}},“URL”:“http:\/\/dx.doi.org/10.1609\/aai.v38i20.30205”,“关系”:{},“ISSN”:[“2374-3468”,“2159-5399”],“ISSN类型”:[{“值”:“2374-3468”,“类型”:“电子”},{“值”:“2159-5399”,“类型”:“打印”}],“主题”:[],”已发布”:{“日期部分”:[[2024,3,24]}}}