{“id”:“https://openalex.org/W4377865190“,”doi“:”https://doi.org/10.48550/arxiv.2305.13169“,”title“:“预培训者培训数据指南:测量数据年龄、域覆盖率、质量和毒性的影响”,”display_name“:”预培训者训练数据指南:衡量数据年龄、域名覆盖率、品质和毒性的影响“,”publication_year“:2023,”publiation_date“:”2023-01-01“,”ids“:{”openalex“:”https://openalex.org/W4377865190“,”doi“:”https://doi.org/10.48550/arxiv.2305.13169“},”language“:”en“,”primary_location“:{”is_oa“:true,”landing_page_url“:”https://arxiv.org/abs/2305.13169“,”pdf_url“:空,”源“:{”id“:”https://openalex.org/S4306400194“,”display_name“:”arXiv(康奈尔大学)“,”issn_l“:null,”issn“:null,”is_oa“:true,”is_ in_doaj“:false,”host_organization“:”https://openalex.org/I205783295“,”host_organization_name“:”康奈尔大学“,”host_organization_lineage“:[”https://openalex.org/I205783295“],”host_organization_lineage_names“:[”康奈尔大学“],“type”:“repository”},“license”:“other-oa”,“licence_id”:“https://openalex.org/licenses/other-oa“,”version“:”submittedVersion“,”is_accepted“:false,”is_published“:false},”type“:”preprint“,”type_crossref“:“posted-content”,”indexed_in“:[”arxiv“,”datacite“],”open_access“:{”is_oa“:true,”oa_status“:”green“,”oa_url“:”https://arxiv.org/abs/2305.13169“,”any_repository_has_fulltext“:true},”authorships“:[{”author_position“:”第一“,”作者“:{”id“:”https://openalex.org/A5001884064“,”display_name“:”Shayne Longpre“,”orcid“:null},”institutions“:[],”countries“:[],”is_corresponding“:false,”raw_author_name“:”Longpre,Shayne“,”raw _affiliation_strings“:]},{”author_position“:”middle“,”author“:{”id“:”https://openalex.org/A5033032726“,”display_name“:”Gregory Yauney“,”orcid“:null},”institutions“:[],”countries“:[],”is_corresponding“:false,”raw_author_name“:”Yauney,Gregory“,”raw _affiliation_strings“:]},{”author_position“:”middle“,”author“:{”id“:”https://openalex.org/A5019880413“,”display_name“:”Emily Reif“,”orcid“:”https://orcid.org/0000-0003-3572-6234“},”机构“:[],”国家“:[[],”is_corresponding“:false,”raw_author_name“:”Reif,Emily“,”raw关联字符串“:[]},{“author_position”:“middle”,“author”:{“id”:“https://openalex.org/A5024032496“,”display_name“:”Katherine Lee“,”orcid“:”https://orcid.org/0000-0002-5267-0474“},”机构“:[],”国家“:[[],”is_corresponding“:false,”raw_author_name“:”Lee,Katherine“,”raw关联字符串“:[]},{“author_position”:“middle”,“author”:{“id”:“https://openalex.org/A5052454696“,”display_name“:”Adam Roberts“,”orcid“:”https://orcid.org/0000-0003-1621-1964“},”机构“:[],”国家“:[[],”is_corresponding“:false,”raw_author_name“:”Roberts,Adam“,”raw关联字符串“:[]},{“author_position”:“middle”,“author”:{“id”:“https://openalex.org/A5026064427“,”display_name“:”Barret Zoph“,”orcid“:null},”institutions“:[],”countries“:[],”is_corresponding“:false,”raw_author_name“:”Zoph,Barret“,”raw _affiliation_strings“:]},{”author_position“:”middle“,”author“:{”id“:”https://openalex.org/A5061512999“,”display_name“:”Denny Zhou“,”orcid“:null},”institutions“:[],”countries“:[],”is_corresponding“:false,”raw_author_name“:”Zhou,Denny“,”raw _affiliation_strings“:]},{”author_position“:”middle“,”author“:{”id“:”https://openalex.org/A5028843482“,”display_name“:”Jason Lee“,”orcid“:”https://orcid.org/0000-0003-4042-795X“},”机构“:[],”国家“:[[],”is_corresponding“:false,”raw_author_name“:”Wei,Jason“,”raw关联字符串“:[]},{“author_position”:“middle”,“author”:{“id”:“https://openalex.org/A5039609347“,”display_name“:”Kevin Robinson“,”orcid“:null},”institutions“:[],”countries“:[],”is_corresponding“:false,”raw_author_name“:”Robinson,Kevin“,”raw _affiliation_strings“:]},{”author_position“:”middle“,”author“:{”id“:”https://openalex.org/A5086934220“,”display_name“:”David Mimno“,”orcid“:”https://orcid.org/0000-0001-7510-9404“},”机构“:[],”国家“:[[],”is_corresponding“:false,”raw_author_name“:”Mimno,David“,”raw关联字符串“:[]},{“author_position”:“last”,“author”:{“id”:“https://openalex.org/A5022994077“,”display_name“:”Daphne Ippolito“,”orcid“:null},”institutions“:[],”countries“:[],”is_corresponding“:false,”raw_author_name“:”Ippolico,Daphne“,”raw _affiliation_strings“:【】}“,”contries_distict_count“:0,”instistictions_distinact_count“:零,”apc_payd“:空,”has_fulltext“:false,”cited_by_count“:0,”cited_by_percentile_year“:{”min“:0”max“:78},”biblio“:{”volume“:null,”issue“:null:”first_page“:null,”last_page“:null},“is_retracted”:false“is_paratext”:false,“primary_topic”:{“id”:“https://openalex.org/T10028“,”display_name“:”自然语言处理“,”score“:0.9963,”subfield“:{”id“:”https://openalex.org/subfields/1702“,”display_name“:”人工智能“},”字段“:{”id“:”https://openalex.org/fields/17“,”display_name“:”Computer Science“},”domain“:{”id“:”https://openalex.org/domains/3“,”display_name“:”物理科学“}},”主题“:[{”id“:”https://openalex.org/T10028“,”display_name“:”自然语言处理“,”score“:0.9963,”subfield“:{”id“:”https://openalex.org/subfields/1702“,”display_name“:”人工智能“},”字段“:{”id“:”https://openalex.org/fields/17“,”display_name“:”Computer Science“},”domain“:{”id“:”https://openalex.org/domains/3“,”display_name“:”物理科学“}},{”id“:”https://openalex.org/T10181“,”display_name“:”统计机器翻译与自然语言处理“,”score“:0.9793,”subfield“:{”id“:”https://openalex.org/subfields/1702“,”display_name“:”人工智能“},”字段“:{”id“:”https://openalex.org/fields/17“,”display_name“:”Computer Science“},”domain“:{”id“:”https://openalex.org/domains/3“,”display_name“:”物理科学“}},{”id“:”https://openalex.org/T10260“,”“display_name”:“软件工程实证研究”,“score”:0.9089,“subfield”:{“id”:“https://openalex.org/subfields/1710“,”display_name“:”Information Systems“},”field“:{”id“:”https://openalex.org/fields/17“,”display_name“:”Computer Science“},”domain“:{”id“:”https://openalex.org/domains/3“,”display_name“:”物理科学“}}],”关键词“:[{”id“:”https://openalex.org/keywords/software-defect-pedition网站“,”display_name“:”软件缺陷预测“,”score“:0.526915},{”id“:”https://openalex.org/关键字/source-code-annalysis“,”display_name“:”源代码分析“,”score“:0.525816},{”id“:”https://openalex.org/keywords/topic-modeling网站“,”“display_name”“:”主题建模“,”分数“:0.506539},{”id“:”https://openalex.org/关键词/语言建模“,”display_name“:”Language Modeling“,”score“:0.506139}],”concepts“:[{”id“:”https://openalex.org/C41008148,“wikidata”:https://www.wikidata.org/wiki/Q21198“,”display_name“:”计算机科学“,”level“:0,”score“:0.72044706},{”id“:”https://openalex.org/C51632099,“wikidata”:https://www.wikidata.org/wiki/Q3985153“,”display_name“:”训练集“,”level“:2,”score“:0.7038807},{”id“:”https://openalex.org/C2777615720,“wikidata”:https://www.wikidata.org/wiki/Q1188847“,”display_name“:”Prioritization“,”level“:2,”score“:0.6420332},{”id“:”https://openalex.org/C177264268,“wikidata”:https://www.wikidata.org/wiki/Q1514741“,”display_name“:”Set(abstract data type)“,”level“:2,”score“:0.5520096},{”id“:”https://openalex.org/C36503486,“wikidata”:https://www.wikidata.org/wiki/Q11235244“,”display_name“:”域(数学分析)“,”level“:2,”score“:0.5516103},{”id“:”https://openalex.org/C2779530757,“wikidata”:https://www.wikidata.org/wiki/Q1207505“,”display_name“:”质量(理念)“,”级别“:2,”分数“:0.5411197},{”id“:”https://openalex.org/C58489278,“wikidata”:https://www.wikidata.org/wiki/Q1172284“,”display_name“:”数据集“,”level“:2,”score“:0.53266776},{”id“:”https://openalex.org/C24756922,“wikidata”:https://www.wikidata.org/wiki/Q1757694“,”display_name“:”数据质量“,”level“:3,”score“:0.52948266},{”id“:”https://openalex.org/C2776145971,“wikidata”:https://www.wikidata.org/wiki/Q30673951“,”display_name“:”标签数据“,”level“:2,”score“:0.4625821},{”id“:”https://openalex.org/C119857082,“wikidata”:https://www.wikidata.org/wiki/Q2539“,”display_name“:”机器学习“,”level“:1,”score“:0.36352816},{”id“:”https://openalex.org/C154945302,“wikidata”:https://www.wikidata.org/wiki/Q11660“,”display_name“:”人工智能“,”level“:1,”score“:0.3532763},{”id“:”https://openalex.org/C124101348,“wikidata”:https://www.wikidata.org/wiki/Q172491“,”display_name“:”数据挖掘“,”level“:1,”score“:0.33099663},{”id“:”https://openalex.org/C33923547,“wikidata”:https://www.wikidata.org/wiki/Q395网址“,”display_name“:”数学“,”等级“:0,”分数“:0.09258419},{”id“:”https://openalex.org/C134306372,“wikidata”:https://www.wikidata.org/wiki/Q7754“,”display_name“:”数学分析“,”level“:1,”score“:0.0},{”id“:”https://openalex.org/C176217482,“wikidata”:https://www.wikidata.org/wiki/Q860554“,”display_name“:”公制(单位)“,”级别“:2,”分数“:0.0},{”id“:”https://openalex.org/C138885662,“wikidata”:https://www.wikidata.org/wiki/Q5891“,”display_name“:”哲学“,”等级“:0,”分数“:0.0},{”id“:”https://openalex.org/C21547014,“wikidata”:https://www.wikidata.org/wiki/Q1423657“,”display_name“:”Operations management“,”level“:1,”score“:0.0},{”id“:”https://openalex.org/C111472728,“wikidata”:https://www.wikidata.org/wiki/Q9471“,”display_name“:”认识论“,”level“:1,”score“:0.0},{”id“:”https://openalex.org/C539667460网址,“wikidata”:https://www.wikidata.org/wiki/Q2414942“,”display_name“:”管理科学“,”level“:1,”score“:0.0},{”id“:”https://openalex.org/C162324750,“wikidata”:https://www.wikidata.org/wiki/Q8134“,”display_name“:”经济学“,”level“:0,”score“:0.0},{”id“:”https://openalex.org/C199360897,“wikidata”:https://www.wikidata.org/wiki/Q9143“,”display_name“:”编程语言“,”level“:1,”score“:0.0}],”mesh“:[],”locations_count“:2,”location“:[{”is_oa“:true,”landing_page_url“:”https://arxiv.org/abs/2305.13169“,”pdf_url“:空,”源“:{”id“:”https://openalex.org/S4306400194“,”display_name“:”arXiv(康奈尔大学)“,”issn_l“:null,”issn“:null,”is_oa“:true,”is_ in_doaj“:false,”host_organization“:”https://openalex.org/I205783295“,”host_organization_name“:”康奈尔大学“,”host_organization_lineage“:[”https://openalex.org/I205783295“],”host_organization_lineage_names“:[”康奈尔大学“],“type”:“repository”},“license”:“other-oa”,“licence_id”:“https://openalex.org/licenses/other-oa“,”版本“:”提交版本“,”is_accepted“:false,”is_published“:false},{”is_oa“:false,”landing_page_url“:”https://api.datacite.org/dois/10.48550/arxiv.2305.13169“,”pdf_url“:空,”源“:{”id“:”https://openalex.org/S4393179698“,”display_name“:”DataCite API“,”issn_l“:null,”issn“:null,”is_oa“:true,”is_ in_doaj“:false,”host_organization“:”https://openalex.org/I4210145204“,”“host_organization_name”:“DataCite”,“host_organization_lineage”:[“https://openalex.org/I4210145204“],”host_organization_lineage_names“:[”DataCite“],“type”:“metadata”},“license”:null,“licence_id”:null,“version”:null}],“best_oa_location”:{“is_oa”:true,“landing_page_url”:“https://arxiv.org/abs/2305.13169“,”pdf_url“:空,”源“:{”id“:”https://openalex.org/S4306400194“,”display_name“:”arXiv(康奈尔大学)“,”issn_l“:null,”issn“:null,”is_oa“:true,”is_ in_doaj“:false,”host_organization“:”https://openalex.org/I205783295“,”host_organization_name“:”康奈尔大学“,”host_organization_lineage“:[”https://openalex.org/I205783295“],”host_organization_lineage_names“:[”康奈尔大学“],“type”:“repository”},“license”:“other-oa”,“licence_id”:“https://openalex.org/licenses/other-oa“,”version“:”submittedVersion“,”is_accepted“:false,”is_published“:false},”sustainable_development_goals“:[{”id“:”https://metadata.un.org/sdg/4“,”score“:0.41,”display_name“:”Quality education“}],”grants“:[],”datasets“:【】,”versions“:【],”referenced_works_count“:0,”referrenced_works“:[],”related_work斯“:[”https://openalex.org/W4317548404","https://openalex.org/W3163689946","https://openalex.org/W3104108945","https://openalex.org/W3022007134","https://openalex.org/W2786391746网址","https://openalex.org/W2161052216","https://openalex.org/W2130553454","https://openalex.org/W2094985717","https://openalex.org/W2087783760网址","https://openalex.org/W2033364610“],”ngrams_url“:”https://api.openalex.org/works/W4377865190/ngrams网站“,”“abstract_inverted_index”:{“Pretraining”:[0],“is”:[1,18,82157],“the”:[2,62,90128147167],“prepartial”:[3],“and”:[4,21,50,53,74,94105155160175],“basic”:[5],“step”:[6],“in”:[7193],“developing”:[8],“capable”:[9],“language”:[10],“models”:[11],“(LM)。”:[12],“Whiter”:[13],“this”:[14,30],“预训练”:[15,65,75],“数据“:[16,40,66,73,76151],”设计“:[17],”批判性“:[19],”未充分记录“:[20],”经常“:[22],”引导“:[23],”由“:[24,85],”经验性“:[25144],”不支持“:[26],”直觉。“:[27],”收件人“:[28],”地址“:[29],”我们“:[31,60,88143184],”预处理“:[32],”28“:[33],”1.5B“:[34],”参数“:[35],”仅解码器“:[36],”模型“:[37],”培训“:[38122],”on“:[39102],”策展“:[41],”(1)“:[42],”at“:[43],”different“:[44,56131],”times,“”:[45],“(2)”:[46],“有”:[47,55],“变化”:[48],“毒性”:[49,95],“质量”:[51,93],“过滤器”:[52,96],“(3)”:[54],“领域”:[57140],“成分”:[58],“第一,”:[59],“量化”:[61],“效果”:[63,91],“的”:[64,92107130133149170],“年龄”:[67],“A”:[68],“暂时”:[69],“移位”:[70],“介于”:[71100],“评估”:[72],“引导”:[77],“到”:[78120172],“性能”:[79101],“降级,“:[80],”其中“:[81183],”不“:[83115136],”克服“:[84],“微调。”:[86],“第二,”:[87],“探索”:[89],“显示”:[97],“a”:[98117],“权衡”:[99],“标准”:[103],“基准”:[104],“风险”:[106],“有毒”:[108],“世代”:[109],“我们的”:[110],“发现”:[111165],“表明”:[112],“那里”:[113],“确实”:[114],“存在”:[116],“one-size-fits-a ll“:[118],”解决方案“:[119],”过滤“:[121134],”数据“:[123],“我们”:[124],“也”:[125],“发现”:[126],“那”:[127146],“效果”:[129],“类型”:[132],“是”:[135],“可预测”:[137],“来自”:[138],“文本”:[139181],“特征。”:[141],“最后,”:[142],“验证”:[145],“包含”:[148],“异质”:[150],“源”:[152],“类似”:[153],“书籍”:[154],“网络”:[156],“广泛”:[158],“受益”:[159],“认股权证”:[161],“更大”:[162],“优先顺序。”:[163],“这些”:[164],“构成”:[166],“最大”:[168],“集合”:[169],“实验”:[171],“验证”:[173],“量化”:[174],“暴露”:[176],“许多”:[177],“未记录”:[178],“直觉”:[179],“关于”:[180],“预训练”:[182],“希望”:[185],“将”:[186],“帮助“:[187],”支持“:[188],”更多“:[189],”知情“:[190],“以数据为中心”:[191],“决策”:[192],“LM”:[194],“开发”:[195]},“cited_by_api_url”:“https://api.openalex.org/works?filter=cites:W4377865190“,”counts_by_year“:[],”updated_date“:”2024-05-28T08:22:05.866790“,”created_date”:“2023-05-24”}