人工智能专利数据集

为了帮助研究人员和决策者关注人工智能(AI)发明的决定因素和影响,OCE发布了两个数据文件,统称为人工智能专利数据集(AIPD)。第一个数据文件确定了1976年至2020年间发布的美国专利和授予前出版物(PGPubs)发布到2020年,包含一个或多个人工智能技术组件(包括机器学习、自然语言处理、计算机视觉、语音、知识处理、人工智能硬件、进化计算以及规划和控制)。OCE使用机器学习(ML)方法生成了该数据文件,该方法分析了专利文本和引文,以识别美国专利文件中的人工智能(Abood和Feltenberger,2018年;Toole等人,2020年)。OCE的方法基于Abood和Feltenberger(2018)的方法,但也包括对专利权利要求的分析,以更好地识别发明技术和法律范围中包含的人工智能。第二个数据文件包含用于训练ML模型的专利文档。

一个工作文件SSRN上提供了这些数据的描述已发布版本《技术转让杂志》。要求用户在使用这些数据时引用此文档:Giczy,A.V.,Pairolero,N.A.&Toole,A.A.识别人工智能(AI)发明:一个新的AI专利数据集。Technol Transf杂志(2021)。https://doi.org/10.1007/s10961-021-09900-2

这一努力是通过OCE、政策和国际事务办公室、专利业务部门和首席信息官办公室之间的跨业务部门协作实现的。USPTO报告中使用了AIPD“发明人工智能:用美国专利追踪人工智能的传播。”

如有疑问,请发送电子邮件经济数据@uspto.gov.

发布说明:AIPD于2021年8月2日更新,以解决影响2019年和2020年“愿景”和“any_ai”预测的一个小问题。

数据文件

下载2020年全套数据文件[.dta格式(512毫巴)][.tsv格式(1.03 GB)]

下载单个数据文件:

文件名2020*
ai模型预测数据传输协议
4.96亿
TSV公司
1.02 GB
ai模型培训文档种子组数据传输协议
16.2 MB
TSV公司
14.3 MB

*注:2020.dta文件以Stata-14格式保存。