行业实力
自然语言
处理

在Python中

把事情做完

spaCy旨在帮助您完成真正的工作——构建真正的产品,或收集真正的见解。该库尊重您的时间,并尽量避免浪费时间。它易于安装,其API简单高效。

燃烧得很快

spaCy擅长大规模信息提取任务。它是在精心管理的Cython内存中从头开始写的。如果您的应用程序需要处理整个web转储,那么spaCy就是您要使用的库。

令人敬畏的生态系统

自2015年发布以来,spaCy已成为具有巨大生态系统的行业标准。从各种插件中选择,与机器学习堆栈集成,并构建自定义组件和工作流。

编辑代码并尝试spaCyspaCy v型3.7·Python 3·via 粘合剂

特征

  • 支持75+语言
  • 84经过训练的管道对于25 语言
  • 预训练的多任务学习变压器如BERT
  • 预先训练单词向量
  • 最先进的速度
  • 生产就绪培训系统
  • 语言动机标记化
  • 的组件命名实体识别、词性标注、依存分析、句子分割、,文本分类,旅名化,形态学分析,实体链接等
  • 易于扩展自定义零部件和属性
  • 支持中的自定义模型PyTorch公司, TensorFlow公司和其他框架
  • 内置可视化工具用于语法和NER
  • 容易的模型包装、部署和工作流管理
  • 稳健、经过严格评估的准确性

新款
大型语言模型:将LLM集成到结构化NLP管道中

spacy-lm包 将大型语言模型(LLM)集成到spaCy中,具有用于快速原型法提示,并将非结构化响应转化为稳健的输出对于各种NLP任务,无培训数据必修的。

来自spaCy制造商
神童:彻底高效的机器教学

神童:彻底高效的机器教学

Prodigy是一个注释工具效率如此之高,数据科学家可以自己进行注释,从而实现新级别的快速迭代。无论您是从事实体识别、意图检测还是图像分类,Prodigy都可以帮助您 培训和评估您的模型更快。

定制管道的可复制培训

spaCy v3.0为 配置训练跑步。您的配置文件将描述训练跑步的每个细节,没有隐藏的默认值,使您可以轻松地重新运行实验并跟踪变化。您可以使用快速入门小部件或 初始化配置 命令开始,或克隆端到端工作流的项目模板。

开始

语言
组件
硬件
优化
#这是一个自动生成的部分配置。将其用于“spacy train” #您可以运行spacy init fill-config自动填充所有默认设置: #python-m空间初始化fill-config/基本配置cfg/配置.cfg [路径] 火车 = 无效的 开发 = 无效的 向量 = 无效的 [系统] gpu分配器 = 无效的 [自然语言处理] = 英语 管道 = [] 批处理大小 = 1000 [组件] [语料库] [语料库.训练] @读者 = 斯帕西。公司v1 路径 = ${paths.train} 最大长度(_L) = 0 [语料库.dev] @读者 = 空间。公司v1 路径 = ${paths.dev} 最大长度(_L) = 0 [训练] dev_corpus公司 = 语料库.dev 列车_车体 = 培训公司 [培训.优化器] @优化器 = 亚当v1 [训练观察员] @配料器 = 空格.batch_by_words.v1 放弃_反转 = 容忍 = 0.2 [培训.观察员.尺寸] @时间表 = 复合.v1 开始 = 100 停止 = 1000 复合 = 1.001 [初始化] 向量 = ${路径.vectors}



从原型到生产的端到端工作流

spaCy的新项目系统为您提供了从原型到生产的平滑路径。它可以让你跟踪所有这些 数据转换、预处理和 培训步骤,因此您可以确保您的项目始终准备好进行自动化移交。它的特点是源资产下载、命令执行、校验和验证以及与各种后端和集成的缓存。

试试看

spaCy定制管道

获得一个定制的spaCy管道,由spaCy的核心开发人员为您的NLP问题量身定制。

  • 流线型。没有人比我们更了解spaCy。请将您的管道需求发送给我们,我们将随时准备开始生成您的解决方案。
  • 生产准备就绪。spaCy管道功能强大,易于部署。您将获得一个完整的spaCy项目文件夹,可以spacy项目运行.
  • 可预测。你会确切地知道你将得到什么,它将花费什么。我们预先报价,让您在购买前尝试,并且不会在我们这边收取超额费用——所有风险都在我们身上。
  • 可维护。spaCy是一个行业标准,我们将为您的管道提供完整的代码、数据、测试和文档,因此您的团队可以根据您的需求变化重新培训、更新和扩展解决方案。

高级NLP with spaCy:免费在线课程

在这个免费互动在线课程您将学习如何使用spaCy构建高级自然语言理解系统,使用基于规则的方法和机器学习方法。它包括 55次练习在浏览器中提供视频、幻灯片、多项选择题和交互式编码练习。

基准

spaCy v3.0引入了基于变压器的管道,使spaCy的精确度达到当前水平最先进的。您还可以使用CPU优化的管道,该管道精度较低,但运行成本更低。

更多结果

管道分析器标记器净入学率
en_core_web_trf(spaCy v3)95.197.889.8
en_core_web_lg(spaCy v3)9297.485.5
en_core_web_lg(spaCy v2)91.997.285.5

全管道精度OntoNotes 5.0语料库(报告于开发集)。

命名实体识别系统OntoNotes(待办事项)03年CoNLL
spaCy RoBERTa(2020年)89.891.6
Stanza(斯坦福德NLP)188.892.1
天赋289.793.1

命名实体识别准确性OntoNotes 5.0CoNLL-2003公司语料库。请参见NLP进度对于更多结果。项目模板:基准测试/ner_conll03.1 Qi等人(2020).2 Akbik等人(2018).