自然语言处理

自然语言处理处理的是像人类一样理解文本和口语。它是许多人机交互（语音助手、听写软件、语音操作系统等）、文本处理、分析（建议、关键词识别、翻译等）等的基本组件。 Wolfram Language自然语言处理功能是基于规则和机器学习语言模型（包括LLM）的组合。它建立在高级文本挖掘和字符串操作功能之上，并与大型可视化套件和广泛的内置语言数据集成。

文本获取

导入 —从文件或web导入文本

“文本”,“PDF”,“HTML”,“CSV”,… —挑选明文、表格数据等。

文本识别 ▪ 示例数据 ▪ 维基数据

LLM综合 —使用LLM从提示符生成文本

文本挖掘

文本搜索 —搜索索引或目录，返回文档列表

查找,查找列表 —搜索包含特定字符串的记录的文件

字符串Take ▪ 字符串替换 ▪ 字符串案例 ▪ 正则表达式 ▪ ...

文本规范化»

删除音调符号 —删除变音符号，如重音符号、变音符号等。

角色规格化 —将字符减少或分解为正常形式（例如¼到1/4）

文本翻译 ▪ 转写 ▪ 删除关键词 ▪ 词干 ▪ 到小写 ▪ ...

符号化

字符串拆分 —在空格或其他分隔符处拆分字符串

字符串案例 —查找字符串模式的情况

文本案例 ▪ 文本句子 ▪ 文本单词 ▪ 文本结构

基于LLM的操作»

LLM资源函数 —应用来自Wolfram提示库

LLM功能 —应用自然语言描述指定的操作

LLM示例函数 —根据示例应用操作

LLM提示 ▪ LLM工具 ▪ 聊天评估 ▪ ...

特征提取

特征提取 —从文本中提取数字特征

NetModel（网络模型） —用于文本特征提取的预训练网络

“手套” ▪ “BERT”（误码率） ▪ “ELMo” ▪ “GPT2” ▪ ...

内容提取

文本摘要 —自动生成不同类型的摘要

查找文本答案 —尝试从文本中找到问题的答案

文本内容,文本案例,文本位置 —提取文本中的语义元素

文本分类

分类 —基于训练数据或内置分类器对字符串进行分类

“语言” ▪ “恶习” ▪ “情感” ▪ ...

语言识别 —确定文本使用的语言

文本聚类

查找群集 —在字符串数据中查找簇

聚类树 ▪ 群集组件 ▪ 群集分类

文本分析»

单词计数 —字数或-克

字符计数 ▪ 单词频率 ▪ 文字数据 ▪ 语音部分 ▪ ...

文本可视化

文字云 —从单词频率或权重生成单词云

代码段 —提取一段文本

样式,突出显示的 —使用颜色、字体、大小、背景等设置文本样式。

顶部

Enable JavaScript to interact with content and submit forms on Wolfram websites. Learn how