自然语言处理

自然语言处理处理的是像人类一样理解文本和口语。它是许多人机交互（语音助手、听写软件、语音操作系统等）、文本处理、分析（建议、关键词识别、翻译等）等的基本组件。 Wolfram Language自然语言处理功能是基于规则和机器学习语言模型（包括LLM）的组合。它建立在高级文本挖掘和字符串操作功能之上，并与大型可视化套件和广泛的内置语言数据集成。

文本生成和获取

LLM综合 —使用LLM从提示符生成文本

文本识别 ▪ 资源数据 ▪ 维基数据

导入 —从文件或web导入文本

“文本” ▪ “PDF” ▪ “HTML” ▪ “CSV” ▪ ...

基于LLM的操作»

LLM资源函数 —应用来自Wolfram提示库

LLM功能 —应用自然语言描述指定的操作

LLM提示生成器 —将上下文相关消息添加到LLM提示符

LLM提示 ▪ LLM工具 ▪ 聊天评估 ▪ ...

文本挖掘

语义搜索 —基于词语上下文意义的搜索

文本搜索 —搜索索引或目录，返回文档列表

查找,查找列表 —在文件中搜索包含特定字符串的记录

字符串Take ▪ 字符串替换 ▪ 字符串案例 ▪ 正则表达式 ▪ ...

文本规范化»

删除音调符号 —删除变音符号，如重音符号、变音符号等。

角色规格化 —将字符减少或分解为正常形式（例如¼到1/4）

文本翻译 ▪ 音译 ▪ 删除关键词 ▪ 词干 ▪ 至下壳体 ▪ ...

符号化

字符串拆分 —在空格或其他分隔符处拆分字符串

字符串案例 —查找字符串模式的情况

文本案例 ▪ 文本句子 ▪ 文本单词 ▪ 文本结构

特征提取

特征提取 —从文本中提取数字特征

NetModel（网络模型） —用于文本特征提取的预训练网络

“手套” ▪ “伯特” ▪ “ELMo” ▪ “GPT2” ▪ ...

NetGraph（网络图形） ▪ 长短Term内存层 ▪ 注意层

“代币” ▪ “SubwordTokens” ▪ “字符” ▪ ...

内容提取

文本摘要 —自动生成不同类型的摘要

查找文本答案 —尝试从文本中找到问题的答案

文本内容,文本案例,文本位置 —提取文本中的语义元素

文本分类

分类 —基于训练数据或内置分类器对字符串进行分类

“语言” ▪ “恶习” ▪ “情感” ▪ ...

语言识别 —确定文本使用的语言

文本聚类

查找群集 —在字符串数据中查找簇

聚类树 ▪ 群集组件 ▪ 群集分类

文本分析»

单词计数 —字数或-克

字符计数 ▪ 单词频率 ▪ 文字数据 ▪ 语音部分 ▪ ...

文本可视化

文字云 —根据单词频率或权重生成单词云

代码段 —提取一段文本

样式,突出显示的 —使用颜色、字体、大小、背景等设置文本样式。

顶部

Enable JavaScript to interact with content and submit forms on Wolfram websites. Learn how