自然语言处理

自然语言处理处理的是像人类一样理解文本和口语。它是许多人机交互(语音助手、听写软件、语音操作系统等)、文本处理、分析(建议、关键词识别、翻译等)等的基本组件。 Wolfram Language自然语言处理功能是基于规则和机器学习语言模型(包括LLM)的组合。它建立在高级文本挖掘和字符串操作功能之上,并与大型可视化套件和广泛的内置语言数据集成。

文本获取

导入 从文件或web导入文本

“文本”,“PDF”,“HTML”,“CSV”, 挑选明文、表格数据等。

文本识别    示例数据    维基数据

LLM综合 使用LLM从提示符生成文本

文本挖掘

文本搜索 搜索索引或目录,返回文档列表

查找,查找列表 搜索包含特定字符串的记录的文件

字符串Take    字符串替换    字符串案例    正则表达式    ...

文本规范化»

删除音调符号 删除变音符号,如重音符号、变音符号等。

角色规格化 将字符减少或分解为正常形式(例如¼到1/4)

文本翻译    转写    删除关键词    词干    到小写    ...

符号化

字符串拆分 在空格或其他分隔符处拆分字符串

字符串案例 查找字符串模式的情况

文本案例    文本句子    文本单词    文本结构

基于LLM的操作»

LLM资源函数 应用来自Wolfram提示库

LLM功能 应用自然语言描述指定的操作

LLM示例函数 根据示例应用操作

LLM提示    LLM工具    聊天评估    ...

特征提取

特征提取 从文本中提取数字特征

NetModel(网络模型) 用于文本特征提取的预训练网络

“手套”    “BERT”(误码率)    “ELMo”    “GPT2”    ...

内容提取

文本摘要 自动生成不同类型的摘要

查找文本答案 尝试从文本中找到问题的答案

文本内容,文本案例,文本位置 提取文本中的语义元素

文本分类

分类 基于训练数据或内置分类器对字符串进行分类

“语言”    “恶习”    “情感”    ...

语言识别 确定文本使用的语言

文本聚类

查找群集 在字符串数据中查找簇

聚类树    群集组件    群集分类

文本分析»

单词计数 字数或-克

字符计数    单词频率    文字数据    语音部分    ...

文本可视化

文字云 从单词频率或权重生成单词云

代码段 提取一段文本

样式,突出显示的 使用颜色、字体、大小、背景等设置文本样式。