自然语言处理处理的是像人类一样理解文本和口语。它是许多人机交互(语音助手、听写软件、语音操作系统等)、文本处理、分析(建议、关键词识别、翻译等)等的基本组件。 Wolfram Language自然语言处理功能是基于规则和机器学习语言模型(包括LLM)的组合。它建立在高级文本挖掘和字符串操作功能之上,并与大型可视化套件和广泛的内置语言数据集成。
文本生成和获取
LLM综合 —使用LLM从提示符生成文本
文本识别 ▪ 资源数据 ▪ 维基数据
导入 —从文件或web导入文本
“文本” ▪ “PDF” ▪ “HTML” ▪ “CSV” ▪ ...
LLM资源函数 —应用来自Wolfram提示库
LLM功能 —应用自然语言描述指定的操作
LLM提示生成器 —将上下文相关消息添加到LLM提示符
LLM提示 ▪ LLM工具 ▪ 聊天评估 ▪ ...
文本挖掘
语义搜索 —基于词语上下文意义的搜索
文本搜索 —搜索索引或目录,返回文档列表
查找,查找列表 —在文件中搜索包含特定字符串的记录
字符串Take ▪ 字符串替换 ▪ 字符串案例 ▪ 正则表达式 ▪ ...
删除音调符号 —删除变音符号,如重音符号、变音符号等。
角色规格化 —将字符减少或分解为正常形式(例如¼到1/4)
文本翻译 ▪ 音译 ▪ 删除关键词 ▪ 词干 ▪ 至下壳体 ▪ ...
符号化
字符串拆分 —在空格或其他分隔符处拆分字符串
字符串案例 —查找字符串模式的情况
文本案例 ▪ 文本句子 ▪ 文本单词 ▪ 文本结构
特征提取
特征提取 —从文本中提取数字特征
NetModel(网络模型) —用于文本特征提取的预训练网络
“手套” ▪ “伯特” ▪ “ELMo” ▪ “GPT2” ▪ ...
NetGraph(网络图形) ▪ 长短Term内存层 ▪ 注意层
“代币” ▪ “SubwordTokens” ▪ “字符” ▪ ...
内容提取
文本摘要 —自动生成不同类型的摘要
查找文本答案 —尝试从文本中找到问题的答案
文本内容,文本案例,文本位置 —提取文本中的语义元素
文本分类
分类 —基于训练数据或内置分类器对字符串进行分类
“语言” ▪ “恶习” ▪ “情感” ▪ ...
语言识别 —确定文本使用的语言
文本聚类
查找群集 —在字符串数据中查找簇
聚类树 ▪ 群集组件 ▪ 群集分类
单词计数 —字数或-克
字符计数 ▪ 单词频率 ▪ 文字数据 ▪ 语音部分 ▪ ...
文本可视化
文字云 —根据单词频率或权重生成单词云
代码段 —提取一段文本
样式,突出显示的 —使用颜色、字体、大小、背景等设置文本样式。