文本分析

Wolfram语言包括越来越复杂的工具,用于分析和可视化文本,包括结构和语义。

文本的来源

导入    示例数据    维基数据

字数(WordCount) 文本中的单词总数

单词计数 字数或-克

单词频率 单词频率或-克

信件计数    字符计数

排序 按字母顺序排序

关键字排序    Take最大

分类 基于训练数据或内置分类器对字符串进行分类

最近的 从列表中查找最匹配的字符串

查找群集 在字符串数据中查找簇

聚类树    群集组件    群集分类

树状图 相似性层次图

编辑距离 编辑或Levenshtein距离

语言识别 确定文本使用的语言

字典查找    文字数据    词干    语音部分    转写

单词频率数据 典型现代和历史文本的词频数据

语义导入 导入具有语义理解的文本

基于LLM的分析»

LLM功能 将自然语言指定的基于LLM的操作应用于文本

LLM资源函数 从应用基于LLM的操作Wolfram提示库

LLM示例函数    LLM提示    LLM综合    LLM工具

文本可视化

样式 使用颜色、字体或大小设置文本样式

文字云 从单词频率或权重生成单词云

代码段 提取一段文本

字符串分区 将字符串划分为大小相等的块

插入换行符 将字符串拆分为多行

文本分析

文本结构 将文本解析为其语法结构

文本比较»

序列对齐    最长通用子序列    距离矩阵    。。。

内容分析

文本内容 生成文本中已标识元素的数据集

内容提取

文本案例 提取象征性指定的元素

包含    选择    实体

文本位置 符号指定元素的位置

查找文本答案 尝试从文本中找到问题的答案

文本规范化»

文本单词    文本句子    删除关键词    删除音调符号    。。。