×

文本CL

swMATH ID: 42371
软件作者: Alina Petukhova,努诺·法哈达
说明: TextCL:NLP预处理任务的Python包。预处理用于自然语言处理任务的文本数据集通常是一项耗时且昂贵的工作。文本数据通常是从网络抓取、扫描文档或PDF文件等来源获得的,通常是非结构化的,容易产生伪影和其他类型的噪声。TextCL包的目标是通过提供适合文本数据预处理的多种方法来简化这一过程。它包括将文本拆分为句子、按语言过滤句子、复杂度过滤和删除重复句子的功能。TextCL包提供的另一个功能是离群值检测模块,它允许识别和过滤与数据集的主主题分布不同的文本。该方法允许从几种非监督异常值检测算法中选择一种,如TONMF(块坐标下降框架)、RPCA(稳健主成分分析)或SVD(奇异值分解),并将其应用于文本数据。
主页: https://alinapetukhova.github.io/textcl/docs网站/
源代码:  https://github.com/alinapetukhova/textcl
依赖项: 蟒蛇
关键词: 自然语言处理;文本筛选;异常值检测;文本CL;蟒蛇;NLP预处理;软件X
相关软件: 变压器;PyTorch公司;熊猫;Scikit公司;数字Py;不在场证明检测;PyNomaly公司;PyOD公司;spaCy公司;NLTK公司;蟒蛇
引用于: 0个文档

标准条款

1出版物描述软件 年份
TextCL:NLP预处理任务的Python包链接
阿利娜·佩图霍娃(Alina Petukhova)、努诺·法哈达(Nuno Fachada)
2022