TMG公司

从文本集合中生成术语文档矩阵的MATLAB工具箱从文本集合中进行数据挖掘和信息检索的大量计算核心涉及到线性代数的技术。这些内核通常对以大型稀疏项文档矩阵(tdm)形式表示的数据进行操作。我们提出了一个研究和教学工具箱TMG,用于从文本集合生成稀疏tdm,并通过添加或删除的方式对这些tdm进行增量修改。工具箱完全是用MATLAB编写的,MATLAB是一个流行的问题解决环境,在计算线性代数方面很强大,目的是简化文档预处理和信息检索算法的原型。讨论了几个与使用MATLAB稀疏基础设施和数据结构有关的设计问题。探讨了不同权值的查询策略对任务性能的影响