2022年9月26日出版 |版本v3.0.2
软件 正常开放

rspeer/wordfreq:v3.0

  • 1基本认知

说明

v3.0:“更好地处理数字”版本

 

以前,wordfreq会将相同“形状”的所有数字序列分组,

长度为2或更大时,转换为单个标记,并返回该标记的频率
这将是一个巨大的高估。

现在它将频率分布在该形状的所有数字上
考虑本福德定律的估计分布
frequent)和4位数的特殊频率分布
相似年份(2010年比1020年更频繁)。

与数字相关的更多更改:

  • 功能,如iter_word列表顶部_列表不再返回
    多数字(他们过去常常以“粉碎”的形式返回,例如
    如“0000”)。

  • 有损标记化不再用0替换数字序列。这种事经常发生
    而是在一个内部的地方单词_频率函数,所以我们可以
    在数字被替换之前,先看看它们的值。

其他变更:

  • wordfreq现在使用作为其包管理器,并具有
    pyproject.toml软件作为配置源,而不是设置.py.

  • 支持的Python最低版本为3.7。

  • 类型信息使用导出py.键入.

文件夹

rspeer/wordfreq-v3.0.2.zip

文件夹(56.8 MB)

姓名 大小 全部下载
md5:22a8337dd5dc94350b6c4f7b93ffb9e9
56.8 MB 预览 下载

其他详细信息

相关工程