显示带有标签的帖子文本分割.显示所有帖子
显示带有标签的帖子文本分割.显示所有帖子

2023年4月17日星期一

ICU4X 1.2:现在在低资源设备上实现文本分割和更多功能

ICUX小组委员会主席Shane Carr

在全球范围内,人们上网的次数越来越少各种设备,包括智能手机、智能手表和小工具。的一个分支国际Unicode组件(ICU)委员会,ICU4X委员会是负责使这些下一代设备能够与每个其他数千种语言。用Rust书写,ICU4X带来轻盈,面向低资源设备和许多编程语言。

自2022年9月首次发布大型版本以来,ICU4X团队已经一直忙于构建其他功能和基础设施。今天,团队很高兴宣布推出ICU4X 1.2,该版本首次稳定发布了分段器组件、更多Unicode属性、属性名称、技术预览语言和脚本显示名称、HarfBuzz绑定、CLDR 43、完整遵守Unicode码双向算法(UAX#9),以及许多较小的功能和改进ICU4X组件。

文本分割是将字符串划分为有意义的单位,例如单词、句子或字素集群(字符)。这是一项广泛的基本任务应用程序,包括光标移动、突出显示文本跨度、评估文本的拼写和语法正确性、信息检索和文本布局。

ICU4X 1.2支持这两个标准Unicode文本分段(UAX#29)用于单词、句子和字素簇分割和Unicode换行算法(UAX#14)用于行分割。

鉴于ICU4X专注于轻量级部署在资源受限的环境中,团队专注于减少数据大小的方法与ICU4C相比。影响最大的差异来自运行时的使用裁剪(减少规则表的数量)和机器学习模型(消除了对东南亚单词词典的需求)。整体,ICU4X用于分割的数据比ICU4C中的等效数据小20.1%,并且换行符分段减少60.7%。

除了尺寸较小外,ICU4X的行和分词器为19.1%非复杂脚本速度快52.2%,中文速度快46.9%和32.1%分别比ICU4C中的等效值高。

ICU4X中的机器学习模型用于单词和行打破东南亚语言,包括泰语、老挝语、高棉语和缅甸语。模型使用LSTM公司,在大型数据集上进行训练,并在保持较小的模型尺寸。通过利用现代计算机体系结构功能例如SIMD(单指令多数据), 该团队将LSTM推理的性能优化为大约3倍的速度而不是天真的实现。然而,字典模型仍然是速度最快,大约比LSTM快两个数量级。ICU4X同时提供供客户选择的模型类型。

ICU4X 1.2的另一个重点是支持文本布局堆栈。文本布局引擎需要的不仅仅是ICU4C和ICU4X,但任何布局引擎都需要至少两个ICU功能:换行分段和正确排列双向文本的能力。ICU4X 1.2型支持的分段和双向文本需求斯基亚的SkParagraph和哈夫巴斯.

最后,ICU4X 1.2为其他组件。实验性的Display Names组件现在支持语言和脚本显示名称,以及区域显示名称;属性组件支持将UCD属性和值枚举鉴别符转换为其长名字和短名字,以及vice-versa;所有组件都已升级到支持CLDR 43。

阅读完整的ICU4X 1.2发行说明然后ICU4X教程开始在项目中使用ICU4X。

要了解有关最新版本的更多信息,一定要参加我们的ICU4X虚拟开放日,4月19日,星期三太平洋时间上午9点。



支持Unicode
支持Unicode的使命,确保每个人都可以在所有设备上的语言,请考虑采用一个字符,赠送股票, 捐款.作为Unicode,Inc.是一家基于美国的开源、开放标准、非盈利的公司,501(c)3组织,您的供款可能有资格享受减税。拜托有关详细信息,请咨询税务顾问。

[徽章]