Unicode博客：文本分割

2023年4月17日星期一

ICU4X 1.2：现在在低资源设备上实现文本分割和更多功能

ICUX小组委员会主席Shane Carr

在全球范围内，人们上网的次数越来越少各种设备，包括智能手机、智能手表和小工具。的一个分支国际Unicode组件（ICU）委员会，ICU4X委员会是负责使这些下一代设备能够与每个其他数千种语言。用Rust书写，ICU4X带来轻盈，面向低资源设备和许多编程语言。

自2022年9月首次发布大型版本以来，ICU4X团队已经一直忙于构建其他功能和基础设施。今天，团队很高兴宣布推出ICU4X 1.2，该版本首次稳定发布了分段器组件、更多Unicode属性、属性名称、技术预览语言和脚本显示名称、HarfBuzz绑定、CLDR 43、完整遵守Unicode码双向算法（UAX#9），以及许多较小的功能和改进ICU4X组件。

文本分割是将字符串划分为有意义的单位，例如单词、句子或字素集群（字符）。这是一项广泛的基本任务应用程序，包括光标移动、突出显示文本跨度、评估文本的拼写和语法正确性、信息检索和文本布局。

ICU4X 1.2支持这两个标准Unicode文本分段（UAX#29）用于单词、句子和字素簇分割和Unicode换行算法（UAX#14）用于行分割。

鉴于ICU4X专注于轻量级部署在资源受限的环境中，团队专注于减少数据大小的方法与ICU4C相比。影响最大的差异来自运行时的使用裁剪（减少规则表的数量）和机器学习模型（消除了对东南亚单词词典的需求）。整体，ICU4X用于分割的数据比ICU4C中的等效数据小20.1%，并且换行符分段减少60.7%。

除了尺寸较小外，ICU4X的行和分词器为19.1%非复杂脚本速度快52.2%，中文速度快46.9%和32.1%分别比ICU4C中的等效值高。

ICU4X中的机器学习模型用于单词和行打破东南亚语言，包括泰语、老挝语、高棉语和缅甸语。模型使用LSTM公司，在大型数据集上进行训练，并在保持较小的模型尺寸。通过利用现代计算机体系结构功能例如SIMD（单指令多数据）, 该团队将LSTM推理的性能优化为大约3倍的速度而不是天真的实现。然而，字典模型仍然是速度最快，大约比LSTM快两个数量级。ICU4X同时提供供客户选择的模型类型。

ICU4X 1.2的另一个重点是支持文本布局堆栈。文本布局引擎需要的不仅仅是ICU4C和ICU4X，但任何布局引擎都需要至少两个ICU功能：换行分段和正确排列双向文本的能力。ICU4X 1.2型支持的分段和双向文本需求斯基亚的SkParagraph和哈夫巴斯.

最后，ICU4X 1.2为其他组件。实验性的Display Names组件现在支持语言和脚本显示名称，以及区域显示名称；属性组件支持将UCD属性和值枚举鉴别符转换为其长名字和短名字，以及vice-versa；所有组件都已升级到支持CLDR 43。

阅读完整的ICU4X 1.2发行说明然后ICU4X教程开始在项目中使用ICU4X。

要了解有关最新版本的更多信息，一定要参加我们的ICU4X虚拟开放日，4月19日，星期三太平洋时间上午9点。

支持Unicode
支持Unicode的使命，确保每个人都可以在所有设备上的语言，请考虑采用一个字符,赠送股票, 或捐款.作为Unicode，Inc.是一家基于美国的开源、开放标准、非盈利的公司，501（c）3组织，您的供款可能有资格享受减税。拜托有关详细信息，请咨询税务顾问。

2023年4月17日星期一

ICU4X 1.2：现在在低资源设备上实现文本分割和更多功能

感兴趣的链接

博客存档

标签

追随者

2023年4月17日星期一

ICU4X 1.2：现在在低资源设备上实现文本分割和更多功能

感兴趣的链接

博客存档

标签

追随者

订阅此博客