美国加利福尼亚州山景城–2010年10月29日–Unicode技术标准#10的新版本Unicode排序算法(UCA)已更新为Unicode 6.0版,增加了对2088个字符的排序、搜索和匹配支持。此外,在此版本中,还提供了新的数据文件,以支持Unicode公共区域设置数据存储库(CLDR),该存储库提供了针对不同语言的定制。可重新排序的类别。CLDR的数据文件严格按某些主要类别排序字符。这允许程序员对这些字符组进行参数化重新排序,以使它们按照不同语言所需的顺序排列。例如,数字可以在字母之后排序,也可以在拉丁语之前排序西里尔字母。可重新排序的类别包括:
空格、标点符号、通用符号、货币符号和数字,然后是拉丁语、希腊语、科普特语、西里尔语。。。,埃及象形文字,最后是CJK。
区分标点符号。UCA提供了一个选项,用于在比较字符串时忽略某些字符。默认情况下,这些是空白、标点和通用符号。CLDR的数据文件修改了该默认值,以便对符号进行显著比较,同时仍然忽略空白和标点符号。例如,“我♥“纽约”与“我”的排序不同☠纽约”。
特殊数据库值。CLDR的数据文件为两个非字符提供特殊权重:
1.一个特殊的非字符<HIGH>(U+FFFF),用于指定数据库中的范围,允许“Sch”≤X≤“Sch<HIGH>”选取所有以“Sch”开头的字符串加上那些等价排序的字符串。
2.合并数据库字段的特殊非字符<LOW>(U+FFFE),允许“Disílva<LOW>John”在“Disilva<LOW]John”旁边排序。
使用这些新数据文件的CLDR版本计划于2010年12月初发布。
UCA标准的文本已在不同领域进行了澄清。实现者应该特别注意有关CJK块中的错误格式序列、非字符和未分配代码点的更改。
有关详细信息,请参阅:
*UCA标准6.0.0:http://www.unicode.org/reports/tr10/
*UCA图表:http://unicode.org/charts/collation/
*UCA数据:http://unicode.org/Public/UCA/6.0.0/
*合并的数据库字段:http://unicode.org/reports/tr10/#Interleaved_Levels(交叉层)
关于Unicode联盟
Unicode联盟是一个非盈利组织,旨在开发、扩展和促进Unicode标准和相关全球化标准的使用。该联盟的成员代表了计算机和信息处理行业的广泛公司和组织。
成员包括:Adobe、苹果、谷歌、孟加拉国政府、印度政府、IBM、微软、Monotype Imaging、甲骨文、自然语言技术研究协会、SAP、加州大学伯克利分校、加州大学圣克鲁斯分校、雅虎、!,加上100多名助理、联络员和个人成员。
有关更多信息,请联系Unicode联盟。http://www.unicode.org/contacts.html