Unicode博客：2010年10月

2010年10月30日星期六

Unicode 6.0排序

美国加利福尼亚州山景城–2010年10月29日–Unicode技术标准#10的新版本Unicode排序算法（UCA）已更新为Unicode 6.0版，增加了对2088个字符的排序、搜索和匹配支持。此外，在此版本中，还提供了新的数据文件，以支持Unicode公共区域设置数据存储库（CLDR），该存储库提供了针对不同语言的定制。

可重新排序的类别。CLDR的数据文件严格按某些主要类别排序字符。这允许程序员对这些字符组进行参数化重新排序，以使它们按照不同语言所需的顺序排列。例如，数字可以在字母之后排序，也可以在拉丁语之前排序西里尔字母。可重新排序的类别包括：

空格、标点符号、通用符号、货币符号和数字，然后是拉丁语、希腊语、科普特语、西里尔语。。。，埃及象形文字，最后是CJK。

区分标点符号。UCA提供了一个选项，用于在比较字符串时忽略某些字符。默认情况下，这些是空白、标点和通用符号。CLDR的数据文件修改了该默认值，以便对符号进行显著比较，同时仍然忽略空白和标点符号。例如，“我♥“纽约”与“我”的排序不同☠纽约”。

特殊数据库值。CLDR的数据文件为两个非字符提供特殊权重：

1.一个特殊的非字符<HIGH>（U+FFFF），用于指定数据库中的范围，允许“Sch”≤X≤“Sch<HIGH>”选取所有以“Sch”开头的字符串加上那些等价排序的字符串。

2.合并数据库字段的特殊非字符<LOW>（U+FFFE），允许“Disílva<LOW>John”在“Disilva<LOW]John”旁边排序。

使用这些新数据文件的CLDR版本计划于2010年12月初发布。

UCA标准的文本已在不同领域进行了澄清。实现者应该特别注意有关CJK块中的错误格式序列、非字符和未分配代码点的更改。

有关详细信息，请参阅：

*UCA标准6.0.0：http://www.unicode.org/reports/tr10/
*UCA图表：http://unicode.org/charts/collation/
*UCA数据：http://unicode.org/Public/UCA/6.0.0/
*合并的数据库字段：http://unicode.org/reports/tr10/#Interleaved_Levels（交叉层）

关于Unicode联盟

Unicode联盟是一个非盈利组织，旨在开发、扩展和促进Unicode标准和相关全球化标准的使用。该联盟的成员代表了计算机和信息处理行业的广泛公司和组织。

成员包括：Adobe、苹果、谷歌、孟加拉国政府、印度政府、IBM、微软、Monotype Imaging、甲骨文、自然语言技术研究协会、SAP、加州大学伯克利分校、加州大学圣克鲁斯分校、雅虎、！，加上100多名助理、联络员和个人成员。

有关更多信息，请联系Unicode联盟。http://www.unicode.org/contacts.html

Unicode 6.0国际化域名

美国加利福尼亚州山景城–2010年10月29日–新版Unicode技术标准#46，Unicode IDNA兼容性处理已更新为Unicode 6.0版，增加了对国际化域名（IDN）中2088个字符的支持。

该规范提供了两个主要功能，用于2010年8月发布的国际化域名新规范（IDNA2008）：

1.综合映射，以反映用户对域名大小写和其他变体的期望。IDNA2008允许这种映射，并遵循该规范上一版本（IDNA2003，2003年8月生效）中的相同原则。因此，它为用户提供了新旧版本之间的一致性。

2.支持根据IDNA2003规范和IDNA2008规范有效的国际化域名的兼容性机制。第二个功能允许浏览器、搜索引擎和其他客户端在过渡期间处理新旧域名，直到注册中心更新其规则以遵循IDNA2008。

UTS#46提供与最新版本的Unicode同步的标准数据表，允许实现在不重新计算的情况下进行更新。

UTS#46的新版本还提供了一个自定义选项，用于识别包含特殊ASCII字符（如“_”）的传统国际域名。

关于Unicode联盟

Unicode联盟是一个非营利组织，旨在开发、扩展和促进Unicode标准及相关全球化标准的使用。该联盟的成员代表了计算机和信息处理行业的广泛公司和组织。

成员包括：Adobe、Apple、Google、孟加拉国政府、印度政府、IBM、Microsoft、Monotype Imaging、Oracle、自然语言技术研究学会、SAP、加州大学伯克利分校、加州大学圣克鲁斯分校、雅虎！，加上100多名助理、联络员和个人成员。

有关更多信息，请联系Unicode联盟。http://www.unicode.org/contacts.html

2010年10月12日，星期二

Unicode 6.0版：支持亚洲流行符号

最新定稿的Unicode 6.0版增加了2088个字符，增加了1000多个新符号。

Unicode 6.0的一个期待已久的功能是为手机编码数百个符号。这些表情符号被广泛使用，尤其是在日本，并且已经成为当地和其他地方短信的重要组成部分。Unicode 6.0现在提供了不同移动供应商之间以及互联网上的数据交换。这些符号包括许多领域的符号：地图和运输、月相、UI符号（例如快进）和许多其他领域的符号。

印度卢比的新官方符号是一个最新加入的货币。在印度政府和ISO同事的帮助下，该联盟能够加快编码过程。一旦计算机和手机更新到新版本的Unicode，人们就可以像现在使用$或€一样使用卢比符号。

2010年10月的版本包括Unicode字符数据库（UCD）、Unicode标准附件（UAX）和代码表。随着这些组件的发布，实现者可以立即将其软件更新为Unicode 6.0。核心规范的最终文本将于2011年初发布。

要访问Unicode 6.0，请参阅http://www.unicode.org/versions/Unicode6.0.0。

有关表情符号的更多信息，请参见http://unicode.org/faq/emoji_dingbats.html

有关带有图像的此消息的格式化版本，请参阅http://unicode.org/press/pro-6.0.html。

2010年10月30日星期六

Unicode 6.0排序

Unicode 6.0国际化域名

2010年10月12日，星期二

Unicode 6.0版：支持亚洲流行符号

感兴趣的链接

博客存档

标签

追随者

2010年10月30日星期六

Unicode 6.0排序

Unicode 6.0国际化域名

2010年10月12日，星期二

Unicode 6.0版：支持亚洲流行符号

感兴趣的链接

博客存档

标签

追随者

订阅此博客