2010年10月30日星期六

Unicode 6.0排序

美国加利福尼亚州山景城–2010年10月29日–Unicode技术标准#10的新版本Unicode排序算法(UCA)已更新为Unicode 6.0版,增加了对2088个字符的排序、搜索和匹配支持。此外,在此版本中,还提供了新的数据文件,以支持Unicode公共区域设置数据存储库(CLDR),该存储库提供了针对不同语言的定制。

可重新排序的类别。CLDR的数据文件严格按某些主要类别排序字符。这允许程序员对这些字符组进行参数化重新排序,以使它们按照不同语言所需的顺序排列。例如,数字可以在字母之后排序,也可以在拉丁语之前排序西里尔字母。可重新排序的类别包括:

空格、标点符号、通用符号、货币符号和数字,然后是拉丁语、希腊语、科普特语、西里尔语。。。,埃及象形文字,最后是CJK。

区分标点符号。UCA提供了一个选项,用于在比较字符串时忽略某些字符。默认情况下,这些是空白、标点和通用符号。CLDR的数据文件修改了该默认值,以便对符号进行显著比较,同时仍然忽略空白和标点符号。例如,“我“纽约”与“我”的排序不同纽约”。

特殊数据库值。CLDR的数据文件为两个非字符提供特殊权重:

1.一个特殊的非字符<HIGH>(U+FFFF),用于指定数据库中的范围,允许“Sch”≤X≤“Sch<HIGH>”选取所有以“Sch”开头的字符串加上那些等价排序的字符串。

2.合并数据库字段的特殊非字符<LOW>(U+FFFE),允许“Disílva<LOW>John”在“Disilva<LOW]John”旁边排序。

使用这些新数据文件的CLDR版本计划于2010年12月初发布。

UCA标准的文本已在不同领域进行了澄清。实现者应该特别注意有关CJK块中的错误格式序列、非字符和未分配代码点的更改。

有关详细信息,请参阅:

*UCA标准6.0.0:http://www.unicode.org/reports/tr10/
*UCA图表:http://unicode.org/charts/collation/
*UCA数据:http://unicode.org/Public/UCA/6.0.0/
*合并的数据库字段:http://unicode.org/reports/tr10/#Interleaved_Levels(交叉层)

关于Unicode联盟

Unicode联盟是一个非盈利组织,旨在开发、扩展和促进Unicode标准和相关全球化标准的使用。该联盟的成员代表了计算机和信息处理行业的广泛公司和组织。

成员包括:Adobe、苹果、谷歌、孟加拉国政府、印度政府、IBM、微软、Monotype Imaging、甲骨文、自然语言技术研究协会、SAP、加州大学伯克利分校、加州大学圣克鲁斯分校、雅虎、!,加上100多名助理、联络员和个人成员。

有关更多信息,请联系Unicode联盟。http://www.unicode.org/contacts.html

Unicode 6.0国际化域名

美国加利福尼亚州山景城–2010年10月29日–新版Unicode技术标准#46,Unicode IDNA兼容性处理已更新为Unicode 6.0版,增加了对国际化域名(IDN)中2088个字符的支持。

该规范提供了两个主要功能,用于2010年8月发布的国际化域名新规范(IDNA2008):

1.综合映射,以反映用户对域名大小写和其他变体的期望。IDNA2008允许这种映射,并遵循该规范上一版本(IDNA2003,2003年8月生效)中的相同原则。因此,它为用户提供了新旧版本之间的一致性。

2.支持根据IDNA2003规范和IDNA2008规范有效的国际化域名的兼容性机制。第二个功能允许浏览器、搜索引擎和其他客户端在过渡期间处理新旧域名,直到注册中心更新其规则以遵循IDNA2008。

UTS#46提供与最新版本的Unicode同步的标准数据表,允许实现在不重新计算的情况下进行更新。

UTS#46的新版本还提供了一个自定义选项,用于识别包含特殊ASCII字符(如“_”)的传统国际域名。

关于Unicode联盟

Unicode联盟是一个非营利组织,旨在开发、扩展和促进Unicode标准及相关全球化标准的使用。该联盟的成员代表了计算机和信息处理行业的广泛公司和组织。

成员包括:Adobe、Apple、Google、孟加拉国政府、印度政府、IBM、Microsoft、Monotype Imaging、Oracle、自然语言技术研究学会、SAP、加州大学伯克利分校、加州大学圣克鲁斯分校、雅虎!,加上100多名助理、联络员和个人成员。

有关更多信息,请联系Unicode联盟。http://www.unicode.org/contacts.html

2010年10月12日,星期二

Unicode 6.0版:支持亚洲流行符号

最新定稿的Unicode 6.0版增加了2088个字符,增加了1000多个新符号。

Unicode 6.0的一个期待已久的功能是为手机编码数百个符号。这些表情符号被广泛使用,尤其是在日本,并且已经成为当地和其他地方短信的重要组成部分。Unicode 6.0现在提供了不同移动供应商之间以及互联网上的数据交换。这些符号包括许多领域的符号:地图和运输、月相、UI符号(例如快进)和许多其他领域的符号。

印度卢比的新官方符号是一个最新加入的货币。在印度政府和ISO同事的帮助下,该联盟能够加快编码过程。一旦计算机和手机更新到新版本的Unicode,人们就可以像现在使用$或€一样使用卢比符号。

2010年10月的版本包括Unicode字符数据库(UCD)、Unicode标准附件(UAX)和代码表。随着这些组件的发布,实现者可以立即将其软件更新为Unicode 6.0。核心规范的最终文本将于2011年初发布。

要访问Unicode 6.0,请参阅http://www.unicode.org/versions/Unicode6.0.0

有关表情符号的更多信息,请参见http://unicode.org/faq/emoji_dingbats.html

有关带有图像的此消息的格式化版本,请参阅http://unicode.org/press/pro-6.0.html