[统一码] Unicode 15.1.0码 技术站点|站点地图|搜索
 

Unicode®15.1.0码

2023年9月12日(公告)

状态:这是即将发布的版本的初步草稿页面。某些详细信息可能丢失或不正确,某些链接可能错误或断开。在alpha审查期间,预计会出现错误,不需要反馈。在测试版审查期间,对错误的反馈将是有益的,我们将不胜感激。

本页总结了Unicode标准15.1.0版的重要更改。此版本取代所有先前版本的Unicode标准。

A。总结
B。技术概述
C。稳定性政策更新
D。文本更改和字符添加
E.公司。合规性变更
F、。Unicode字符数据库中的更改
G.公司。Unicode标准附件的变更
H。同步Unicode技术标准的变更
M。移民的影响

A.总结

Unicode 15.1增加了627个字符,总共149813个字符。

此版本的Unicode标准有几个重要主题。

  • 新增曲目几乎全部由急需的CJK表意文字组成,与计划增加的中国国家标准GB 18030同步。这个对曲目的其余补充扩展了表意文字的描述字符,以便更好地描述不寻常的CJK表意字符。
  • UAX#9、Unicode双向算法、UAX#31、,Unicode标识符和语法以及UTS#39,Unicode安全机制配合重要的新Unicode技术标准UTS#55的出版,Unicode源代码处理。
  • 细分规则发生了变化,最显著的是:
    • 在许多南亚和东南亚书写系统中,增加了对正字法音节的换行(UAX#14,Unicode换行算法)的支持。
    • 图形簇中断(UAX#29,Unicode文本分段)采用了阿克萨拉六个脚本的集群行为。这种集群破坏行为以前已经通过CLDR和ICU广泛可用。
    • 这些更改涉及重要的字符属性更新。

同步

其他几个重要的Unicode规范已经更新到15.1版本。以下四个Unicode技术标准的版本在与Unicode标准同步,因为它们的数据文件涵盖相同的曲目。所有版本都已更新到15.1版:

规范 范围 数据文件
UTS#10,Unicode排序算法 排序Unicode文本 UCA数据
UTS#39,Unicode安全机制 减少Unicode欺骗 安全数据
UTS#46,Unicode IDNA兼容性处理 非ASCII URL的兼容处理 IDNA数据
UTS#51,Unicode表情符号 表情符号及其行为 Emoji数据

15.1版和相关Unicode技术标准中的一些更改可能需要修改到实现。有关更多信息,请参阅的迁移和修改部分UTS#10、UTS#39、UTS#16和UTS#51。

有关此版本的更改的更多详细信息,请参阅下面的D节到H节Unicode标准及其相关附件,以及其他同步的Unicode规范。

B.技术概述

Unicode标准15.1版包括:

  • 核心规范(与15.0版保持不变)
  • 此版本的代码图(增量和存档)
  • Unicode标准附件
  • Unicode字符数据库(UCD)

核心规范给出了一般原则,一致性要求和实施者指南。这个代码图显示了所有Unicode的代表性符号字符。Unicode标准附件提供了详细的规范有关标准特定方面的信息。Unicode码字符数据库为实现者,以允许他们实现Unicode标准。

核心规范

核心规格有用于查看的单个pdf. (1400万)链接也可用在此页面左侧的导航栏中访问个别章节附录核心规范。

代码图表

有多组代码图可用。他们的服务不同目的:

  • 这个最新的代码图表集Unicode标准在线提供。那些图表总是最新的代码图表可用,并且可以随时更新。图表由以下内容组织脚本和块,便于参考。在线按字符名索引还提供了。

特别是对于Unicode 15.1.0,提供了两组额外的代码图表页面:

  • A类一组增量代码图显示新块和为Unicode 15.1.0添加字符的任何块。新字符在图表中以视觉方式突出显示。
  • A类档案代码表集代表Unicode 15.1.0发布时的整套字符、名称和代表性符号。

增量和存档代码图表是此次Unicode标准发布的稳定部分。它们永远不会更新。

Unicode标准附件

个人链接Unicode标准附件在中可用此页面左侧的导航栏。重大变更清单在15.1版Unicode标准附件的内容中可以找到在里面第G节如下所示。

Unicode字符数据库

数据文件对于第15.1版Unicode字符数据库可用。该目录中的ReadMe.txt提供了路线图到各个子目录的功能。压缩版本UCD的也可以进行批量下载。

版本参考

Unicode标准15.1.0版应引用为:

Unicode联盟。Unicode标准,15.1.0版,(加利福尼亚州南旧金山:Unicode联盟,2023.国际标准书号978-1-936213-33-7)
https://www.unicode.org/versions/Unicode15.1.0/

术语“Version 15.1”或“Unicode 15.1”是完整版本参考(Version 15.1.0)的缩写。

Unicode标准最新发布版本的引文和永久链接为:

Unicode联盟。Unicode标准.
https://www.unicode.org/版本/最新/

Unicode贡献文件的完整规范15.1见页面15.1.0的组件.该页还提供了Unicode标准附件的推荐参考格式。有关如何引用Unicode标准特定部分的示例,另请参阅参考示例.

勘误表

Unicode 15.1中包含的勘误表按日期列出单独的表格有关Unicode 15.1发布后的勘误表和勘误表,请参阅当前列表更新和勘误表.

C.稳定政策更新

箱子折叠稳定政策已使用的显式语句进行扩展适用于不同版本的NFKC_Casefold(S)的箱子折叠稳定性Unicode标准。对细微的区别进行了澄清在toNFKC_Casefold(S)和toCasefold(toNFKC(S))之间。

D.文本更改和字符添加

Unicode标准附件中的变更列于第G节.

角色分配概述

添加了627个字符。有关详细信息,请参阅增量代码图.

新建块

版本15.1中有一个新定义的块:

范围 块名称
2个…2个5f 中日韩统一汉字扩展I

中日韩统一汉字扩展I的块已放置在平面2的末端附近,紧接在延伸部分F之后,而不是在延伸H后的平面3上,以充分利用分配平面2上的可用空间。

E.合规性变更

Unicode 15.1的核心规范没有新的一致性要求。然而,几个Unicode标准附件中的一致性条款和Unicode技术标准已被重组并拆分为案例,以便更容易准确地指定与定制版本的一致性一些Unicode算法。UAX#29添加了新的一致性条款。

F.Unicode字符数据库中的更改

Unicode字符数据库贡献数据文件的所有更改的详细列表对于版本15.1,可以在中找到UAX#44,Unicode字符数据库. 其中列出的更改包括对现有字符的字符添加和属性修订,这将影响实现。从标准的早期版本迁移对实现的一些重要影响在截面图M.

G.Unicode标准附件的变更

在15.1版中,一些Unicode标准附件进行了重大修订。下面列出了这些更改中最重要的更改。有关所有更改的完整详细信息,请参阅修改部分直接从以下UAX列表链接。

Unicode标准附件 变化
9号UAX
Unicode双向算法
对BD16和W4、W5和W6之间控制流的相互作用。sos的使用和还阐明了使用N0中的括号处理AN/EN。关于保留BN并更新显式格式字符。一个主要的例子第4.3.3节中添加了对URL使用HL4,并引用了第4.3.2节中增加了新的UTS#55。
UAX公司#11
东亚宽度
此版本中没有重大更改。
UAX公司#14
Unicode换行算法
增加了对正交音节边界处的换行的支持,包括引入五个新的字符换行类。规则LB15分为LB15a和LB15b,以改进法语的处理样式引号。允许剪裁的更清晰特征是添加到第8.1节。各种其他澄清和小更新文中还列举了一些例子。
UAX公司#15
Unicode规范化表单
此版本中没有重大更改。
UAX公司#24
Unicode脚本属性
此版本中没有重大更改。
UAX公司#29
Unicode文本分段
为每种类型的分段添加了显式一致性规则一致性部分。支持正交音节中断正在添加新规则GB9c。表中更新了“crlf”的定义Regex定义。对Word_Break表进行了多次更改属性值。第3.1.1节中添加了一条注释,说明每个表情符号序列构成单个字素簇。
UAX公司#31个
Unicode标识符和语法
该UAX重新命名,以更好地反映其范围。多次更改默认标识符部分,包括删除UAX31-R1a的限制格式字符。一个重要的例子是添加到UAX31-R1b,稳定标识符。第4节被彻底改写,将空白和语法的讨论分开。上的部分本附件中删除了连接控件的有限上下文改为UTS#39。第7节添加了三个新的标准配置文件:数学兼容符号,emoji和默认可忽略排除。
UAX公司#34
Unicode命名字符序列
此版本中没有重大更改。
UAX公司#38
Unicode汉字数据库(Unihan)
为中日韩统一汉字扩展I添加了文档以及6处新的临时房产。7个现有临时财产已删除。语法、源列表和/或描述如下为kIRG_GSource、kIRG_ KSource和kIRG-KPSource更新属性。语法并更新了其他几个属性的描述,包括kRSUnicode。
UAX公司#41
Unicode标准附件的通用参考
所有参考文献都更新为Unicode 15.1。
UAX公司#42个
XML中的Unicode字符数据库
为Unicode 15.1添加了新的代码点属性、值和模式。
UAX公司#44
Unicode字符数据库
文件已更新,以描述对UCD的更改15.1版。
UAX#45型
U源象形字
增加了一个新的第3节,记录了U源象形文字的范围添加到每个版本的Unicode标准中。N、V、W和X状态值更新为更具描述性的FutureWS、Variant、Rejected和NoAction,分别是。删除了现在已删除的UK-2015和WS-2017状态值。
UAX 50号
Unicode垂直文本布局
此版本中没有重大更改。

H.同步Unicode技术标准的变化

Unicode技术标准也有重大修订版本与Unicode标准同步。下面列出了这些更改中最重要的更改。有关所有更改的完整详细信息,请参阅修改部分直接从以下UTS列表链接。

Unicode技术标准 变化
UTS#10
Unicode排序算法
此版本中没有重大更改。
UTS 39号
Unicode安全机制
连接控件上下文的定义和讨论如下从UAX#31移动到这个UTS。更新了易混淆性的定义考虑默认的可忽略代码点。新的易混淆性添加了适用于包含双向文本的标识符的关系。
UTS#46
Unicode IDNA兼容性处理
不赞成对偏差字符进行过渡处理。全部主要实现现在使用非转换处理。第6节中的第7步是更改为不再检查NFD的有效性;这改变了三个字符从disabled_STD3_valid变为valid。在非转换处理中,U+1E9E大写夏普(ẞ)现在映射到U+00DF小夏普(\223;)。
UTS 51号
Unicode表情符号
浅谈表情符号与计算机语言的相互作用添加了语法。还对新表情符号序列进行了小更新在版本15.1中添加。

M.移民的影响

Unicode 15.1中有大量更改,可能会影响实现升级标准早期版本的15.1版。下面列出了其中最重要的并在此处进行了解释,以帮助重点关注升级过程中最可能导致意外问题的问题。

与脚本相关的更改

由于15.1版的新曲目范围有限没有与各种脚本特别相关的迁移问题,除了汉字(见下文)。

一般字符属性问题

  • 有5个新的表意文字描述字符。这些扩展了表意文字描述序列的语法。
  • 两个新的表意文字描述字符函数作为一元运算符,这需要引入一个新的二进制属性:IDS_unary_Operator。
  • 有两个新属性,ID_Compat_Math_Start和ID_Compat_Math_Continue,用于新数学兼容性符号配置文件UAX#31。
  • 有一个新属性NFKC_Simple_Casefold,用于建立另一种规范化形式,如NFKC_Casefold。新的那个使用Simple_Case_Folding映射而不是完整的Case_Folding映射。这用于支持基于简单(1:1)案例折叠的案例敏感标识符映射。
  • 在Line_Break属性中添加了五个新值,以支持大量南亚和东南亚国家的新正交分线规则脚本。

细分

UAX#29中有一个新的字素簇分割规则GB9c,它引用了新的枚举属性Indic_Conjunct_Break。受此规则影响的脚本列表应为在后续版本中展开Unicode标准。(请注意,该结果与版本15.1.0的beta版本评审,该版本在规则GB9c的声明。)

UAX#14中有一个新的换行规则LB28a,用于防止正字法音节内的换行婆罗门经文。该新规则使用新的Line_Break属性值。它还包括在正则表达式中使用点圆。虚线圆圈是一个文字字符,也就是说,它匹配U+25CC◌dotted circle。

数字属性问题

  • extracted/DerivedNumericValues.txt中有一个大的新值:10000000000000000(对于U+4EAC)
  • U+5146有两个kPrimaryNumeric值:1000000、1000000000000
  • U+79ED有两个kPrimaryNumeric值:1000000000、1000000000000

CJK/Unihan更改

  • 添加了一个新的CJK统一表意文字块Extension I622个字符,范围为U+2EBF0..U+2EE5D。实施者应检查仔细阅读有关CJK系列的任何硬编码假设。为了保持CJK块范围尽可能紧凑,扩展I具有添加到平面2,而不是直接添加到平面3上的延伸H之后。实现者还应该检查他们的代码是否假定CJK扩展所有这些都以字母顺序出现在分机字母旁。
  • 一些kRSUnicode值现在包含双撇号根,有时是代码点的唯一值。
  • 七处旧的临时财产已被拆除。
  • 新增六处临时房产。

请参阅UAX公司#38,Unicode Han Database(Unihan),了解有关这些更改的更多详细信息,特别是第4.2节,上市按Unicode标准添加日期和第4.3节,按列出Unihan.zip内的位置.UAX#38还更新了许多正则表达式值Unihan属性。有关双撇号部首,请参见:

UTS#46(IDNA)变更

  • 过渡处理(见一致性条款C1)现已被弃用在里面UTS#46,Unicode IDNA兼容性处理.
  • 在非转换处理中,U+1E9E大写夏普(ẞ)现在映射到U+00DF小夏普(\223;),以便具有任一输入字符的域名始终匹配。直到Unicode 15.0,大写夏普s映射到“ss”,这与的映射相同小尖头在里面过渡性的处理。
  • U+2260(≠)、U+226E()和U+226F(≯)现在是无条件有效的,而不是不允许的_STD3_valid。
  • 对有效性标准有几个附加的小改动UTS#46修改部分了解详细信息。

代码图的更改

  • 主要中日韩统一汉字块(U+4E00)的代码图有一种更新的格式,源glyph使用7列,而不是6列。这个KP源标志符号已显式添加到代码图中。
  • 炼金术符号的代表符号所用的字体块已更新。

与排序规则相关的更改

DUCET对报价权重进行了更新标志。各种单引号现在作为次要变量进行加权U+0027(')APOSTROPHE,各种双引号现在加权作为U+0022(“)报价标记U+05F3(“)HEBREW PUNCTUATION GERESH的二级变体也作为U+0027和U+05F4(“)HEBREW PUNCTUATION的二级变量进行加权GERSHAYIM作为U+0022的二级变量进行加权。此更改使更好的行为盖雷什格沙伊姆用于搜索和排序,并带来UCA更符合CLDR对引号的裁剪,盖雷什、和格沙伊姆.

表情符号更改

Unicode 15.1中没有新的表情符号字符,但有118个新的RGI表情符号ZWJ序列总体上增加了17个演示序列表情符号曲目。有关详细信息,请参阅Unicode 15.1表情符号图表Emoji最近添加,v15.1.