Unicode®15.1.0码
2023年9月12日(公告)
状态:这是即将发布的版本的初步草稿页面。某些详细信息可能丢失或不正确,某些链接可能错误或断开。在alpha审查期间,预计会出现错误,不需要反馈。在测试版审查期间,对错误的反馈将是有益的,我们将不胜感激。
版本15.1.0已被最新版本Unicode标准。
本页总结了Unicode标准15.1.0版的重要更改。此版本取代所有先前版本的Unicode标准。
答:。总结
B。技术概述
C、。稳定性政策更新
D。文本更改和字符添加
E.公司。合规性变更
F、。Unicode字符数据库中的更改
G.公司。Unicode标准附件的变更
H。同步Unicode技术标准的变更
M。对移民的影响
Unicode 15.1增加了627个字符,总共149813个字符。
此版本的Unicode标准有几个重要主题。
- 新增曲目几乎全部由急需的CJK表意文字组成,与计划增加的中国国家标准GB 18030同步。这个对曲目的其余补充扩展了表意文字的描述字符,以便更好地描述不寻常的CJK表意文字。
- UAX#9、Unicode双向算法、UAX#31、,Unicode标识符和语法以及UTS#39,Unicode安全机制配合重要的新Unicode技术标准UTS#55的出版,Unicode源代码处理。
- 细分规则发生了变化,最显著的是:
- 在许多南亚和东南亚书写系统中,添加了对正字法音节的换行支持(UAX#14,Unicode换行算法)。
- 图形簇中断(UAX#29,Unicode文本分段)采用了阿克萨拉六个脚本的集群行为。这种打破集群的行为此前已通过CLDR和ICU广泛使用。
- 这些更改涉及重要的字符属性更新。
同步
15.1版更新了其他几个重要的Unicode规范。以下四个Unicode技术标准的版本在与Unicode标准同步,因为它们的数据文件涵盖相同的曲目。所有版本都已更新到15.1版:
15.1版和相关Unicode技术标准中的一些更改可能需要修改到实现。有关详细信息,请参阅的迁移和修改部分UTS#10、UTS#39、UTS#16和UTS#51。
有关此版本的更改的更多详细信息,请参阅下面的D节到H节Unicode标准及其相关附件,以及其他同步的Unicode规范。
Unicode标准15.1版包括:
- 核心规范(与15.0版保持不变)
- 此版本的代码图(增量和存档)
- Unicode标准附件
- Unicode字符数据库(UCD)
核心规范给出了一般原则,一致性要求和实施者指南。这个代码图显示了所有Unicode的代表性符号字符。Unicode标准附件提供了详细的规范有关标准特定方面的信息。Unicode码字符数据库为实现者,以允许他们实现Unicode标准。
核心规范可用作一用于查看的单个pdf. (14 MB)链接也可用在此页面左侧的导航栏中访问个别章节和附录核心规范。
有多组代码图可用。他们的服务不同目的:
- 这个最新的代码图表集的Unicode标准在线提供。那些图表总是最新的代码图表可用,并且可以随时更新。图表由以下内容组织脚本和块以便于参考。在线按字符名索引还提供了。
特别是对于Unicode 15.1.0,提供了两组额外的代码图表页面:
- A类一组增量代码图显示新块和为Unicode 15.1.0添加字符的任何块。新字符在图表中以视觉方式突出显示。
- A类档案代码表集代表Unicode 15.1.0发布时的整套字符、名称和代表性符号。
delta和归档代码图表是此次发布的Unicode标准的稳定组成部分。它们永远不会更新。
个人链接Unicode标准附件在中可用此页面左侧的导航栏。重大变更清单在15.1版Unicode标准附件的内容中可以找到在里面第G节如下所示。
数据文件适用于版本15.1Unicode字符数据库可用。该目录中的ReadMe.txt提供了路线图各个子目录的功能。压缩版本UCD的也可以进行批量下载。
Unicode标准15.1.0版应引用为:
Unicode联盟。Unicode标准,15.1.0版,(加利福尼亚州南旧金山:Unicode联盟,2023.国际标准书号978-1-936213-33-7)
https://www.unicode.org/versions/Unicode15.1.0/
术语“Version 15.1”或“Unicode 15.1”是完整版本参考(Version 15.1.0)的缩写。
Unicode标准最新发布版本的引文和永久链接为:
Unicode联盟。Unicode标准.
https://www.unicode.org/versions/latest/
Unicode贡献文件的完整规范15.1见页面15.1.0的组件.该页还提供了Unicode标准附件的推荐参考格式。有关如何引用Unicode标准特定部分的示例,另请参阅参考示例.
Unicode 15.1中包含的勘误表按日期列出一单独的桌子有关Unicode 15.1发布后的勘误表和勘误表,请参阅当前列表更新和勘误表.
箱子折叠稳定政策已使用的显式语句进行扩展适用于不同版本的NFKC_Casefold(S)的箱子折叠稳定性Unicode标准。对细微的区别进行了澄清在toNFKC_Casefold(S)和toCasefold(toNFKC(S))之间。
Unicode标准附件中的变更列于第G节.
角色分配概述
添加了627个字符。有关详细信息,请参阅增量代码图.
新建块
版本15.1中有一个新定义的块:
范围 |
块名称 |
2个…2个5f |
中日韩统一汉字扩展I |
中日韩统一汉字扩展I的块已放置靠近平面2末端,紧邻延伸部分F之后,而不是在延伸H后的平面3上,以充分利用分配平面2上的可用空间。
Unicode 15.1的核心规范没有新的一致性要求。然而,几个Unicode标准附件中的一致性条款和Unicode技术标准已被重组并拆分为案例,以便更容易准确地指定与定制版本的一致性一些Unicode算法。UAX#29添加了新的一致性条款。
Unicode字符数据库贡献数据文件的所有更改的详细列表对于版本15.1,可以在中找到UAX#44,Unicode字符数据库. 其中列出的更改包括对现有字符的字符添加和属性修订,这将影响实现。从标准的早期版本迁移对实现的一些重要影响在第M节.
在15.1版中,一些Unicode标准附件进行了重大修订。下面列出了这些更改中最重要的更改。有关所有更改的完整详细信息,请参阅修改部分直接从以下UAX列表链接。
Unicode标准附件 |
变化 |
9号UAX Unicode双向算法 |
对BD16和控制流在W4、W5和W6之间的相互作用。sos的使用和还阐明了使用N0中的括号处理AN/EN。关于保留BN并更新显式格式字符。一个主要的例子第4.3.3节中添加了对URL使用HL4,并引用了第4.3.2节中增加了新的UTS#55。 |
UAX公司#11 东亚宽度 |
此版本中没有重大更改。 |
UAX公司#14 Unicode换行算法 |
添加了对正交音节边界处换行的支持,包括引入五个新的字符换行类。规则LB15分为LB15a和LB15b,以改进法语的处理样式引号。允许剪裁的更清晰特征是添加至第8.1节。各种其他澄清和小更新文中还列举了一些例子。 |
UAX公司#15 Unicode规范化表单 |
此版本中没有重大更改。 |
UAX公司#24 Unicode脚本属性 |
此版本中没有重大更改。 |
UAX公司#29 Unicode文本分段 |
为每种类型的分段添加了显式一致性规则一致性部分。支持正字法音节中断正在添加新规则GB9c。表中更新了“crlf”的定义Regex定义。对Word_Break表进行了多次更改属性值。第3.1.1节中添加了一条注释,说明每个表情符号序列构成单个字素簇。 |
UAX公司#31 Unicode标识符和语法 |
该UAX重新命名,以更好地反映其范围。多次更改默认标识符部分,包括删除UAX31-R1a的限制格式字符。一个重要的例子是添加到UAX31-R1b,稳定标识符。第4节被彻底改写,将空白和语法的讨论分开。上的部分本附件中删除了连接控件的有限上下文改为UTS#39。第7节添加了三个新的标准配置文件:数学兼容符号,emoji和默认可忽略排除。 |
UAX公司#34 Unicode命名字符序列 |
此版本中没有重大更改。 |
UAX公司#38 Unicode汉字数据库(Unihan) |
为中日韩统一汉字扩展I添加了文档以及6处新的临时房产。7个现有临时财产已删除。语法、源列表和/或描述如下为kIRG_GSource、kIRG_ KSource和kIRG-KPSource更新属性。语法并且还更新了其他几个特性的描述,包括kRSUnicode。 |
UAX公司#41 Unicode标准附件的通用参考 |
所有参考文献都更新为Unicode 15.1。 |
UAX公司#42 XML中的Unicode字符数据库 |
为Unicode 15.1添加了新的代码点属性、值和模式。 |
UAX公司#44 Unicode字符数据库 |
文件已更新,以描述对UCD的更改15.1版。 |
UAX#45型 U源象形字 |
增加了新的第3节,记录了U源表意文字的范围添加到每个版本的Unicode标准中。N、V、W和X状态值更新为更具描述性的FutureWS、Variant、Rejected和NoAction,分别是。删除了现在已删除的UK-2015和WS-2017状态值。 |
UAX 50号 Unicode垂直文本布局 |
此版本中没有重大更改。 |
Unicode技术标准也有重大修订版本与Unicode标准同步。下面列出了这些更改中最重要的更改。有关所有更改的完整详细信息,请参阅修改部分直接从以下UTS列表链接。
Unicode技术标准 |
变化 |
UTS#10 Unicode排序算法 |
此版本中没有重大更改。 |
UTS 39号 Unicode安全机制 |
连接控件上下文的定义和讨论如下从UAX#31移动到这个UTS。更新了易混淆性的定义考虑默认的可忽略代码点。新的易混淆性添加了适用于包含双向文本的标识符的关系。 |
UTS#46 Unicode IDNA兼容性处理 |
不赞成对偏差字符进行过渡处理。全部主要实现现在使用非转换处理。第6节中的第7步是更改为不再检查NFD有效性;这改变了三个字符从disallowed_STD3_valid到valid。在非转换处理中,U+1E9E大写夏普(ẞ)现在映射到U+00DF小夏普(\223;)。 |
UTS 51号 Unicode表情符号 |
浅谈表情符号与计算机语言的相互作用添加了语法。还对新表情符号序列进行了小更新在版本15.1中添加。 |
Unicode 15.1中有大量更改,可能会影响实现升级标准早期版本的15.1版。下面列出了其中最重要的并在此处进行了解释,以帮助重点关注升级过程中最可能导致意外问题的问题。
与脚本相关的更改
由于15.1版的新曲目范围有限没有与各种脚本特别相关的迁移问题,除了汉字(见下文)。
一般字符属性问题
- 有5个新的表意文字描述字符。这些扩展了表意文字描述序列的语法。
- 两个新的表意文字描述字符函数作为一元运算符,这需要引入一个新的二进制属性:IDS_unary_Operator。
- 有两个新属性,ID_Compat_Math_Start和ID_Compat_Math_Continue,用于新数学兼容性符号配置文件UAX#31。
- 有一个新属性NFKC_Simple_Casefold,用于建立另一种规范化形式,如NFKC_Casefold。新的一个使用Simple_Case_Folding映射而不是完整的Case_Folding映射。这用于支持基于简单(1:1)大小写折叠的不区分大小写标识符映射。
- 在Line_Break属性中添加了五个新值,以支持大量南亚和东南亚国家的新正交分线规则脚本。
细分
在UAX#29中有一个新的字形聚类分割规则GB9c,它引用了一个新的枚举属性Indic_Conjunt_Break。受此规则影响的脚本列表应为在后续版本中展开Unicode标准。(请注意,该结果与版本15.1.0的beta版本评审,该版本在规则GB9c的声明。)
UAX#14中有一个新的换行规则LB28a,用于防止正字法音节内的换行婆罗门文字。该新规则使用新的Line_Break属性值。它还包括在正则表达式中使用点圆。虚线圆圈是一个文字字符,也就是说,它匹配U+25CC◌dotted circle。
数字属性问题
- extracted/DerivedNumericValues.txt中有一个大的新值:10000000000000000(对于U+4EAC)
- U+5146有两个kPrimaryNumeric值:1000000、1000000000000
- U+79ED有两个kPrimaryNumeric值:1000000000、1000000000000
CJK/Unihan更改
- 添加了一个新的CJK统一表意文字块Extension I622个字符,范围为U+2EBF0..U+2EE5D。实施者应检查仔细阅读有关CJK系列的任何硬编码假设。为了保持CJK块范围尽可能紧凑,扩展I具有添加到平面2,而不是直接添加到平面3上的延伸H之后。实现者还应该检查他们的代码是否假定CJK扩展所有这些都以字母顺序出现在分机字母旁。
- 一些kRSUnicode值现在包含双撇号根,有时是代码点的唯一值。
- 七处旧的临时财产已被拆除。
- 新增六处临时房产。
请参见UAX公司#38,Unicode Han Database(Unihan),了解有关这些更改的更多详细信息,特别是第4.2节,上市按Unicode标准添加日期和第4.3节,上市依据Unihan.zip内的位置.UAX#38还更新了许多正则表达式值Unihan属性。有关双撇号部首,请参见:
UTS#46(IDNA)变更
- 过渡处理(参见一致性条款C1)现已被弃用在里面UTS#46,Unicode IDNA兼容性处理.
- 在非转换处理中,U+1E9E大写尖(ẞ)现在映射到U+00DF小尖(ß),以便具有任一输入字符的域名始终匹配。直到Unicode 15.0,大写夏普s映射到“ss”,这与的映射相同小尖头在里面过渡性的处理。
- U+2260(≠)、U+226E()和U+226F(≯)现在是无条件有效的,而不是不允许的_STD3_valid。
- 对有效性标准有几个附加的小改动UTS#46修改部分了解详细信息。
代码图的更改
- 主要中日韩统一汉字块(U+4E00)的代码图有一种更新的格式,源glyph使用7列,而不是6列。这个KP源标志符号已显式添加到代码图中。
- 炼金术符号的代表符号所用的字体块已更新。
与排序规则相关的更改
DUCET对报价权重进行了更新标志。各种单引号现在作为次要变量进行加权U+0027(')APOSTROPHE,各种双引号现在加权作为U+0022(“)报价标记U+05F3(“)HEBREW PUNCTUATION GERESH的二级变体也作为U+0027和U+05F4(“)HEBREW PUNCTUATION的二级变量进行加权GERSHAYIM作为U+0022的二级变量进行加权。此更改使更好的行为盖雷什和格沙伊姆用于搜索和排序,并带来UCA更符合引号的CLDR尾数,盖雷什、和格沙伊姆.
表情符号更改
Unicode 15.1中没有新的表情符号字符,但有118个新的RGI表情符号ZWJ序列总体上增加了17个演示序列表情符号曲目。有关详细信息,请参阅Unicode 15.1表情符号图表和Emoji最近添加,v15.1.