UCA权重分配

我们一直在审查我们用于UCA的主要重量分配。这是由两个问题引发的：（1）无论如何我们都需要为脚本重新排序做一些工作，（2）权重的分配没有跟上Unicode的增长，导致性能和排序键大小下降。

背景

主要权重的长度可以是1到4个字节。（例如，如果一个字符具有3字节的CE主权重，我们将其称为3字节）
它们有一个限制，即没有权重可以是另一个权重的适当初始序列。例如，如果X的权重为8542，那么没有三个或四个字节的权重可以从8542开始。
重要的是，最常见的字符具有较短的权重。例如，在U5.2中，{space，A-Z}是1字节。
第一个字节很重要，分配给特殊范围：请参阅特殊字节值
- 如果脚本的第一个字节不同，则可以相互重新排序。然而，我们在第一字节空间中没有足够的空间来为所有脚本执行此操作。
- 共享同一第一个主字符的所有字符都可以对较短的排序键使用特殊的主压缩。这意味着，如果一个脚本被分割成不同的第一个字节，它就不会从压缩中受益，甚至会变得更长。
- 当我们生成基表时，我们放置了一些间隙，以允许定制的字符进入。我们尝试在我们预计有更多需求的地方使间隙变大。

我们面临的特殊问题是：

我们只有17个可用的第一个字节用于填充高达21K的中文定制CJK权重，这导致其中一半以上是3字节。为了解决这个问题，我们需要大约84个第一字节空闲（67个以上）。
主密钥压缩使用的是旧的（硬编码）范围，导致它不是最佳的（包括使关键帧比没有压缩时长）。

另请参见：

ICU部分UCA危机
- 特殊字节值（主要替换过时的魔法字节)
脚本-重新排序-图表

这里有一个粗略的计划。

主要重量

允许03作为真正的主1字节或第3/4字节
允许FF作为真实的第3/4档

为不应压缩的第一个字节发出数据。也就是说，不是硬编码的主要压缩范围，它们将从合并到分数UCA表中的数据中读取。

为了使脚本重新排序和裁剪协同工作，当在脚本中的第一个字符之前或在脚本中最后一个字符之后裁剪字符时，该字符CE的第一个字节必须仍然在脚本中。

我们考虑这样做的方式是在每个脚本的主前导字节的开头有一个假主权重，没有分配给任何字符。该重量需要列在invuca.icu文件中。其效果是，在脚本的第一个字符之前对主字节进行剪裁会产生与脚本的前导字节相同的权重。这仅对从前导字节权重范围开始的脚本是必需的，而不是对同一脚本中具有更多权重的后续前导字节，也不是对相同前导字节中的后续脚本。假低权重可以是第二个字节中的03。我们不需要假高权重，因为下一个更高字节的假低权重用作上限。

变量

删除TAB下的1字节裁剪间隙（从03 20开始（或其他位置），允许2字节空间中有间隙）
将空格设为04
对所有/大多数符号使用3个字节的权重，也可以使用一些punt
应该会得到大约10字节的改进。

非变量

按如下方式分配第一个字节：

缺口
gorp符号
供应链
第
缺口
咖啡壶
...

这主要是为了重新排序脚本，可能需要花费一两个字节。

有关其余脚本（请参见脚本-重新排序-图表)

不推荐的脚本
- 将这3个字节全部设置为。
- 它们与推荐的脚本是分开的，但相邻的非推荐脚本具有相同的第一个字节。
- 预期节省：约45个第一字节
- 我们可以合并到前一个字节的末尾，再保存大约5个字节，但不允许对它们进行与前一个不同的重新排序。
对于推荐的脚本
- 西里尔文、阿拉伯语、朝鲜文*享受特殊待遇。常用字符为2个字节，不常用字符为3个。
  - 朝鲜文的“Common”是指朝鲜文音节分解中的任何Jamo
  - 西里尔文和阿拉伯语的“Common”是某些CLDR语言环境的主要示例中的任何字符
- 其他推荐的大于1字节的格式为3字节：埃塞俄比亚文、缅甸文、蒙古文、加拿大文、瓦依文、彝文
- 分数UCA中的测试将在任何其他脚本增长超过第一个字节时发出警报

*正常的任何字符序列之间都有间隔，以2字节的空间表示。因此，如果我们有<CUC>，那就变成了<Cg U g U g C>（其中C=常见，U=不常见，g=间隙）。当不常见的字符转换为3字节时，我们不需要两字节的间隙。因此，我们将得到<Cg UU C>。U之间以及最后一个U和第一个C之间将有一个3字节的间隙。这假设我们很少在其他字符之前插入字符，因为这样的字符会变成3字节。

隐含和特殊

休息

汉族
非汉族
检查所有非汉族人是否为Cn
破解可能要花费1字节。

轨迹范围

我们从未使用过这个。
缩短一个字节。保存前11个字节。

特价商品

Markus有压缩这些数据的想法，可以节省10个以上的第一个字节。

详细信息（来自Markus）

ICU排序规则使用最后32个前导字节作为固定值：

E0..E4隐式（算法构建）汉字和未分配码点的主权重
E5..EF试验重量，未在UCA中使用；这些是为Jamo V和Jamo T量身定制的，但从未使用过这样的订单
F0..FF用于长主CE、扩展、收缩、朝鲜文音节、隐式weight码点等的特殊前导字节。

我们可以很容易地将其压缩到更少的前导字节。例如，从32到8：

F8..FC隐式权重；保留算法，只需将偏移量从E0更改为F8
- 如果我们想让汉字的前导字节与未分配的代码点不相交，那么我们需要检查转换点。在这种情况下，我们可能需要添加前导字节。
FD轨迹重量
FE长主权重（3字节主权重需要24位数据）
FF特价
- 位23..4是用于扩展、收缩和预文本的32位单位偏移量
- 位3..0表示特殊值的类型

以下特殊项目前已定义，但尚未使用，根本不需要编码：CJK_IMPLICIT_TAG、CHARSET_TAG、THAI_TAG。

对于LEAD_SURROGATE_TAG，我们目前需要10位数据，但如果我们改为同时[或更早]使用UTrie2，则不再需要数据。

发电

FractionalUCA（WriteCollationData）的生成器当前具有用于分配的哑算法。也就是说，在一个脚本中给定20个字符，它只是按固定的量增加权重，在末尾留下一个很大的间隙。如果我们愿意，我们可以更改算法以更均匀地分布间隙。可能优先级较低。

测试

我们需要在每个重新排序类型的第一个（script、Nd、IMPLICIT、TRAIL-WEIGHT…）之前和最后一个重新排序类型之后测试字符的剪裁，以确保它们保持在相同的重新排序类型中。