数字解析

作者

日期

状态

马克·戴维斯

2009-06-19

建议书

在ICU中，数字是根据适用于区域设置的模式和数字符号进行解析的。在解析数字时，我们需要宽大一些，但不要太过宽大，以致于我们会解释可能的错误，例如“1.1”在法语中被解释为11（就像ICU最新的现成版本一样）。以下是关于如何做到这一点的一些想法。

Lenient分析

我们允许在模式的数字元素中使用的字符之间有一些等效性。分隔符分为4类，其中我们可以考虑等效项：

- private final Unicode Set dotEquivalents=（Unicode Set）new Unicode Set（“[..․·.۔٬]”）.freeze（）；
- private final Unicode Set commaEquivalents=（Unicode Set）new Unicode Set（“[，，，，،、，؍]”）.freeze（）；
- private final Unicode Set撇号Equivalents=（Unicode Set）new Unicode Set（“[︑'''']”）.freeze（）；
- private final Unicode Set spaceEquivalents=（Unicode Set）new Unicode Set（“[：whitespace:]”）.freeze（）；

前两个符号可以是十进制符号，也可以是分组符号；其他符号只能是分组符号。因此，对于特定的区域设置，我们可以只包含前两个符号中的一个作为十进制符号（基于区域设置数据），而所有其他符号作为分组符号。但是，我们需要对这些符号进行一些限制：

其他项目：

我们可能应该要求将等效数据添加到CLDR中，但应添加到补充数据中；我们不希望它因地区而异。

严格的解析要求字符完全匹配（没有等价项），但允许在空格（数字内除外）和分组（受上述约束）中具有上述灵活性。数字可以来自ASCII或区域设置的本地集，但不能来自其他集；他们一定都来自同一组。

问题：我们应该使解析成为规范/兼容性-等效不敏感的吗？我最初的想法是，我们可以调整等价集以获得最大的好处，也许还可以使用货币做一些事情，但不是为了实现完全规范/兼容-等价不敏感。