2023年9月22日星期五

Unicode版本15.1–实施者提示

The Unicode版本15.1该版本包括UCD(Unicode字符数据库)、代码表和附件,但核心规范与Unicode版本15.0保持不变。除了新字符勘误表被修复,以及改进的代表性符号。 

实施者还应仔细注意对以下UAX所做的重要更改:
  • 对于9号UAX (Unicode双向算法)BD16的文本、W4到W6之间控制流的相互作用、sos的使用以及N0中括号内AN/EN的处理均已澄清,并添加了UTS#55的参考。
  • 对于UAX#14型 (Unicode换行算法),增加了正字法音节边界处的换行,改进了对法式引号的处理,并更清楚地描述了允许的尾音。
  • 对于UAX#29 (Unicode文本分段),添加了显式一致性规则,添加了对ConjunctLinker集群的支持,更新了“crlf”的定义,并对Word_Break Property Values表进行了多次更改。
  • 对于UAX 31号 (Unicode标识符和语法),对第2节进行了多次更改,第4节被完全重写,第7节被添加,连接控件的有限上下文被移至UTS#39,并添加了对UTS#55的引用。
  • 对于38号UAX (Unicode汉字数据库)添加了6个新的临时属性,删除了7个临时属性,更新了一些属性的语法,改进了一些属性描述。
  • 对于UAX#45型 (U源象形字),39个新表意文字的记录被添加到其数据文件中,增加了第3节,“ExtI”被添加为新状态,删除了两个过时的状态值,并改进了四个状态值。



🌻🌻🌻🌻🌻  支持 联合编码  🌻🌻🌻🌻🌻 

最后,如果你已经是一个贡献者,或者 成员 Unicode的 (或您的公司或组织是),谢谢 你,丹克,德库尤धन्यवाद, merci、grazie、, நன்றி,谢谢!我们的成就是 只有像你这样的支持者才有可能。 
 
收件人 支持Unicode的使命,确保每个人都能 在所有设备上用他们的语言进行通信, 请考虑
采用一个字符赠送股票,或制作 捐款. 

由于Unicode,Inc.是一个基于美国的开源、开放 标准,非营利,501(c)3组织,您的 供款可能有资格享受减税。 

有关详细信息,请咨询税务顾问。

今天就领养吧!

2023年9月14日星期四

Unicode CLDR v44 Alpha可用于测试

[图像] Unicode码CLDR v44 Alpha现在可用于集成测试。

CLDR为支持世界语言(日期、时间、数字、排序等)例如,all主要浏览器和所有现代手机都使用CLDR提供语言支持。(请参见谁使用CLDR?)

通过在线调查工具,贡献者为其语言(languages)&广泛用于支持世界上大部分软件的数据。此数据也是决定支持哪些语言的一个因素手机和计算机操作系统。

alpha已经集成到开发版本中重症监护室。我们特别感谢CLDR非ICU消费者的反馈数据和上迁移问题。反馈意见可提交至CLDR票据.

Alpha表示可以查看主要数据和图表,但是规范、JSON数据和其他组件还没有准备好审查。如果发现showstoper错误,某些数据可能会更改。计划时间表是:
  • 9月27日-Beta(数据)
  • 2004年10月-Beta2(规格)
  • 11月1日-发布
在CLDR 44中,重点是:
  1. 设置人名格式。进一步添加用于格式化人名的增强功能(数据和结构)。更多信息有关添加此功能的原因及其功能的信息,请参阅背景.
  2. Emoji 15.1支持。添加了短名称,关键字和新的Unicode 15.1表情符号的排序顺序。
  3. Unicode 15.1增补。成为常规对Unicode新版本的添加和更改,包括新版本的名称脚本、汉字的校对数据等。
  4. 数字弱势语言覆盖。开始改善DDL覆盖率,以下DDL区域设置现在具有更高的覆盖级别:
    1. 现代:切罗基语、下索布语、上索布语
    2. 中等:阿尼语、语际语、库尔德语、毛利人、威尼斯人
    3. 基本:世界语、Interlangue、Kangri、Kuvi、Kuvi(梵文)、Kuvi
还有许多其他更改:要了解更多信息,请参阅草稿CLDR v44发布页面, 其中包含访问日期、查看更改图表的信息,而且-重要的是-迁移问题。

在版本44中,达到了以下级别:

v44级别
兰斯
用法
现代
95
适合全UI国际化
切什蒂纳、德意志、法兰西、斯瓦希里、马扎尔、奥兹别克,Română,吴廷琰,λληικά,Беларуская‎, ‎ᏣᎳᎩ‎, Ქართული‎, Հայերեն‎, ‎עברית‎, ‎اردو‎, አማርኛ‎, ‎नेपाली‎, অসমীয়া‎, ‎বাংলা‎, ‎ਪੰਜਾਬੀ‎, ‎ગુજરાતી‎, ‎ଓଡ଼ିଆ‎, தமிழ்‎, ‎తెలుగు‎, ‎ಕನ್ನಡ‎, ‎മലയാളം‎, ‎සිංහල‎, ‎ไทย‎, ‎ລາວ‎, မြန်မာ‎, ‎ខ្មែរ‎, ‎한국어‎, 中文, 日本語‎, … ‎
中等
13
适合“文档内容”国际化,例如电子表格
勃列日涅格(brezhoneg)、福罗伊斯克特(föroyskt)、伊希科萨(IsiXhosa)、萨尔都(sardu)、谢尔盖娃(Qiӑbval)…
基本
50
适用于区域设置选择,例如在手机上选择语言电话
asturianu、Rumantsch、毛利、沃洛夫、,कॉशुर,মৈতৈলোন্,ᱥᱟᱱᱛᱟᱲᱤ…

我们目前计划将CLDR版本45关闭无提交期的发布。重点是改进调查用于数据提交、进行必要的基础设施更改以及一些高优先级数据质量修复。



支持Unicode
支持Unicode的使命,确保每个人都可以在所有设备上的语言,请考虑采用一个字符赠送股票, 捐款.作为Unicode,Inc.是一家基于美国的开源、开放标准、非盈利的公司,501(c)3组织,您的供款可能有资格享受减税。拜托有关详细信息,请咨询税务顾问。

[徽章]

2023年9月13日星期三

源代码处理:防止源代码欺骗

页眉图像
作者:Mark Davis,联合创始人兼首席技术官

Unicode联盟正在提供一种新的资源来帮助编程工具开发人员、编程语言开发人员和编程语言用户处理Unicode欺骗。

背景

包含字母和符号(超过149000个Unicode 15.1)在世界的写作系统中,不可避免的是,他们中的许多人看起来很相似,有时甚至完全相同。当然,有些人会利用这一点来诈骗。例如“pаypal.com”,其中第一个“а”实际上是一个西里尔字符,与拉丁语容易混淆字母“a”。😵‍💫

2004年,Unicode联盟开始致力于解决这一问题问题,重点关注可能被欺骗的URL和其他标识符,以及制作了一份规范和技术报告,其中包含检测的最佳实践这种情况。使用这些规范的实现已经被广泛部署在操作系统中。

2021年11月,记录了另一类问题。被证明恶意代理可以编写看起来像对人类评论家来说,它似乎是安全的,但实际上包含了隐藏的陷阱。那里这些恶搞主要有三类:断线假脱机易混淆的恶作剧, 双向订购假脱机.

示例

  • 断线假脱机可能会导致就编译器而言,是实际注释掉的代码行担心的。C11可能会发生这种情况,例如:
    预处理图像
    对于审阅者来说,这是一行活动代码。但当U+2028行分隔符位于第一行末尾,C11编译器将其解释为仅包含注释的行!

  • 上面的“pаypal.com”是一个示例令人困惑的恶作剧。

  • 对于双向恶搞,取两个变量A?1和A1;这些看起来完全一样,但前者由字母A和φ后接数字1,而数字1由字母A、数字1和字母的顺序。
这样的代码甚至可能不是恶意的-很容易不小心给了评论家(甚至作者!)错误的印象,导致隐藏软件错误-只是很难理解;这是一个例子:

文本“错误:{0}{1}”,消息“在翻译中变为RTL。

早期关于欺骗标识符的工作与此工作相关,但没有明确处理软件周围的环境发展。此外,该指南针对国际化专家,不是编程语言和软件工具开发人员。

过程

针对这个问题,联合体启动了一个项目2022年初,成立了一个跨职能的Unicode专家组处理、编程语言和软件开发工具这些问题。该项目产生了源代码工作组(SCWG),它汇集了一组专家来解决可能出现的问题。

该组的第一个结果是对核心Unicode规范将于2022年9月发布。9号UAX提供了重要的高级协议HL4的扩展使用示例,并强调使用它来减少源的误导性双向排序代码,包括潜在的欺骗攻击;UAX公司#31个提供了有关默认标识符配置文件的重要指导并澄清了Pattern_White_Space和Pattern_Syntax的要求字符适用于编程语言,并与以下问题相关双向排序和潜在的欺骗攻击。

影响

该组的最终输出为Unicode码技术标准#55,源代码处理。新规范带来了同时在一个地方描述特定于源代码的问题,以及编程语言和软件的指导和最佳实践工具开发人员。支持这些最佳应用程序所需的许多API这些实践已经在Unicode软件ICU中指定和实施已经存在于所有现代操作系统中的库。然而,一个新的有用的API已添加到ICU,并将于2023年10月发布。这是新的bidiSkeleton函数,用于检测标识符,如上面的Aö1。

已对进行协调的安全相关更新9号UAX,Unicode码双向算法和UAX 31号,Unicode码标识符和语法以及更新UTS 39号,Unicode码安全机制。

如果没有一套专门的以及组成SCWG的知识渊博的人,特别是罗宾·勒罗伊椅子。其他人包括阿列克谢·奇蒙德斯、阿斯穆斯·弗雷塔格、巴里·多兰斯、凯瑟琳“白夸克”、克里斯·里斯、科伦蒂·贾博特、但丁·加涅、黛博拉·安德森、埃德Schonberg、Elnar Dakeshov、Jan Lahoda、Julie Allen、Ken Whistler、,梁海(Liang Hai)、马尼什·戈雷戈卡(Manish Goregaokar)、马克·戴维斯(Mark Davis)、马库斯·谢勒(Markus Scherer)、迈克尔·范宁(Michael Fanning)、,Nathan Lawrence、Ned Holbrook、Peter Constable、Randy Brukardt、Rich Gillam、,理查德·史密斯(Richard Smith)、鲁兹贝·波纳德(Roozbeh Pournader)、史蒂夫·道尔(Steve Dower)和汤姆·霍尔曼(Tom Honermann)。更多信息有关他们贡献的详细信息,请参见致谢.

完成主要任务后,SCWG正式退休-但我们保留着参与者名单,以备我们需要拜访他们未来的专业知识!



支持Unicode
支持Unicode的使命,确保每个人都可以在所有设备上的语言,请考虑采用一个字符赠送股票, 捐款.作为Unicode,Inc.是一家基于美国的开源、开放标准、非盈利的公司,501(c)3组织,您的供款可能有资格享受减税。拜托有关详细信息,请咨询税务顾问。

[徽章]

2023年9月12日星期二

宣布Unicode®标准15.1版


Unicode标准的15.1版现在可用。此次要版本更新包括更新的代码表、数据文件和附件。核心规范是与Unicode版本15.0保持不变。

这个版本增加了627个字符,使字符总数达到149813年。新增内容包括622中日韩统一表意文字在一个新的区块中,中日韩统一表意文字扩展I。这些新的表意文字是中国急需用于公共服务数据库,预计将纳入即将对中国GB 18030-2022标准进行的修订。这个其他新字符是五个表意文字描述字符,可以增强描述罕见或非Y编码CJK表意文字的能力。

有六个全新的表情符号,例如凤凰和莱姆(最后)可食用的蘑菇。对于108人的表情符号,现在可以切换方向它们面向(例如,朝右行走的人面向左侧).

已对进行安全相关更新9号UAXUnicode双向算法UAX 31号Unicode标识符和语法以及的更新UTS 39号Unicode安全机制. 这些更新补充了新的Unicode技术标准的发布,UTS#55Unicode源代码处理.

新字符限制为三个块,几个块的代码图其他区块也发生了变化。图表中最重要的变化是CJK统一汉字、中日韩统一汉字扩展A和中日韩联合象形字扩展B块,添加代表符号和24000多个KP源(朝鲜)象形文字的源引用。还有许多其他的字形修正和改进-请参阅15.1三角码图了解详细信息。

UAX#14已进行重大更新,Unicode换行算法和UAX#29,Unicode文本分段增加对南亚和东南亚脚本的更好支持,包括aksaras和辅音连接词的字素簇支持,以及换行在正字法音节边界。

有关Unicode Version 15.1的完整详细信息,请参阅https://www.unicode.org/versions/Unicode15.1.0/.



支持Unicode
支持Unicode的使命,确保每个人都可以在所有设备上的语言,请考虑采用一个字符赠送股票, 捐款.作为Unicode,Inc.是一家基于美国的开源、开放标准、非盈利的公司,501(c)3组织,您的供款可能有资格享受减税。拜托有关详细信息,请咨询税务顾问。

[徽章]

2023年9月1日星期五

新的虚拟事件-关于脚本和字符编码的开放日

注册现已打开!

Unicode标准旨在使用于编写世界语言的脚本能够在计算机和设备上访问。然而,将字符和脚本纳入Unicode标准的过程常常令人困惑。一个人如何成功地提出一个剧本或几个角色?如何做出决策? 

加入我们的虚拟开放日活动,您将能够向经验丰富的Unicode专家提出这些(和其他)脚本和字符编码问题。

什么时候?以下为:星期二2023年10月17日上午11点-12点太平洋时间(加利福尼亚州)

立即注册。请注意,此会话将通过Unicode YouTube频道录制并提供。

支持资源

记录和保存语言:谈字符编码、键盘和字体作者:黛博拉·安德森和安德鲁·格拉斯

脚本和字符编码 作者:Deborah Anderson,脚本特设小组主席

Unicode YouTube频道上与脚本和字符编码相关的其他讲座