显示带有标签的帖子比迪.显示所有帖子
显示带有标签的帖子比迪.显示所有帖子

2024年5月31日星期五

6月25日的新活动——双向文本网络研讨会(第一部分):拜迪的基本知识

注册现已打开!

一些脚本,如希伯来语、阿拉伯语和乌尔都语,写下了字母从右向左水平排列在页面或屏幕上。并发症对于这些脚本,其他字符(如数字)从左到右流动,并且可以出现在同一行,甚至可以与其他从左到右的文本一起出现,例如拉丁语。同时处理从右到左和从左到右文本的文本称为“双向”文本(简称“bidi”)。

如何在浏览器和其他软件中处理bidi文本对普通用户和实现者来说都是一个挑战。本次网络研讨会将介绍基础知识和示例。接下来是一个现场问答期间。更深入的问答环节将于2024年8月13日举行。

谁?如果你是一名翻译人员/本地化人员,那么本地化工具制造商、I18n基础设施开发人员、语言学家和语言研究人员,应用程序开发人员或内容作者,您将希望加入我们网络研讨会。把你的问题带给现场问答的相关人员。

什么时候?2024年6月25日星期二上午8点开始(旧金山),上午11点(纽约)和下午5点(柏林)。

注册已打开请注意,本次会议也将被录制可通过Unicode YouTube频道获得。


双向文本入门(第一部分):Bidi的基本知识

常见问题解答:https://unicode.org/faq/bidi.html网址

文章:
W3C的其他文章:

关于Unicode联盟

Unicode联盟是首要的非盈利开源所有软件和服务国际化的标准机构。

30多年来,Unicode联盟一直在协调一个由志愿程序员和语言学家组成的全球团队为标准化、发展和维护全球软件基础几乎所有的计算机系统和服务都可以帮助人们使用他们的母语。

有关Unicode的其他信息,请访问home.unicode网站.

Unicode资源


采用字符并支持Unicode的使命

想给那个特别的人一件特别的东西吗?
或者可能是一些治疗自己的东西?
🕉️💗🏎️🐨🔥🚀爱₿♜🍀

采用一个字符或表情符号来给予它应有的关注,同时也支持Unicode的使命,以确保每个人都可以在所有设备上用自己的语言进行通信。

每次采用都包括一个数字徽章和证书,您可以自豪地展示!

享受乐趣并支持一项公益事业

你也可以捐赠资金礼品库存


由于Unicode,Inc.是一家总部位于美国的开放源码、开放标准、非盈利的501(c)3组织,您的捐款可能有资格获得减税。有关详细信息,请咨询税务顾问。

2023年9月13日星期三

源代码处理:防止源代码欺骗

页眉图像
作者:Mark Davis,联合创始人兼首席技术官

Unicode联盟正在提供一种新的资源来帮助编程工具开发人员、编程语言开发人员和编程语言用户处理Unicode欺骗。

背景

包含字母和符号(超过149000个Unicode 15.1)在世界的写作系统中,不可避免的是,他们中的许多人看起来很相似,有时甚至完全相同。当然,有些人会利用这一点来诈骗。例如“pаypal.com”,其中第一个“а”实际上是一个西里尔字符,与拉丁语容易混淆字母“a”。😵‍💫

2004年,Unicode联盟开始致力于解决这一问题问题,重点关注可能被欺骗的URL和其他标识符,以及制作了一份规范和技术报告,其中包含检测的最佳实践这种情况。使用这些规范的实现已经被广泛部署在操作系统中。

2021年11月,记录了另一类问题。被证明恶意代理可以编写看起来像对人类评论家来说,它似乎是安全的,但实际上包含了隐藏的陷阱。那里这些恶搞主要有三类:断线假脱机易混淆的恶作剧, 双向订购假脱机.

示例

  • 断线假脱机可能会导致就编译器而言,是实际注释掉的代码行担心的。C11可能会发生这种情况,例如:
    预处理图像
    对于审阅者来说,这是一行活动代码。但当U+2028行分隔符位于第一行末尾,C11编译器将其解释为仅包含注释的行!

  • 上面的“pаypal.com”是一个示例令人困惑的恶作剧。

  • 对于双向恶搞,取两个变量A?1和A1;这些看起来完全一样,但前者由字母A和φ后接数字1,而数字1由字母A、数字1和字母的顺序。
这样的代码甚至可能不是恶意的-很容易不小心给了评论家(甚至作者!)错误的印象,导致隐藏软件错误-只是很难理解;这是一个例子:

文本“错误:{0}{1}”,消息“在翻译中变为RTL。

早期关于欺骗标识符的工作与此工作相关,但没有明确处理软件周围的环境发展。此外,该指南针对国际化专家,不是编程语言和软件工具开发人员。

过程

针对这个问题,联合体启动了一个项目2022年初,成立了一个跨职能的Unicode专家组处理、编程语言和软件开发工具这些问题。该项目产生了源代码工作组(SCWG),它汇集了一组专家来解决可能出现的问题。

该组的第一个结果是对核心Unicode规范将于2022年9月发布。9号UAX提供了重要的高级协议HL4的扩展使用示例,并强调使用它来减少源的误导性双向排序代码,包括潜在的欺骗攻击;UAX公司#31个提供了有关默认标识符配置文件的重要指导并澄清了Pattern_White_Space和Pattern_Syntax的要求字符适用于编程语言,并与以下问题相关双向排序和潜在的欺骗攻击。

影响

该组的最终输出为Unicode码技术标准#55,源代码处理。新规范带来了同时在一个地方描述特定于源代码的问题,以及编程语言和软件的指导和最佳实践工具开发人员。支持这些最佳应用程序所需的许多API这些实践已经在Unicode软件ICU中指定和实施已经存在于所有现代操作系统中的库。然而,一个新的有用的API已添加到ICU,并将于2023年10月发布。这是新的bidiSkeleton函数,用于检测标识符,如上面的Aö1。

已对进行协调的安全相关更新9号UAX,Unicode码双向算法和UAX 31号,Unicode码标识符和语法以及更新UTS 39号,Unicode码安全机制。

如果没有一套专门的以及组成SCWG的知识渊博的人,特别是罗宾·勒罗伊椅子。其他人包括阿列克谢·奇蒙德斯、阿斯穆斯·弗雷塔格、巴里·多兰斯、凯瑟琳“白夸克”、克里斯·里斯、科伦蒂·贾博特、但丁·加涅、黛博拉·安德森、埃德Schonberg、Elnar Dakeshov、Jan Lahoda、Julie Allen、Ken Whistler、,梁海(Liang Hai)、马尼什·戈雷戈卡(Manish Goregaokar)、马克·戴维斯(Mark Davis)、马库斯·谢勒(Markus Scherer)、迈克尔·范宁(Michael Fanning)、,Nathan Lawrence、Ned Holbrook、Peter Constable、Randy Brukardt、Rich Gillam、,理查德·史密斯(Richard Smith)、鲁兹贝·波纳德(Roozbeh Pournader)、史蒂夫·道尔(Steve Dower)和汤姆·霍尔曼(Tom Honermann)。更多信息有关他们贡献的详细信息,请参见致谢.

完成主要任务后,SCWG正式退休-但我们保留着参与者名单,以备我们需要拜访他们未来的专业知识!



支持Unicode
支持Unicode的使命,确保每个人都可以在所有设备上的语言,请考虑采用一个字符赠送股票, 捐款.作为Unicode,Inc.是一家基于美国的开源、开放标准、非盈利的公司,501(c)3组织,您的供款可能有资格享受减税。拜托有关详细信息,请咨询税务顾问。

[徽章]

2023年1月17日星期二

Emoji 15.1有什么新功能?

用更少的资源做更多的事

作者:Jennifer Daniel,表情小组委员会主席

【凤凰形象】

今年秋季,Unicode技术委员会宣布推迟Unicode 16.0标准。这并非没有先例——COVID放慢了发布速度2020年,Unicode为14.0,世界似乎幸存下来😉. 小组委员会做好充分准备并做出相应调整,讨论这对他们意味着什么各自的专业领域。

表情小组委员会(ESC)——负责定义实现所需的规则、算法和属性不同平台之间针对出现的笑脸的互操作性在你的键盘上(大喊😁🥰🥹🤔🫣🫡😵‍💫!) — 此延迟表示机会。当然,我们几乎要松一口气了(摄入Emoji 16.0提案期刚刚结束)。但在学习之后,我们直到2024年,我们才能运送任何新的代码点,我们将精力转向推荐基于现有表情符号的表情符号.(这些被称为表情符号ZWJ序列. 当多个表情符号组合显示为单个表情符号时👩 🏽 +🏭 = 🧑🏽‍🏭).

当少即是多

书面语言的一个非常强大的方面是由有限数量的字符组成,可以“完成所有任务”。然而,作为随着时间的推移,表情符号生态系统已经成熟——我们的键盘激增,表情符号类别即将达到或已经达到饱和水平。反思后表情符号是如何使用的, ESC进入了一个新时代,表情符号前进的主要方式是不仅仅是为了向Unicode标准中添加更多。相反,ESC每年批准的表情符号提案越来越少。

但我们的工作尚未完成。一点也不。语言是流动的站着不动。还有更多事情要做!这种“非周期”给了我们一个机会使用表情符号解决一些长期存在的主要问题。第一个想到:肤色。

什么是家庭?

这个多年来,多人多音支持的编码已经成熟; 然而,对于普通人来说,实现似乎是随机的:没错,所有人的表情符号都有色调选项(字符除外你看不到皮肤的地方🤺) 有……不适合。一些两人表情符号提供音调支持(🧑🏻‍_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _🧑🏿) 其他人没有(👯). 有几个没有RGI表情符号用色调渲染但没有改变这两个字符之一的启示(例如,🤼🏾‍♂).

然后……有一套家族表情符号(👨‍👦👨‍👦‍👦👨‍👧👨‍👧‍👦👨‍👧‍👧👩‍👦👩‍👦‍👦👩‍👧👩‍👧‍👦👩‍👧‍👧 👨‍👨‍👦👨‍👨‍👦‍👦👨‍👨‍👧👨‍👨‍👧‍👦👨‍👨‍👧‍👧👩‍👩‍👦👩‍👩‍👦‍👦👩‍👩‍👧👩‍👩‍👧‍👦👩‍👩‍👧‍👧👨‍👩‍👦👨‍👩‍👦‍👦👨‍👩‍👧👨‍👩‍👧‍👦👨‍👩‍👧‍👧👪). 这些角色包括两个人,三个人,有时四个人,但没有他们有任何音调支持(!)。我们似乎有很多家庭表情符号,但同时还不够。

26个“家族”表情符号可分为四组:

[图像系列]

尽管Unicode标准包含26个“家族”表情符号这些象形文字中,有一些在视觉传达方面过于规范化家庭的代表。包括许多家族的排列出于好意。但我们不能全部列出,通过列出一些组合,它提醒人们注意那些被排除在外的组合。

什么是家庭?对一些人来说,家庭就是你曾经的样子用提出。其他人则将朋友视为他们选择的家人。一些家庭有孩子,其他家庭有宠物。有多代人的家庭,多种族家庭,当然许多家庭是所有这些的任意组合这些特点等等。

幸运的是,我们不需要添加7000种变体(即使这样也无法捕捉“家庭”作为一个概念)。相反,我们可以将单个表情符号并列在一起捕捉一个具有一定特定程度的概念——与此并无太大不同将字母排列在一起,创造单词来传达概念😉

[图像色调的家庭]

使表情符号键盘在创建更直观和个性化体验Emoji小组委员会建议对家庭表情符号的贬低。这一小套表情符号将作为多阶段努力“完成余下色调变体的设置”多人表情符号。这当然回避了一个问题:当有这么多世界上有很多人,有没有一种有效的方法传达“家庭”的概念,但在定义时不要过于规范什么是家庭,什么不是家庭?好吧,谢天谢地,图标可以做很多重无需太多细节即可起吊。
[前后图像]

表情符号什么时候跑向警察或被警察追捕?

ESC正在积极探索的另一个领域是当书写方向发生变化时,表情符号序列可能会有所不同。一些表情符号字符具有编码隐含方向性的语义,但当字符串被镜像,其含义可能会无意中丢失或更改。

[图像向右]
从左到右的表情符号序列
快速跑向“令人兴奋”的警察追逐


[图像向左]
从右到左的表情符号序列
逃离警察局


我们能做些什么来帮助确保信息有意义的翻译是微小的图片还是微小的字母?作为15.1的一部分我们提出了一组方向性很强的表情符号最初关注的是人&面对相反的方向。很快你也能跑了接近或远离……兴奋。

表情符号15.1

鉴于Unicode 16.0的emoji建议的摄入周期截至去年7月,表情小组委员会还决定暂时推迟2024年4月之前接受Unicode版本17.0提案。幸运的是,你不需要等到那时才能获得新的表情符号。在以下列表中推荐信包括578个字符(其中大多数是所描述的候选人以支持方向性)。这份清单还包括一些简单的补充包括断链、酸橙、无毒蘑菇、点头和颤抖的脸和一只凤凰鸟。每一个都利用了一个唯一有效的ZWJ表情符号的序列,虽然它们看起来像由单个元素组成的原子字符代码点它们由两个或多个代码点组成。

[图像候选]

断链是由于🔗💥, 具有多种含义,比如自由、打破循环,或者可能是破坏的url;-)。就像上面提到的双向表情符号,点头脸和颤抖脸是的结果🙂↔️🙂↕️ 分别是。哦,当然有一只凤凰正在升起从灰烬中(🐦🔥),这是一个完美的比喻,可以捕捉我们今天的处境。

Unicode技术委员会(UTC)将审查所需的2023年1月第一次会议上的文件——如果这些文件候选人继续前进,你可以期待UTC在今年春天晚些时候的更新和Summer。


支持Unicode
支持Unicode的使命,确保每个人都可以在所有设备上的语言,请考虑采用一个字符赠送股票, 捐款.作为Unicode,Inc.是一家基于美国的开源、开放标准、非盈利的公司,501(c)3组织,您的供款可能有资格享受减税。拜托有关详细信息,请咨询税务顾问。

[徽章]

2016年1月14日星期四

建议更新UAX#9,Unicode双向算法

新提议的更新UAX#9,Unicode双向算法对于Unicode 9.0版本,现在可供公众审查和评论。

第2.7节中的表格,标记和格式已更新,以反映HTML5和CSS中隔离的更改。

有关如何留下反馈的更多信息和说明,请参阅公众评论第315期.

2015年11月25日星期三

前置连接标记的新字符属性

阿拉伯语图像Unicode技术委员会正在寻求关于为类定义新字符属性的建议的反馈前置连接标记,也称为带前缀的格式控制字符或者,更一般地说,作为对向标记。该类中的字符包括U+0600阿拉伯数字符号和U+06DD阿拉伯结束AYAH。新属性名为Prepended_Concatenation_Mark,目标是Unicode 9.0,它将提供一种通过属性而不是硬编码枚举来集体处理对向标记的机制。有关问题的详细描述以及如何提供反馈,请参见公众评论第310期.

2014年8月26日星期二

PRI#279:建议更新UAX#9,Unicode双向算法

建议的更新Unicode 8.0码解决了双向算法在某些特定情况下无法产生预期结果的三个问题。规范拟议变更的详细信息和理由见背景文件,可从PRI页面.

本次发行的截止日期为2014年10月20日。对于有关如何讨论此问题以及如何提供正式反馈,请参阅反馈和讨论有关的说明PRI页面.

公众评论问题索引页是:http://www.unicode.org/review/

2013年6月28日星期五

测试Unicode 6.3的Unicode双向算法

Unicode标准附件#9,Unicode码双向算法(UBA),有一个主要更新计划在中发布2013年9月。此更新是Unicode 6.3发生了重大变化。对的更改算法和文本已经获得Unicode的批准技术委员会,以最终编辑审查为准。

Unicode技术委员会鼓励实现根据新的测试文件测试其代码以及2013年7月的两个参考实施。UAX#9中规范文本的解释必须绝对清晰,并且测试数据中的值之前至少通过两个实现进行彻底测试发布,因为发布后的任何更改,甚至是为了修复问题,都可能导致重大的互操作性问题。UBA用于显示所有网络和应用程序中的阿拉伯语和希伯来语文本,因此算法的任何更改都会产生重大影响。

UAX#9的拟议更新涉及UBA的实质性扩展,以实现的隔离运行,引入了新的Bidi_Class属性值和格式字符以支持该扩展。还对进行了更改章节3.3.5、解析中性点和隔离格式类型将成对标点符号作为一个单元进行解析。有关详细信息,请参阅http://www.unicode.org/reports/tr9/tr9-28.html.

有关审核的更多信息,请参阅http://www.unicode.org/review/pri254/.