2024年5月31日星期五

6月25日的新活动——双向文本网络研讨会(第一部分):拜迪的基本知识

注册现已打开!

一些脚本,如希伯来语、阿拉伯语和乌尔都语,写下了字母从右向左水平排列在页面或屏幕上。并发症对于这些脚本,其他字符(如数字)从左到右流动,并且可以出现在同一行,甚至可以与其他从左到右的文本一起出现,例如拉丁语。同时处理从右到左和从左到右文本的文本称为“双向”文本(简称“bidi”)。

如何在浏览器和其他软件中处理bidi文本对普通用户和实现者来说都是一个挑战。本次网络研讨会将介绍基础知识和示例。接下来是一个现场问答期间。更深入的问答环节将于2024年8月13日举行。

谁?如果你是一名翻译人员/本地化人员,那么本地化工具制造商、I18n基础设施开发人员、语言学家和语言研究人员,应用程序开发人员或内容作者,您将希望加入我们网络研讨会。把你的问题带给现场问答的相关人员。

什么时候?2024年6月25日星期二上午8点开始(旧金山),上午11点(纽约)和下午5点(柏林)。

注册已打开请注意,本次会议也将被录制可通过Unicode YouTube频道获得。


双向文本入门(第一部分):Bidi的基本知识

常见问题解答:https://unicode.org/faq/bidi.html网址

文章:
W3C的其他文章:

关于Unicode联盟

Unicode联盟是首要的非盈利开源所有软件和服务国际化的标准机构。

30多年来,Unicode联盟一直在协调一个由志愿程序员和语言学家组成的全球团队为标准化、发展和维护全球软件基础几乎所有的计算机系统和服务都可以帮助人们使用他们的母语。

有关Unicode的其他信息,请访问home.unicode网站.

Unicode资源


采用字符并支持Unicode的使命

想给那个特别的人一件特别的东西吗?
或者可能是一些治疗自己的东西?
🕉️💗🏎️🐨🔥🚀爱₿♜🍀

采用一个字符或表情符号来给予它应有的关注,同时也支持Unicode的使命,以确保每个人都可以在所有设备上用自己的语言进行通信。

每次采用都包括一个数字徽章和证书,您可以自豪地展示!

享受乐趣并支持一项公益事业

你也可以捐赠资金礼品库存


由于Unicode,Inc.是一家总部位于美国的开放源码、开放标准、非盈利的501(c)3组织,您的捐款可能有资格获得减税。有关详细信息,请咨询税务顾问。

2024年5月21日,星期二

Unicode 16.0 Beta Review公开版

[图像]
Unicode®16.0的测试版审查期已经开始,并将持续到24年7月22日。

测试版主要用于审查字符属性数据和算法规范的更改(Unicode标准附件)。此外,第一次核心规范文本的完整草案可在测试期内进行审查。

在发行的这个阶段,角色剧目被认为是稳定的。对于此版本,将添加5185个新字符,从而使Unicode 16.0中的编码字符总数达到154998个。新增内容包括七个新脚本:
  • 高劳伊是一个来自西非的现代用法脚本
  • 古伦·凯马基拉特·拉伊Ol Onal公司、和苏努瓦尔是来自印度东北部和尼泊尔的四种现代使用的脚本
  • 托赫里是阿尔巴尼亚人使用的历史剧本
  • 图卢·蒂加拉里是来自印度西南部的历史剧本
其他字符添加包括七个新的表情符号字符、3995个额外的埃及象形文字和700多个来自传统计算环境的符号。请参阅增量代码图有关所有新脚本和角色的详细信息。

除了新增字符外,还将为36000多个中日韩统一表意文字添加新的“Moji J oh o o Kiban”日语源代码参考。这将通过“J”列中的其他代表性符号反映在几乎所有CJK统一表意文字块的代码图中。注意,这些符号添加并没有反映在上面提到的三角图中,但可以在Unicode 16.0 Beta的主(“单块”)图中看到。

Unicode 16.0将对属性、算法和Unicode标准附件进行各种更改。此版本将添加两个新的Unicode标准附件:
  • UAX#53,Unicode阿拉伯标记渲染,为阿拉伯语脚本的可互操作字体和形状实现提供了规范。(这之前是作为技术报告与Unicode标准分开发布的。)
  • UAX#57,U型尼科德埃及象形文字数据库(Unikemet),提供了对理解编码在Unicode 16.0中的5100多个埃及象形文字的身份至关重要的数据。(这与UAX#38中提供的CJK统一象形文字的数据类似。)
一个新的UCD文件,DoNotEmit.txt文件,将以机器可读的形式提供数据,这些数据对软件实现很有用,但以前仅作为核心规范文本中的表提供。请参阅Unicode 16.0 Beta登录页对于其他值得注意的属性和算法更改。

有关Beta版的详细信息,请参阅公众评论第502期。应根据PRI#502使用Unicode联系人表单到2024年7月2日。


采用字符并支持Unicode的使命

想给那个特别的人一件特别的东西吗?
或者可能是一些治疗自己的东西?
🕉️💗🏎️🐨🔥🚀爱₿♜🍀

采用一个字符或表情符号来给予它应有的关注,同时也支持Unicode的使命,以确保每个人都可以在所有设备上用自己的语言进行通信。

每次采用都包括一个数字徽章和证书,您可以自豪地展示!

享受乐趣并支持一项公益事业

你也可以捐赠资金礼品库存

2024年5月20日星期一

Unicode CLDR版本46提交打开

[图像] Unicode CLDR Survey Tool开放供46版提交。CLDR为支持世界语言的软件提供了关键构建块(日期、时间、数字、排序等)所有主流浏览器和所有现代浏览器手机使用CLDR提供语言支持。(请参见谁使用CLDR?)

通过在线调查工具,贡献者为其语言(languages)&广泛用于支持世界上大部分软件的数据。此数据也是决定支持哪些语言的一个因素手机和计算机操作系统。

第46版侧重于:
  • Unicode 16附加: 新表情符号,脚本名称,排序规则数据(中文和日语)…
  • Emoji搜索关键字:扩大关键词覆盖范围,让用户更容易找到合适的表情符号
  • 面向Basic的新语言:
    • 我们(ee),
    • 镓(砷化镓)
    • 基尼亚卢旺达语(rw)
    • 北索托(nso)
    • 奥罗莫语(om),
    • 塞索托(圣)
    • 塞茨瓦纳(tn),
  • 升级:阿坎语(ak)
最近开始提交新数据,预计于完成6月11日。然后,新数据进入审查阶段,供款人在此进行工作为每个字段提供的数据中,哪一个是最好的。审查阶段已定7月1日结束。公共alpha使草稿数据可用8月28日,最终版本将于10月16日发布。

每个新的语言环境都从一组小的Core数据开始,例如语言中使用的字符列表。这些地区的提交者需要将覆盖范围提升到基本级别(非常基本的基本日期、时间、数字、,地名) 在下一个提交周期中。

一旦一种语言达到基本覆盖范围,它将得到最低限度的支持用于语言选择,例如在移动设备上。在下一次提交中循环,该语言的名称也会添加到所有人的翻译中现代报道中的语言。

如果您想为您的语言提供缺失的数据,请参阅调查工具帐户。有关为CLDR做出贡献的更多信息,请参阅CLDR信息中心.


采用字符并支持Unicode的使命

想给那个特别的人一件特别的东西吗?
或者可能是一些治疗自己的东西?
🕉️💗🏎️🐨🔥🚀爱₿♜🍀

采用一个字符或表情符号来给予它应有的关注,同时也支持Unicode的使命,以确保每个人都可以在所有设备上用自己的语言进行通信。

每次采用都包括一个数字徽章和证书,您可以自豪地展示!

享受乐趣并支持一项公益事业

你也可以捐赠资金礼品库存

2024年5月2日,星期四

Unicode技术委员会(UTC)179号会议更新

UTC主席Peter Constable

Unicode技术委员会(UTC)上周(4月23日至25)加利福尼亚州圣何塞。感谢Unicode成员公司Adobe提供托管服务。以下是涵盖的大量项目中的一些亮点。

准备Unicode 16.0 Beta

一个重要目标是涵盖所有技术决策Unicode 16.0 Beta预览版需要。Beta版将可用供公众于2024年5月21日审查和评论,并将包括所有图表、数据Unicode标准以及其他同步标准的附件,包括UTS 10、Unicode Collation Algorithm和UTS 51、Unicode Emoji。也,Beta版将首次包含核心的完整草稿标准文本。

Unicode 16.0的字符库略有调整,删除了两个字符:U+0CDC KANNADA ARCHAIC SHRII和U+0C5CTELUGU ARCHAIC SHRII公司。这些字符于2022年1月首次获得批准(UTC#170),并指定于2023年4月以Unicode 16.0添加(UTC#175)。然而,在ISO/IEC 10646:2022修正案2的ISO过程中(即与Unicode 16.0同步),印度国家机构要求更多时间供印度专家审查。为了避免Unicode 16.0和修正案2的风险在10646个字符不同步的情况下,UTC决定将这两个字符延迟更高版本。

对各种字符属性(UCD)和算法进行了更改基于Alpha审查期间报告的问题或UTC期间发现的问题属性和算法工作组为16.0准备了数据文件。两个值得注意的变化是字素簇分割(UAX#29)和线条断开(UAX#14):
  • 对于字素簇,将进行一些更改扩展字素簇分割以改进处理印度文字中的正字法音节。
  • 对于换行,将进行以下几项更改根据数据和规则制定,以修复各种边缘情况,并将CLDR和ICU中已经实现的连字符行为几年了。
还与属性、ScriptExtensions.txt文件将更改。以前,数据行是按具有相同脚本扩展属性值的字符分组。向前,行将按代码点排序。(这只是列出数据的顺序;行的解析没有改变。)这会成功的更容易比较不同Unicode之间属性值的更改版本。

关于表情符号,版本16.0的新表情符号集是保持不变。在Beta审查期间,UTS#51、Unicode Emoji、,将包括与展示建议相关的一些拟议修订表情符号家族组合。这些修订尚未审查UTC批准,因此需要仔细审查在Beta审查期后的下一次UTC会议上确认或更改超过。

UTC行动项积压工作

UTC积压了越来越多的未完成行动项目,有些超过了10项岁。在这次会议上,各个UTC工作组对他们的行动进行了分类UTC讨论了五年或五年以上的项目和结果。完成了一些行动项目;一些已被关闭,不再相关。许多需要更多研究的项目已作为UTC行动项目结束,并被替换为相关工作组GitHub回购中的问题。请注意,跟踪他们另一种方式并不一定意味着他们会获得更高的优先级。然而,因为工作组正在使用GitHub问题来组织他们的日常工作,这应该引起对这些问题的更多关注。UTC将重复此过程在UTC#181,六个月后。

作为旧行动项目审查的副作用提交给UTC(L2/24-123页) 建议UTC从处理过去跟踪公共GitHub回购中的问题,以允许来自更多的志愿者。该文件确定了一些问题现有流程的局限性,并建议新流程可以提供改进。UTC花了一些时间讨论此文档。人们注意到了这个想法很有价值,尽管这样的流程改变不会微小的变化,将涉及一些不太明显的挑战。它也会是影响整个Unicode联盟,而不仅仅是UTC。为了这个理由是,这项提议需要作为更广泛讨论的一部分加以考虑联合体流程、资源和基础设施。

新的研究:中间脚本的自动空间处理边界

东亚文本通常结合不同的脚本排版实践是在脚本运行之间插入空格。UTC简要讨论了一份新文件,L2/24-057号, 它提出了一种脚本自动间距算法的开发跑。属性和算法工作组召集了专家讨论这个话题。邀请感兴趣的专家参加讨论通过问题(带有“auto-spacing”标签)公共unicodeols回购github。


采用字符并支持Unicode的使命

想给那个特别的人一件特别的东西吗?
或者可能是一些治疗自己的东西?
🕉️💗🏎️🐨🔥🚀爱₿♜🍀

采用一个字符或表情符号来给予它应有的关注,同时也支持Unicode的使命,以确保每个人都可以在所有设备上用自己的语言进行通信。

每次采用都包括一个数字徽章和证书,您可以自豪地展示!

享受乐趣并支持一项公益事业

你也可以捐赠资金礼品库存

SILICON作为Unicode联盟的支持成员加入

[图像]Unicode联盟很高兴地宣布,SILICON已加入为支持会员。

斯坦福大学老年人语言包容与保护倡议&新媒体(SILICON)是斯坦福大学的一项以人文学科为主导的技术倡议旨在促进和维持数字弱势语言,以及更多从广义上讲,解决数字不平等问题。弥合工程、人文、计算机科学和社会科学,该倡议旨在帮助构建明天的数字工具:改进的OCR算法和AI生成文本模型;更具全球包容性的文本语料库、界面、键盘和数字字体。

SILICON有兴趣加快数字化的时间表弱势语言通过促进参与Unicode编码工作的人员之间正在进行的对话,字体和键盘、脚本和语言社区的设计者,以及技术专家、语言学家和技术专家。我们还将努力实现可用于新编码语言的OCR,着眼于开发语料库进行LLM培训。

“在21世纪,语言死亡和数字排斥凸显了一个关键挑战:边缘化和不同语言遗产的潜在灭绝。超过98%的世界上约7000种语言被归类为“数字劣势语言”Unicode联盟,弥合这一数字鸿沟的紧迫性是毫无疑问。SILICON很高兴支持Unicode长期处于推动“数字弱势”事业的前沿全球语言。”-汤姆·穆拉尼,斯坦福大学历史教授硅共同董事 

“我们很高兴欢迎SILICON成为Unicode联盟。通过整合SILICON的跨学科专业知识,我们期待着共同努力,推进数字包容性。”-Unicode首席执行官托拉尔·科维森

联合体的支持成员有一半的投票权代表最多两个技术委员会。联合体名单成员可以在此处找到.


采用字符并支持Unicode的使命

想给那个特别的人一件特别的东西吗?
或者可能是一些治疗自己的东西?
🕉️💗🏎️🐨🔥🚀爱₿♜🍀

采用一个字符或表情符号来给予它应有的关注,同时也支持Unicode的使命,以确保每个人都可以在所有设备上用自己的语言进行通信。

每次采用都包括一个数字徽章和证书,您可以自豪地展示!

享受乐趣并支持一项公益事业

你也可以捐赠资金礼品库存