2022年6月30日星期四

与当地社区合作振兴和保护加拿大土著语言

作者:凯文·金(Typotheque Kevin King)

Typotheque音节项目是一项基于多伦多和海牙的倡议,荷兰与各语言管理员进行了研究使用加拿大土著社区记录并解决这两个问题当地的排版偏好,以及他们面临的技术障碍。

这项研究促成了两项修改Unicode的提案音节标准,这是保存和振兴土著语言。

【Typotheque提供的地图、图像https://www.typeotheque.com/,经许可使用。]

当地土著社区在收回使用权方面有发言权以及自主表达的资源他们认同的书写系统。通过合作纳特利克语管理员尼劳拉格、珍妮特·塔马利克、阿提玛和伊丽莎白·哈德拉里,以及社区中的长者确定了西努纳武特纳蒂利克社区面临的问题发现Unicode中缺少12个音节字符标准。Nattilik社区无法可靠地使用他们的语言即使是简单的日常数字文本交换,如电子邮件或短信。

[提纲块,图像由Typotheque提供https://www.typeotheque.com/,经许可使用。]
Nattilik Kutaiřřutit(Nattilik特殊字符),用于表示因努克图语Nattilingmiutut方言特有的发音。


它还揭示了中部Carrier(Dakelh)社区的象形文字不列颠哥伦比亚省在UCAS代码表中的表示不正确。此外,一个现在完全的sp系列中有4个字符是成功的建议使用Unicode来表示和数字保存历史文本克里语和奥吉布韦语。这些重要的改变意味着完全符合Unicode的音节字体–包括系统级通用操作系统上的字体–能够准确地清楚地表示承运人、赛义西和奥吉布韦音节的文本社区向前发展。

当项目生成综合字形集时结果不仅为当地土著人提供了一个稳定的环境社区可以在他们的设备上使用他们的语言,但这也改变了未来所有音节字体的开发标准,并确保所有社区的书写系统都将得到准确的表达。

[提纲,图片由Typotheque提供https://www.typeotheque.com/,经许可使用。]
上图是纳蒂林格米乌特(Nattilingmiutut)的缺失字符,纳蒂林格米乌特是努纳武特西部的因努克图特方言。


从何处了解更多信息:

致谢

特别感谢梁海、黛博拉·安德森和莎拉·里维拉对本博客的贡献。


超过144000个字符可用于采用帮助Unicode联盟在数字弱势语言方面的工作

[徽章]

2022年6月8日,星期三

Unicode CLDR版本42提交打开

[投票箱图像] Unicode CLDR Survey Tool开放供42版提交。CLDR提供支持世界语言(日期、时间、,数字、排序等)例如,所有主要浏览器和所有现代手机手机使用CLDR提供语言支持。(请参见谁使用CLDR?)

通过在线调查工具,贡献者为其语言(languages)&广泛用于支持世界上大部分软件的数据。此数据也是决定支持哪些语言的一个因素手机和计算机操作系统。

第42版侧重于:
  • 附加保险范围
    • Unicode 15.0附加功能: 表情符号,脚本名称,排序规则数据(中文和日语)…
    • 新语言:在基本层面上增加Haryanvi、Bhojpuri和Rajasthani。
    • 升级:科萨语、辛格利什语(Hindi-Latin)、尼日利亚皮钦语、豪萨语、伊博语、约鲁巴语和挪威尼诺斯克语。
  • 人名格式:处理人名在不同语言中的工作方式的多样性。
    • 人们可能有不同数量的名字,取决于他们的文化——他们可能只有一个名字(“Zendaya”)、两个(“阿尔伯特·爱因斯坦”)或三个或更多。
    • 一个单词中可能有多个单词特定名称字段,例如“Mary Beth”作为给定名称,或“van Berg”作为姓氏。
    • 一些语言,如西班牙语,有两个姓氏(每个姓氏可以由多个单词组成)。
    • 名称字段的顺序可以是不同语言之间的差异,以及间距(或缺乏间距)和标点符号。
    • 需要调整名称格式不同的情况,例如需要缩短演示时间或比较长的;正式或非正式语境;或者当谈论某人时,或者与某人交谈,或作为花押字(JFK)。
最近开始提交新数据,预计于完成6月22日。然后,新数据进入审查阶段,供款人在此进行工作为每个字段提供的数据中,哪一个是最好的。审查阶段已定7月6日结束。公共alpha将在8月左右提供草案数据最终版本将于10月19日发布。

每个新的语言环境都从一组小的Core数据开始,例如语言中使用的字符列表。这些地区的提交者需要将覆盖范围提升到基本级别(非常基本的基本日期、时间、数字、,地名) 在下一个提交周期中。在版本41中,以下级别为达到:

水平 语言文字 区域设置* 笔记
现代 89 361 适合全UI国际化
南非荷兰语、…切什蒂纳、…丹斯克、…埃什蒂、…菲律宾语、…盖尔热、…赫瓦茨基、印尼、…爪哇语、斯瓦希里语、拉脱维亚语、…马扎尔语、…荷兰、…奥兹别克、波尔斯基、…罗曼、斯洛文尼亚、…蒂昂维特…Ελληνικά‎, ‎Беларуская‎, ‎… ‎ᏣᎳᎩ‎, ‎ Ქართული‎, ‎Հայերեն‎, ‎עברית‎, ‎اردو‎, … አማርኛ‎, ‎नेपाली‎, … ‎অসমীয়া‎, ‎বাংলা‎, ‎ਪੰਜਾਬੀ‎, ‎ગુજરાતી‎, ‎ଓଡ଼ିଆ‎, ‎தமிழ்‎, ‎తెలుగు‎, ‎ಕನ್ನಡ‎, ‎മലയാളം‎, ‎සිංහල‎, ‎ไทย‎, ‎ລາວ‎, ‎မြန်မာ‎, ‎ខ្មែរ‎, ‎한국어‎, ‎… 日本語‎, ‎…
中等 13 32 适用于完整的“文档内容”国际化,例如电子表格中的格式。
Binisaya,…ÉdèYorúbá,Føroyskt,Igbo,伊西祖鲁,Kanhgág、Nhe gatu、Runasimi、Sardu、Shqip、…
基本 22 21 适用于区域设置选择,例如手机设置中的语言。
阿斯图里亚努、巴萨·桑达、因特林加、卡布维尔迪亚努,Lea Fakatonga、Rumantsch、Te reo毛利、Wolof、Босански(Ћирилица), ‎Татар, ‎Тоҷикӣ, ‎Ўзбекча (Кирил), ‎کٲشُر, ‎कॉशुर (देवनागरी), ‎…, ‎মৈতৈলোন্, ‎ᱥᱟᱱᱛᱟᱲᱤ, ‎粤语 (简体)‎
*区域设置是不同国家或脚本的变体。

如果您想为您的语言提供缺失的数据,请参阅调查工具帐户。有关为CLDR做出贡献的更多信息,请参阅CLDR信息中心.



超过144000个字符可用于采用帮助Unicode联盟在数字弱势语言方面的工作

[徽章]