Unicode码 常见问题

规格

Q: 我如何确定该问题包含在联合体发布的规范中。而且我在哪里查找?

这个Unicode标准和相关标准包含处理不同规范或指南的数量编程任务。有时很难找到这些,因为它们不是全部作为特定的专用文件提供。

下表列出了统一码协会提供了规格、位置和简要说明每个规范涵盖的内容。章节或章节编号的引用是指堆芯规范Unicode标准。

概述

字符属性: 常用属性,如Name、Alphabetic、Letter、White-Space、,一般类别,默认可忽略,加上其他规范中使用的

第4章

中日韩象形文字的字符属性:财产特定于的信息中日韩 表意文字字符属性(尤尼汉)

UAX公司 #38

Unicode字符数据库:关于UCD公司

UAX#44型

XML中的UCD:的描述XML格式UCD代表

42号UAX

案例操作:上/下转换/检测/标题酶,大小写折叠,大小写匹配。另请参见§4.2案例.

§ 3.13

具有异常属性的字符:实施者需要特别注意的字符

§ 4.12

脚本属性:用于确定文本运行的使用模型在给定的脚本

24号UAX

Unicode数学支持:指南数学用法

超光速 #25

Unicode表情符号:Unicode的使用和显示指南表情符号字符

UTR#51

Unicode命名字符序列:指定命名的语法字符序列

34号UAX

编码

Unicode编码形式:UTF-8型,UTF-16型,UTF-32型转换和验证

§ 3.9

Unicode编码方案:UTF-8、UTF-16(BE/LE)、UTF-32(BE/LE)转换和验证

§ 3.10

二进制顺序:UTF-8订单与UTF-16订单

§ 5.17

字符映射标记语言:将Unicode映射到旧版本和从旧版本映射代码页

UTS公司 #22

Unicode标准压缩方案:如何将Unicode压缩到与旧版本相同的大小

UTS#6

UTF-EBCDIC公司:封装UnicodeEBCDIC公司系统

UTR#16

UTF-16的兼容编码方案:8位(CESU-8):a兼容性8位编码方案

UTR#26

变化序列:标准化、表情符号和表意变化序列

§ 23.4

表意字符变体数据库:的存储库变化序列针对特定的汉族藏品字形

UTS#37

比较(规范化,排序规则)

典型等价:当字符序列是等价的;规范的订购

§ 3.11

Unicode规范化表单:如何规范文本以进行比较,以及§3.11定义

UAX#15

Unicode排序算法: 用于比较、搜索、匹配和排序的默认机制Unicode文本

UTS#10

正在分析

朝鲜文音节:边界,解析,(de/)组合,名称

§ 3.12

十进制数字:转换和验证

§ 5.5

Unicode正则表达式准则:使用Unicode支持正则表达式所需的功能

UTS#18

Unicode标识符和语法: 如何解析标识符

UAX 31号

Unicode源代码处理:编程语言设计者处理Unicode程序文本中安全问题的指南

草案UTS#55

纯文本中的语言信息,还§23.9标签字符

§ 5.10

字型变换选取器:使用,验证

§ 23.4

表意字符描述序列:使用,验证

§ 18.2

细分

Newline指南:如何处理换行符

§ 5.8

换行算法:确定换行位置的默认方法

UAX#14型

文本分割:将文本拆分为的默认方式字素簇、单词和句子

UAX#29

致使

双向算法:显示阿拉伯语和希伯来语文本时需要

9号UAX

阿拉伯语标记渲染:用于稳定呈现多个标记的序列细节

UTR#53

东亚宽度:字符宽度的默认确定在东亚背景下

UAX 11号

最低成型要求阿拉伯语,梵文,泰米尔语和其他复杂脚本

第9-15章

垂直方向字符调整

UTR#50

区域设置数据

区域设置数据标记语言(LDML):用于交换区域设置数据用于国际化

UTS#35

公共区域数据存储库(CLDR):的存储库低密度脂蛋白数百个地区的数据

CLDR公司

标识符和安全性

标识符和语法: 标识符的安全问题

UAX 31号

Unicode码安全注意事项:识别指南Unicode安全问题及其处理

UTR#36

Unicode码安全机制:用于检测假脱机的有用工具

UTS 39号

Unicode IDNA兼容性处理:映射IDNA2008年和的兼容性处理IDNA2003年

UTS#46

Unicode源代码处理:为编程语言设计者和编程环境开发人员提供的指南,以避免因Unicode程序文本处理不当而导致的安全问题

UTS#55

Q: 哪些Unicode规范是规范性的?

一些Unicode规范包括规范性的和其他是信息丰富的.对于截面来自堆芯规范Unicode标准,第3章中的材料,一致性,以及大多数第4章,字符属性,是规范性的,而其他章节中的材料通常提供信息。这个Unicode标准附件(UAX公司)是正式的一部分Unicode标准,除非另有规定,其中大多数材料都是规范性的如附件所示。对于Unicode技术标准(输出),的规范是这些独立标准的规范性部分。Unicode技术报告(超光速)包含信息材料。有关UAX、UTS和UTR的更多信息,请参阅关于Unicode技术报告.

Q: 我在哪里可以找到给定规范背后的基本原理?

规范由统一码协会由所属技术委员会决定创建和修改。这些决定记录在技术委员会的会议记录中,通常基于详细的提案文件。对于某些规范,联合体或外部网站一直在努力组织这些数据,使其能够与特定文本部分或编码字符.

下表列出了具体技术决策的信息来源或决策依据。

Unicode技术委员会

会议记录和支持文件 注册
会议记录和支持文件 搜索

字符编码

ScriptSource,有关脚本的信息
脚本概述外部链路
每个的Unicode状态脚本(例如:阿拉伯语) 阿拉伯语外部链路
维基百科,Unicode信息 类别:Unicode块外部链路
每个Unicode块的历史记录部分(例如:阿拉伯语) 阿拉伯语_(Unicode块)外部链路
Emoji提案 通过提案
Emoji提案 按代码点

算法

换行算法 带批注的外部链路

Q: 我在哪里可以找到某个字符是何时编码的,或者某个功能是何时添加到给定规范的?

对于Unicode标准及其附件,以及技术标准和报告,“修改”部分强调了与之前版本相比的变化。向后跟踪这些可以提供有关何时引入特定更改的信息,但粒度不是特别精细,也没有与特定决策和支持文档的交叉引用。对于编码字符,的Unicode字符数据库文件派生代理.txt指示将字符添加到标准中的版本。对于某些规范,带注释的版本提供了更精细的版本文档和每个更改的基本原理。