显示带有标签的帖子正则表达式.显示所有帖子
显示带有标签的帖子正则表达式.显示所有帖子

2022年2月9日星期三

Unicode正则表达式的增强功能

Regex图像 新版UTS#18,Unicode正则表达式现在可用。

常规表达式是软件开发中的关键工具。早在2000年,很少正则表达式引擎支持Unicode,即使在基本级别也是如此。UTS#18开始提高标准,描述正则表达式引擎可以如何适应正确、完整地处理Unicode。从那时起,主要编程语言和库都采用了一级特性(支持所有Unicode文字、基本字符属性、减法、,十字路口,…),一些还采用了一些二级功能(完整字符属性、字素簇等)。

本版本的主要重点是处理字符串的属性。区别在于代码点补码完全补码,后跟显式将补码运算符[^…]定义为码位补码, 并在附件中提供这样做的理由。重要的是概述了[A--B]和[A&&[^B]]之间的区别-列出了后者不足以表示集差的原因。

对于一般的EBNF,以及具有字符串的字符类特别是,增加了示例并澄清了文本。新的附件提供了如何解析字符类的示例。


超过144000个字符可用于采用帮助Unicode联盟在数字弱势语言方面的工作

[徽章]

2020年6月18日星期四

Unicode正则表达式v21发布

Regex图像 正则表达式是使用模式搜索和修改文本的强大工具,在许多程序、编程语言、数据库和电子表格。

从1999年开始,UTS#18:Unicode正则表达式已提供指南和合规性在正则表达式中支持Unicode的级别。新版本21拓宽了正则表达式(regex)的属性范围,以允许字符串的属性(例如表情符号序列)。例如,以下内容匹配除法国国旗外的所有表情符号国旗:

/[\p{RGI_Emoji_Flag_Sequence}--\q个{🇫🇷}]/

这些改进包括:
  • 提供新的附录D:用字符串解析字符类用于处理否定字符串集的。
  • 更新完整属性列表以包含最新的UCD属性,加上Emoji属性和UTS#39属性。
  • 删除过时的文本段落,并使为清晰起见进行了编辑修改。


超过140000个字符可用于采用帮助Unicode联盟在数字弱势语言方面的工作

[徽章]

2019年11月21日星期四

关于UTS#18:Unicode正则表达式的反馈

Regex图像 正则表达式是使用模式搜索和修改文本的强大工具。它们是许多编程语言、数据库和电子表格。

从1999年开始,UTS#18:Unicode正则表达式提供了在正则表达式中支持Unicode的准则和一致性级别。该规范的拟议更新现可供公众审查和评论。本草案的主要修改如下:
  • 扩大了属性的范围,以允许字符串的属性(以及代码点的属性)。
  • 添加了11个Emoji属性,包括RGI集合,作为Level 2中的Full properties。
  • 在级别2中添加了其他新属性作为完整属性:等效_统一_象形文字、垂直方向、区域_指示符、标记_位置_类别、标记_音节_类别。
  • 提供了包含属性元数据的草稿数据文件,用于匹配和验证非UCD属性及其语法值,例如\p{pname(名称)=p值},以便此类属性可以与UCD属性相同的方式使用。见附录D。
有许多审查注释要求对这些和其他可能的更改。特别是,Unicode技术委员会将感谢对字符串属性的讨论和语法的反馈,以及级别2支持的建议属性。

审查期截止日期为2020-01-06。有关的详细信息查看并提供反馈,请参阅建议更新UTS#18,Unicode正则表达式.

2013年11月19日,星期二

Unicode正则表达式已更新

世界上许多软件都使用正则表达式来匹配和操作文本。UTS#18:Unicode正则表达式处理这些表达式中的Unicode文本。

本标准第17版在Unicode 6.3标准,它扩展了支持Script_Extensions属性的准则和要求。

2012年7月19日星期四

第15版UTS#18,Unicode正则表达式已由Unicode Consortium发布。世界上许多软件都使用正则表达式来匹配和操作文本。UTS#18为在这些表达式中处理Unicode文本提供了基础。

第15版是一个主要修订版。更改包括:
  • 撤销或修改了处理非1:1等效项的一致性条款。
  • 添加了完整属性的2级一致性条款。
  • 添加了新属性,包括Name_Alias匹配和Script_Extensions。
  • 添加了建议的Unicode转义的紧凑形式:\u{…}。
  • 对案文有许多澄清。请参阅http://www.unicode.org/reports/tr18/tr18-15.html