预组字符

预组字符 (precomposed character,或者称composite characterdecomposable character)是Unicode字符集中的实体,定义为一个或多字符序列。预组字符可以表示一个字母与一个附加符号, 例如é (小写拉丁字母e带一个尖音符). 技术上, é (U+00E9)是一个字符,可以分解为Unicode等效字符串e (U+0065)与尖音符(U+0301). 类似地, 二合字是它们的组成的字母或字位的预组字符.

下述瑞典语的姓氏Åström可以有两种Unicode表示方式,第一种采用预组字符Å (U+00C5)与ö (U+00F6), 第二种采用可分解基本字符A (U+0041)与上圆圈 (附加符号) (U+030A) 以及o (U+006F)与分音符 (U+0308).

  1. Åström (U+00C5 U+0073 U+0074 U+0072 U+00F6 U+006D)
  2. Åström (U+0041 U+030A U+0073 U+0074 U+0072 U+006F U+0308 U+006D)

下述例子中,原始印欧语单词"狗":

  1. ḱṷṓn (U+1E31 U+1E77 U+1E53 U+006E)
  2. ḱṷṓn (U+006B U+0301 U+0075 U+032D U+006F U+0304 U+0301 U+006E)

汉字一般类似于预组字符,因为它们可以分解为组成的笔划并且可以用Unicode的表意文字描述字符

参见

参考文献

外部链接