中華人民共和國國家標準漢字編碼字符集列表
列表
本列表列舉與信息交換用漢字編碼字符集相關的中華人民共和國國家標準。
常見國家標準代碼列表
- GB 2312—80《信息交換用漢字編碼字符集 基本集》(又稱 GB 或 GB0)
- GB 13000—2010《信息技術 通用多八位編碼字符集(UCS)》(相當於 ISO/IEC 10646:2003 中文版)
- 已作廢之舊版:GB 13000.1—93《信息技術 通用多八位編碼字符集(UCS)第一部分:體系結構與基本多文種平面》(相當於 ISO 10646-1:1993 中文版)
- GB 18030—2022《信息技術 中文編碼字符集》,依照UCS定義。GB 18030可以表示代理對(surrogate pair)之外的所有Unicode碼位,因此可算為一種「統一碼變換格式」Unicode Transformation Format)。
- 已作廢之舊版:GB 18030—2000《信息技術 信息交換用漢字編碼字符集 基本集的擴充》和GB 18030—2005
其他中華人民共和國發布有關漢字標準代碼列表:
- GB 12345—90《信息交換用漢字編碼字符集 輔助集》(又稱 GB1)
- GB/T 7589—87《信息交換用漢字編碼字符集 第二輔助集》(又稱 GB2)
- GB 13131—91《信息交換用漢字編碼字符集 第三輔助集》(又稱 GB3)
- GB/T 7590—87《信息交換用漢字編碼字符集 第四輔助集》(又稱 GB4)
- GB 13132—91《信息交換用漢字編碼字符集 第五輔助集》(又稱 GB5)
- GB/T 16500—1998《信息交換用漢字編碼字符集 第七輔助集》
- SJ/T 11239—2001《信息技術 信息交換用漢字編碼字符集 第八輔助集》
- GB 8565.2—88《信息處理文本通信用編碼字符集 第二部分:圖形字符集》
由於 GB 2312—80 只收錄了6,763個漢字,未能覆蓋繁體中文字、部分人名、方言、古漢語等方面出現的罕用字,所以發布了以上的輔助集。
其中,GB 12345—90輔助集是GB 2312—80基本集的繁體字版本;GB 13131—91是GB/T 7589—87的繁體字版本;GB 13132—91是GB/T 7590—87的繁體字版本。而GB/T 16500—1998是繁體字版本,並無對應的簡體字版本。
第二輔助集及第四輔助集沒有收入通用字符集ISO/IEC 10646 標準[1]。
中華人民共和國國家標準總局於2000年推出強制性的GB 18030—2000標準。於2001年8月31日後發布或出廠的產品,必須符合GB 18030—2000的相關要求。這個標準的最新版本是GB 18030—2005,它的單字節編碼部分、雙字節編碼部分和四字節編碼部分的CJK統一漢字擴充A(0x8139EE39—0x82358738)部分為強制性。
相關標準列表(按首次出版時間排列)
標準號 | 名稱 | 別名 | ISO 10646 字源代號[2] | 漢字數 | 備注 |
---|---|---|---|---|---|
GB 2312—80 | 信息交換用漢字編碼字符集 基本集 | GB | G0 | 6,763 | GB 6345.1—86 等字模集有附錄對 GB 2312—80 之修訂,但 GB 2312 本身一直未有更新,詳見 GB 2312 條目。 |
GB/T 7589—87 | 信息交換用漢字編碼字符集 第二輔助集 | GB2 | 7,237 | 向 ISO 10646 提交時使用繁體字版本。 | |
GB/T 7590—87 | 信息交換用漢字編碼字符集 第四輔助集 | GB4 | 7,039 | 向 ISO 10646 提交時使用繁體字版本。 | |
現代漢語通用字表 | G7 | 7,000 | |||
GB 8565.2—88 | 信息處理文本通信用編碼字符集 第二部分:圖形字符集 | G8 | 636 | 主要用於電訊;GB2漢字520個、GB4漢字92個、來自《第一批異體字整理表》之異體字23個及「啰」字。此字符集補充了 GB 2312,使之能包括整個《現代漢語通用字表》。 | |
GB 12052—89 | 信息交換用朝鮮文字編碼字符集 | GK | |||
GB 12345—90 | 信息交換用漢字編碼字符集 第一輔助集 | GB1 | G1 | 6,866 | GB 2312 繁體版,增補103字。 |
GB 13131—91 | 信息交換用漢字編碼字符集 第三輔助集 | GB3 | G3 | 7,237 | GB/T 7589 繁體版(ISO 文件稱為「非簡化形式(unsimplified form)」) |
GB 13132—91 | 信息交換用漢字編碼字符集 第五輔助集 | GB5 | G5 | 7,039 | GB/T 7590 繁體版(ISO 文件稱為「非簡化形式(unsimplified form)」) |
ISO-IR-165 | 通訊用中文多位元組字符集 | 8,464[3] | 集合 GB 2312—80(包括 GB 6345.1—86 新增之字符及調整)及 GB 8565.2—88。 | ||
GB 13000—2010 | 信息技術 通用多八位編碼字符集(UCS)第一部分 | 70,207 | 替代 GB 13000.1—93《信息技術 通用多八位編碼字符集(UCS)第一部分》,20,914字,舊版已作廢。 另有302個兼容漢字(當中十二個:U+FA0E, U+FA0F, U+FA11, U+FA13, U+FA14, U+FA1F, U+FA21, U+FA23, U+FA24, U+FA27, U+FA28 及 U+FA29 有獨立形音義,統一碼聯盟建議不要視之為兼容漢字)。舊版已作廢。 | ||
GBK | 漢字擴展內碼規範[4] | 21,003 | 除了來自 ISO 10646-1 / GB 13000.1 之20,902字,另有 ISO 10646-1 / GB 13000.1 中21個兼容漢字(包括上述12個有獨立形音義兼容字),以方便和 Big5、CNS11643、JIS 及 IBM 文件雙向轉換[4]、未收入 ISO 10646 的《簡化字總表》漢字52個、《康熙字典》及《辭海》漢字部件28個;後80字暫時對應 Unicode 編碼之私人使用區(造字),新版 Unicode 已全部收納。Microsoft Code Page 936 收入21個兼容漢字[5][6],未收後80字。 | ||
GB/T 15564—1995 | 圖文電視廣播用漢字編碼字符集 香港子集 | GH | 111 | 所有字皆來自 GB 13000.1。 | |
GB/T 16500—1998 | 信息交換用漢字編碼字符集 第七輔助集 | GE | 3,778 | 其他 GB 未收錄之 GB 13000.1 漢字。 | |
GB 18030—2000 | 信息技術 中文編碼字符集 | G9 | 27,533 | CJK、CJK 擴展A區、21 個兼容區漢字、當年 ISO/IEC 10646-1:2000 / Unicode 3.0 仍未編碼的 28 個收錄在 FE 私有造字區段的漢字和漢字部件。
定義了除代理對之外所有Unicode基本平面字符的四字節表示方式。 | |
SJ/T 11239—2001 | 信息技術 信息交換用漢字編碼字符集 第八輔助集 | 2,501 | 收錄GB 2312、GB 7589和GB 7590未收入的漢字,主要用於地名。 | ||
GB 18030—2005 | 信息技術 中文編碼字符集 | 70,244 | CJK、CJK 擴展A區、CJK 擴展B區、21 個兼容區漢字、28 個收錄在 FE 區段的漢字和漢字部件。替代 GB 18030—2000。
定義了除代理對之外所有Unicode字符的四字節表示方式。 | ||
GB 18030—2022 | 信息技術 中文編碼字符集 | 87,887 | 替代 GB 18030—2005。 |
參看
注釋
- ^ ISO 10646 收錄的是其非簡化形式(unsimplified forms),見中日韓統一表意文字#字源
- ^ 存档副本 (PDF). [2018-03-23]. (原始內容存檔 (PDF)於2018-03-23).
- ^ 一說8,443(Ken Lunde, CJKV Information Processing, 1999, O'Reilly & Associates, Inc., P.82)
- ^ 4.0 4.1 簡體中文版 Windows 95 「GBK 內碼輸入法」幫助文件,1995年
- ^ http://www.microsoft.com/globaldev/reference/dbcs/936/936_FD.mspx[永久失效連結]
- ^ 存档副本. [2010-01-04]. (原始內容存檔於2008-03-07).