五笔字型输入法

漢字輸入法

五笔字型输入法,简称五笔、又称王码,是王永民在1983年8月发明的一种汉字输入法中文输入法的编码方案很多,但基本依据都是汉字的读音和字形两种属性。五笔字型完全依据笔画和字形特征对汉字进行编码,是典型的形码输入法

五笔字型输入法
中文输入法

98版五笔码元的示意图
发明人王永民
发明年份1983年8月
类别形码输入法

五笔字型输入法主要用于使用简体中文中国大陆,过去,拼音输入法严重重码,五笔输入是最方便的选择。但随着智慧拼音的兴起,以及拼音输入法天然的“零训练”特性(对于掌握汉语拼音的用户,拼音输入法几乎不必专门练习),需要专门训练才能熟练应用的五笔输入法在应用人数上已经不具备优势。但极低的重码率,保证了五笔的输入速度仍遥遥领先,因此大多数专业打字员至今[何时?]仍然习惯使用五笔字型。

版本

 
印有86版五笔字根的QWERTY键盘

王永民自1983年发明五笔字型以来,共推出了三种编码方案,即86版98版新世纪版

86版

86版也就是老式的五笔,又称4.5版,顾名思义于1986年推出。使用130个字根,可处理GB 2312-80汉字集中的6763个汉字。由于习惯问题,它至今仍然是拥有用户群最为巨大的编码方案。同时,此版本专利权已过,其编码进入了开源领域,其他人可以自由使用和修改,也促进了此版本的流传。

后来王码官方改进了原86版一些争议的编码,包括取消了原86版的一些“无理码”,规范了识别码等。因此又有原86版和调整后的86版两种编码。在官方网站上编码查询的结果,只会显示调整后的86版。然而坊间不少输入法软件仍采用原86版的编码,未经调整。

98版

98版是一种改进型的方案,于1998年推出,其编码的科学性更强、更易于学习和使用。使用259个码元,可处理GBK汉字集中的21003个简繁汉字。但二者在编码原则上大同小异。

新世纪版

新世纪版于2008年1月28日推出,采用新设计的字根体系更加符合分区划位规律,更加科学易记而实用,按规范笔顺写汉字的人,取码输入更容易,可以处理GB 18030-2000汉字集中的27533个简繁汉字。

版本的使用情况

设计者认为,86版的字根设置不如98版和新世纪版科学。但是由于86版较先发布,且98版和新世纪版五笔字型编码的专利权尚掌握在王码公司手中,而王码公司反对其他公司在未授权的情况下开发和发行五笔字型输入法[1],因此86版五笔字型编码及相关软件的用户和输入法程序都比98版和新世纪版多。

  1. 从学习的角度看,有的人包括设计者在内的认为三个版本五笔相比较,86版较难学习,很多笔画多的字没有字根,导致很难拆分;也有的人认为由于86版较先发布,很多人已经掌握了86版的字根排布,很难再接受98版或新世纪版的五笔字根排布。
  2. 重码问题一直是困扰汉字输入法的一道难题,五笔字型一样会有重码。三个版本的重码相差不大,而新世纪版五笔在重码实用频度得到降低。
  3. 从字形上看,86版很多字都没有完全以简化字的字形出发,而以旧字形编码,造成很多字不按规则输入,形成特例字。98版已经较为改进这一类情况,使得输入此类字的时候能正确区分其左右,上下,外内等因素,但并没有根本解决此问题。
  4. 折的部分由于向右偏移,造成不顺手、不习惯。
  5. 86版过分在乎重码字,以规则去区分两个形近字,如(日与曰,未与末),但加入词组后,重码仍无法避免(尤、万、尢)。98版在修改字根排布之后较少出现这类情况。
  6. 86版设计的时候只适用于简化字,目前只有少数输入法支持五笔输入繁体字,而且繁体字输入在极少字根下十分困难,且大多是输单字时可直接用繁体编码,轮词组时则需要用简体字的编码,输入法会自动切换成对应的繁体词组。98版和新世纪版的更新中把一些拆分过量的字根和码元进行了集成,使之更容易支持繁体字。

字根

五笔字根是五笔输入法的基本单元,86版使用234个字根,98版使用259个字根,新世纪版使用了226个字根。

五笔中的汉字结构及字型

基本字根在组成汉字时,按照它们之间的位置关系可以分成四类结构。

  • 单:基本字根本身就单独成为一个汉字。这种情况包括键名字和成字字根。如:口、木、竹等。
  • 散:指构成汉字的基本字根之间可以保持一定的距离。如:汉、湘、结、别、安、意等。
  • 连:指一个基本字根连一单笔画。如:“丿”连“目”成为“自”。
  • 交:指几个基本字根交叉套迭之后构成的汉字。如“申”是由“日”交“丨”,“夷”由“一”交“弓”交“人”交叉构成。

在五笔中,汉字分为左右型、上下型和杂合型汉字。

 
86版五笔字根图

取码原理

五笔将汉字笔划分为五个区:即:(同)、(同)、五区。把字根码元按一定规律分布在25个字母键上(即标准的QWERTY键盘,不包括Z)。取码时最长四码,最短一码。

2006年12月,王永民又在此基础上,研究出用于手机输入的基于6个码元和“右手法则——前四末一”取码法的数字王码。[1]

键名字

键名是指各键位左上角的黑体字根,它们是组字频度较高,而形体上又有一定代表性的字根,它们中绝大多数本身就是汉字,只要把它们所在键连击四次就可以了。如:王:11 11 11 11(GGGG)

成字字根

在每个键位上,除了一个键名字根外,还有数量不等的几种其它字根,它们中间的一部分其本身也是一个汉字,我们称之为成字字根。 输入方法:键名代码+首笔代码+次笔代码+末笔代码(如果该字根只有两笔画,则补空格键结束)

86版五笔字根

  • 1区横起笔 11G 王旁青头戋(兼)五一 12F 土士二干十寸雨 13D 大犬三(羊)古石厂 14S 木丁西 15A 工戈草头右框七
  • 2区竖起笔 21H 目具上止卜虎皮 22J 日早两竖与虫依 23K 口与川,字根稀 24L 田甲方框四车力 25M 山由贝,下框几
  • 3区撇起笔 31T 禾竹一撇双人立,反文条头共三一 32R 白手看头三二斤 33E 月彡(衫)乃用家衣底 34W 人和八,三四里 35Q 金勺缺点无尾鱼,犬旁留儿一点夕,氏无七(妻)
  • 4区点起笔 41Y 言文方广在四一,高头一捺谁人去 42U 立辛两点六门疒(病) 43I 水旁兴头小倒立 44O 火业头,四点米 45P 之字军盖道建底,摘礻(示)衤(衣)
  • 5区折起笔 51N 已半巳满不出己,左框折尸心和羽 52B 子耳了也框向上 53V 女刀九臼山朝西 54C 又巴马,丢矢矣 55X 慈母无心弓和匕,幼无力

98版五笔字根

  • 1区横起笔 11 G 王旁青头五夫一 12 F 土干十寸未甘雨 13 D 大犬戊其古石厂 14 S 木丁西甫一四里 15 A 工戈草头右框七
  • 2区竖起笔 21 H 目上卜止虎头具 22 J 日早两竖与虫依 23 K 口中两川三个竖 24 L 田甲方框四车里 25 M 山由贝骨下框里
  • 3区撇起笔 31 T 禾竹反文双人立 32 R 白斤气丘叉手提 33 E 月用力豸毛衣臼 34 W 人八登头单人几 35 Q 金夕鸟儿犭边鱼
  • 4区点起笔 41 Y 言文方点谁人去 42 U 立辛六羊病门里 43 I 水族三点鳖头小 44 O 火业广鹿四点米 45 P 之字宝盖补礻衤
  • 5区折起笔 51 N 已类左框心尸羽 52 B 子耳了也乃框皮 53 V 女刀九艮山西倒 54 C 又巴牛厶马失蹄 55 X 幺母贯头弓和匕

新世纪版五笔字根

  • 1区横起笔 11 G 王旁青头五一提 12 F 土士二干十寸雨 13 D 大三肆头古石厂 14 S 木丁西边要无女 15 A 工戈草头右框七
  • 2区竖起笔 21 H 目止具头卜虎皮 22 J 日早两竖与虫依 23 K 口中两川三个竖 24 L 田框四车甲单底 25 M 山由贝骨下框里
  • 3区撇起笔 31 T 禾竹牛旁卧人立 32 R 白斤气头叉手提 33 E 月舟衣力豕豸臼 34 W 人八登祭风头几 35 Q 金夕犭儿包头鱼
  • 4区点起笔 41 Y 言文方点在四一 42 U 立带两点病门里 43 I 水边一族三点小 44 O 火变三态广二米 45 P 之字宝盖补示衣
  • 5区折起笔 51 N 已类左框心尸羽 52 B 子耳了也乃齿底 53 V 女刀九巡录无水 54 C 又巴甬矣马失蹄 55 X 幺母绞丝弓三匕

 
这是98版五笔码元的示意图,仅供参考

单字输入

除键名字和成字字根汉字之外的汉字,如果一个字可以取够四个字根,就全部用字根键入,只有在不足四个字根的情况下,才有必要追加识别码。

末笔字型识别码

当一个字拆不够4个码元时,它的输入编码是:先打完码元,再追加一个“末笔字型识别码”,简称“识别码”。末笔字型识别码由汉字的末笔画代码和字型代码组成。

末笔画代码看这个字的末笔画的结构来决定的:

  • 横 1
  • 竖 2
  • 撇 3
  • 捺 4
  • 折 5

字型代码是看此字的结构来的决定的:

  • 左右结构型 1
  • 上下结构型 2
  • 其他结构型 3

最后组合起来就是识别码。例如"好"字,他最后笔画为“一”,所以末笔画代码就是“1”,好是左右型结构的汉字,所以“好”字的字型代码也是“1”,所以“好”识别码就是“11”,在“G”键上。

拆分原则

  • 能散不连
  • 兼顾直观
  • 能连不交
  • 取大优先

词组的录入

  • 双字词

取第一字的前两位编码和第二字的前两位编码,如“北”(UXN)+“京”(YIU)=“北京”(UXYI

  • 三字词

取第一字的第一位编码,第二位的第一位编码,第三字的前两位编码,如“毛”(TFNV)+“泽”(ICFH)+“东”(AII)=“毛泽东”(TIAI

  • 四字词

取每一个字的第一位编码,如“六”(UYGY)+“十”(FGH)+“四”(LHNG)+“卦”(FFHY)=“六十四卦”(UFLF

  • 多字词

取一、二、三、末字的第一位编码,如“中”(KHK)+“国”(LGYI)+“共”(AWU)+“产”(UTE)+“党”(IPKQ)=“中国共产党”(KLAI

简码字

指一些较常用字可以用一、二或三字母编码打出,分别称为一、二、三级简码

一级简码包含汉语(尤其是官方语体)最常用字中的25个,为了尽可能全面地安排最常用的汉字,部分一级简码并非是该字全码的首位。

但所有的二级或三级简码均为该字全码的前二或三位

一级简码如下,86版、98版和新世纪版通用

编码 A B C D E F G H I J K L M N O P Q R S T U V W X Y
文字

特殊键

“Z”键

由于五笔字型中,采用五种笔划,每个字根或码元只取前两划定位它们在键盘上的位置,所以五笔字型汉字编码只用到了5×5=25个字母键。每个字的编码中都没有“Z”。后来大部分五笔输入软件都附与Z键查询功能,又叫作“万能键”或“万能学习键”。初学者可以在对某个字不确定其拆分时,使用“Z”键代替不确定的字根或码元。也有一些五笔输入法使用“Z”键来实现拼音反查五笔或符号输入功能。早期DOS系统中Z键可以用在任何位置,然现今大多数五笔输入法中Z键均无法在首位作为不确定的字根代替码。一些输入法中若在首位输入Z则跳出特殊符号选择列表。

“L”键

与“Z”键的用途为大多数熟知不同,“L”键在五笔编码中也有许多人不太了解的特殊用途:

单笔画字
编码方案对单笔画字的编码规定为“两个单笔画字母加两个L”,如一(GGLL)、丨(HHLL)、丿(TTLL)、丶(YYLL)、乙(NNLL)。由于竖、撇、捺构成的字不为大多数人认识,而“一”字有一级简码(G),乙字又不常用(偶尔用到时,一般不记得正确编码的输入者常会用别的输入法代替输入),所以这一编码方案细节常被人忽略。
解决某些重码问题
词组“劳动”与“蔻”字,如果按编码方案,其编码均为(APFC),因早期的五笔输入法不支持词组与单字重码,按照一般的规定,重码时应是以单字优先,可是相比之下,“劳动”是常用词,而“蔻”字几乎不会单独出现,通常总是以词组“豆蔻”的形式出现,所以,为了方便输入以及减少重码,在最终方案中蔻字的编码被强制设为(APFL),但近年来因五笔输入法支持词组与单字重码,部分输入方案已将“蔻”字编码改为APFC。

类似地,早期版本的五笔将“靥”字的编码强制设为(DDDL),以避免和键名字“大”(DDDD)重复.

以旧字型为本

  • 笔画“㇀”(),一般写法当作“丶”(),有时手写体竖钩(亅)以“一”()或“乙”()代替。
  • “象”字,简体字写法中间为口(K),而实际用横日(J)

评价

赞许观点 批评观点
五笔键码短、输入快,多简码,一个字或一个词组最多只有四个码,适用于简化字。 五笔虽然单字的重码率低,但词组的重码率高,因此,五笔普遍不使用大词库,以防止过多重码,但词库太小时,打字反而不方便,尤其现在各种智慧拼音输入法的兴起,五笔低重码率的优势已大大缩小。由于开始设计时是针对简体字,虽然日后经过不断改善,86、98版都可直接用繁体字编码,但使用效果上还有待进一步优化。
五笔练习对分拆汉字的能力是很好的训练,并能锻炼个人的认字能力。例如“尴尬”二字中的“尢”常被误写为“九”,五笔按“尢”拆分可以纠正这种错误观念。五笔输入法能在一定程度上避免使用拼音输入法过度而造成的提笔忘字的问题。 为了减少重码,五笔中有大量的无理码,这不符合汉字的结构和书写规范,因此,并不能锻炼人的认字能力,长期用无理码打字,使人们对汉字有了错误的认识,反而有害。中华人民共和国教育部就是因为这个原因没有在学校强制推广五笔。例如,按规范“力”“刀”“万”“方”“乃”等一类字的末笔应为撇,可是86版五笔字型却规定为折;“瓦”的末笔应为中间的点,86版五笔字型却规定为折;“戈”“戋”“我”“咸”“成”“戊”“戌”“戎”等一类字的末笔应为右上角的点,86版五笔字型却规定为倒数第二笔撇,凡此等等。[2]“传言台湾教育部就是因此而将此类含有戈的字改笔序成先点后撇。”

此问题在98版及世纪版得到修正。

五笔只需考虑字形,可轻松地按编码规则输入自己会写(或照稿子),但不认识不会读的字。且中国方言众多,汉字发音差异颇大,但字形相对统一,对于不会拼音或掌握不好的人,五笔占优势。 不适合输入只知道发音而忘了怎么写的字。
较易实现盲打(不看屏幕),尤其单字时。而拼音不论单字还是词组,都有极高的重码率,只有在输部分常用语句上才会惟一(或者说排在第一个选项上)(如:你好呀,我吃饭了,这是什么)。对于古文、人名、生僻的专业术语,五笔的优势非常明显。 输常用句子时,智慧拼音输入法亦可盲打,且不输五笔,甚至快于五笔(由于五笔在输词组时,重码率不再是优势而一个句子又不能光用单字模式)。
会打五笔的人用字比打拼音更准确。 打字准不准确取决于打字者是否细心,没有错别字的拼音输入的文章很多,用五笔时出现的错别字也并不罕见。例如2012年11月3日《江南晚报》头版头条“乱揿叭被罚不要喊冤”写成了“乱揿叭被罚不要喊冤”。[3]
由于有五笔字型口诀,并不难于记忆。实际熟练后,打字时手指会自然地去查找所需字根,并不像初学者那样打个字时还得口中念念有词。 五笔字型使用的是字根和码元作为输入时的助记符,86版使用130个字根,98版更需要使用245个字根,记忆量要比拼音或注音输入方法大。不仅如此,五笔字型的字根排布没有规律,远不及其它形码,增加了它的记忆难度。而且,五笔字型一旦有一段时间不用,就会忘记,需要重复学习,增加民众学习负担。

输入软件

王码五笔输入软件

  • 王码五笔型18030推出,是由于部分用户不适应98版,而又有输入更多汉字的需要而出现的。它基本延用86版的编码,而能处理中国国家的强制性标准GB 18030-2000字集的汉字,该字集可以处理27533个汉字。
  • 王码大一统五笔字型输入法软件是现在的正式五笔字型输入法软件,安装包默认带有86、98和新世纪3个版本。

其它五笔输入软件

在王码五笔出现之后,又出现了许多其它的五笔输入法。由于86版编码的专利开放,它们大多采用86版的编码方式,但也有用户个人提供98或新世纪版编码的码表。它们在造词等功能上加以改进,也获得了一定的用户群。这其中也有一部分是以五笔编码形式为主的输入平台,它们不仅可以以五笔方式来输入,也可以根据用户的需求安装不同的码表以提供其它编码的输入方式。

常见的五笔输入法

奖项与应用

  • 解决了汉字进入电脑的世界性难题,2008年1月8日,王码公司研发的“大一统五笔字型”获得中国国务院颁发的“国家科学技术发明奖”,成为唯一获此奖项的汉字输入法。
  • 新华社评价“王码”是“在中国文化史上其意义不亚于活字印刷术的重大发明,中国国家邮政总局发行了“当代毕昇——王永民”的邮票。在中科院院长路甬祥主编的《科学改变人类生活的100个瞬间》一书中,将王永民称为“把中国带入资讯时代的人”。

参见

参考

  1. ^ 王码公司官方网站文章《“大一统五笔字型”简介》 Archive.is存档,存档日期2013-01-01中宣称:“……不经许可公然抄袭五笔字型编码作为其核心技术的各种盗版的、改头换面的、冠名为“××五笔”或“五笔××”的“寄生五笔”名目繁多,泛滥成灾!不仅严重地损害了王码的合法权益和声誉,而且因其编码错误、画蛇添足、技术滞后和功能缺陷,极大地干扰、误导、坑害了广大用户!这类“开发商”以盈利为目的,鲜有“售后服务”,更是给王码公司造成了沉重的负担!”
  2. ^ 张在云:《谈谈"五笔字型"存在的一些问题》,刊於2001年11月12日美国《新语丝》電子雜誌. [2011年4月20日]. (原始内容存档于2016年3月4日). 
  3. ^ 小蜜蜂:《今天〈江南晚报〉头版头条错别字!五笔的编辑伤不起!》,發表於「西祠胡同」網站. [2012-12-30]. (原始内容存档于2017-02-16). 

外部链接