中文信息处理
中文信息处理是指用电子计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。信息处理技术在现代有广泛的应用,从1980年代开始,中文信息处理进入了快速发展阶段,并极大地提高了中文社会的信息处理效率。
中文信息处理分为汉字信息处理与汉语信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。
基於歷史、國家疆域、政治等各種問題,中文信息处理系統所需要處理的文字,有時不仅包括漢文(繁简体汉字),也包括藏文、蒙文、壮文、维吾尔文等大量中國少數民族的文字,周邊國家的日語假名、諺文,还包括古汉语文字、西夏文、契丹文等各種不同的文字。
中文信息處理可以從硬體及軟體兩方面去看,以下詳述中文信息處理的發展歷史、現況及未來發展等多方面的面貌。
範疇
- 基础研究:汉字字符集及編碼、汉字字频统计、词频统计、汉语自动分词、句法属性研究、、通用汉字样本库、汉字属性字典、语料库等
- 输入技术:中文输入法、中文手写输入、中文语音输入、光學字元識別等。
- 输出技术:汉字字模技术(字型库)、汉字激光照排、汉语语音合成、動態組字等。
- 外字處理:動態組字、造字、電子書等。
- 存储技术:汉字库标准中文、字符編碼等。
- 转换技术:繁简转换等
- 信息处理:中文情报检索、中文文本校对、机器翻译、自然语言理解、中文人机界面、語義網、電子字典、電腦輔助翻譯等
- 中文化:軟件的國際化和本土化。
- 中文编程:目前有两种发展,一种是英文coding直接翻译,以降低开发人员的语言学习成本;一种是根据中文特点,发展出融合中国人思维模式的新的计算机语言。
相关学科
语言文字学、计算机科学、模式识别、人工智能、心理学、数学、数理统计、控制论、神经计算、模型论、信息学、形式化理论、声学等
發展歷史
電腦在1946年發明,當時的電腦主要用於計算。及至1960年代,商用電腦開始普及,電腦被用於處理大規模的數據,當中其一個重要項目是圖書館的目錄整理。在當時,美國國會圖書館及多家大學都有不少來自東亞的藏書。為了有效管理這批藏書,必須要有一套有效處理東亞文字的系統。這套系統包括了兩方面:其一是如何把東亞文字儲存在電腦內;其二是如何在電腦表示出東亞文字。
1959年,麻省理工學院電機工程系教授Samuel Hawks Caldwell在軍方財政支持下,發明第一部處理中文電腦,稱為SinoType(常州华文印刷新技术)。Caldwell在哈佛大學漢學教授楊聯陞幫助下,研究漢字結構,發明按筆劃分拆,以二十二鍵鍵盤,用筆劃輸入中文。SinoType操作接近中文打字機,操作員在鍵盤輸入筆劃,電腦按輸入編成內碼,以光學矩陣顯示。操作員確認輸入後按"影"鍵,即行打印。按當時的實驗,操作員受八小時訓練後,中文字輸入速度為每四秒一字。SinoType的發明及設計,記載於1959年6月計算機學報Journal of Franklin Institute。一年後Samuel Caldwell過世,SinoType未被重用,然而其技術卻成為日後中文處理基礎。[1][2]
在過去,每一台電腦都有各自的數據表達方式,使電腦之間不能溝通。到1960年代美國信息交換標準碼(ASCII)的出現,電腦之間才可以互相溝通。不過,ASCII並不能有效處理英文以外的文字。而當時美國的圖書館開始電腦化,一批中文書有待編入目錄。
最早商用可以處理中文的電腦,可以追溯到1970年。在當年舉辦的日本大阪萬國博覽會上,IBM公司公開了部分漢字處理系統的技術資料,到了1971年正式發表。當時公布的機種包括有「IBM 2345 漢字印刷機」、「IBM 029 漢字穿孔機」、「IBM System/360-System/370 OS/VS」及「DOS/VSE」等。其後,日本本土公司也爭相開發,包括有富士通的JEF(Japanese processing Extended Facility)、NEC的JIPS(Japanese Information Processing System)及日立的KEIS(Kanji processing Extended Information System)等,全是大型電腦。到了1979年5月,NEC發表了可使用漢字ROM的私人電腦PC-8000系列;到了1982年10月,更開發出有名的16位元的PC-9801私人電腦,能處理漢字的電腦在日本漸漸普及。在1970年代末期,更出現一種專門用作編輯文件的文書處理器,可看成為一種擁有特定功能的小型電腦,1980年代中後期再演化成手提方式,並可打印出漢字。至於輸入方式,由1978年9月26日東芝發售「JW-10」起,「假名漢字變換」成為主流的漢字輸入法;即以日文拼音的方式,配合人工智能,輸入漢字詞匯。在還沒有真正的中文電腦前,中國大陸部分學者依靠入口日本的電腦來處理中文。
1973年,中國新華社派出考察團到日本,參觀了日本共同社、日立、日本電氣、松下及东芝等公司。他們看到共同社採用磁芯技術解决了2000左右漢字和片假名的存儲問題,並發現工作人员使用大鍵盤方式輸入稿件。他們回國後,提出了採用電腦技術改善新華社收發編印四方面,並由中國四機部(民用機械、核工業和核武器、航空及電子工業)與北京市科技局邀請了富士通等公司到中國進行技術座談會。後來,四機部提出研制漢字信息處理系统。在1974年8月,中國開始了748工程,包括了用計算機來處理中文字,展開了各種研究工作,後來到1980年公佈了GB 2312-80漢字編碼的國家標準,1983年中國科學院研究Unix中文化,1985年推出了Unix中文版。
台灣方面,早期美國空軍研究部門曾經與IBM公司合作研發中文電腦,而多家公司也開發了終端機式的中文系統,包括有王安、工技院(中華一號到中華三號)及神通等。這些機器多數採用大鍵盤的輸入方式,有數十至數百個鍵。到了1976年,中文電腦之父朱邦復發明了一套形意檢字法,並在1978年改進為倉頡輸入法,以英文鍵盤輸入中文。在1979年,朱邦復提出以圖形功能及從顯示器的英文字符產生器入手,研發中文電腦,並由宏碁公司出產。之後,在原有英文操作系統上外掛中文系統的方法大行其道,多套中文軟件相繼推出,包括有國喬、倚天及仲鼎等。
中文信息处理在20世纪经历了两次高潮:1990年前后,核心内容是汉字的计算机处理问题;经过几年的发展低潮之后,2000年之前,中文信息处理的重点转向语音识别、语音合成和语义处理方面。
被打字机忽视的时代
在20世纪上半叶,英文打字机的普及极大的提高了文字资料的录入速度。但由于打字机设计之初,并没有考虑到非字母输入(比如中文等其他文字)的需要,再加上当时中国的积弱,打印机在中国并没有普及。但仍然在当时出现了中文打字机,不过这些打印机大都需要配备数千个铅字组成的大字盘,机器成本昂贵和操作相比活字印刷并没有优势。汉字的输入难题,还体现在活字印刷术的应用历史中。虽然早在北宋就已经发明泥活字,随后在元朝、明朝又发明了木活字、铜活字,但一直到晚清西方技术传入,中国的印刷仍然以雕版为主。这最主要的难题就是在大量使用生僻字、异体字的时代,汉字的印刷活字起码需要应付上万个不同字符。而西方字母文字仅需要几十个不同字符就足够用了。
稳健的基础:计算机时代
20世纪中叶,计算机开始出现,并进入中文地区,由于和打字机同样的理由,设计当初并没有考虑到中文等非英语文字的处理问题,使得计算机在最初的使用裡,中文处理成了一个很大的问题,甚至于有人重拾汉字拉丁化问题。中文处理的大量基础也都是在这一阶段完成的,甚至出现了足以媲美英语的中文处理系统。
汉字信息处理阶段
- 硬件
- 软件
- 输入法
- 企业
- 标准、基础研究
- 中文信息处理界基本上完成了词频统计、多种字体显示/打印字库、汉字显示/打印技术、输入法、内码标准、字符集标准等与字相关的所有基础工作。倪光南院士说,到2000年,中国已制定了70个与中文信息处理相关的国家标准。
学术理论
1990年代中期,最为普及的计算机操作系统由DOS升级到Windows平台。微软公司从繁體中文版的Windows 3.0及簡體中文版的Windows 3.2开始,在操作系统裡集成了汉字处理技术,使传统中文信息处理产品迅速失去了市场。中文信息处理进入一个低谷,原先做中文信息处理的公司纷纷转行。Windows 2000及以上版本,无论采用何种文字,均已支持中文处理。
快速追赶:PC时代
随着PC(個人電腦)在20世纪末21世纪初在中文地区的普及,中文信息处理出现了巨大的发展。
- 中文输入方面,出现了音码和形码两种类型的大量输入法,适合中文快速输入的词/句智能输入法也获得快速发展。象形输入法也获得初步发展,但识别率较低。
- 中文信息量方面,在21世纪最初十年,中文已经发展成为信息量全球第二的载体。
- 中文编码方面,获得巨大发展,参看下文
- 中文显示方面,紧随显示器的发展,出现了比较适合电脑浏览的黑体等字体,中文书法字体也大量电子化。
- 中文检索方面,分词技术发展,中文信息检索的方便性已经能够满足日常大部分需求。
- 中文阅读方面,发展较慢,仍然处于人工阅读阶段。
超越:触控时代
- 中文输入方面:
自2006年开始,随着微软的Surface平板电脑的问世,人机交互方式发生了巨大的变革。一种接近人类日常沟通模式的人机交互模式已经大量应用于最新的科技产品之中。新的汉字构造分解技术,中文智能输入的已有积累,中文字体的表现力,中文手写的安全性等方面都远远超越了英文,中文输入的方便开始出现明显超越的趋势。第二代象形输入法也开始在新产品中应用,其输入效率通过基本的适应期之后,已经可以超越了原有的所有输入法。
汉语信息处理阶段
與此同時,為方便使中國各民族電腦化的步伐加快,政府作出一連串行動去使這些民族的語言更便於“計算機化”。這一連串行動包括以下各項:
- 取消民族語言中的特殊字元,儘可能以26個標準拉丁字母代替。(參看:壯語)
- 為還未有文字的民族設立以拉丁字母為本的新文字。
- 台灣方面,在1990年代曾引發“中文電腦化”及“電腦中文化”的爭議。
- 資策會方面的意見:認為受限於電腦的軟硬體大都由國外開發設計,故電腦中文化所需時日較多,應可設定為長期目標,但短期可先讓中文適應電腦環境,中文可以快速適應時代的活動能力,充分發揮中文在資訊科技的應用。
- 學界及業界的意見:隨着電腦發展日新月異,操作空間的限制很快就變得沒有意義。政府應該在新時代來臨以前,及早制定長遠的標準。
- 結果:台灣資策會於1989年8月與中國大陸共同參與ISO 10646中文編碼協調會,並提出HCS方案,同年10月參加ISO/IEC JTCI1/SC2/WG Ad-hoc會議。至於,資策會還繼續參與ISO 10646中文編碼標準會議,例如:CJK/JPG中日韓聯合工作組第1-5次會議,ISO/IEC JTCI1/SC2/WG2/IRG會議等多次會議,成功的將CNS11643所有的字元集納入於ISO10646國際標準之中。
電腦對漢字的親和性增加,而Unicode在統漢碼之後,亦不斷推出擴展A至G計劃,以涵蓋歷史上所有曾經出現過及使用過的漢字,並為它們編碼記錄。現時已整理好接近十萬個漢字。
中文電腦系統
运行在DOS上的中文系統
下列都是1980年代出產的軟件,隨著Windows通行都逐一沒落了。
- 天汇汉字系统TW213
- 希望汉字系统UCDOS
- 零壹中文系統
- 國喬中文系統
- 倚天中文系統,它還有Windows版本,最後一個版本是倚天2000 for Windows。
- 震漢中文系統,因與倚天高度相似而曾被倚天控告。
- 大千中文系統
對中文電腦有貢獻的人
參考書籍
- 中文電腦經脈通:一本較全面介紹中文電腦的書籍
- 資訊夢工場:有台灣中文電腦起源的簡介(页面存档备份,存于互联网档案馆)
專業期刊
参考文献
- ^ 存档副本. [2016-09-15]. (原始内容存档于2016-09-15).
- ^ 存档副本. [2016-09-15]. (原始内容存档于2016-09-19).
- ^ Caldwell, Samuel H. The sinotype—a machine for the composition of Chinese from a keyboard. Journal of the Franklin Institute. 1 June 1959, 267 (6): 471–502. doi:10.1016/0016-0032(59)90069-9.
外部链接
- 中文輸入法世界(页面存档备份,存于互联网档案馆)
- 中文資訊處理(自動校勘系統) (页面存档备份,存于互联网档案馆)
- 南史(自動校勘軟體)(页面存档备份,存于互联网档案馆)