帮助:中文维基百科的繁简、地区词处理/转换原理

字词转换
主页 讨论
转换请求
错误修复请求
地区词候选
转换介绍
字词转换处理 讨论
  繁简处理 讨论
  地区词处理 讨论
  公共转换组 讨论
帮助文档
繁简与地区词处理 讨论
  转换原理 讨论
  手工转换 讨论
  高级语法 讨论
  用字模式选择说明
相关模板
NoteTA 全文字词转换
CGroup 公共转换组列表
Lan 界面文字转换
地区用词 地区词模板
地区用词2 进阶地区词模板
各地中文名 地区用词信息框
查看 - 讨论 - 编辑 - 变动

本页简单介绍1.4版软件的繁简转换原理,以使大家可以有效处理转换时遇到的错误。

参看m:Automatic conversion between simplified and traditional Chinese

与分词的关系

转换程序使用最简单的“最大匹配”法进行转换。这会导致如下的错误:假设转换词库中有一对应关系为

内存 => 記憶體

现对以下句子转换

人体内存在很多微生物

基于最大匹配,系统会对“内存”进行转换,得到“記憶體”。整个句子将会被错误地转换成

人體記憶體在很多微生物

解决这个问题的根本方法是采用智能的分词匹配,将上述句子先拆分为

人体 内 存在 很多 微生物

然后再对每个词单独转换。

在分词系统实现之前,要修正上述错误,可以有两种方法:

  1. 手工将涉及分词错误的词分开:“人体内-{}-存在很多微生物”
  2. 将涉及分词错误的多个词作为一个整体加到定制转换表里,如“体内存在 => 體內存在”。

不检测原始字体

由于我们允许在同一文章内繁简体混用,因而不可能判断一个词其原型是繁体还是简体。这就需要在繁体/简体用字相同的情况下,同时定义两条转换关系。例如:“電影集團”(繁)应转成“电影集团”(简),注意这里需要特殊转换的是“影集”,因其默认转换为“电视系列剧”。那么在转换表中,我们要有两条对应:

電影集團=>电影集团
电影集团=>電影集團

这是因为简体用户会直接写“电影集团”,如果没有第二条转换关系的话,在简体显示下会变成“电电视系列剧团”。

“影集 电视系列剧 电影集团 電影集團”在您的显示模式下效果为:影集 电视系列剧 电影集团 电影集团