第4章 汉字拆分的技巧 | ||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| http://www.pcdog.com 2004-11-5 本书编委会 | ||||||||||||||||||||||||
|
4.2.1 超过四码凡是字根表中没有的汉字(即“表外字”或“键外字”),按照前面讲过的“五项拆分规则”一律拆成单个字根之后,可以在键盘上找到这些字根,依次按键,把字拼合起来,从而就完成“输入”了。 可是,看看以下情况,您就会发现问题。 攀 拆成:木 乂 乂 木 大 手(6个) 齄 拆成:丿 目 田 一刂 木 日 一(8个) 输入这么多字根,是不是太多、太慢?况且,字根数有多有少,长短不齐,全部输入有无必要呢? 经过“五笔字型”的研究,我们发现,不管多么复杂的字,不管拆出多少个字根,我们只要输入它的4个字根,就能够得到一个唯一性很强的“编码”。既然“编码”是唯一的,那么,只要让它对应您“要”的那个字就行了,这就好像给人起名一样。 为此,我们对拆分的结果做出规定: 凡是超过4个的,就截;凡是不足4个的,就补,叫做——“截长补短”。 将汉字拆分之后,字根总数多于4个的,叫做“多根字”。对于“多根字”,不管实际上可以拆出几个字根,我们只按拆分顺序,取其第一、二、三和最末一个字根,俗称“一二三末”,其余的字根全部截去。 鹏:月 月 勹 一(33 33 35 11 — E E Q G) 攀:木 乂 乂 手(14 35 35 32 — S Q Q R) 戆:立 早 夂 心(42 22 31 51 — U J T N) 爨:亻 二 冂 火(34 12 25 44 — W F M O) 齄:丿 目 田 一(31 21 24 11 — T H L G) 蔼:艹 讠 日 乙(15 41 22 51 — A Y J N) 瑜:王 人 一 刂(11 34 11 22 — G W G J) 蔚:艹 尸 二 寸(15 51 12 12 — A N F F) 圃:囗 一 月 ヽ(24 11 33 41 — L G E Y) 4.2.2 正好四码刚好由4个字根构成的汉字,叫做“四根字”,其取码方法即输入方法是:依照书写顺序把4个字根取完。 规:二 人 冂 儿(12 34 25 35 — F W M Q) 书:乙 乙 丨 丶(51 51 21 41 — N N H Y) 两:一 冂 人 人(11 25 34 34 — G M W W) 笔:竹 丿 二 乙(31 31 12 51 — T T F N) 照:日 刀 口 灬(22 53 23 44 — J V K O) 统:纟 亠 厶 儿(55 41 54 35 — X Y C Q) 甜:丿 古 艹 二(31 13 15 12 — T D A F) 段:亻 三 几 又(34 13 25 54 — W D M C) 容:宀 八 人 口(45 34 34 23 — P W W K) 磨:广 木 木 石(41 14 14 13 — Y S S D) 禁:木 木 二 小(14 14 12 43 — S S F I) 4.2.3 不足四码“五笔字型”编码的最长码是4码,凡是不足4个字根的汉字,我们规定字根输入完以后,再追加一个“末笔字型识别码”,简称“识别码”,这样一来,就使两个字根的汉字由2码变成3码,三个字根的汉字由3码变成为4码。 “识别码”是由“末笔”代号加“字型”代号而构成的一个附加码。例如(带括号的那些笔画或字根即为“识别码”): 汉:氵 又 [丶] (43 54 41 — I C Y) 字:宀 子 [二] (45 52 12 — P B F) 中:口 丨 [川] (23 21 23 — K H K) 华:亻 匕 十 [刂](34 55 12 22 — W X F J) 团:囗 十 丿 [彡](24 12 31 33 — L F T E) 府:广 亻 寸 [氵](41 32 12 43 — Y W F I) 加入“识别码”后,仍然不足4个码时,还要加打一下空格键,以示“该字编码结束”。 4.2.4 末笔字型识别码1. 设计“识别码”的原因在7000来个汉字中大约有10%的汉字,是由两个字根构成的。如:“红、计、要、他”等。把这些字的2个字根输入电脑后,其编码长度为2(即2个码)。 可是,“五笔字型”是用25个键处理汉字的。只用25个键,打2下算是一个汉字的编码,最多可以组成25×25=625个编码。就是说,我们只有625个房间号,要住700个人!这就难免产生拥挤,而且并不是每一种组合都能对应一个汉字。因此,许多房号永远是“空号”,不能“住人”,这样势必要拥挤不堪—产生大量重码! 重码字太多,影响输入效率,是我们不希望的。何况,这些由2个字根组成的字,大都是最常用的字。 因此,必须把它们的编码分开来,这样就好像两个字的人名(如“王江”、“李刚”)容易重名,如规定后边都再加上一个字(王江春、李刚剑),就不易重名一样。我们规定:凡是由2个、3个字根组成的字,字根输入完之后,一律再加上一个码——“识别码”。这样,就可以大幅度减少常用字的重码,从而提高输入效率。 “末笔字型识别码”为减少重码起到了关键作用,使得绝大多数原本重码的常用字都有与之对应的唯一编码,而不再重码。 2. “识别码”的必要性以下例子可以进一步说明对于不足四码的汉字增加“识别码”的必要性。 (1)丢失字形信息会引起重码 叭:口 八 (K W) (1型字) 只:口 八 (K W) (2型字) 吧:口 巴 (K C) (1型字) 邑:口 巴 (K C) (2型字) 旮:九 日 (V J) (2型字) 旭:九 日 (V J) (3型字) (2)因字根处在同一键位上引起重码 沐:氵 木 (I S) 末笔为丶 汀:氵 丁 (I S) 末笔为丨 洒:氵 西 (I S) 末笔为一 他:人 也 (W B) (末笔为乙,1型字) 仓:人 卩 (W B) (末笔为乙,2型字) 仔:亻 子 (W B) (末笔为乙,1型字) 大家看出来了,如果有办法补一个“末笔”信息,这些字则无一重码。 “五笔字型”中设计的“末笔字型识别码”,是一个既含有“末笔”信息,又含有“字型”信息的综合功能码。以上的例子只要在字根之后加上“识别码”,就不会有重码了。 “识别码”是“五笔字型”仅仅使用25个键位,又有极少重码的关键性技术。专家们鉴定五笔字形“构思巧妙”,就是指“识别码”。 3. “识别码”的组成当一个字拆不够4个字根时,它的输入编码是:先打完字根码,再追加一个“末笔字型识别码”,简称“识别码”。 “识别码”的组成:它是由“末笔”代号加“字型”代号而构成的一个附加码。 (1)对于1型(左右型),打完字根之后,补打一个末笔画即等同于加了“识别码”。例如: 沐:氵 木 [丶](“丶”为末笔即“识别码”) 汀:氵 丁 [丨](“丨”为末笔即“识别码”) 洒:氵 西 [一](“一”为末笔即“识别码”) 杉:木 彡 [丿](“丿”为末笔即“识别码”) 忆:忄 乙 [乙](“乙”为末笔即“识别码”) (2)对于2型(上下型)字,打完字根之后,补打由2个末笔画“复合构成”的“字根”,即等同于加了“识别码”。例如: 华:亻 匕 十 [刂](“丨”为末笔,“刂”即为“识别码”) 字:宀 子 [二](“一”为末笔,“二”即为“识别码”) 参:厶 大 彡 [彡](“丿”为末笔,“彡”即为“识别码”) 会:人 二 厶 [冫](“丶”为末笔,“冫”即为“识别码”) 仓:人 卩 [卩](“乙”为末笔,“卩”即为“识别码”) (3)对于3型(杂合型)字,打完字根后,补打由3个末笔画“复合构成”的“字根”,即等同于加了“识别码”。例如: 同:冂 一 口 [三](“一”为末笔,“三”即为“识别码”) 串:口 口 丨 [川](“丨”为末笔,“川”即为“识别码”) 丙:一 冂 人 [氵](“丶”为末笔,“氵”即为“识别码”) 疹:疒 人 彡 [彡](“丿”为末笔,“彡”即为“识别码”) 庇:广 匕 匕 [巛](“乙”为末笔,“巛”即为“识别码”) 至于为什么这些“笔画”可以起到“识别码”的作用,您只要仔细研究一下“区位号”与“笔画数”的关系以及“识别码”的定义,便会恍然大悟。 4. 末笔字型识别码表末笔笔画只有五种,字型信息只有三类,因此末笔字型交叉识别码只有15种如表4-1所示。 表4-1 末笔字型识别码表
从表中可见,“汉”字的交叉识别码为Y,“字”字的交叉识别码为F,“沐、汀、洒”的交叉识别码分别为Y、H、G。如果字根编码和末笔交叉识别码都一样,这些汉字称重码字。对重码字只有进行选择操作,才能获得需要的汉字。 应当指出的是: (1)表4-1中,如(41)一栏中表明“41 Y丶”三种形式,其实您用任何一种形式当做“识别码”都是一样的,因为打的都是同一键。只不过用笔画形式易学易用、直观方便罢了。 (2)并不是所有的汉字都需要识别码,能拆出4个字根或更多字根的汉字,字根已经足够,在其全码中,便不需要因此也就没有“识别码”了。 (3)“识别码”只对“字根以外的字”才可以追加。成字字根的编码,即使不足4码,也一律不加“识别码”。例如: 厂:厂 一 丿(报户口 首笔 二笔,不足4码,加空格键) 九: 九 丿 乙(报户口 首笔 二笔,不足4码,加空格键) 5. “末笔”的几项说明(只适用于五笔字型86版)(l)关于“力、刀、九、匕、七”。鉴于这些字根的笔顺常常因人而异,“五笔字型”中特别规定,当它们参加“识别”时,一律以其“伸”得最长的“折”笔作为末笔。如:男:田力(末笔为“乙”,2型)花:艹亻匕(末笔为“乙”,2型)。带“框”的“国、团”与带“辶”的“进、远、延”等,因为是一个部分被另一个部分包围,我们规定:视被包围部分的“末笔”为“末笔”。如:进:二刂辶(末笔“丨”3型,加“川”作为“识别码”);远:二儿辶(末笔“乙”3型,加“巛”作为“识别码”);团:囗十丿(末笔“丿”3型,加“彡”作为“识别码”);哉:十戈口(末笔“一”3型,加“三”作为“识别码”)。 (2)“我”“戋”“成”等字的“末笔”。由于因人而异,故遵从“从上到下”的原则,一律规定“丿”为其末笔。如: 我:丿扌乙丿(TRNT,取一二三末) 戋:戋一一丿(GGGT,成字根,先“报户口”再取一二末笔) 成:厂乙乙丿(DNNT,取一二三末) (3)单独点:对于“义、太、勺”等字中的“单独点”,离字根的距离很难确定,可远可近,我们干脆认为这种“单独点”与其附近的字根是“相连”的。既然“连”在一起,便属于杂合型(3型)。其中“义”的笔顺,还需按上述“从上到下”的原则,认为是“先点后撇”。如: 义:丶×氵(末笔为“丶”3型,“氵”即为识别码) 太:大丶氵(末笔为“丶”3型,“氵”即为识别码) 勺:勹丶氵(末笔为“丶”3型,“氵”即为识别码) 6.字型的确定关于字型的确定,有如下规定: (1)凡单笔画与字根相连者或带点结构均视为杂合型。 (2)字型区分时,也用“能散不连”的原则。例如“矢”、“卡”、“严”等的字型均视为上下型。 (3)内外型汉字的字型一律认为是杂合型。例如“困”、“同”、“匝”等的字型均视为杂合型。 (4)含两字根且相交的汉字属杂合型。例如“东”、“电”、“本”、“无”等的字型均视为杂合。 (5)下含“辶”的汉字一律规定为杂合型。 (6)拆分中还应注意,一个笔画不能割断用在两个字根中。如:果 日木(正) 田木(误) 故口诀不妨加四句,补充如下: 单勿需拆 散拆简单 难在交连 笔画勿断 能散不拆 兼顾直观 能连不交 取大优先 | ||||||||||||||||||||||||
|
|