形音相近的混淆汉字的搜寻与应用

合集下载

小升初语文重点知识总结词语辨析与运用

小升初语文重点知识总结词语辨析与运用

小升初语文重点知识总结词语辨析与运用语文是小学生学习中非常重要的一门学科,也是小升初考试的重点之一。

在语文学习中,词语辨析与运用是一个需要重点关注的方面。

本文将对小升初语文的重点知识进行总结,着重讲解一些常见词语的辨析与运用。

一、形近字的辨析与运用形近字是指字形相似但意义不同的字。

小学生常常会将形近字混淆使用,因此对形近字的辨析与运用是非常重要的。

1. 请与凭「请」字是礼貌用语,多用于请求。

例如:请你帮我一个忙。

「凭」字表示依仗、依据。

例如:凭票入场。

2. 表与标「表」字表示记录时间的工具,或指肖像、图表等。

例如:手表、日历、表格。

「标」字表示标志、标准的意思。

例如:标志、标准、标点符号。

3. 称与称「称」字表示称呼、称赞等。

例如:称呼、称职、自称。

「称」字表示用秤量。

例如:称重、体重。

二、同义词的辨析与运用同义词指意义相近或相同的词语。

学生在写作时,可以运用一些同义词来丰富文章内容,提升写作水平。

1. 高兴与快乐「高兴」指心情愉快、满足的状态。

例如:我高兴地跑过去。

「快乐」表示愉快、充实、幸福的心情。

例如:快乐的笑声。

2. 美丽与漂亮「美丽」形容自然景物或人的气质、容貌优美。

例如:美丽的花朵、美丽的脸庞。

「漂亮」形容人或物体整体外形好看、吸引人。

例如:漂亮的姑娘、漂亮的衣服。

3. 快与迅速「快」指速度快,时间较短。

例如:跑得很快。

「迅速」指行动迅猛、迅捷。

例如:反应迅速、迅速行动。

三、词语的运用技巧在写作中,恰当地运用一些词语,能够提升文章的表达能力和逻辑性。

1. 添砖加瓦形象地比喻某人为某事物增添助力。

例如:他为我们的队伍添砖加瓦。

2. 独一无二形容某人或某物独特、与众不同。

例如:她有着独一无二的风格。

3. 一蹴而就形容做事迅速、一次就成功。

例如:他学习很快,一蹴而就地掌握了新知识。

4. 不可或缺指某事物是非常重要且不能被替代的。

例如:家庭教育在孩子成长中是不可或缺的。

总结:通过对小升初语文的重点知识进行总结,我们了解了形近字的辨析与运用、同义词的辨析与运用,以及一些词语的运用技巧。

利用六书理论辨析形近易误字

利用六书理论辨析形近易误字

利用六书理论辨析形近易误字形近易误是指字形相似、易混淆,容易导致写错或读错的现象。

在语言文字学领域中,出现形近易误是一种很常见的现象。

在中文学术论文中,形近易误尤为突出,这不仅会导致读者理解困难,还可能影响到文章的学术性和标准化。

六书理论是中国文字学的基础理论,揭示了中文字符的起源和发展。

六书分别是象形、指事、会意、形声、转注和假借。

在利用六书理论进行形近易误辨析时,可以根据字的特点和构造进行分类,进一步分析和归纳同形同音字的辨析方法。

下面通过实例,探讨如何利用六书理论解决形近易误问题。

首先,以“青蛙”和“青蟆”两个词为例。

这两个词在汉字形式上非常相似,易混淆。

但是,通过六书理论的分析,可以发现“青蛙”中的“蛙”属于会意字,表示“蛤蟆”形态的下半部分,而“青蟆”中的“蟆”则属于形声字,表示“春蚓”的音旁加上“虫”部。

因此,正确的写法是“青蛙”和“青蟆”,分别指代不同的动物,而不是同一种动物。

另外,以“浓缩”和“浓朔”为例。

这两个词同样存在形近易误的情况。

但是,通过六书理论的分析,可以发现“浓缩”中的“缩”是形声字,表示“散射”的音,而“浓朔”中的“朔”则是指事字,表示朔月的月份形态。

因此,正确的写法应该是“浓缩”和“浓朔”,分别指代不同的物质和时间。

综上所述,利用六书理论可以有效地解决形近易误的问题。

通过对字的构造、音义方面的分析,可以深入理解每个字的内涵和用法,避免因形近而误解、误读、误写。

在中文学术论文的写作过程中,我们应该更加注重对字的选择、使用和辨析,以提高文章的质量和学术性。

词语辨音区分相似的汉字

词语辨音区分相似的汉字

词语辨音区分相似的汉字在汉字中,有很多看起来十分相似的字,但它们的发音却完全不同。

正确地辨音并区分这些相似的汉字,对于提高汉语的准确性和表达能力至关重要。

本文将介绍几组常见的相似汉字,帮助读者正确区分它们的发音和用法。

一、"是"和"时":这两个字的发音听起来相近,但意思完全不同。

"是" (shì) 是表示肯定、相同的意思,而"时" (shí) 表示时间、时候的概念。

在口语中,我们常说"这个是我的书"和"现在是几点钟",而不会混淆成"这个时我的书"或"现在时几点钟"。

二、"哪"和"那":"哪" (nǎ) 和 "那" (nà) 都表示疑问或指示的意思,但用法和发音有区别。

"哪" (nǎ) 通常用于问句,表示选择、询问某个事物的具体情况。

例如:"哪个是你的手机?"而"那" (nà) 则用于指示、引导句子的意义。

例如:"那本书很有趣。

"三、"捶"和"槌":这两个字都表示敲打的意思,但发音和用法不同。

"捶" (chuí) 表示用手或器具轻轻敲打,而"槌" (chuí) 则表示用锤子等较重的工具敲打。

例如:"他用拳头捶门"和"匠人用铁槌敲打铁片。

四、"研"和"验":这两个字的发音非常接近,但含义不同。

"研" (yán) 表示磨研、研究的意思,常用于科研等领域。

学习汉字的常见误用和易混淆字

学习汉字的常见误用和易混淆字

学习汉字的常见误用和易混淆字汉字是中国语言的文字表达方式,具有悠久的历史和丰富的内涵。

然而,由于其复杂的结构和多样的笔画组合,很容易发生误用和混淆的情况。

本文将探讨学习汉字过程中常见的误用和易混淆字,希望能够帮助读者更好地理解和运用汉字。

一、常见误用字1. 了/了解汉字“了”通常表示动作的完成,如“我吃了饭”表示已经吃过饭了。

然而,“了解”是一个独立的词汇,表示理解、熟悉的意思,如“我了解他的情况”。

2. 打/打扰“打”通常表示用手或器具等敲击、击打的动作,如“打电话”、“打篮球”。

而“打扰”表示干扰、打搅的意思,如“请勿打扰”。

3. 地/得/的这是一个经常引起误用的组合。

其中,“地”通常用于表示方式、方式状语的语气词,如“认真地工作”。

而“得”是一个助动词,表示程度或结果,如“跑得快”、“听得懂”。

而“的”通常用于表示所属关系或修饰性状,如“我的书”、“高兴的笑容”。

二、易混淆字1. 以/已这两个字形相近,容易混淆。

其中,“以”通常表示动作的手段或介词,“以书为友”、“以…为基础”。

而“已”则表示过去或结束的状态,如“已经完成”。

2. 为/位这两个字形也相近,常常被误用。

其中,“为”常用于表示引导原因或目的,“为了增加知识”、“愿为他付出一切”。

而“位”则表示位置或地位,“一位老师”、“首位”。

3. 场/厂这两个字形非常相似,容易写错。

其中,“场”通常用于表示场所或活动的地点,“球场”、“战场”。

而“厂”则表示工厂或企业,“电厂”、“工厂”。

三、如何避免误用和轻松掌握汉字1. 多阅读和写作通过多读书、报纸、杂志等来熟悉汉字的正确使用。

同时,多进行写作练习,提升自己的汉字写作能力。

2. 注重细节注意字形的细节差异,特别是易混淆字的写法。

多观察字形的特点,加深记忆。

3. 学习词语搭配学习汉字使用的常见搭配,特别是一些易混淆字的用法和搭配,从而更好地理解和运用。

结语汉字是中国文化的瑰宝,学习汉字需要耐心和细心。

六年级上册语文第四单元形近字

六年级上册语文第四单元形近字

形近字是指字形相近、音形相近但意义不同的汉字。

在学习汉语的过程中,形近字往往容易引起混淆,造成学习者在阅读、写作时的错误使用。

掌握形近字的区别和用法对于提高语文水平具有重要意义。

六年级上册语文第四单元着重介绍了一些常见的形近字,通过丰富多样的学习方式帮助学生掌握这些字的正确用法,提高语文素养。

一、认识形近字在学习形近字之前,首先需要认识这些字的基本概念。

形近字主要包括以下几种情况:1. 字形相近,音形相近,意义不同的字。

例如:“观”和“觉”、“它”和“她”等。

2. 字形相近,音形相近,意义相近或相同的字。

例如:“国”和“圆”、“设”和“证”等。

3. 字形相近,音形不同,意义不同的字。

例如:“同”和“众”、“红”和“绸”等。

通过对形近字的分类认识,可以帮助学生更清楚地理解这些字的特点,为接下来的学习打下基础。

二、形近字的辨析方法为了帮助学生更好地掌握形近字的用法,六年级上册语文第四单元提出了一些辨析方法:1. 注重语境:在阅读和写作时,要注重形近字所在的语境,根据上下文理解词语的意义,避免因为形近而误用。

2. 关注用法:形近字在句子中的用法往往有所不同,要认真学习和对比它们的实际用法,加强记忆和理解。

3. 多积累例句:通过大量的例句积累,可以帮助学生更好地掌握形近字的用法和意义。

六年级上册语文第四单元提供了丰富的例句,引导学生通过实际练习加深记忆。

通过以上辨析方法的引导,学生可以更加系统和全面地掌握形近字的用法,避免因为形近而产生的错误使用。

三、形近字的学习策略为了帮助学生更好地学习掌握形近字,六年级上册语文第四单元还提出了一些学习策略:1. 通过联想记忆:形近字之间的通信往往是有规律的,可以通过联想记忆的方法帮助学生更好地记忆和区分这些字。

“观”和“觉”可以通过联想它们的意义,来记忆它们的区别。

2. 重视练习:形近字的学习需要通过大量的练习来巩固记忆,六年级上册语文第四单元提倡学生在课后进行反复练习,加深对形近字的认识和理解。

小学低段形近字混淆现象及解决策略

小学低段形近字混淆现象及解决策略

小学低段形近字混淆现象及解决策略引言小学识字教学是语文教学的重要组成部分,识字教学的质量和效率直接影响着阅读和作文教学的质量和效率。

小学识字教学的要求是认识常用汉字3000个左右,其中2500个左右会写。

鉴于识字教学的目的和任务,帮助低年级学生识记字形尤为重要。

由于汉字是由各种不同的基本笔画按一定的规律和方式组成的方块字,结构复杂,类似性大,儿童掌握起来有很大的难度。

因此,字形教学对于小学低年级学生而言不仅重要,而且也是认字的难点。

其中,要做到正确地识读和书写汉字,关键是要正确地掌握形近字。

形近字在汉字使用方面如此重要,而人们对它的研究却并不多也不够深入。

本文试从形近字混淆现状出发,分析学生产生形近字混淆的原因,探究力求解决相关问题的教学策略。

一、小学低段形近字混淆现象分类笔者结合自己的教学实践及通过与相关教师的交流,根据低段的识字教学内容,收集了人教版语文1至4册中曾出现的形近字,据不完全统计,共118组。

通过整理,可把形近字分为以下5种情况:1.笔画数接近(含相同),字形轮廓特征相似(含相同),笔形一致或稍异,区别度极小,多见于独体字。

这些字相似性太强,误认、误写现象时常发生,又可细分为两类:(1)笔画数相同,内部的区别细微,甚至仅靠个别笔画的长短、走势、曲折加以区分。

入—人天—无元—无已—己土—士干—千处—外几—儿左—在为—办手—毛午—牛井—开才—寸名—各力—刀交—齐本—未—末(2)笔画数非常接近,只因其中极个别笔画的改变而显不同。

勾—勺车—东舟—丹看—着我—找导—异爱—受变—弯高—亮雪—雷渐—浙便—使北—比—此2.轮廓相同,结构一致,区别只在多一笔少一笔,常常一不小心,就容易出差错。

今—令乌—鸟白—自日—目厂—广万—方了—子木—本太—大兔—免尤—龙瓜—爪往—住牛—生问—间酒—洒折—拆休—体从—丛历—厉3.轮廓相同,结构一致,笔画相同,区别只在个别笔画摆放位置不同。

玉一主压一庄庆一厌4.读音接近,甚至一样,字形区别主要相差一个部首。

识别字的谐音字知识点

识别字的谐音字知识点

识别字的谐音字知识点在汉字中,有一种特殊的现象,就是谐音字。

谐音字是指字音相近、读音相同或相似的字。

对于学习汉字的人来说,了解和识别谐音字是十分重要的,因为谐音字往往具有相似的形状,容易混淆。

下面我们来详细了解一下识别字的谐音字的知识点。

一、字音相近的谐音字字音相近的谐音字是指和目标字读音相近的字。

它们的读音虽然不完全一致,但非常接近,因此在书写中容易混淆。

举例来说,常见的字音相近的谐音字有:1.珍贞真针:这四个字的读音非常相似,都是“zhen”。

在书写中容易混淆。

2.倒到岛导:这四个字的读音同样非常相似,都是“dao”。

如果不注意细节,容易写错。

3.笔彼必毕闭:这几个字的读音都包含了“bi”。

它们的音节相近,容易因为书写时的疏忽而混淆。

二、读音相同的谐音字读音相同的谐音字是指和目标字完全相同的字。

这类字在书写时尤其容易混淆,因为它们不仅在读音上相同,连形状也非常相似。

下面是一些常见的读音相同的谐音字:1.静劲境敬:这几个字的读音都是“jing”,在书写时需要仔细辨别。

2.明名命盟:这些字的读音都是“ming”,需谨慎书写以避免混淆。

3.见建健件键:这几个字的读音都是“jian”,在书写时需要特别注意。

除了字音相同和读音相近的谐音字,还有一些字在形状上非常相似,容易混淆。

这些字之间的区别虽然很细微,但对于准确书写汉字来说却非常重要。

下面是一些常见的形状相似的谐音字:1.狗句勾:这几个字的形状非常相似,都有一个“勾”的部分,容易混淆。

2.前进俊劲:这些字的形状都包含了“人”字旁,容易因为细微的差异而混淆。

3.风封疯峰:这几个字的形状相似,都含有“山”字旁,书写时需要留意。

为了准确识别字的谐音字,我们在学习、书写汉字过程中可以采取以下方法:1.仔细聆听字的读音,在书写的时候有意识地区分相似的字音。

2.注意观察字的形状,尤其是一些常见的谐音字,多加练习,增强对字形的记忆。

3.在书写过程中,可以比较有问题的字与其他相关字的区别,加深记忆。

形近混淆音近易误的成语

形近混淆音近易误的成语

形近混淆音近易误的成语成语是中国汉语言文化中的瑰宝,它不仅承载着丰富的文化内涵,更反映了我们民族的智慧和审美情趣。

但是,在我们学习成语的过程中,却常常会出现一些形近混淆音近易误的情况。

下面,我们就来看看这些常见的形近混淆音近易误的成语,以便我们在日常生活中更加得心应手地运用它们。

相互追问(zhuī, zhū)相互追问是一个由两个汉字组成的成语,它的意思是人们之间互相追问以求得真相。

这个成语非常容易和另一个类似的成语——质疑——混淆。

质疑意思是对某个提出的观点或看法提出疑问,让其更加客观真实。

虽然这两个成语的意义非常相似,但是它们的用法上还是有所差别。

道听途说(tóu, tū)道听途说是一个用来形容凭空传言、无据之谈的成语。

在这个成语中,tóu和tū是两个非常容易混淆的字,因为它们在读音上非常相近。

但是,这两个字的意思却差别非常大。

tóu的意思是通过耳朵听到信息,而tū则是指通过途径来得到信息。

因此,如果在使用这个成语的时候把tóu和tū搞混了,就会让人产生误解。

手舞足蹈(wǔ, wù)手舞足蹈是一个用来形容人非常高兴、欣喜的成语。

其中的wǔ和wù非常容易混淆,因为它们在发音上非常相近。

但是,这两个字的意思却截然不同。

wǔ的意思是指“手舞”,而wù则是指“足蹈”,因此在使用这个成语的时候一定要注意。

爱莫能助(mò, mù)爱莫能助是一个用来形容自己很想帮忙,但是却没有办法帮忙的心情的成语。

在这个成语中,mò和mù同样是容易混淆的字。

mò的意思是指“很喜欢,但是却不能说出来,不能表达出来”;而mù则是指“没有办法”,“无能为力”。

因此,在使用这个成语的时候,一定要明确自己的意图,不要让这两个字的区别给自己造成困扰。

兴高采烈(liè, liě)兴高采烈是一个用来形容人非常高兴、兴奋的成语。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

形音相近的易混淆漢字的搜尋與應用劉昭麟 黃志斌 翁睿妤 國立政治大學 資訊科學系 莊怡軒{chaolin, g9614, s9403, s9436}@.tw摘要在中文裡面,漢字包含因為發音相近或者形體相似的易混淆字,這一些易混淆字對於電 腦輔助教學和語言心理學的相關研究具有相當意義。

我們運用倉頡碼的設計理念和電子 詞典所提供的發音資訊,配合網際網路可以得到的文字資訊,設計一個不須仰賴影像處 理技術,就可以找到形音相近漢字的方法。

經過實驗證明,以提交五個甚至一個建議字 為限,我們的方法所建議的形音相近字集,能夠包含一般與專業受試者所提供的常見錯 別字集。

關鍵詞:漢字研究、漢字搜尋、漢字構字資訊、電腦輔助語言教學、語文認知1. 簡介個別漢字是構成中文的基本單位,有自己的發音、筆畫構造與所攜帶的意涵;透過個別 漢字所組成的單字詞、雙字詞等詞彙,依據漢語語法組成中文句子。

因此,學習漢字雖 然不是學習漢語會話的必要工作,但卻是進階中文學習者一個重要的功課。

同時,語言 使用者如何透過語言的聲音(pronunciation)和文字的形體(grapheme)來擷取語意,更是研 究語言認知歷程的學者所專注的重要議題。

因此,本論文探討如何利用軟體技術找尋因 為發音和形體近似而容易混淆的漢字,以供電腦輔助教學和認知語言學的研究之用。

中文句子「今天上午我們來試場買菜」包含一個典型的錯誤;試場雖然是一個存在 的詞彙,代表考試的場所,但是除非情境特殊,否則在這一例句裡面的「試場」應改為 「市場」 。

「經理要我構買一部計算機」 這個句子也有一個錯誤: 「構買」 應改為 「購買」 。

雖然在簡體字的環境中比較多的人會寫「構買」 ,但是在繁體中文的使用群中,也有人 把「購買」寫成「構買」 。

因為形音近似而誤用詞彙並不是中文所特有的現象,英文也有類似的問題[4]。

舉 例來說,“John plays an important roll in this event.” 包含一個錯誤的字;“roll” 應改為 “role”。

其他像下列這一些字組,都是易混淆字的範例,principle和principal、teen和team、 there和their、leak和leek、wait和weight、knows和nose以及knit和nit等等。

形音近似的漢字常被用於國民小學國語科試題的「改錯字」試題[6]。

教師把一句 正確的中文句子其中一個字改成另一個具有相當吸引力的錯字,以這一句帶有錯字的中 文當作試題,要求受測學生找出並且更正這一錯字。

這一類的試題也可以變形為中文的克漏詞試題(cloze) [9, 13],克漏詞試題雖然在中文試題中比較少出現,卻是國內外英文 測驗,如托福、GRE和大學指考等,幾乎是必然採用的題型。

形音近似的漢字在語言心理學的研究上也相當有用。

Taft、Zhu和Peng [15] 研究部 首位置對於受試者的詞彙決策(lexical decisions)與命名反應(naming responses)。

Tsai等學 者[16]則研究相近漢字的字數的多寡(neighborhood size)對於詞彙決策與閱讀的影響。

Yeh 和 Li [17] 研究近形字對於一個熟練的中文閱讀者所執行的詞彙決策的影響。

發音相近的字可能可以藉由電子詞典所記載的資訊來判斷;相對地,形體相近的字 則尚未有簡易的方法來找尋。

影像處理技術雖然可能有用,但是對於為數眾多、且近似 方式繁複的漢字來說,應用影像處理技術的時效恐怕不佳。

本文從應用朱邦復所設計的 倉頡碼出發[2],改變倉頡碼的原始設計,參考原本為了補足漢字字形缺字所創造的漢 字構形資訊[1],得到一套可以為任何漢字找尋形體近似的漢字的方法。

結合所找到音形相近的漢字字集之後,我們利用谷歌(Google)的搜尋介面所提供的 資訊來排序所找到的字集的候選字,藉此排序可以限制我們所提供的近似字的字數。

實 驗結果顯示,不管以真人受試者或者專家意見作為評比的標準答案,我們的系統所提供 的字集都能有效協助教師編輯高品質的「改錯字」試題。

我們在第 2 節討論如何利用倉頡與構形資訊來建構一個找尋近形字的子系統。

在第 3 節討論找尋漢字同音、近音字的技術問題。

在第 4 節討論如何利用谷歌搜尋所得的資 訊,來評比形音相近的字當中哪一些字是比較具有吸引力的錯別字。

我們在第 5 節提報 和分析相關的測試的結果。

第 6 節則是簡單的結語。

2. 搜尋形體近似的漢字我們在第 1 小節介紹一些近形字,在第 2 小節簡述倉頡輸入法如何將中文字編碼,在第 3 小節說明我們如何改進現有倉頡碼的編碼方式,最後第 4 小節說明我們利用關於個別 漢字的資訊來找尋近形字的方法。

2.1 近形字實例圖一、圖二和圖三包含三大類容易搞混的中文字,我們用空白將相似的中文字做分群。

圖一當中的近形字,差別只在於筆劃的層 士土工干千 戌戍成 田由甲申 次。

圖二第一行各群的近形字分享同一個 母毋 勿匆 人入 未末 采釆 凹凸 部件(component)而非部首。

圖二第二行各 圖一、主要差異在筆畫層次的漢字 群近形字則是分享同一個部件同時也是部 首。

圖二各組的近形字都有不同的發音。

頸勁 搆溝 陪倍 硯現 裸棵 搞篙 列刑 盆盎盂盅 因困囚 間閒閃開 圖三為六組分享同一部件的同音異義字。

發音與內部結構相近的近形字最能造成語 圖二、形體相近的漢字 文學習者學習上的困擾。

形刑型 踵種腫 購構搆 紀記計 園圓員 脛逕徑痙勁 要有效率地找到形體相近的漢字並不見 得是一件簡單的事。

藉由圖像比對方法找出 圖三、形體與發音皆相近的漢字形體相似的漢字,雖然是一個可能的方法,但是卻有相當的困難。

以「構」與「購」為 例,雖然以肉眼比較這兩個字的影像的時候,我們會覺得這兩個字的右側所共享的部件 「冓」會重疊。

實際上,經過我們測試,這樣的直覺是一個誤判。

字形檔的建構,並不 保證共享的部件的所有影像點(pixels)都必須能夠重疊 即便共享的部件確實有相當的影 , 像點應該可以重疊在一起。

除了以上所描述的「非完美重疊部件」的問題之外,漢字之間的相似關係還有別的 類別。

以「員」和「圓」為例,不管我們把這兩個字的影像如何平移,所得的最大交集 的影像點的數量可能都不容易讓我們認定這兩個漢字的相似性。

所謂「相似」 ,其實有 其主觀的因素存在,雖然不一定每一個人都會認為「員」和「圓」相似,但是大多數的 人應該都會接受這樣的看法。

在某一些可能是有一些極端的應用之中,我們或許還會希 望我們的程式可以找到「貝」和「圓」的相似處,這時「貝」甚至只是「圓」的內部構 件的一小部分。

又請看圖三中第二行右手邊的字群,他們共同分享的部件出現在不同的 位置。

這時候影像處理技術雖非毫無用武之地,但是所須進行的計算量可能就不小,除 了平移還須要考慮放大(或者縮小)的問題。

不管是平移或者是放大,都須要決定平移 量、平移方向和放大的比例,這一些決策都會使得計算變得相當地複雜。

而即便引入其 他更加複雜的演算法,例如紋路分析(texture analysis),計算速度也是很難提供即時快速 的服務。

上述的討論,還侷限在兩個漢字的直接比對上。

如果考慮到漢字的數量龐大,計算 的功夫就可能更加耗時費力。

中文擁有超過 22000 個漢字[11],所以直接用影像比對字 的相似度須要很大的計算量;如果欠缺一些有效資訊支援,直接比較任意兩個漢字的 話,就必須處理超過 4.8 億種組合。

如果只有考慮我國教育部所提出的 5401 個中文常 用字[3],則大約會有 2900 萬種組合。

詞典編纂者利用中文字的部首(radicals),將中文字在字典中有組織地進行分段,因 此部首訊息是有用處的。

在圖二中的第二行,我們舉了一些例子。

這些字群中擁有的共 同部件,皆為這些中文字的部首,所以我們可以在中文字典中的某一段落,找到同屬這 一個字群的中文字。

然而光靠詞典編纂者定義的中文部首資訊是不夠的。

在圖二中第一 行的中文字群,有著共同的部件。

然而這些部件並非中文字的部首,舉例說明: 「頸」 及「勁」在字典中分屬於兩個不同的部首。

2.2 倉頡原始碼倉頡輸入法以 25 個字作為基本單位,創造出一套分解漢字的方法;透過這 25 個字的組 合,就能把漢字輸入到電腦中。

倉頡輸入法分解漢字的方法,雖然不是非常完美,但是 這一個分解個別漢字為基本單位的出發點,跟我們尋找近形字的需求是相接近的。

表一分成三個主要部分,由左而右分別列出圖一到圖三部分漢字的倉頡碼。

在一部 有安裝倉頡輸入法的電腦上,可以用倉頡碼輸入中文字,例如輸入 「一一一月金」 的話, 就可以得到「頸」 (註: 「一一一月金」是英文鍵盤上的 MMMBC) 。

在倉頡輸入法中, 每個漢字都被分解成為一個有序的元素;簡而言之,我們可以發現其中的子序列能組合 成一個字的主要部件。

很顯然地,透過計算個別漢字所分享的倉頡碼的數目,是一個可以決定相似字的方式。

舉例 表一、 一些漢字的倉頡(原始)碼 來說,我們可以說「搞」和 漢字 倉頡碼 漢字 倉頡碼 漢字 倉頡碼 士 十一 頸 一一一月金 踵 口一竹十土 「篙」是相似的,因為他們 土 土 勁 一一大尸 種 竹木竹十土 的倉頡碼裡都有代表「高」 工 一中一 硯 一口月山山 腫 月竹十土 干 一十 現 一土月山山 購 月金廿廿月 這個部件的 「卜口月」 。

我們 勿 心竹竹 搞 手卜口月 構 木廿廿月 也可以輕易發現「踵」 , 、 「種」 匆 竹田心 篙 竹卜口月 圓 田口月金 未 十木 列 一弓中弓 員 口月山金 和「腫」分享了「重」這一 末 木十 刑 一廿中弓 脛 月一女一 因 田大 逕 卜一女一 個部件,因為他們的倉頡碼 困 田木 徑 竹人一女一 都包含了「竹十土」這一個 間 日弓日 痙 大一女一 閒 日弓月 子序列。

然而,某些形狀有微妙變化的漢字,倉頡碼似乎無法提供出它們相似的證據;例如 「士土工干」和其他列在表一最左邊欄位內的字。

這些字是依據特殊的分解規則解構 的,這種特殊的規則使得我們無法輕易利用倉頡碼的相似度來找尋近形字。

為了維持輸入一個漢字不須要敲擊超過五個鍵的輸入效率,倉頡輸入法蓄意簡化某 些部件較多或者較複雜的漢字的倉頡碼。

例如,在「脛」和「徑」的倉頡碼裡, 「一女 一」代表了「巠」這個部件,但是在「頸」和「勁」的倉頡碼裡, 「巠」這個部件卻被 簡化成「一一」 。

而「員」的「口月山金」在「圓」的裡面只剩下「口月金」 。

以輸入效率作為設計要件,倉頡輸入法簡化用來代表個別漢字的內碼序列這一作法 是可以理解的。

然而,這樣的簡化程序使我們難以依照真實的倉頡碼來比對字的相似 度。

相关文档
最新文档