2010年至2014哈萨克语新词语研究

合集下载

哈萨克语词构形附加成分的切分研究及实现

哈萨克语词构形附加成分的切分研究及实现

哈萨克语词构形附加成分的切分研究及实现一、哈萨克词构形附加成分的切分研究1、研究背景哈萨克语是属于西伯利亚语系中的一种语言,其主要包括哈萨克斯坦、吉尔吉斯斯坦、乌兹别克斯坦等多个国家的讲话语言。

在哈萨克语文法研究中,词构形附加成分切分(TAT-splitting)是一个重要的研究课题。

2、词构形附加成分切分的定义在哈萨克语文法研究中,词构形附加成分切分是指从一个复杂的哈萨克语单词中,把附加成分拆分出来,从而重新定义不同部分组合所构成的新词语。

附加成分可以分为前缀、后缀、中缀和附加词等,以形成一个复杂的哈萨克语词汇构建。

3、实现词构形附加成分切分方法(1)语义分析法:首先,根据哈萨克语词语的语义特点,确定出最大的词义和它们相应的词形组成结构。

语义分析的原理是通过深入分析词语语义,并结合其他相关信息,对词语进行正确的解析。

(2)基于模式匹配的方法:然后,通过建立和分析词构形附加成分模式,可以更快捷地获取单词构成结构信息。

该方法是根据该文法的规则,以及其中的语言结构特征,使用正则表达式从字符串文本中匹配出具有附加结构的哈萨克语单词。

4、应用分析词语附加成分切分的方法,可以更好地实现中文分词的功能,从而更好地实现汉语语言处理技术的应用。

另外,它也可以更好地支持哈萨克语的信息检索和问答系统,提高使用效率。

而在机器翻译领域,词构形附加成分切分也能够更好地支持哈萨克语-汉语的机器翻译应用研究,从而实现更好的翻译效果。

二、哈萨克词构形附加成分切分实现1、建立和分析词构形附加成分模式通过建立和分析词构形附加成分模式,可以更快捷地获取单词构成结构信息。

模式匹配主要指从字符串文本中,利用正则表达式去匹配具有附加结构的哈萨克语单词,主要是分析其中的语言结构特征。

2、开发语义关键字针对哈萨克语词汇附加成分切分,还可以采取抽取语义关键字的方法,以达到划分的目的。

该方法是根据文档的语义结构,提取出有约束性的关键字作为切分的依据,例如哈萨克语动词的根词,哈萨克语名词的变形构成等。

哈萨克族学生学习汉语中的词汇偏误类型及处理对策

哈萨克族学生学习汉语中的词汇偏误类型及处理对策

哈萨克族学生学习汉语中的词汇偏误类型及处理对策【摘要】随着经济全球化进程的推进,我国与世界上的很多国家都有着密切的往来,哈萨克斯坦也不例外,与我国进行了亲密地交流和共同发展,密切的交流和往来提高了哈萨克族坦学习汉语的热情,但是由于哈萨克族坦语言和汉语存在很大的差别,因此哈萨克族学生受母语的影响,在学习汉语的时候出现了很多词汇偏误。

【关键词】哈萨克族;汉语;词汇偏误类型引言:语言是全体社会成员约定俗成的,具有很强的社会属性,也具有特殊的意义,哈萨克族有自己的语言,即哈萨克语,在现阶段下,汉语是很多哈萨克族人学习的第二种语言,但是哈萨克族语言和汉语的差别,导致哈萨克族学生在学习汉语的过程中往往会出现很多词汇偏误问题,只有解决了这些问题才能提高哈萨克族学生的汉语学习水平。

一、哈萨克族学生学习汉语中的词汇偏误类型(一)词语意义上的浑浊哈萨克族学生在学习汉语的时候往往会受到母语的影响,导致其在学习汉语的过程中混淆了词语的意义。

词语的意义存在着很复杂的交叉,但是哈萨克族学生在学习的过程中,往往从自己母语的角度出发,根据母语的用语习惯来理解汉语中的目的语的词。

例如,“厚”这个词在哈萨克语中有对应的词语,因此哈萨克族学生就会误以为哈萨克语中对应“厚”的这个词语的所有意义都与“厚”的一个意义相对应,因此就出现了“这个钢笔很厚”“前边有一个很厚的森林”之类的具有语病的句子。

然而实际上哈萨克语中对应“厚”的那个词语只有一个意义与“厚”相对应,它还有其他的意义,比如“粗、浓密、稠”等,由于哈萨克族学生没有真正认识到这一点,所以在使用汉语词汇的时候往往会出现一些偏差,出现很多语病。

其实,汉语与哈萨克语之间是有很多相似之处的,从语言内部的共同现象来看,二者之间在结构、词的意义以及词汇系统仍有很多相似之处,将母语与学习的语言做比较是很多学习者的习惯,哈萨克族学生在学习汉语的时候也会将二者进行比较,因此就给词义的混淆打下了基础,做好了铺垫,从而导致其分不清汉语和哈萨克语的同音或者是近义、反义、多义词,从而在使用的时候出现了用词不当的现象。

哈萨克语动词的构词法研究

哈萨克语动词的构词法研究

哈萨克语动词的构词法研究王柯随着“一带一路”倡议的提出与“语言互联网”的发展,哈萨克语在“一带一路”沿线国家中的地位越来越重要。

本文在现有的哈萨克语语法的基础上,对哈萨克语动词构词法进行详尽陈述与系统归纳,通过研究哈萨克语动词构词法,进一步探讨哈萨克语动词的构词成分,发现其中存在的有可能的规律。

1 哈萨克语动词的分类表示行为动作、心理活动、变化等的词类叫做动词。

动词是哈萨克语词类中数量多、词形变化和语法范畴错综复杂的一种词类。

1.1 哈萨克语动词的分类哈萨克语动词可按照词汇意义、结构特点、能否支配宾格词尾等标准分类。

1.1.1 按词汇意义分类哈萨克语的动词,按照词汇意义大致可以分为以下三种:(1)表示动作行为的,例如:dʒəl a-(哭);dʒe-(吃)等。

(2)表示心理活动的,例如:quwan-(高兴);syj-(喜爱)等。

(3)表示变化的,例如:kəz ar-(变红);købej-(增加、增多)等。

1.1.2 按能否支配宾格词尾分类(1)及物动词:能够支配宾格词尾的动词。

例如:dʒaz-(写);kør-(看)等。

(2)不及物动词:不能支配宾格词尾的动词。

例如:bar-(去);dʒəla-(哭)等。

1.1.3 按构成分类哈萨克语的动词,按照构成大致可以分为以下三种:(1)词根动词词根动词是指那些在哈萨克语中不能再分解的动词。

例如:al-(拿、取);ber-(给);otər-(坐)等。

(2)派生动词由体词和动词通过一定的词尾可以构成哈萨克语的派生动词。

例如:ʃeɡe(钉子)+le→ʃeɡele-(钉);qol(手)+da→qolda-(支持)。

(3)复合动词由体词或动词与助动词结合构成的动词。

例如:demal-“休息”;azat et-“解放”等。

2 哈萨克语派生动词的构成附加成分哈萨克语派生动词的构成附加成分有体词加附加成分、摹拟词加附加成分、动词加附加成分的构词方法。

2.1 由体词构成派生动词的附加成分附加“-la/-le,-da/-de,-ta/-te,-lan/-len,-dan/-den,-tan/-ten,-las/-les,-das/-des,-tas/-tes”等构词附加成分。

2006年以来汉语年度新词语生命力探析

2006年以来汉语年度新词语生命力探析

2006年以来汉语年度新词语生命力探析作者:石丽荣万晓高来源:《吉林省教育学院学报·上旬刊》2014年第05期摘要:本文以《中国语言生活状况报告(2012)》中的新词语为基本语料,对自2006年以来汉语年度新词语的生命力进行了探析。

本文旨在帮助人们更加准确地理解和使用新词语,促进现代汉民族语言健康发展。

关键词:汉语;新词语;生命力;留存;消失中图分类号:H136文献标识码:A文章编号:1671—1580(2014)05—0107—02语言文字是社会历史发展变化的忠实记录者,是人类文明和智慧的结晶,承担着记录和继承优秀传统文化的重任。

语言作为一种社会现象,随着社会的发展而发展,大量新的事物、新的现象的出现导致产生了大批的新词语。

一、新词语使用状况调查由于各种原因,新词语的使用状况呈现出一种不平衡的趋势。

有的新词语使用频率高,被人们广泛使用,进而进入到现代汉语词汇系统当中;有的新词语使用频率却很低,甚至逐渐消失隐退。

从2006年开始,国家语言监测与研究中心就开始了对新词语的调查统计,并发布年度报告。

根据《中国语言生活状况报告(2012)》对2006~2010年5年间新词语在2011年使用状况的调查,我们可以进一步分析近几年来新词语的使用情况。

自2006年到2010年,共出现了2976个新词语。

在这些新词语中,大约有40%使用频率大于等于10,这些新词语基本上会留存下来;大约25%使用频次在0到10之间(不包含0);大约33%使用频率为0,这些新词语将会逐渐消失隐退。

二、新词语留存下来的原因在近几年产生的新词语中,有些词使用频率高,被人们普遍接受,广泛应用,进而被吸收到现代汉语词汇系统当中。

那么,这些新词语留存下来的原因到底有哪些呢?社会中每一个细微的变化都会在语言中留下烙印,尤其在词汇系统中,因而,新词语的留存必然有着社会的原因。

此外,它也与语言本身的发展规律有关。

(一)社会原因1.指称新事物、新现象的需要在当代社会,新事物、新现象不断出现,这就需要相应的词语对它们进行指称,因此大量的新词语应运而生。

汉语哈萨克语复合词比较研究

汉语哈萨克语复合词比较研究

汉语哈萨克语复合词比较研究语言是人们在日常生活中的重要交际工具,也是人们认识和感知世界的工具之一,同时语言也随着时代和社会的发展而发展。

不同民族的人们说着不同的语言,使用不同语言的人对世界和大自然的认识方式和思维也是不相同的。

最能体现一种语言与其它语言不同的是词汇系统,所以我们在学习另一种语言时,因该从它的词汇学起。

词汇中比较难掌握的是复合词,所以对学习哈萨克语的人来说掌握并运用词汇是非常重要的技能之一。

通过对现有资料和书籍文献的阅读,本文通过汉语与哈萨克语复合词的构成方式进行对比,找出这两种语言在复合词方面的异同。

一、汉语与哈萨克语复合词的定义汉语与哈萨克语在复合词的定义方面是相同的,都是将由两个或两个以上的词根结合在一起构成的新词叫复合词。

二、汉语与哈萨克语复合词的种类(一)汉语复合词的种类按照词根与词根之间的语义逻辑关系来分汉语的复合词,可分为并列式、偏正式、主谓式、补充式、动宾式、重叠式复合词。

复合词按照词类来划分,还包括复合名词、复合动词等。

(二)哈萨克语复合词的种类哈萨克语中复合词也有联合式(并列式)、偏正式、动宾式、主谓式和重叠式复合词,复合名词,复合动词;与汉语不同的是,在哈萨克语中还有一种特殊的复合词——紧缩式复合词。

三、汉语与哈萨克语复合词的构词方式(一)汉语并列式即由两个词根并列在一起构成词,两个词根一般为意义相近、相反或相同。

又叫联合式。

例如:名词+名词:国家途径道路花草朋友窗户包裹动词+动词:开关报告得失飞跃跳跃忘记出入形容词+形容词:优劣轻重大小远近好歹繁杂早晚哈萨克语中并列式:kørpe (被子)+ʤstəq (枕头)→kørpe-ʤastəq 床铺sawət (盔甲)+sajman (设备)→sawət-sajman 装备ʤuwan (粗)+ʤiŋiʃke (细)→ʤuwan- ʤiŋiʃke 粗细kyni (白天)+tyni (晚上)→kyni-tyni 昼夜kyʃ(力量)+quwat (能力)→kyʃ-quwat 力量aqəl (智慧)+parasat (智能)→aqəl-parasat 智慧ʤapa (痛苦)+maʃaqat (辛苦)→ʤapa-maʃaqat 艰难ʤan (生命)+ʤanəwar (动物)→ʤan-ʤanəwar 动物ʤer (土地)+suw (水)→ʤer-suw 山河køz (眼睛)+qulaq (耳朵)→køz-qulaq 耳目oqətəwʃə(老师)+oqəwʃə(学生)→oqətəwʃə-oqəwʃə师生(二)汉语偏正式即两个词根之间为修饰、限定的关系,后一词根为中心语,前一词根修饰、限定后一词根。

现代哈萨克语级范畴与比较范畴对比研究

现代哈萨克语级范畴与比较范畴对比研究

现代哈萨克语级范畴与比较范畴对比研究1. 引言1.1 研究背景哈萨克语是中亚国家哈萨克斯坦的官方语言,也是千万哈萨克族人民的母语。

随着社会的发展和现代化进程,哈萨克语的语言体系也在不断演变和发展。

在语言学研究领域,级范畴和比较范畴是语法学中重要的范畴,它们对语言的结构和功能有着重要的作用。

研究哈萨克语级范畴和比较范畴的对比,不仅可以揭示哈萨克语的语言特点,还有助于我们更好地理解语言结构和语法规律。

通过对现代哈萨克语级范畴和比较范畴的系统研究,可以为语言学研究提供新的视角和思路,也为语言教学和翻译工作提供指导和借鉴。

本研究旨在探讨现代哈萨克语级范畴和比较范畴的特点以及它们之间的对比关系,通过实例分析和研究方法的运用,深入探讨哈萨克语语法结构的规律性和特殊性,为语言学研究和教学实践提供新的理论支持和实践指导。

1.2 研究意义现代哈萨克语是一种重要的突厥语族语言,具有丰富的语法特点和词汇表达方式。

对现代哈萨克语级范畴与比较范畴进行对比研究,有助于深入了解这门语言的结构和功能,对语言学理论研究具有一定的借鉴意义。

现代哈萨克语级范畴与比较范畴的对比研究,不仅可以帮助语言学家探讨语言的内部结构和逻辑关系,还有助于理解语言在认知和交际中的作用,对语言教学和翻译实践也有启发意义。

通过对现代哈萨克语级范畴与比较范畴的对比研究,可以拓展对这门语言的认识,丰富语言学研究的内容,为跨文化交流和语言理论研究提供新的视角和思路。

【2000字】1.3 研究目的研究目的是深入探讨现代哈萨克语级范畴与比较范畴之间的关系,分析它们在语言结构中的地位和作用。

通过对级范畴和比较范畴的特点进行对比研究,可以更全面地了解现代哈萨克语的语法规则和语言运用情况。

通过对现代哈萨克语级范畴和比较范畴的实例分析,可以揭示其中的用法规律和语言特点,为语言学研究提供更多的实证数据和案例分析。

本研究旨在为现代哈萨克语的语言学研究提供新的视角和思路,拓展对这一语言系统的理解,同时也有助于促进哈萨克语言学研究的发展和深化。

哈萨克语语法

哈萨克语语法

(7)哈汉语形容词后边都可以带副词〞很、极"和数量词"点儿、一点儿、些、一些。

表示程度。

例如:今天冷得很。

Bogn ote suək.(8)哈汉语形容词都可以用肯定否认相叠的方式表示疑问。

例如:白不白对不对甜不甜清楚不清楚勇敢不勇敢(9)哈萨克语形容词,在某些语境中接受名词数、人称、格的变化,转为抽象名词(中心词省略),这与汉语形容词的名物化相当。

例如:好人ʤkslar矮个子的人 alasalar(三)哈萨克语形容词的级及其在汉语中的对应表达法哈萨克语非派生形容词中区别事物特征程度的语法范畴,我们称它为“级“。

哈萨克语形容词的级分为五类:1.原级不使用任何语法形式,不表示比拟涵义的原式形容词。

例如:好ʤɑqsə长uzən红 qəzəl 近ʤaqən2.减弱级某性质,状态在程度上有所减弱,低于原级。

(1)由原级形容词加词尾构成。

例如:ʤaqsə好+ rap = ʤaqsəraq(2)加lew daw dew taw tewʤaqsə好 +law = ʤaqsəlaw两套词尾表达的减弱级意义基相同,但实际运用第一套词尾较多,第二套似乎古老的色彩浓一些,语气委婉些,减弱的程度似乎稍高些,做谓语时使用较多。

3.加强级加强事物本身性质特征的程度。

(1)局部重叠,即在某形容词之前以Ap-AB的形式重叠该形容词的第一个音节。

美æp-ædemi 干净tap-taza黑qap-qarq 直typ-tyziw4减弱级表示事物本身的性质特征的弱化,多指色彩的减弱,格式是在表示颜色的形容词后加等词缀构成。

例如:浅白的,白白的 qrapaj粉红的 qəzkəlt七、哈汉语副词比照哈汉语里副词的意义和用法大致相同。

例如:①你要是那么干,总有一天会懊悔的。

〔表时间〕jtseŋ, kyderdiŋ birinde opəq ʤejsiŋ.②我们每年劳动一个月〔表频率〕Biz ʤələna bir aj eŋbek istejmiz.③你说的全对。

哈萨克语句子相似度的计算方法研究与实现

哈萨克语句子相似度的计算方法研究与实现

哈萨克语句子相似度的计算方法研究与实现沙力木别克·毕山汗;古丽拉.阿东别克【摘要】在基于实例的哈萨克语汉语机器翻译研究中,翻译质量的高低跟实例句子相似度计算方法有直接的关系.本文提出一种哈萨克语句子相似度计算方法,即采用基于词特征和基于向量特征相结合的相似度计算法,计算过程中使用了同义词替换.句子相似度计算中需要解决的关键问题是怎样快速匹配实例.为解决这个问题,所设计的快速查找模块能够快速从实例库中筛选出实例集合,进行相似度计算.实验结果表明:快速查找模块可以提高实例句子查找速度,同义词替换可以提高相似度准确性.【期刊名称】《新疆大学学报(自然科学版)》【年(卷),期】2016(033)002【总页数】6页(P215-220)【关键词】基于实例的机器翻译;同义词替换;哈萨克语;句子相似度;机器翻译【作者】沙力木别克·毕山汗;古丽拉.阿东别克【作者单位】新疆大学信息科学与工程学院,新疆乌鲁木齐830046;新疆大学信息科学与工程学院,新疆乌鲁木齐830046【正文语种】中文【中图分类】TP391.20 引言句子相似度计算在自然语言处理方面的各个领域都有着广泛的应用,例如在自动问答系统中问题库的检索.根据用户的提问在知识库中查找对应的答案是通过计算提问的句子和知识库中对应的句子之间相似度来解决的.在信息过滤技术中,通过句子相似度计算可自动过滤掉用户可能并不想看到的信息.同样,在机器翻译、自动文摘中均用到该技术获取必要的信息.句子相似度计算也是基于实例的机器翻译方法(Example Based Machine Translation)中的一个关键技术,其作用是在实例库中查找跟输入句子相似的句子,然后用相似句子的对齐目标句子作为翻译模板进行片段对齐、重组等操作最终完成翻译.因此,句子相似度计算结果的准确性会影响到翻译质量.1 国内外现状分析国外对于文本相似度计算的研究起步较早,Gerard Salton于1969年提出的基于向量空间模型(Vector Space Model,VSM)的文本相似度计算模型是目前最成熟和应用最广泛的文本相似度计算模型.它最初被引用到文章中相似度的计算中,后来被引入到句子相似度的计算中.其基本思想是将文本分为若干个特征项,计算出每个特征项的权重,特征项权重用分量的向量来表示,对向量计算来表示文档相似度.在此基础上,很多改进的算法应运而生.国内在汉语句子的相似度计算方面取得了较好的成果,例如张民等设计了一种基于词的计算相似度方法.而句子相似度计算中的输入句子和实例句子长度相差较大,其中单词个数也不一致,因此,输入句子与实例句子中每个单词都可能存在相关性,这种相关性位置可加权处理.2 哈萨克语句子相似度计算模型哈萨克语句子相似度计算模型由快速检索模块和相似度计算模块构成.在快速检索模块中实现实例快速匹配,在找到相似实例句子集合后,作为相似度计算模块的输入.计算相似度模块中用到了两种模型的结合,即基于词的句子相似度计算和基于向量的相似度计算.2.1 快速检索模块基于实例的机器翻译中,关键问题是如何从海量实例库中筛选出一定数量的句子作为候选集合,这些集合中包含了与输入句子最相似的句子,为此设计了快速检索模块.为进一步提高检索速度,对数据库中的句子建立散列单词倒排索引.首先对实例库中实例的各单词建立散列表,然后将每个单词所出现的多个实例编号id建立一个单链表,其结构如图1,其中id是单词出现过的实例编号.图1 倒排索引图快速检索的具体过程如下:Step 1:对输入的句子进行解析,获得单词链表(图1),其中Word是单词,ID是该单词出现过的实例id集合,id是实例编号;Step 2:统计(A过程),计算出单词链表中频繁出现过的实例的id集合;Step 3:返回实例id集合,作为相似度计算候选实例集合.其中A过程如下:例如输入:图2 A过程从图2中可以看到,所有单词在编号为681实例中都出现过,出现频率最高,跟输入句子的关联性比其他实例强.在A过程中对每一个单词的ID进行统计,计算每个id出现的次数,并将统计结果按降序排列.例如图2中的每个id统计结果为[(681,3),(642,1),(971,1),(722,1),(723,1),(724,1)].最终留下频率高的id集合,剩下的都过滤.2.2 相似度计算模块2.2.1 基于词的相似度计算1)词形相似度词形相似度(词重叠法,英文名称Word Overlap Measures)反映两个句子形态上的相似程度,以两个句子中所含相同词的个数来衡量,由以下公式来表示:其中len(samewc(x,y))表示输入句子X和实例句子Y中的相似词一一对应的个数,simoverlap表示词形相似度,length(x)表示句子X中的词总个数,length(y)表示句子Y中词的总个数(包括句子中的标点符号).词形相似度计算过程如下:输入句子:实例句子:通过计算公式可以计算出两个句子的相似度这说明C句子比B句子在形态上更接近A句子.2)基于逆序数词序相似度算法两个句子中出现的单元可能完全相同,但我们不能确定这两个句子完全相同.两个句子中各个单元出现的位置不同可能导致两个句子表示完全不同的意思,所以必须进行词序上的相似度计算.对于包含n(n∈N)个不同元素的序列,先规定各元素之间有一个标准次序(例如n个不同的自然数,规定由小到大为标准次序).在这n个元素的任一排列中,当某两个元素的先后次序与标准次序不同时就称为一个逆序.一个排列中所有逆序的总数叫做这个排列的逆序数.词序反映两个句子中所含相同单元在位置关系上的相似程度,以两个句子中所含相同单元的相邻顺序逆向的个数来衡量.设x,y表示两个句子,ordoccur(x,y)表示在句中都出现且只出现一次的单元集合,pfir(x,y)表示ordoccur(x,y)中的单元在X中的位置序号构成的向量,psec(x,y)表示pfir(x,y)中的分量按对应单元在y中次序排列生成的向量.例1的词序相似度计算方法为:ordoccur(A,C)={},它所构成的pfir(x,y)={0,2,3,4},psec(x,y)={0,2,3,4},rew(x,y)表示psec(x,y)相邻分量的逆序数.上例中:0<2,2<3,3<4得到rew(x,y)=0,句子x,y的词序相似度计算公式如下根据公式2,我们可以计算出A,C两个句子的词序相似度为3)句长相似度从句子长度上来标注句子的相似性一定程度上反映句子形态上的相似性.实例句和输入句长度差会影响到句子相似度.句长相似度公式如以下:输入句子x和实例句子y的词相似度计算公式similarWStn(x,y)为其中的α,β,γ是实验值.2.2.2 基于向量空间模型的TF_IDF相似度计算方法TF_IDF是基于向量空间模型中最广泛使用的方法之一.若输入句子与实例句子中包含的所有词为w1,w2,···,wn,那么输入句子和实例句子可以用n维向量t=<t1,t2,···,tn>表示,实例句子用q=<q1,q2,···,qn>来表示,其中ti=ci*log(M/n),ci是特征项TF值,以特征项在该句子中出现的次数来衡量;log(M/n)是该特征项的IDF值,其中M是对齐实例库中总的句子个数,n是特征项出现过的句子个数.从Ti计算我们可以看出具有较高TF值的特征项,不一定具有高IDF值,对句子的分辨能力低.例如哈萨克语中出现频率很高,它在句子中既可以做代词主语,也可以做介词,但是对句子的分辨能力很低,因此该方法综合考虑了特征项出现的概率和分辨能力.同样,我们可以计算出实例句子的n维向量q=<q1,q2,···,qn>,得到输入句子和实例句子n维向量t和q后,句子相似度可以用向量t和q向量的余弦来表示2.2.3 总相似度计算计算基于词特征和向量特征相似度以后总相似度similarZong计算公式,在计算句子相似度时,输入句子和实例句子中出现同义词,例如:两个句子所表达的意思相同.但实例句子中出现了同义词,不进行同义词替换直接进行相似度计算会影响到计算准确率.为了避免这种情况的出现,本文中提出了同义词替换,算法流程如图3所示.图3 算法流程3 哈萨克语句子相似度计算模型实现本程序包括两大模块:倒排索引模块和计算相似度模块.倒排索引模块先把新的实例句子分成词,然后把它添加到倒排索引库.句子相似度计算界面中,计算输入句子和实例句子相似度按相似度降序返回结果如图5.图4 倒排索引界面图5 句子相似度计算界面4 实验结果与分析哈萨克语句子相似度计算尚处于初期阶段,用以评价哈萨克语句子相似度的标准很少.目前对齐实例库中有1 000个句子和3 500多个已经倒排索引好的词,相似度计算实验结果如表1,表2,表3.表1 基于向量空间模型不进行同义词替换相似度计算实例库句子个数测试句子个数正确句子个数正确率4002080.4 80020100.5 90020110.55 1 00020130.65 表2 基于向量空间模型和基于词相结合的相似度计算(替换同义词之前)实例库句子个数测试句子个数正确句子个数正确率4002080.40 80020110.55 90020120.6 1 00020140.7表3 基于向量空间模型和基于词相结合的相似度计算(替换同义词之后)实例库句子个数测试句子个数正确句子个数正确率40020110.55 80020120.6 90020130.65 1 00020150.75从三次实验结果来看,基于向量空间模型和基于词相结合的计算相似度计算方法比基于向量空间模型和相结合的不进行同义词替换方法,在哈萨克语句子相似度中的正确率有所提高.5 总结散列的倒排索引能够有效地实现快速查找.为了从双语对齐实例库中快速地查找候选句子集合作为下一步工作的输入,计算输入句子与实例句子的词相似度和向量余弦值,然后结合两种方法整合句子的相似度.为了避免同义词产生的歧义,计算过程中使用了同义词替换,同义词替换可以提高相似度计算的正确率.由于现在对齐实例库规模不大,句子相似度计算结果还差强人意,下一步工作将继续扩大对齐实例库,继续提高搜索速度,更多的引入哈萨克语语法、语义知识,提高正确率,从而提高翻译质量.参考文献:[1]阿力木塞买提·阿布力哈孜.基础哈萨克语[M].乌鲁木齐:新疆大学出版社,2009,3.[2]田生伟,吐尔根·依布拉音,禹龙.一种维吾尔语句相似度算法的研究[J].计算机工程与应用,2009,45(26):144-146.[3]南铉国,崔荣一.基于多层次融合的语句相似度计算模型[J].延边大学学报(自然科学版),2007,33(3):191-194.[4]卡哈尔江·阿比的热西提,吐尔根·依布拉音.一种改进的维吾尔语句子相似度计算方法[J].中文信息学报,2011,25(4):50-53[5]达吾勒·阿布都哈依尔,海拉提·克孜尔别克,等.基于规则的哈萨克语词干提取算法的研究[J].新疆大学学报(自然科学版),2011,28(2):238-241.[6]南铉国,崔荣一.基于多层次融合的语句相似度计算模型[J].延边大学学报(自然科学版),2007,33(3):191-194[7]周法国,杨炳儒.句子相似度计算新方法及在问答系统中的应用[J].计算机工程与应用,2008.44(1):165-167[8]江阿古丽·哈依达尔,卡哈尔江·阿比的热西提,阿里木江·亚森,等.一种哈萨克语句子相似度计算方法的研究[J].新疆大学学报,2012,29(4):473-477.[9]王长胜,刘群.基于实例的汉英机器翻译系统研究与实现[J].计算机工程与应用,2002,38(8):126-127.[10]吉胜军.基于Levenshtein Distance算法的句子相似度计算[J].电脑知识与技术,2009,5(9):143-144。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2010 年至2014 哈萨克语新词语研究
摘要】文章从新词语的定义规范、新词词典编纂、
研究价值等方面对2010 年至2014年哈萨克语新词语进行研
究。

关键词】新词语的定义及规范;研究价值、哈萨克语新词语
的定义及如何规范的问题
新词语一词概念存在异议,新疆维吾尔自治区民族语言
文字工作委员会、民族语言名词术语规范审定委员会编的
汉哈规范名词术语词典》一文,指出新词语是一个最近创造的词语,它代表新的概念,表述一种新的事物或者是一个旧词语的新含义,也即包括词汇性新词和语义性新词;木拉提?苏丹提出了关于哈语(哈萨克语)的简称名词术语规范中存在的一些问题,现应用的一些方法、如一词多译、一词多用、使用歧义词等方法,这些造词的方法会导致新词的乱用
等情况。

对这些方法作者提出了一些积极修正的建议和希
望。

2010年至2014年,中国民族语文翻译局分别召开了蒙
古、藏、维吾尔、哈萨克、朝鲜、彝、壮7 个语种的“少数民族新词术语统一规范”翻译专家工作会议,从此以后每年都召开蒙古、藏、维吾尔、哈萨克、朝鲜、彝、壮7 个语种的“少数民族新词术语统一规范”翻译专家工作会议,会议对近几年来收集整理的新词术语进行研讨和审定,听取与会专家、学者对新词语规范工作的意见建议,并进行了翻译业务交流。

、哈萨克语新词语词典的编纂
木拉提?苏里堂主编的《汉哈规范名词术语词典》一文,
指出了哈语每年大约有400 个新词出现;2010 年以后每年大约出现500 个,2013 年以后每年大约有300 到350 个;新词语的大量出现,要在规范词典中把它们全部收入,这是不现实的。

因此,编写各种新词词典便成了解决这个问题的有效办法。

新词词典是一种描写型断代语言的词典,这种新词语词典的描写型特点也在2002 年出版的《现代哈语》中得到体现。

该词典因收录了“ optjkaliq tal??q ”、(光纤)“ alt?n kun jn?enerjasi”(金太阳工程)、“ ?mbebap kart??ka” (一-通)、
“y? Dlik basw ”(3D 打印)“ qala araliq
temir ?ol ”、(城铁)
“arna qobdji ”(机顶盒)、“ kilt
门卡)等反映科kart??ka ” 技技术发展的新词而在社会上引起强烈影响。

《语言与翻译》
2013 年5 月15 日以《新疆维吾尔自治区民族语言文字工作委员会,新疆维吾尔自治区民族语言新词语规范审定委员会表示“ y? Dlik basw ”(3D 打印)等应收入词典》为题,明确了教育部、语言文字工作委员会的态度:词典收录反映社会科技的发展现象的词语是为了提供研究和阅读、应用的参考,体现了随着社会的发展哈萨克语词汇也在丰富的正能
量,因此教育部、语言文字工作委员会对上述词语收进词典
事不持异议。

在编写新词词典的同时,《新疆日报》等刊
物也发表了不少新词词典编纂问题研讨及新词词典评论的文章。

三、研究哈萨克语新词语的意义
一)对哈语新词语的发展作出预测
古力努尔?阿汗在《关于使用新词术语所存在的问题及其
解决的途径》(哈文)中谈到因90 年代设备的不够完善,经济的不够等种种原因造出的新词术语的不规范现象,延续到今天,如如: tez ta?amdar asxanas”快餐厅)应该用“ d?mxana
这个词,“ mejir ba?i?taw orini ”“ qajir-saxabat
orini ”(慈善机构)这个词在同用着,应该要选用一个,这导致了新词语的使用不一致现象。

拜达吾列提?努拉林在《谈新词语》(哈文)中指出通过简称构成新词,在哈语中有很强的势头;哈语词汇显示出一种由少音节词逐渐向多音节词语发展的倾向。

又提出,对这种现象可以从新词和新义两方面入手,要应用意
义准确,简明的新词;博拉提?艾尼乌尔在《关于新词语存在缩略语增多、外来词增多、混合词增多、借形词增多的趋势。

的问题》(哈文)中指出,新时期哈语新词有术语增多趋势、二)对哈语新词语的规范及新词语词典编纂提供指导
性意见
关于新词语在词典尤其是新词语词典中的收录问题,
直存在着“严格”和“宽泛”两种标准,实际上就是词典编
中“规定主义”和“描写主义”的对立。

新疆维吾尔自治区民族语言文字工作委员会,新疆维吾尔自治区民族语言新词语规范审定委员会提出在有利于交际大的原则之下,要注意以下六个基本原则:(1)必要的原则。

既是否填充了哈语
词汇的空白;(2)符合结构规律的原则。

如“ majlaw ”(租凭)和“ bazari”(市场)合成的“ majlaw bazari ”(租凭市场),就比较牵强;(3)重视国际通用的原则。

有些东西哈语中没
有译词,不用字母词就难以交流,有些字母词又回避不了,如
“ CT”、“ B 超”;(4)丰富的原则。

即是否丰富了哈语表
达;(5)经济明白的原则。

如“ bere?ek adam”合成词简称
单纯词“ bere?ek”等多音节词的简称;(6)引导的原则。

个新词引导许多新词的出现。

如“ kujrew k?lemindegi mulikti ba?a sindirw” (破产变价)、“ kujrew k?lemindege
mulik ”(破产财产)等(木拉提?苏里坦夏丽普,2008-2009,哈文)。

四、结语
目前国内对哈语新词语的研究还存在一些问题与不足;
在众多的新词语词典中,大多只是简单的“词汇集”,对新词语的理据考察、体现新词语首现和当前用法的例证比较欠缺;汉哈新词语词典的翻译质量令人担忧;哈语新词语语料库的建设及利用互联网传播的网络新词语研究稍显薄弱。

总之,信息技术的迅猛发展,既为国内哈语新词语研究带来了
前所未有的机遇,也带来了巨大压力。

21 世纪的哈语新词语研究,任重而道远。

参考文献
[1]洪建华.当代英语新词的产生与构成综述[J].怀化学院学报,2010(6).
[2]张硕.新词新语界定问题研究综述[J].辽宁教育行政学院学报,2008(9).
基金项目:西北民族大学研究生处科研创新项目(项目
号:yxm20 1 4 1 40 )。

相关文档
最新文档