汉语词频统计
现代汉语中和制汉语词的量化考察

现代汉语中和制汉语词的量化考察
制汉语词是指由两个以上汉字构成的词语。
现代汉语中,制汉语词的量化主要是通过词频统计、辞书收录和语料库分析等方法进行考察。
1. 词频统计:利用大规模的语料库进行统计分析,统计某个汉字组合出现的频率,通过频率高低来判断词语的常用程度。
一般而言,频率较高的词语往往是制汉语词。
2. 辞书收录:各种汉语词典的编纂者会根据实际语料和语言规律,选取制汉语词作为词典的词条。
辞书编纂者在选择时一般会参考频率高低、使用范围、文化价值等因素。
3. 语料库分析:通过对大规模语料库的分析,可以获得文字材料冗杂、样本大、覆盖面广的特点,从而更全面和准确地了解汉字组合的使用情况。
通过对语料库中频次较高的词语进行分析,可以判断词语是否为制汉语词。
在实际研究中,一般会综合以上方法进行考察,以获得更加准确全面的结论。
同时,随着技术的发展,人工智能和自然语言处理的应用也可以提供更精确和有效的制汉语词量化考察结果。
antconc词频统计原理

antconc词频统计原理AntConc词频统计原理AntConc是一款基于Windows操作系统的文本分析工具,主要用于统计文本中词语的频率和分布情况。
它的核心功能是词频统计,即统计文本中每个词语出现的次数,并按照出现次数进行排序和展示。
在实际应用中,词频统计是文本分析的基础工作,可以帮助研究者快速了解文本的特征和趋势,从而进行更深入的分析和研究。
AntConc的词频统计原理是基于一个简单的算法实现的。
首先,它会将输入的文本按照空格或其他分隔符进行分词,将文本拆分成一个个单词。
然后,它会遍历所有单词,统计每个单词出现的次数,并保存在一个词频统计表中。
最后,根据词频统计表中的数据,AntConc会按照词频的高低进行排序,并将结果展示给用户。
词频统计的原理虽然简单,但是在实际应用中有着广泛的应用价值。
首先,通过词频统计,我们可以了解文本中哪些词语出现的频率较高,从而推断出文本的主题和关键词。
例如,在新闻报道中,出现频率较高的词语往往与报道的主题密切相关。
其次,词频统计还可以帮助我们分析文本的情感倾向。
通过统计文本中积极和消极情感词语的频率,我们可以判断文本的情感倾向是正面还是负面。
此外,词频统计还可以帮助我们分析文本的语言特点和风格。
不同作者或不同领域的文本往往有着不同的词语使用习惯,通过词频统计,我们可以发现这些差异。
在使用AntConc进行词频统计时,我们还可以根据需求进行一些参数设置。
例如,我们可以选择忽略某些常见词语,如“的”、“是”、“在”等,以减少噪音干扰。
我们还可以设置词语的最小频数和最大频数,以过滤掉出现次数过低或过高的词语。
另外,AntConc还提供了词语共现分析、词语关键词提取等功能,可以帮助我们更全面地理解文本的特征和结构。
AntConc词频统计原理简单而实用,通过统计文本中词语的频率和分布情况,我们可以快速了解文本的特征和趋势,为后续的文本分析和研究提供基础支持。
无论是对于学术研究、情感分析还是语言风格分析,词频统计都是一个必不可少的工具,AntConc的词频统计功能可以帮助我们更高效地进行相关工作。
附录一现代汉语语料库词频统计资料库说明

4. 見檔率:「頻率」的計算,是以某一單字於某一語料單元中出現的頻次除以 該單元的總字數,再換成百分比而構成。「見檔率」的計算,則以某一首字 於某一語料單元中的「見檔次」(即含有該首字的檔案的數目)除以該語料 單元的總檔數,再換成百分比而得出。
是3
9 9755 1.483% 50634 7.697% 319 99.69%
不4
4 8359 1.271% 58993 8.968% 317 99.06%
人5
2 7107 1.080% 66100 10.05% 319 99.69%
在6
6 6931 1.054% 73031 11.10% 319 99.69%
75
附錄三 初級學習者「的地不分」之偏誤例句
1) 嚴格的說,我也沒有很用力的大他,只是為了管教起見,輕輕的打他一下。 2) 在那個時候,小黃很明顯的不高興。 3) 在電影裏,小慧的夫婚夫,也就是開小巴的阿文在一場車禍中意外的喪生
了。 4) 請你們要仔細的聽,免得你們等一下不懂。 5) 電腦對人類有很大的貢獻,所以我們絕對要徹底的瞭解電腦的結構。 6) 繼續的讀下去了 7) 我們應該好好的保護它 8) 從那天起我才能正式的由學校的老師慢慢的教導 9) 都很積極的學中文 10) 就算是再困難再難懂也要努力的去突破 11) 雖然沒有像台灣的學生那麼的吃香 12) 有一回,母親心血來潮的問我 13) 這時母親疑惑的看著我: 14) 加上老师有声有色的讲述后 15) 深深的烙印在他們的心中 16) 辛苦的照顧她的小孩時 17) 媽媽是那麼細心、辛苦的照顧我 18) 辛勤的在田裡工作時 19) 小女孩卻高高興興的吃飯 20) 媽媽會毫不留情的拿起橡皮擦「嚄嚄」兩下 21) 儘管我們力竭聲嘶的吶喊 22) 就這樣含淚吞苦的寫了一年半多 23) 而我也可以毫無困難的寫出來時 24) 現在我終於可以很大聲很驕傲的說「我是個十足十會中文的台灣人了!」
中文词频统计系统设计分析

中文词频统计系统设计分析摘要随着互联网时代的到来,网络信息呈极速增长态势,互联网让人们的生活更加“碎片化”,有用信息的获取变更越来越不容易,中文词频统计系统有效解决这一难题,帮助人们从一堆杂乱无章的文本数据中快速准确获取有价值的信息。
本文通过分析中文词频统计的关键技术,即中文分词技术,并经过对比分析几种常用的中文分词工具后,最终通过开源的IK Analyzer完成中文词频统计系统的实现。
关键词:中文词频统计关键技术综述;中文词频统计系统设计前言目前我们正处于一个互联网时代,而信息量的高速增长带来的复杂性,需要我们对其进行有效处理。
如何利用计算机来进行有效地信息处理就产生了中文信息处理技术。
中文信息处理是计算机对中文的音、形、义等信息进行处理和加工的过程,它是自然语言处理的一个分支,是一门与计算机科学、语言学、数学等多种学科相关联的综合性学科。
从20世纪80年代开始,中文信息处理进入了快速发展阶段,具体研究内容只要包括对字、词、句、段、篇、章的输入输出、压缩存储、检索传输、分析理解和智能生成等方面的技术。
随着网络信息的极速增长,有用信息的获取变得越来越不容易,中文词频统计系统的诞生为人们解决这一难题,帮助人们从一堆杂乱无章的中文文本数据中获取高频词或关键词,有助于准确把握文章的要义,从而深入了解其核心思想,获得有用的信息。
1. 中文词频统计关键技术1.1 中文分词技术中文分词是中文词频统计首要解决的问题,也是中文词频统计的关键技术。
中文文本信息与英文文本信息存在一个明显差别,即在英文文本中,单词与单词之间有空格分隔;而中文文本中,词与词之间不存在天然分隔符,同时中文词语没有清晰的定义。
这些文本信息区别,要求在对中文文本信息进行处理前,必须将成段的文本分隔成更小的词汇单元,这个过程即是中文分词。
中文自动分词是指使用自计算机自动对中文文本进行词语的切分,即像英文那样使得中文句子中的词之间有空格以标识,达到被计算机自动识别语义的效果。
汉字的使用频率

汉字的使用频率汉字的使用频率汉字的数量非常庞大,总数大约九万左右。
但常用字才三千多个,即使是常用字,使用频率的差别也很悬殊。
国家标准GB2312-80《信息交换用汉字编码字符集*基本集》就是根据这种事实制订的。
一级字库为常用字,3755个,二级字库为不常用字,3008个,一、二级字库共有汉字6763个。
一级字库的字,使用频率合计达99.7%。
即在现代汉语材料中的每一万个汉字中,这些字就会出现9970次以上,其余的所有汉字也不足30次。
而最常用的1000个汉字,使用频率在90%以上.根据国家出版局抽样统计,汉字中最常用字560个,常用字807个,次常用字1033个。
三者合计2400个,占一般书刊用字的99%,所以小学生如果认识2400个常用字就能阅读一般书刊。
我国古代的周兴嗣能在一夜之间将1000个不同的常用字编成四言的押韵体《千字文》,既表达了一定的意义,又通俗易懂,和辙押韵,成为历代的识字课本。
最常用的140个汉字(按使用频率从高到低的右序排列):的一是了我不人在他有这个上们来到时大地为子中你说生国年着就那和要她出也得里后自以会家可下而过天去能对小多然于心学么之都好看起发当没成只如事把还用第样道想作种开美总从无情己面最女但现前些所同日手又行意动方期它头经长儿回位分爱老因很给名法间斯知世什两次使身者被高已亲其进此话常与活正感(这140个汉字的使用频率之和为50%)其中:最常用的5个汉字:的一是了我(这5个汉字的使用频率之和为10%)最常用的17个汉字:的一是了我不人在他有这个上们来到时(这17个汉字的使用频率之和为20%)最常用的42个汉字:的一是了我不人在他有这个上们来到时大地为子中你说生国年着就那和要她出也得里后自以会(这42个汉字的使用频率之和为30%)最常用的79个汉字:的一是了我不人在他有这个上们来到时大地为子中你说生国年着就那和要她出也得里后自以会家可下而过天去能对小多然于心学么之都好看起发当没成只如事把还用第样道想作种开(这42个汉字的使用频率之和为30%)使用频率排名141-232的汉字(这92个汉字的频率之和为10%)见明问力理尔点文几定本公特做外孩相西果走将月十实向声车全信重三机工物气每并别真打太新比才便夫再书部水像眼等体却加电主界门利海受听表德少克代员许稜先口由死安写性马光白或住难望教命花结乐色使用频率排名233-380的汉字(148个汉字,使用频率之和10%) 更拉东神记处让母父应直字场平报友关放至张认接告入笑内英军候民岁往何度山觉路带万男边风解叫任金快原吃妈变通师立象数四失满战远格士音轻目条呢病始达深完今提求清王化空业思切怎非找片罗钱紶吗语元喜曾离飞科言干流欢约各即指合反题必该论交终林请医晚制球决窢传画保读运及则房早院量苦火布品近坐产答星精视五连司巴382-500 (5.43%)奇管类未朋且婚台夜青北队久乎越观落尽形影红爸百令周吧识步希亚术留市半热送兴造谈容极随演收首根讲整式取照办强石古华諣拿计您装似足双妻尼转诉米称丽客南领节衣站黑刻统断福城故历惊脸选包紧争另建维绝树系伤示愿持千史谁准联妇纪基买志静阿诗独复痛消社算501-631算义竟确酒需单治卡幸兰念举仅钟怕共毛句息功官待究跟穿室易游程号居考突皮哪费倒价图具刚脑永歌响商礼细专黄块脚味灵改据般破引食仍存众注笔甚某沉血备习校默务土微娘须试怀料调广蜖苏显赛查密议底列富梦错座参八除跑亮假印设线温虽掉京初养香停际致阳纸李纳验助激够严证帝饭忘趣支632-1000春集丈木研班普导顿睡展跳获艺六波察群皇段急庭创区奥器谢弟店否害草排背止组州朝封睛板角况曲馆育忙质河续哥呼若推境遇雨标姐充围案伦护冷警贝著雪索剧啊船险烟依斗值帮汉慢佛肯闻唱沙局伯族低玩资屋击速顾泪洲团圣旁堂兵七露园牛哭旅街劳型烈姑陈莫鱼异抱宝权鲁简态级票怪寻杀律胜份汽右洋范床舞秘午登楼贵吸责例追较职属渐左录丝牙党继托赶章智冲叶胡吉卖坚喝肉遗救修松临藏担戏善卫药悲敢靠伊村戴词森耳差短祖云规窗散迷油旧适乡架恩投弹铁博雷府压超负勒杂醒洗采毫嘴毕九冰既状乱景席珍童顶派素脱农疑练野按犯拍征坏骨余承置臓彩灯巨琴免环姆暗换技翻束增忍餐洛塞缺忆判欧层付阵玛批岛项狗休懂武革良恶恋委拥娜妙探呀营退摇弄桌熟诺宣银势奖宫忽套康供优课鸟喊降夏困刘罪亡鞋健模败伴守挥鲜财孤枪禁恐伙杰迹妹藸遍盖副坦牌江顺秋萨菜划授归浪听凡预奶雄升碃编典袋莱含盛济蒙棋端腿招释介烧误。
现代汉语语料库词频表CorpusWordlist

101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154
词语
出现次数 744863 130191 118823 118527 83958 81119 65146 53556 52912 52728 47908 46965 44947 42332 41116 40849 38084 35429 34323 33991 31512 30936 30123 29749 29265 29039 28769 28404 28038 26823 25715 24807 23823 23749 22029 21744 21148 21041 20907 20210 19915 19539 18963 18950 18805 18698
155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 却 主要 再 由于 我国 最 关系 作用 不同 中国 才 人们 出 但是 现在 则 需要 所以 因此 如果 已经 一定 们 各 重要 象 一些 情况 吧 二 次 月 便 知道 时候 做 必须 成 人民 四 走 出来 活动 同 方面 条 高 吗
语料库常用统计方法

语料库常用统计方法在当今信息爆炸的时代,语料库作为一种大规模的语言数据集,对于语言学研究、自然语言处理、翻译研究等领域都具有重要意义。
而要从海量的语料中提取有价值的信息,就需要运用各种统计方法。
接下来,让我们一起深入了解一些语料库常用的统计方法。
一、词频统计词频统计是语料库分析中最基础也最常见的方法之一。
简单来说,就是计算某个词在语料库中出现的次数。
通过词频统计,我们可以了解到哪些词在特定的语料中使用最为频繁,哪些词相对较少出现。
例如,在一个关于科技新闻的语料库中,“人工智能”“大数据”等词可能会有较高的词频,而在一个文学作品的语料库中,“情感”“风景”等词可能更常见。
词频统计不仅能帮助我们快速把握语料的主题和重点,还能为词汇的重要性排序提供依据。
为了进行词频统计,首先需要对语料进行预处理,包括分词、去除标点符号和停用词(如“的”“了”“啊”等常见但对语义影响不大的词)。
然后,通过编程语言(如 Python)中的相关库(如 collections 库)或者专门的语料库分析工具(如 AntConc),可以轻松实现词频的计算和排序。
二、词汇多样性统计词汇多样性是衡量语言丰富程度的一个重要指标。
常见的词汇多样性统计方法包括类符/形符比(TypeToken Ratio,简称 TTR)和标准化类符/形符比(Standardized TypeToken Ratio)。
类符指的是语料库中不同的单词,形符则是单词出现的总次数。
TTR 就是类符数量除以形符数量。
例如,一个包含100 个单词的文本,其中不同的单词有 50 个,那么 TTR 就是 05。
然而,TTR 会受到文本长度的影响,文本越长,TTR 往往越低。
为了克服这一问题,标准化类符/形符比通过对文本进行分段计算 TTR,然后取平均值来得到更稳定和可靠的结果。
词汇多样性统计对于比较不同作者、不同文体、不同语言的文本特点具有重要意义。
一般来说,文学作品的词汇多样性往往高于科技文献,而高水平的作者通常能够在作品中展现出更高的词汇多样性。
4.6双字词词频统计

4.6双字词词频统计双字(连续)词同现频率统计的任务是:统计给定语料中有多少个不同的字对( Character pair),每个字对各出现多少次。
例如“发展中国家的”这个汉字串中就有“发展”、“展中中国”“国家”、“家的”共5个字对,每个字对各出现了一次。
字对不一定是双字词,例如“展中”、“家的”不是词,“中国”虽然是词,但在这个汉字串中不是词。
用任一字对在语料中的出现次数,除以所有字对出现的总次数,就可以得到这个字对的频率,即双字同现频率。
如果语料规模充分大并且分布均匀,就可以根据双字同现频率和单字频率来估计其中某个汉字的条件概率。
例如,用字对“中国”的频率除以汉字“国”的频率,可以得到条件概率P(Z1=中|Z2=国),即,当后一字已确定为“国”字时,前字为“中”的可能性有多大类似地,也可以得到条件概率P(Z2=国|Z1=中),即,当前一字已确定为“中”时,后一字为“国”的可能性有多大。
如果考察汉字的条件概率时需要看更长些的上下文,就需要做三字同现、四字同现…的频率统计双字字频统计一般是为了计算单字出现的条件概率或者双字的相关性计算中必然要用到单字出现的概率,因此做双字字频统计往往同时统计单字频率,除非单字频率已经统计过。
对一个文件进行双字字频统计,仍然是循环地读出文件中的每一个汉字,登记其出现次然后查它和前面一个汉字是否在双字字表中出现过:如果已经出现,同现次数加1;否则在双字字表中插入这对汉字,并置同现次数为1。
4.6.1双字字表结构的三种方案双字字表的数据结构是一个更需要仔细斟酌的问题。
国标码汉字6763个,那么所有可能的双字有6763×6763=45738169种。
如果全部放在内存中,每种用2个字节表示同现次数,大约需要占用87兆内存。
日前的微机一般是16兆或32兆内存,面且不是全部内存都能使用。
一般的微机上用的是 WINDOWS系统,允许多个程序同时运行;如果一个程序占用太多内存,别的程序就无法运行了。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2、汉语词频的统计方法
词频统计就是抽样一定数量的语料,计算
其中各个不同词语的出现次数,这是词频 统计工程最主要的方法。 词频统计的目的在于根据量的描述,对词 的属性给出质的评价,即依靠定量分析得 出定性分析。词频统计结果一般是做出各 种频度表,供不同专业人员使用。 用计算机统计词语使用频度的特点是速度 快,准确率高,统计量大,而且能提供多 种参数。
第二章 汉语词语的信息处理
第一节 汉语词语的词频统计
授课时间:2006年10月9日 授课人: 徐艳华
内容提要:
词频统计的方法与意义 词表的建立 词库的建立 汉语统计的难题
一、词频统计的方法与意义
1、词频与频率 词频: 即词语的频度,是指每个词 语在一定语料中出现的次数。 频率:每个词语的频度与总频度和 之比。
3、词库的建立
词库(词语数据库)是语言信息处理最 基本的资源。词库实际上就是机器可读 的电子词典。把一部人用词典如《现代 汉语词典》录入到计算机里,计算机当 然也是可以阅读的。但这里所谓的“可 以阅读”,还含有便于查找词语的各种 信息的意思。因此最好是把词库划分为 若干个相关的表。
词用计算机进行 词频统计发展很快。我国第一个最 大的词频统计工程是北京航空航天 大学在“六五”期间完成的。这次 大规模的词频统计为建立我国常用 词库具有重大意义。
我国第二个大规模的词频统计工程是由
新华社等单位于“七五”期间完成的。 1990年,新华社等单位公布了新闻语料 词频统计结果,共选147,955条词条作 为统计底表,词条出现的总次数达7, 455,171次。北京语言学院也对200万 字语料的词频进行了统计,出版了《现 代汉语频率词典》(1986),收词 31159条,这是中国正式出版的第一部汉 语频率词典。
三、言语统计的特殊性
(1)抽样问题。词频统计和字频统计一样, 统计结果的准确性在很大程度上依赖于所 选择的语料是否科学,频率误差多半是由 于选材的不合理。 一是选材的比例。 二是均匀分布。 三是抽样量的问题。
(2)真实文本的问题。言语统计要保持 统计语料的完整性和真实性。
(3)一般频度词表的内容: 词的频度,即该词在语料中出现的次数; 相对频度,即该词在统计出来的全部词中 所占的百分比; 累积频度,即对所列各员出现次数的累加 数; 分布范围及分布频度,即按不同风格或不 同标准分别统计的篇章数及出现次数。 (4)最新统计方法和科学技术的运用,比如 语料库的使用。
词表:就是通过词频统计给词语分级后,
建立的一种语言基本词语的集合。 词表的构成 (1)词条,用1-7个汉字的代表的词 语; (2)拼音,标注词语的拼音及声调; (3)标记,标注词语的分级标记。
词表的分类
通用词表
所谓现代汉语通用词,是指社会生活 各个方面、各行各业都通用的现代汉 语词汇。它是相对于流通性较窄的专 业词汇而言,它有常用性、全民性。 专业词表
4、词频统计的意义
词频统计对语言教学、语言信息处理、 语言工程都具有重要意义。 是语言教学中的课文编制的基本依据。 我们正在进行“中学文言文词频的统 计”。 在语言信息处理中为词语的分级,词 表、词库的建立提供一个基本依据。 为一定的语言工程奠定初步的基础
二、词的分级与词表、词库的建立
3、词频统计的发展
词频统计已有悠久的历史。早在公元9世纪,
评注《圣经》的希伯来学者就已经知道利 用频度来计算不同版本经典中的用词情况, 但大规模使用频度来进行词汇统计的,是 德国人F.w.Kaeding,Kaeding于1989年出 版的《德国词频词典》共抽样10 ,910 , 777词次的语料,截取频度在4次以上不同 的词一共79716个。
四、汉语统计的难题
(1)字形信息与语音信息有不同 处理技术要求。拼音文字没有这个 问题,只要用打字键盘直接往计算 机内输入就行了。 (2)词的划分问题。 (3)如何区分同音词。
1、词的分级 在词频统计的基础上,词语信息处理的工作 就是词的分级工作,即把频度相等的词归 为一级,频度最高者为第一级,依次排列, 最低者(出现一次的)为最末一级。这样, 我们就可以将汉语的词分成通用词、常用 词、一级词或二级词,并相应地建立成现 代汉语常用词表、词库,现代汉语通用词 表、词库。
2、词表的建立
分词一般只需要访问这个表; 词性表:存放词条的若干个词性标 记及其频度,可供词性标注时使用; 义项表:存放词条的若干个义项及 其频度,可供义项标注时使用; 句法分析时,这几个表都要用到。
建立词库的意义
对现代汉语词汇进行科学描述; 建立各种信息处理系统的必要手
段; 为人工和机器分词建立一个标准 底本,为分词提供方便和约束。