汉字的字频统计与信息熵分析
大 规模 古籍 汉字 用字 统计 报告

大规模古籍汉字用字统计报告张轴材1.项目背景和概况本项目是在北京书同文数字化技术有限公司长期从事的古籍数字化工作的基础上,由国家语委十五科技攻关计划资助的重点项目。
本报告中还包含了另一个相关项目的成果,即“中国古籍用字在ISO/IEC 10646 CJK汉字中分布研究”。
由于二者关系紧密,故一并报告。
这项研究基于八亿古籍汉字语料,借用书同文全文检索引擎(UniFTR 2.0)对语料中所出现的约三万编码汉字(接近于所谓“字头”或“字种”)进行了逐字的出现率(字次)统计;并对统计结果进行了初步的分析。
根据目前掌握的信息,迄今为止中文信息界所作的数亿字规模的汉字字频统计,都是基于现代汉语的;而基于国际标准编码字符集和数亿古籍语料的统计分析,此前尚未见报告。
由于电子出版业和数字图书馆事业的迅猛发展,学术界和产业界对于古籍汉字的字频统计数据的要求日益迫切,我们希望并且相信,本报告可以起到某种基础性贡献的作用,有利于各项相关技术和应用的发展。
2.统计对象- 语料及字符集A.概述本项目的基础语料来自文渊阁《四库全书》电子版和《四部丛刊》电子版。
前者的汉字出现率,近七亿字次;后者近一亿字次;加起来接近八亿字次。
尽管二者在使用率上尚有很大差异,但孰大孰小很难权衡,所以在合并语料时,未做任何加权处理,而是简单叠加。
前者于1996-2000年开发,基于增强的CJK编码字符集,CJK+,用方正楷体表现;后者于2000-2001年开发,其字符集在CJK+的基础上稍有扩充,为编码汉字,用华天宋体字库表现。
CJK+的定义详见下节。
B.编码字符集语料的编码字符集都是基于ISO/IEC 10646-1:2000,UCS-2或BMP模式。
遵循国际标准ISO/IEC 10646:2003,它等效于工业标准Unicode 4.0和国家标准GB 13000-2003 (正在翻译中)。
ⅰ.源语料基于CJK+,CJK+的定义是CJK+ ::= CJK + CJK_A + EUDC108第三届汉文史资料库研讨会文传论丛CJK有20902个标准编码汉字;CJK_A有6500个编码汉字;EUDC则是在国际标准框架内专用区编码的汉字“Private Use Area - End UserDefined Characters”。
汉字笔画研究报告

汉字笔画研究报告1. 研究背景汉字作为中国文化的瑰宝,是世界上最古老的文字之一。
而汉字的构造则由笔画组成,每个汉字都有独特的笔画数。
研究汉字笔画不仅可以深入理解汉字的结构和演变,还有助于汉字教学和汉字信息处理。
2. 目的与意义本研究旨在探究汉字笔画的规律和特点,深入分析不同笔画数量的汉字在形态和意义上的差异,从而提供有益的汉字教学参考和汉字信息处理的基础。
3. 研究方法本研究主要采用文献分析和统计分析的方法。
3.1 文献分析通过收集、整理和分析相关文献,深入了解汉字笔画的起源、演变和分类方法,为后续的统计分析提供基础数据和理论支持。
3.2 统计分析通过计算机处理汉字数据,统计不同笔画数量的汉字在汉字总量中的比例,并分析其形态特征和意义区别。
更进一步,可利用信息熵等方法计算汉字笔画的多样性和复杂度。
4. 研究结果与讨论4.1 汉字笔画的结构与演变通过文献分析,我们发现汉字的笔画结构主要包括横、竖、撇、捺、点等基本笔画。
随着时间的推移,汉字的结构逐渐演变,出现了更多复杂的笔画组合。
4.2 不同笔画数量的汉字特点通过统计分析,我们发现不同笔画数量的汉字在形态和意义上存在一定的差异。
•单笔画汉字:该类字形简单,多为点、横、竖等基础笔画组成,代表着简单的事物或抽象概念。
•两笔画汉字:该类字形相对复杂,常出现横、竖、撇、捺等多种笔画组合,表示一些具体物体或人物。
•三笔画汉字:该类字形更加复杂,常出现多种组合形式,表示一些场景、动作或抽象概念。
•更多笔画的汉字:该类字形最复杂,笔画组合形式多样,有较高的形态多样性和复杂度。
4.3 汉字笔画的多样性和复杂度通过信息熵的计算,我们发现汉字笔画的多样性与复杂度呈现一定的相关性。
随着笔画数量的增加,汉字的多样性和复杂度也呈现上升趋势。
这一发现也与汉字的演变过程相吻合。
5. 结论与展望通过对汉字笔画的研究,我们深入了解了汉字的结构、演变和分类方法。
不同笔画数量的汉字在形态和意义上存在一定差异,汉字的多样性和复杂度也随着笔画数量的增加而增加。
汉字字频统计

import java.awt.List; 【2 】import java.io.*;import jxl.*;import jxl.write.*;import java.text.DecimalFormat;import java.util.ArrayList;public class statistics {public static void main(String[] args) {// 读字表ArrayList chtable = readFromTable("CHTable.txt");System.out.println("字表大小为:" + chtable.size());// 读文件ArrayList numlist = readFromFile("10.txt", chtable);// 排序ArrayList chlist = sort(chtable, numlist);// 盘算汉字的总数int sum = 0;for (int i = 0; i < numlist.size(); i++) {sum = sum + (Integer) numlist.get(i);}System.out.println("--------------------显示成果-------------------");// 返回指定个数的汉字频率统计成果ArrayList freqlist = frequency(chlist, numlist, sum, 100);// 盘算熵值float sh = entropy(freqlist);// 盘算指定个汉字的字频总和float fre1 = freqSum(freqlist, 1);float fre2 = freqSum(freqlist, 20);float fre3 = freqSum(freqlist, 100);float fre4 = freqSum(freqlist, 600);float fre5 = freqSum(freqlist, 2000);float fre6 = freqSum(freqlist, 3000);float fre7 = freqSum(freqlist, 6000);ArrayList freal = new ArrayList();freal.add(fre1);freal.add(fre2);freal.add(fre3);freal.add(fre4);freal.add(fre5);freal.add(fre6);freal.add(fre7);ArrayList nal = new ArrayList();nal.add(1);nal.add(20);nal.add(100);nal.add(600);nal.add(2000);nal.add(3000);nal.add(6000);System.out.println("--------------------程序停止-------------------");// 生成Excel的类try {// 打开文件WritableWorkbook book = Workbook.createWorkbook(new File("统计成果.xls"));// 生成工作表,参数0表示这是第一页WritableSheet sheet = book.createSheet(sum+"字", 0);/** 生成一个保存数字的单元格必须应用Number的完全包路径,不然有语法歧义*///表头Label label1 = new Label(0, 0, "字符");sheet.addCell(label1);Label label2 = new Label(1, 0, "频率");sheet.addCell(label2);for(int i=0;i<100;i++){// 中文字符Label label = new Label(0, i+1, chlist.get(i).toString());sheet.addCell(label);// 消失的频率jxl.write.Number number = new jxl.write.Number(1, i+1, (Float)freqlist.get(i));sheet.addCell(number);}//写入熵值Label lsh = new Label(0, 101, "熵值");sheet.addCell(lsh);jxl.write.Number nsh = new jxl.write.Number(1, 101, sh);sheet.addCell(nsh);//写入字频总和for(int i=0;i<freal.size();i++){if((Float)freal.get(i) != 0f){Label lfreq = new Label(0, 102+i, "前"+nal.get(i).toString()+"个汉字字频总和");sheet.addCell(lfreq);jxl.write.Number nfreq = new jxl.write.Number(1, 102+i, (Float)freal.get(i));sheet.addCell(nfreq);}}//写入数据book.write();// 并封闭文件book.close();} catch (Exception e) {System.out.println(e);}}public static ArrayList readFromTable(String filename) {ArrayList chlist = new ArrayList();File file = new File(filename);Reader reader = null;try {// 一次读一个字符reader = new InputStreamReader(new FileInputStream(file));int tempint;while ((tempint = reader.read()) != -1) {// 断定读到的字符是否是中文if ((tempint >= '\u4e00' && tempint <= '\u9fa5')|| (tempint >= '\uf900' && tempint <= '\ufa2d')) {char tempchar = (char) tempint;// System.out.println(tempchar);// System.out.println("list.size:" + chlist.size());// 断定该字符是否消失过int i = 0;for (i = 0; i < chlist.size(); i++) {// 一旦反复,跳出轮回char c = ' ';Object ob = chlist.get(i);if (ob instanceof Character) {c = (Character) ob;}// System.out.println("c:" + c);if (tempchar == c) {// System.out.println("反复!");break;}}// 字符从未消失过if (i == chlist.size()) {// System.out.println("新字符!");chlist.add(tempchar);}}}reader.close();} catch (Exception e) {e.printStackTrace();}return chlist;}/*** 该函数用于从文件中读取中文字符,并返回它消失的次数** @param filename* @return*/public static ArrayList readFromFile(String filename, ArrayList chtable) { File file = new File(filename);Reader reader = null;ArrayList numlist = new ArrayList();// 初始化字符消失的次数聚集for (int i = 0; i < chtable.size(); i++) {numlist.add(0);}try {// 一次读一个字符reader = new InputStreamReader(new FileInputStream(file));int tempint;int sum = 0;while ((tempint = reader.read()) != -1) {// 断定读到的字符是否是中文if ((tempint >= '\u4e00' && tempint <= '\u9fa5')|| (tempint >= '\uf900' && tempint <= '\ufa2d')) {char tempchar = (char) tempint;// System.out.println(tempchar);// System.out.println("list.size:" + chlist.size());// 断定该字符是否在字表里int i = 0;for (i = 0; i < chtable.size(); i++) {// 在字表里,统计反复次数并跳出轮回char c = ' ';Object ob = chtable.get(i);if (ob instanceof Character) {c = (Character) ob;}// System.out.println("c:" + c);if (tempchar == c) {int num = (Integer) numlist.get(i) + 1;numlist.set(i, num);break;}}}}reader.close();} catch (Exception e) {e.printStackTrace();}return numlist;}/*** 该函数用来对汉字消失的次数进行从大到小的排序,返回排序成果 ** @param chlist* @param numlist*/public static ArrayList sort(ArrayList chtable, ArrayList numlist) { ArrayList chlist = chtable;for (int i = 0; i < numlist.size(); i++) {for (int j = i + 1; j < numlist.size(); j++) {int listi = (Integer) numlist.get(i);int listj = (Integer) numlist.get(j);if (listi < listj) {numlist.set(i, listj);numlist.set(j, listi);char chi = (Character) chlist.get(i);char chj = (Character) chlist.get(j);chlist.set(i, chj);chlist.set(j, chi);}}}return chlist;}/*** 该函数用来盘算各个汉字消失的频率,并且显示出指定个数的成果** @param chlist* @param numlist* @param sum* @param count*/public static ArrayList frequency(ArrayList chlist, ArrayList numlist, int sum, int count) {ArrayList freqlist = new ArrayList();// 盘算频率for (int j = 0; j < chlist.size(); j++) {float freq = (Integer) numlist.get(j) / (float) sum;freqlist.add(freq);}// 按指定格局输出(保留6位有用数字)for (int j = 0; j < freqlist.size() && j < count; j++) {System.out.println("字符:" + chlist.get(j));System.out.println("消失次数:" + numlist.get(j));System.out.println("频率:" + freqlist.get(j));System.out.println("------------");}System.out.println("中文字符总数:" + sum);return freqlist;}/*** 该函数用来盘算熵值** @param freqlist*/public static float entropy(ArrayList freqlist) {float sum = 0f;for (int i = 0; i < freqlist.size(); i++) {float freq = (Float) freqlist.get(i);if (freq != 0) // 划定0long0 = 0;sum += freq * (Math.log((double) freq) / Math.log((double) 2));}DecimalFormat df = new DecimalFormat("0.000000");// 格局化小数,不足的补String result = df.format(-sum);// 返回的是String类型的float sh = Float.parseFloat(result);System.out.println("熵值为:" + result);return sh;}/*** 盘算指定个数的汉字字频总和** @param freqlist* @param count*/public static float freqSum(ArrayList freqlist, int count) {float freqsum = 0f;if (count > freqlist.size())return 0f;for (int i = 0; i < count; i++) {freqsum += (Float) freqlist.get(i);}System.out.println("前" + count + "个汉字字频总和为:" + freqsum);return freqsum;}}。
汉字讲义含汉字频度

汉字笔画频度统计表注:摘自陈明远《现代汉字笔画的统计分析》(《中国语言学报》第1期P299-305 1982年12月)汉字整字笔画数频度统计注:摘自傅永和《汉字结构及其构成成分的统计及分析》(载《中国语文》1985年第4期)《汉字结构及其构成成分的统计及分析》的语料为《辞海》(1979年版)《辞海》(1979年版)收单字16339.汉字结构方式频度表注:摘自傅永和《汉字结构及其构成成分的统计及分析》(载《中国语文》1985年第4期)《汉字结构及其构成成分的统计及分析》的语料为《辞海》(1979年版)《辞海》(1979年版)收单字16339.汉字频度统计前20个部件频度及出现的绝对结构部位《汉字结构及其构成成分的统计及分析》的语料为《辞海》(1979年版)《辞海》(1979年版)收单字16339.常用形旁构字能力统计表常用声旁构字能力统计表注:马燕华据《现代汉语常用字表(2500)》整理581个汉字2006年5月国家语言文字工作委员会发布《中国语言生活状况报告》,称报纸、广播电视、网络语料中“581个汉字就覆盖全部语料的80%,934个汉字就覆盖全部语料的90%。
”(引自《中国语言生活状况报告·下编》P007 商务印书馆 2006)周有光的汉字效用递减率最高频1000字的覆盖率大约是90%,以后每增加1400字,大约提高覆盖率十分之一。
或者说,以后每增加1400字,欠缺率减少了9/10,只是原来的1/10。
(引自周有光著《中国语文纵横谈》人民教育出版社 1992年版P156)古人总结的“六书”造字法象形象形者,画成其物,随体诘诎。
日月是也。
(鱼鼠山水)指事指事者,视而可识,察而见意。
上下是也。
(刃末甘寸)会意会意者,比类合谊,以见指撝。
武信是也。
(苗走看美)形声形声者,以事为名,取譬相成。
江河是也。
(座钟疯城)转注转注者,建类一首,同意相受。
考老是也。
假借假借者,本无其字,依声托字。
令长是也。
第9讲 印刷体汉字的统计特性及分析

横笔划长度直方图
返回
竖笔划长度直方图
返回
撇笔划长度直方图
返回
捺笔划长度直方图
返回
字根统计特性分析
提取字根的困难性 统计字根与传统字根的区别 几种字根的统计结果
返回
提取字根的困难性
汉字有很多字根,这些字根繁简不一, 用图像处理技术自动提取这些字根还不 能达到实用水平
空程长度的计算举例
左边 右边 上边 下边
返回
左边空程长度
2, 3, 3, 6, 0, 1, 1, 3, 3, 2, 0, 2, 2, 2, 2, 16
返回
右边空程长度
13, 12, 2, 3, 3, 4, 4, 4, 5, 5, 6, 5, 3, 1, 2, 16
返回
上边空程长度
l 1
N
N
右周边熵:
上周边熵:
H Rn PRn (l ) log 2 PRn (l )
l 1
N
HUn P (l ) log 2 P (l ) Un Un
l 1
下周边熵: 返回
H Dn PDn (l ) log 2 PDn (l )
l 1
N
32×32点阵左周边熵分布图
返回
统计字根与传统字根的区别
在进行统计分析时,所用的字根与传统意 义上的字根有所不同 例如,“俺”和“缚”中都不包含传统意 义上的字根“田”,但是它们都含有图形 “田”。 使用程序寻找传统意义上的字根更困难, 因此统计时认为“俺”和“缚”都含有字 根“田” 返回
第5讲信息熵

1第5讲 随机变量的信息熵在概率论和统计学中,随机变量表示随机试验结果的观测值。
随机变量的取值是不确定的,但是服从一定的概率分布。
因此,每个取值都有自己的信息量.平均每个取值的信息量称为该随机变量的信息熵。
信息熵这个名称是冯诺依曼向香农推荐的。
在物理学中,熵是物理系统的状态函数,用于度量一个物理系统内部状态和运动的无序性。
物理学中的熵也称为热熵.信息熵的表达式与热熵的表达式类似,可以视为热熵的推广。
香农用信息熵度量一个物理系统内部状态和运动的不确定性。
信息熵是信息论的核心和基础概念,具有多种物理意义。
香农所创立的信息论是从定义和研究信息熵开始的。
这一讲我们学习信息熵的定义和性质。
1. 信息熵我们这里考虑离散型随机变量的信息熵,连续型随机变量的信息熵以后有时间再讨论,读者也可以看课本上的定义,先简单地了解一下。
定义1。
1 设离散型随机变量X 的概率空间为1212......n n x x x X p p p P ⎡⎤⎡⎤=⎢⎥⎢⎥⎣⎦⎣⎦我们把X 的所有取值的自信息的期望称为X 的平均自信息量,通常称为信息熵,简称熵(entropy ),记为H(X),即11()[()]logni i iH X E I X p p ===∑ (比特)信息熵也称为香农熵。
注意,熵H (X )是X 的概率分布P 的函数,因此也记为H (P ).定义1。
2 信息熵表达式中的对数底可取任何大于等于2的整数r,所得结果称为r —进制熵,记为H r (X ),其单位为“r-进制单位”。
我们有()()log r X H H rX =2注意,在关于熵的表达式中,我们仍然约定0log 00 0log00x==, 信息熵的物理意义:信息熵可从多种不同角度来理解.(1) H (X )是随机变量X 的取值所能提供的平均信息量。
(2) 统计学中用H (X )表征随机变量X 的不确定性,也就是随机性的大小。
例如,假设有甲乙两只箱子,每个箱子里都存放着100个球.甲里面有红蓝色球各50个,乙里面红、蓝色的球分别为99个和1个。
一种基于信息熵的中文高频词抽取算法
T e ecm uetef q ece o lh us ig fhs hns tns ia y w dew e e ec u — hnw o p t h euni f esbtn s eeC iees g.Fnl , e u g h t r ahsb r s a t l r ot i r l j h
Ab ta t a g t g a e tn i g t e dci n r rw r e me t t n S st mp o e i c u a y,t i p p rp e — sr c :T r ei t xe dn h it a y f o d s g n ai O a i r v s a c rc n o o o o t h s a e r s e t i h fe u n y Chn s o d e ta t n ag r h b e n i fr t n e to y W e f sl r n fr os n a h s —rq e c i e e w r x ci lo t m a d o n oma i n rp . s r o i s o r t t so i y a m n iy
sr g i a w r y c mp t g i no a in e t p .P ei n r x r n h w t a h s smp e ag rtm s e- t n o d b o u i t i r t n r y i s n s f m o o rl mia y e p i e me t s o h tti i l o h i f s l i fci e i x a t g hs 一 e e c h n s r s i h c e tr t p t 1 6 % . e t n e t c i ih  ̄ q n y C i e ewo d ,w t t e a c p ae u 9 . 8 v r n u h o Ke r s r f i tl g n e; a u a g a e p o e sn ; h n s o d s g e t t n y wo d :a t ca i el e c n t r l u g rc si g C i e e w r e i l n i i l a n m n ai ;C i e e wod e t ci n; o h n s r xr t a o i o ain e t p ;h g —r q e c h n s o d f m n r t nr y ih fe n y C i e e w r s o o u
汉字使用情况调查报告
汉字使用情况调查报告汉字使用情况调查报告(合集6篇)在现实生活中,报告有着举足轻重的地位,报告中提到的所有信息应该是准确无误的。
那么一般报告是怎么写的呢?下面是小编收集整理的汉字使用情况调查报告,欢迎阅读与收藏。
汉字使用情况调查报告1在瞬息万变的信息化时代,浅阅读、快餐文化的兴起,键盘敲击日益代替了笔头书写。
在电视台也常常举办一些汉字类的节目,让国民对汉字书写和汉字理解都能加以重视。
大学生是社会的希望、国家的栋梁、祖国建设的主力军,这一群体的素质的高低将直接影响着整个国家的发展。
当代大学生绝大多数都是90后,甚至是95后,由于成长环境的影响,他们更偏向于电脑、手机等电子设备的广泛使用,书写汉字能力现状非常值得关注,加之传统文化频繁受到外来文化的冲击,大学生中已出现了日益淡薄的汉字书写的潜在危机。
一、调查对象与调查方法(一)调查对象本次调查中,对象为我校不同专业的大二学生。
(二)调查方法本次调查是采用网络问卷的方式进行,问卷为笔者自编的《大学生汉字书写能力汉字现状调查报告》。
问卷内容从书写准确度、书写规范性、书写流畅度、书写工整度这四个方面编写,问卷采取不记名的形式填写。
二、调查结果及其分析(一)书写准确度汉字的书写,一字之差,意思截然不同,这说明汉字书写的准确度尤为重要。
汉字意义博大精深,虽然书写存在一些形近字,近义词,但是存在着千差万别的不同。
当问及:“在汉字书写的过程中,你是否经常写错别字?”84%的大学生偶尔写错别字,11%的大学生从不写,5%的大学生经常写,结果来看,八成左右的大学生写错别字频率较低,但是值得注意的是,仍存在5%的大学生经常写错别字,成了“白字先生”。
虽然由于现今学校里写作业较多采用电子稿方式,某种程度上影响了学生书写的准确度,出现这种情况也算有情可原,但作为正在接受高等教育的高素质、高文化人群出现此类现象必须引起关注。
(二)书写规范度1.笔顺的正确性汉字的书写过程中,起笔、收笔都非常有讲究。
熵和信息熵的概念和应用
熵和信息熵的概念和应用熵一词源自热力学,指系统的无序程度。
在物理学中,熵是一个表示系统混乱程度的物理量,通常用符号S表示,单位是焦耳/开尔文。
熵的增加表明系统的混乱程度增加,熵的减少则表示系统的有序程度增加。
热力学第二定律指出,熵永远不会减少,在封闭系统中总是增加。
然而,熵这个概念不仅仅适用于物理学,它在信息学中也有着广泛的应用。
信息熵是信息论中的一个重要概念,它指的是在信息传输中的不确定度(无序程度)。
信息熵用符号H表示,单位是比特(或香农熵)。
与热力学中的熵类似,信息熵也有一个统计学的定义,即随机变量的平均不确定度。
以一段文本为例,假设这段文本中有10个字母,其中有4个字母是“A”,3个字母是“B”,2个字母是“C”,还有1个字母是“D”。
如果我们要猜测下一个字母是什么,那么最好的猜测是“A”,因为它出现的概率最大。
而在信息学中,我们可以用信息熵来度量这种不确定度。
这个文本的信息熵即为:H = - (4/10)log2(4/10) - (3/10)log2(3/10) - (2/10)log2(2/10) -(1/10)log2(1/10) ≈ 1.8464这个结果告诉我们,每个字母所含的信息量为1.8464比特。
也就是说,如果我们使用这个文本来传输信息,每个字母平均要占用1.8464比特的带宽。
当然,这个结果的准确性和文本的长度、种类都有关系。
信息熵的应用非常广泛,它不仅仅适用于文本、图像、音频等传统的媒体类型,也适用于现代通信和网络技术中的数据传输、压缩、加密等方面。
例如,在数据压缩中,我们可以根据信息熵的原理,将出现概率较低的部分压缩掉,从而减少数据量。
另外,在加密技术中,信息熵可以用来估算密码的强度,从而提高安全性。
除了信息熵,还有一些与熵相关的概念,例如条件熵、互信息等。
条件熵指的是在已知某些信息的情况下,需要传输的平均不确定度;互信息指的是两个随机变量之间的相关性程度,描述它们在一起所包含的信息量。
基于多维度熵值考察的常用字表构建
基于多维度熵值考察的常用字表构建作者:张艳梅李如龙吕展来源:《华文教学与研究》2024年第02期[关键词]常用字;常用字表;汉字效用;熵值法[摘要]常用字除了字频这一外显特性外,还应当具有稳定性、较广的分布性、构词构字的能产性等特征。
以往基于语料选取来考察汉字,无法对每个汉字不同维度的特征进行量化,最终仍主要通过字频来构建字表。
文章基于2007—2021年《中国语言生活状况报告》语言大数据,对常用字的字频、稳定性、分布度、构词频、构字频等五个维度进行详细的数据考察与特征分析,使用熵值法建立汉字效用综合测度模型,构建多维度常用字表。
通过熵值法构建的汉字效用综合测度模型,从多个方面测量、量化了汉字的效用,得出的排序结果与以往的字表有着较大的差异。
不单单考虑字频这一维度之后,大量在稳定性、分布度、构词构字能力等维度具有突出优势的常用字跻身字表前列,由此也更为科学合理。
[中图分类号]H195.3 [文献标识码]A [文章编号]1674-8174(2024)02-0068-141. 引言我国关于现代汉字常用字的研究是基于字频统计开展的,比较科学的字频统计起于上世纪二三十年代,发端之作当属1928年陈鹤琴先生的《语体文应用字汇》,随后经过一代代学者筚路蓝缕的探索,字频统计研究的方法更加科学、应用的范围更加广泛。
至本世纪初教育部国家语委、国家语言资源监测中心首次进行大规模的社会用字用词调查,字频统计这项工作在语料库规模、统计工具、分析方法等方面均有了长足的进步。
回顾近百年的字频统计、常用字研究,整体来看分为三个部分:一是对常用字的理论研究,如周有光(1980)、费锦昌(1988)、高家莺等(1993)、苏培成(1994)等学者,主要集中于常用字的效用问题、功能特征问题等的探讨;二是基于字频统计的常用字表构建,如《常用字表》(1952)、《常用字和常用词》(1985)、《现代汉字常用字表》(1988)、《通用规范汉字表》(2013)等成果,为中小学语文基础教育教材选字用字、国际中文教育教材选字用字、辞书编纂以及汉字机械处理和信息处理等领域提供了重要参考;三是基于大型语料库的用字调查,如周美玲、苏新春(2009)、王衍军(2009)、刘华(2010)、张军(2013)、史晓东等(2015)、赵雪等(2018)、张艳梅、吕展(2022)等学者,基于大规模的语料库,从各个角度对中国语言文字的使用进行调查研究,反映当代汉字用字现状。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉字的字频统计与信息熵分析
汉字是中国文化的瑰宝,也是世界上使用最广泛的文字之一。
汉字的形状独特,每个字都蕴含着丰富的文化内涵。
在现代信息时代,对汉字的研究不仅限于其文化价值,还包括对其使用频率和信息熵的分析。
本文将探讨汉字的字频统计和信息熵分析,以揭示汉字的使用规律和信息传递特征。
一、汉字的字频统计
字频统计是指对一定文本范围内的汉字进行统计,并按照出现频率进行排序。
通过字频统计,我们可以了解到不同汉字的使用频率,从而揭示汉字在语言中的重要性和普遍性。
以现代汉字为例,对大规模文本进行字频统计后,我们会发现一些有趣的现象。
例如,“的”、“一”、“是”等常用字的频率非常高,而一些生僻字的频率则非常低。
这反映了汉字在日常生活和文化交流中的重要性差异。
字频统计还可以用于研究不同文本类型中的汉字使用规律。
例如,在新闻报道中,一些特定的政治名词和行业术语的频率会较高,而在文学作品中,一些形象描写和修辞手法所使用的汉字可能更为突出。
通过字频统计,我们可以揭示不同文本类型中汉字的特点和使用规律。
二、汉字的信息熵分析
信息熵是信息论中的重要概念,用于衡量信息的不确定性。
在汉字研究中,我
们可以将信息熵应用于分析汉字的信息传递特征。
在一个文本中,每个汉字的出现都承载着一定的信息量。
信息熵可以通过计算
每个汉字的出现概率和信息量的乘积,并对所有汉字的信息量进行求和得到。
通过信息熵分析,我们可以了解到文本中汉字的信息分布情况和信息传递的特征。
例如,在一篇新闻报道中,一些政治名词和专业术语的信息熵可能较低,因为它们的出现概率较高,信息量较少。
而一些描述事件细节和分析评论的汉字可能具有较高的信息熵,因为它们的出现概率较低,信息量较大。
通过信息熵分析,我们可以了解到不同汉字在信息传递中的重要性和贡献度。
信息熵分析还可以用于比较不同文本类型之间的信息传递特征。
例如,对比新闻报道和文学作品中的汉字信息熵,我们可能发现新闻报道中的汉字信息熵较低,因为其注重准确传递事实信息;而文学作品中的汉字信息熵较高,因为其追求表达情感和艺术效果。
通过信息熵分析,我们可以揭示不同文本类型中汉字的信息传递特征和风格特点。
结语
汉字的字频统计和信息熵分析是汉字研究中的重要方法,可以帮助我们了解汉字的使用规律和信息传递特征。
通过字频统计,我们可以揭示汉字在语言中的重要性和普遍性;通过信息熵分析,我们可以了解汉字在信息传递中的贡献度和风格特点。
这些研究成果不仅对于汉字的学习和教育有着重要意义,也为汉字在信息时代的应用提供了理论基础。
让我们一起深入研究汉字的字频统计和信息熵分析,探索汉字的无穷魅力。