聚类分析在红楼梦作者问题上的应用

合集下载

统编教材六年级上册 [六年级上册数学教案-第九章3 统 计(1课时)(人教版)]

统编教材六年级上册 [六年级上册数学教案-第九章3 统 计(1课时)(人教版)]

《统编教材六年级上册 [六年级上册数学教案-第九章3 统计(1课时)(人教版)]》摘要:折线统计图,第17题:(1)2000年学龄儿童最多,2010年学龄儿童最少,于是李教授用每个回目中47个虚词(之,其,或,呀,吗,咧,罢,可,便,就……)出现的次数,作为《红楼梦》各个回目的数字标志3 统计课时目标导航复习内容折线统计图。

(教材第117页“总复习”第4题以及教材第120~121页“练习二十八”第17、18题) 复习目标 1.进一步理解复式折线统计图,感受复式折线统计图产生的意义,了解其特点并能正确地绘制简单的复式折线统计图。

2.根据数据的变化进行数据分析和合理的推测,正确运用这些知识解决一些简单的问题。

3.体验数学与生活的密切相关,提高学生的应用意识。

重点难点重点:掌握复式折线统计图的特点。

难点:会分析发展趋势,通过分析能进行简单预测。

复习过程一、知识回顾【回顾】折线统计图 1.折线统计图的意义。

用一个单位长度表示一定的数量,根据数量的多少描出各点,然后把各点用线段顺次连结起来的统计图叫做折线统计图。

用多条不同的折线表示多组不同数据的统计图叫做复式折线统计图。

2.绘制折线统计图。

绘制折线统计图时,先根据数据的大小描出各点,再用线段顺次连结各点,并在各点的旁边标出数量的多少。

3.复式折线统计图的优点。

复式折线统计图既可以看出每组数据变化的整体趋势,还能对每组数据的差异进行分析、比较,并通过所获得的信息对事物的发展进行推测。

4.练习巩固。

(出示教材117页第4题) 2004~2012年某大学理工科在河北省招生分数线统计图某家电商场A、B两种品牌彩电2010年月销售统计图 (1)观察这两个折线统计图所表示的数据,说一说折线统计图适合表示数据的什么情况。

(2)说一说绘制复式折线统计图时应该注意什么。

(3)如果你是高考生或者商场经理,你能从统计图中得到哪些信息?这些信息对你有什么帮助?二、巩固反馈完成教材第120~121页“练习二十八”第17、18题。

统计与红学研究

统计与红学研究

统计与红学研究计算机、统计学与“红学”研究综论作者:贾洪卫董坚徐锐摘⾃:《红楼博客站》⾃清朝传世⼆百多年以来,《红楼梦》的艺术魅⼒长久地吸引着许许多多国内外研究者和普通的读者。

在这部不朽的名著中,作者塑造了众多的栩栩如⽣的⼈物形象,使⽤了优美、⽣动的⽂学语⾔。

书中还涉及到哲学、经济、教育、诗词、对联、谜语、酒令、成语、修辞、园林、建筑、服装、医药、烹调、戏曲、⾳乐、舞蹈、绘画、爱情、⼼理、外貌描写等领域以及⼈物空间、时间的主体结构和错综复杂的关系,引起了⼈们⼴泛的探索和研究。

⽬前已经形成了⼀门国际性的学问──红学。

近年来关于红学研究现代化,如何运⽤计算机分析⽂学作品的问题,已经引起了社会科学和计算机科学界的普遍关注。

国际上关于建⽴以计算机为代表的现代化“国际红学资料中⼼”的呼声也引起红学界的注意。

在这种形势下,综论计算机与红学研究的历史和现状,介绍其研究内容和存在的问题不仅可以加深⼈们对《红楼梦》这部辉煌巨著的认识和理解,⽽且对于古典⽂学研究的现代化探索也是有借鉴意义的。

计算机应⽤于⽂学作品的研究是近⼗多年的事情。

七⼗年代中期,英国剑桥⼤学的两位师⽣因运⽤计算机侦破伪造莎⼠⽐亚的奇案⽽震动了西⽅⽂学界。

他们对⼀家出版商出版的莎⼠⽐亚新作品,⽤计算机对它的修辞和结构进⾏分析和⽐较。

把新作品中的句型与公认的莎⼠⽐亚作品作⽐较,发现莎⼠⽐亚⼀向不采⽤的修辞和⽤语出现了,句型和结构也同惯⽤的⽅法不⼀样。

他们将⽤计算机分析出来的⼤量证据向法院起诉,使伪造莎⼠⽐亚作品的出版商哑⼝⽆⾔,只得承认作伪。

这项研究成果引起了国内外学者的重视,纷纷利⽤计算机来分析研究别的古典⽂学作品,导致计算机闯进“红学”研究园地。

1980年6⽉。

在美国梦⽃湖畔的威斯康星⼤学召开的⾸届国际《红楼梦》研讨会上,威斯康星华裔学者陈炳藻先⽣宣读了⼀篇《从词汇上的统计论〈红楼梦〉的作者问题》的⽂章,引起了国际红学界的注意和兴趣。

1986年,陈炳藻教授公开发表了《电脑在⽂学上的应⽤:〈红楼梦〉与〈⼉⼥英雄传〉两书作者⽤词的⽐较》⼀⽂;之后⼜出版了《电脑红学:论〈红楼梦〉作者》的专著。

基于数理统计方法的红楼梦研究

基于数理统计方法的红楼梦研究

统计方法在《红楼梦》前80回与后40回分析的运用高健(南京师范大学统计(金融)系,南京)摘要本文在数据的基础上通过统计方法对《红楼梦》前80回与后40回作了比较分析。

在写作风格方面,运用两个独立样本的假设检验得出前80回与后40回在写作风格上有着较大的差异。

在人物方面,通过K-S检验方法,这几个主要人物人在前后的出场规律有着巨大差异。

在情景分析方面,运用聚类分析,得出在前80回中主要情感色彩是“欢快”的,都大多数情感色彩“沉重”的回合集中在后40回。

关键字两个独立样本的假设检验 K-S检验方法聚类分析(一)引言《红楼梦》是我国四大名著之首,而且有很多悬而未决的问题,把统计学的定量分析方法引入红学研究是很自然的。

华裔学者陈炳藻教授(见[1],[2])在美国威斯康星大学召开的“首届国际《红楼梦》研讨会”上曾发表了通过统计学方法算出相关用词的相关程度,发现前80回与后40回均为曹雪芹一人所作.我国华东师范大学陈大康教授得出了迥异的结论(1987,[3]),它将红楼梦分成3组,通过分析各组之间用词句式,作出推论:后40回非曹雪芹所作(但含有少量残稿).复旦大学李贤平教授的也通过对于虚词运用多元统分析(主成份分析、典型相关分析、聚类分析等),提出了新观点(1987,[4]):《红楼梦》前80回是曹雪芹根据《石头记》增删而成;而后40回则是曹家亲友搜集整理原稿加工补写而成。

东南大学韦博成通过运用各回合对于情景的关注程度(2009,[5]),分析前80回和后40回合的不同。

以上几位学者对于前80回和后40回的不同之处分析主要集中在写作之人写作手法的不同,没有考虑到《红楼梦》这部巨作本身的故事也决定了其前后两部分的不同。

本文基于前面几位学者,不仅从写作风格方面做了简要分析,同时从故事的本身进行的不同异同分析。

在分析写作风格方面,通过多元分析中的两个独立样本的建设检验对于使用虚词的规律进行分析,从霍特林2T统计量的值我们看出,写作风格有着较大的不同。

聚类分析方法在文学作品风格比较中的应用

聚类分析方法在文学作品风格比较中的应用

聚类分析方法在文学作品风格比较中的应用作者:时季来源:《文教资料》2017年第33期摘要:本文从毕飞宇和苏童两人的作品中分别选取了四本影响力比较大的小说组建成语料库来作为本次实验的语料来源,选取出50多个可量化统计且具有稳定性的语言特征,进行聚类分析,发现,若以语气词(啊、吗、呀等)、标点符号(逗号、句号、分号、问号、感叹号等)和实词词类(名词、动词、形容词、副词等)这些语言特征为基础的话得到的结果比较好,说明这些语言特征在区别毕飞宇和苏童的小说时具有区别性作用。

关键词:计算风格学文本风格聚类分析 SPSS1.引言计算风格学是使用统计、计算的方法来对特定文学作品风格进行精密的比较研究是一门学科,是一门交叉型学科,是数理语言学的一个分支,涉及到语言学、计算机、数理学等多个学科。

其理论基础为认为文本的语言特征表现了作者个人在写作活动中的言语特征,是作者个人风格不自觉的深刻反映[1],并且这些特征又可以在一定程度上通过数量特征来进行刻画,关于这一点,有学者进行了实验验证[2]。

因此,相较于传统的内省式的研究文学作品风格的方法,计算风格学的方法具有独特的优势,比如对已得出的定性结论的正确性进行验证,为已有的定性结论提供数据支撑,这样,不仅能够弥补传统的文学作品风格研究方法客观性不足的问题,而且能够使研究结论从模糊的定性判断走向了准确的数量展示,增加研究结论的科学性。

因此,目前国内外已经有很多学者开始使用这样新的研究方法对文学作品的风格进行研究。

因为计算风格学的方法是通过量化文本中的语言结构单位来刻画、研究语体、作品或作家的风格,所以,最重要的地方在于提取出能代表或区分不同风格的语言特征,并且这些特征一定是可被量化统计且能够稳定出现的。

目前,已经提出、证实能够代表作家作品风格的、能够稳定出现的可量化统计语言特征主要是从词汇、句子、段落、语法、语义等五个方面来进行提取的,其中从词汇和句子两个层面来提取语言特征的情况最多,这主要是因为现在中文自动分词、词性标注、命名实体标注等技术相对来说比较成熟。

基于聚类分析的《红楼梦》前后作者差异检验

基于聚类分析的《红楼梦》前后作者差异检验

基于聚类分析的《红楼梦》前后作者差异检验作者:陈恩宏刘陈帅贾学勇来源:《西部论丛》2017年第10期摘要:《红楼梦》成为文学中“红学”的代表,被越来越多的人进行研究,其中前后作者写作风格的差异成为人们首要研究的问题。

本文从数学建模的角度出发,利用前后章节字、词、句定性定量的差异来证明前后作者不同。

首先将前后章节分为两个样本,选取实词“红”、“玉”以及8个虚词,统计得出各个词在前80回和后40回的使用频率,作为样本元素,接着选取显著性水平a=0.05,提出原假设,即两个样本之间不存在差异;最后将样本集元素进行排序,分别平均计算得到秩和统计量,代入数据结合曼—惠特尼检验统计量使用SPSS软件,得出检验值Z=11.7075,因为,拒绝原假设,可得出前后作者不同的结论。

再从计算前后章回中独有词的出现比例,直观体现出前后章回中词量的差异,接着统计每十章出现二元文法前200序列的次数,进行数据的归一化处理,形成单独样本,并利用欧式距离公式计算数据间的距离,利用MATLAB软件进行依次聚类,从聚类图可得出前80回中作者对相邻两词的使用习惯相似,但与后40回表达习惯差异较大。

接着将高频的实词和虚词同样进行频数统计与归一化,选取前后两部分样本均值作为聚类中心,得出前80回和后40回的样本点分别聚集在不同的区域内。

综上,从词量和词频的角度都可证明前80回与后40回作者不同。

关键词:曼—惠特尼U检验 N元文法聚类 k-means聚类1. 引言《红楼梦》流传至今,是一部以四大家族的发展兴衰为时代背景,以故事主人公的感情为主线,随着剧情发展不断揭示当代社会危机以及人性的善恶,已经成为我国小说的经典。

本书作者曹雪芹的写作风格新颖别致、摆脱俗套、备受后世读者赞叹。

但是在后续的保留和传播过程中,红楼梦遭到损坏,只保留下完整的80章,后续作者高鹗续写后40章,以此完善《红楼梦》。

《红楼梦》已经形成了独有的文学——“红学”,虽然《红楼梦》故事情节大致完整,但是作者不同,写作风格自然不同。

层次聚类方法 红楼梦

层次聚类方法 红楼梦

层次聚类方法红楼梦《红楼梦》是一部中国古代经典文学作品,被誉为中国古代小说的巅峰之作。

它以贾宝玉、林黛玉、薛宝钗等一系列形象的塑造为主线,展现了封建社会下人性的善恶、爱恨、欲望与矛盾。

本文将以层次聚类方法为题,从不同角度对《红楼梦》进行创作。

第一部分:贾府的兴衰起落在这个部分,我们将聚焦于贾府作为故事的背景。

贾府作为一个封建世家,拥有庞大的家族和财富。

然而,由于家族内部的争斗、权力的腐败以及外界的变故,贾府的兴衰起落成为整个故事的核心。

我们将描绘贾府昌盛时的繁华景象,以及家族面临的种种困境,展现出封建社会的冷酷和无情。

第二部分:爱恨情仇的纠葛在这个部分,我们将聚焦于人物关系的复杂性。

贾宝玉、林黛玉、薛宝钗等一系列形象的塑造让读者深刻感受到爱恨情仇的纠葛。

他们之间的情感纠葛、争斗和妒忌,展现了人性的复杂性和社会的残酷。

我们将通过描写他们之间的相互作用,展现出爱情的美好与痛苦,友情的真挚与背叛,以及家族利益与个人情感之间的冲突。

第三部分:封建礼教与女性命运在这个部分,我们将聚焦于封建礼教对女性命运的影响。

《红楼梦》中的女性角色生活在一个充满束缚和压抑的封建社会中。

她们被迫遵循封建礼教的规范,无法自由选择自己的命运。

我们将通过描绘她们的悲惨命运,展现出封建礼教对女性的压迫和剥削,以及她们对这种命运的反抗和追求自由的渴望。

第四部分:人性的善恶与道德观念的碰撞在这个部分,我们将聚焦于人性的善恶与道德观念的碰撞。

《红楼梦》中的人物形象各具特色,他们有的善良和忠诚,有的邪恶和狡诈。

他们的行为和选择展现了人性的复杂性和矛盾性。

我们将通过描绘他们的内心世界和行为,探讨人性的善恶、道德观念的碰撞以及对人性的深刻思考。

第五部分:现实与梦幻的交织在这个部分,我们将聚焦于现实与梦幻的交织。

《红楼梦》中,贾宝玉的梦境和现实世界交织在一起,给整个故事增添了神秘感和幻想色彩。

我们将通过描绘梦境和现实的转换,展现出现实世界的残酷和无奈,以及梦境中的遐想和追求,引发读者对现实与梦幻的思考和反思。

基于数理统计方法的红楼梦研究

基于数理统计方法的红楼梦研究

里约奥运“鲜”科技作者:暂无来源:《科学之友》 2016年第9期历届奥运会不仅是体育健儿们展示的舞台,也是科技装备的竞技场。

一场奥运观看下来,基本上也就了解了时代最前沿、最先进的科技。

这个夏天,体育运动正受到四年一度最密集的关注。

下面,我们就来回顾一下在2016年的里约奥运会上,都有哪些高新科技登台亮相。

VR转播虽然已经被媒体定义为12年来最节约的奥运会开幕式,不过,它幸运地赶上了视频技术的好时候。

没错,近两年来如日中天的VR将第一次出现在奥运会上。

奥运转播服务机构OBS将采用VR转播开闭幕式,除此之外,每天还会选择一个赛事进行VR画面转播,用户也可以在非比赛时间点播下载这些内容。

当然,限于目前VR技术的局限,VR转播并非实时进行,而是必须有所延迟。

VR是综合利用计算机图形系统和各种现实及控制等接口设备,在计算机上生成的、可交互的三维环境中提供沉浸感觉的技术,也叫作虚拟现实。

2015—2016赛季的美国职业篮球联赛(NBA)揭幕战是世界上第一场使用VR技术转播的比赛。

至此,VR与体育的结合越来越深入。

极限运动、高尔夫等比赛现场都进行过VR直播测试。

可以说,这一技术融入体育有着先天的优势。

众所周知,竞技体育非常注重观赏性,而面对年轻的观众,也越来越需要通过娱乐来提升他们的观感。

虚拟现实最直观的功能就是给人带来360°的沉浸式体验。

当前电视直播的观看体验根本无法与沉浸式的VR体验相提并论,那将是真正“身临其境”感受比赛过程的激烈刺激。

此外,日本NHK与OBS合作,将在日本国内采用8K超清转播技术及22路环绕立体声技术,转播内容涉及开闭幕式、游泳、篮球、足球、体操等。

据悉,此次里约奥运会采用的VR、8K超清转播服务,事实上还只能算是一场预演。

到了2020年东京奥运会,也许观众们将真正看到一届由这些技术进行实时转播的奥运会。

机器人拍摄技术体育运动的视觉展示不仅仅是视频转播的天下,传统的新闻图片一直占有一席之地,那是动与静的完美结合。

基于R软件和KNN算法的《红楼梦》作者分析

基于R软件和KNN算法的《红楼梦》作者分析

摘要:本文研究的是基于R 软件和KNN 算法的《红楼梦》作者分析,通过运用R 软件将《红楼梦》前80回预定为第一类,后40回预定为第二类,进行KNN 分类分析。

最后得到的结论为:不拒绝《红楼梦》为两个作者所写。

关键词:文本分析;《红楼梦》;KNN 分类一、引言现《红楼梦》全书120回,相传前80回是曹雪芹所作,后40回据说由高鹗续写。

因此其作者颇具争议。

在历史和文学方面有很多学着通过各类论证和文献考据进行《红楼梦》的作者的相关研究。

而采用统计方法进行研究的主要有:李国强[1]等的根据《红楼梦》的词频然后结合词频的相关性进行研究。

他将《红楼梦》的前中后各40回分为A、B、C 三部分,得到A、B、C 的相关度很高,但两两相关度很低的结论。

而施建军[2-3]则通过k-means 聚类和支持向量机两种方法进行研究,其支持向量机的方法得到了前80回和后40回在写作风格上存在明显差别的结论,但其聚类方法不能为判断作者提供可靠的依据。

叶雷[4]则通过基于计量文体特征的k-means 聚类对《红楼梦》的作者进行研究,得到了后40回和67回不是前80回作者所著等结论。

本文则通过运用R 软件将《红楼梦》前80回预定为第一类,后40回预定为第二类,进行KNN 分类分析。

二、KNN 分类分析基本思想及前期准备KNN 算法的核心思想是如果一个样本在特征空间中的k 个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。

根据《红楼梦》作者的假设,认为前80回为一个作者,后40回为另一个作者,因此可以认为当把《红楼梦》全部的120回当成样本时,如果前80回是属于同一类,则此时,该文本样本符合KNN 分类思想。

因为KNN 分类属于监督学习,所以KNN 分类需要训练集,有训练、测试、预测这个过程。

在此我们需要先整理出一个训练集、测试集、预测集,为方便起见本文令前80回为1类,后40回为2类,且训练集为前80回。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

聚类分析在红楼梦作者问题上的应用
2009-08-25 20:27:06| 分类:数学教育收藏|字号订阅
众所周知,《红楼梦》一书共120回,自从胡适作《红楼梦考证》以来,一般都认为前80回为曹雪芹所写,后40回为高鹊所续.然而长期以来这种看法一直都饱受争议.能否从统计上做出论证从1985年开始,复旦大学的李贤平教授带领他的学生作了这项很有意义的工作,他们创造性的想法是将120回看成是120个样本,然后确定与情节无关的虚词出现的次数作为变量,巧妙运用数理统计分析方法,看看哪些回目出自同一人的手笔.一般认为,每个人使用某些词的习惯是特有的.于是李教授用每个回目中47个虚词(之,其,或,亦…,;呀,吗,咧,罢……;可,便,就……等)出现的次数(频率),作为《红楼梦》各个回目的数字标志.之所以要抛开情节,是因为在一般情况下,同一情节大家描述的都差不多,但由于个人写作特点和习惯的不同,所用的虚词是不会一样的.利用多元分析中的聚类分析法进行聚类,果然将120回分成两类,即前80回为一类,后40回为一类,很形象地证实了不是出自同一人的手笔.之后又进一步分析前80回是否为曹雪芹所写这时又找了一本曹雪芹的其它著作,做了类似计算,结果证实了用词手法完全相同,断定前80回为曹雪芹一人手笔,是他根据《石头记》写成,中间插入《风月宝鉴》,还有一些别的增加成分.而后40回是否为高鹤写的呢论证结果推翻了后40回是高鹦一个人所写,而是曹雪芹亲友将其草稿整理而成,宝黛故事为一人所写,贾府衰败情景当为另一人所写等等.这个论证在红学界轰动很大,李教授他们用多元统计分析方法支持了红学界的观点,使红学界大为赞叹.
所谓聚类分析,顾名思义,就是按照某种标准,将样本物以类聚。

即使续作者刻意模仿作者的写法,但是文风是不能模仿的,而对虚词的使用是难以做到一致的,这就是标准(也就是统计量)所在。

李教授的工作便是证明了前八十回和后四十回在虚词的使用上截然不同。

而石头记与风月宝鉴的对比使用的则是因子分析的方法。

每一回四十七个虚词出现不同次数,而一共有120回,这样就构成一个47*120的矩阵,李教授在统计软件SPSS上分析这个大型矩阵得到以上结果,可信度甚高,因为它是完全客观不带有主观色彩的方法,仅从文本入手。

就凭这一点,比某些胡说八道的红学家强之百倍。

相关文档
最新文档