运用基于统计学建立的数学模型解决《红楼梦》作者之谜
“生物统计学”课程情感价值目标的探索与实现

“生物统计学”课程情感价值目标的探索与实现作者:连玲丽薛李春林世强何华勤来源:《科技风》2022年第25期摘要:“生物统计学”是一门理论性较强的课程,在科学研究中有重要作用。
绪论课作为整门课程的开篇,承担着向学生展现课程概貌、激发学生学习兴趣等多种功能。
以此章节为例,从学情分析、案例选择与组织、教学实施等方面探索课程情感价值的实现途径,包括采用文献资料法使案例内容更丰富饱满、采用问题导向和案例教学法融入情感价值元素使课堂教学更生动有效等,为课程其他章节及同类课程的教学改革提供借鉴和参考。
关键词:生物统计学;情感价值目标;教学实施;绪论课随着生命科学的发展和大数据的盛行,众多生物学问题被精确量化,由此产生的海量数据越来越依赖于统计学的分析。
因此,生物统计学作为生命科学研究中不可或缺的部分,一直以来是生物学类、医学类和农学类专业的必修课程。
本课程小组经多年实践发现,课程的工具性属性很容易使授课老师过多地强调知识传授和技能训练,而忽视情感价值的传递;同时课程理论性很强,涉及大量概念、公式和原理,也容易使教学过程的单一化和扁平化、造成课堂缺少温度。
因此,在课程中以讲故事、解案例、读文献等形式融入蕴含情感价值元素的实例[1],既有助于学生充分理解知识、增进技能,也有利于培养统计思维、提升人文素养,使教学模式更加多元立体。
其中,绪论课作为课程的开场,往往被赋予激发学生的学习兴趣、培养探索求实的品质、增强学习的自信心及营造和谐的教学情境[2]等多种功能,是达成课程情感价值目标的重要载体之一。
基于此,笔者以绪论课为例,从教学内容与学情分析、教学案例的选择与组织、教学实施与反思等层面探索教学改革的途径和方法,以期提升课堂教学质量。
1 教学内容与学情分析课程情感价值目标的构建和实现是以课程的知识、能力目标的达成为基础的,因而有必要首先对课程的知识与能力目标加以优化与重构。
1.1 比较分析以确定绪论课教学内容现有的相关教材中,第一章大致涉及五个部分内容,分别是统计学含义、统计学发展简史、统计学功能或作用、统计学应用、统计术语。
2021届北京交大附中高三语文第三次联考试卷及参考答案

2021届北京交大附中高三语文第三次联考试卷及参考答案一、现代文阅读(36分)(一)现代文阅读I(9分)阅读下面的文字,完成下面小题。
《红楼梦》是中华民族最伟大的文学经典之一,其中所传达和培育的人文精神、智慧、气度、神韵,已经融入我们民族的灵魂,被广泛地应用于各个领域。
《红楼梦》及其伴生的红楼文化,更是成为被广泛讨论和使用的文化元素,国家外交到百姓生活,从学术研究到普及型阅读,几乎随处都能看到《红楼梦》的身影。
人们常说《红楼梦》是中华文化的百科全书,可以联类无穷;或者如当代作家王蒙所说:“《红楼梦》是经验的结晶。
人生经验,社会经验,感情经验,政治经验,艺术经验,无所不备。
”的确,《红楼梦》不仅是绵延几千年中华文化的集大成之作,同时又开启了现代小说的先河。
但“红学”一诞生,就具有超越文学经验的学科性质。
“红学”作为一个跨学科的门类,文学经验是基础,多学科研究不能偏离此宗。
一门学科成为显学,往往是跨越了雅俗,超越了时代,成为新的知识与文化的生长点。
“红学”有历史学、社会学、政治学、文化学、民族学、美学、艺术学、园林学等的研究板块,有作者研究的板块、文本研究的板块、读者反映(审美接受)研究的板块,因此它的开放性是学科自身的要求和必然,也必须随着时代的发展而发展。
《红楼梦》既然有“百科全书”之誉,有“千门万户”之喻,那么排斥其他学科的研究,排斥其他方法的使用,不承认其他学科研究的成果,显然是不明智的。
在新时代的条件下,《红楼梦》及红学也已成为一种文化资源。
经典离不开时代,离不开社会,也离不开民众。
《红楼梦》作为一种文学资源的意义,在今天,已经获得了广泛的认同。
《红楼梦》作为文化创意之源,已经深刻地融入人们生活的各个方面。
以《红楼梦》为内容的文化创意活动和文化创意产业,成功的例子有河北正定县的荣国府及宁荣街、北京恭王府、北京大观园等。
这些地方而今已经成为享誉海内外的著名文化旅游胜地,也成为推动《红楼梦》当代传播的文化基地。
《红楼梦》第一迷案:曹雪芹是谁?

《红楼梦》第一迷案:曹雪芹是谁?前文通过对大观园及小说中的织造家源分析,《红楼梦》系曹寅家事说无疑。
《红楼梦》第一回开明宗义是“实录其事”,脂砚斋在多处批语:“非经历者,何写得出?”所以《红楼梦》的作者应是曹家红楼盛事的经历者。
但查遍五庆堂曹氏族谱,并无曹雪芹之名。
试想《红楼梦》闻世于乾隆年间,而乾隆效法祖先大兴文字狱,制造文字狱130多起,其中47案的案犯被处以死刑,株连者无数。
由此推断,为躲避政治迫害,曹雪芹应是一个笔名。
那曹雪芹是谁呢?胡适与周汝昌推断为曹頫之子,有的红学论者推断为曹頫,有的推断为曹颙,有的推断为曹硕。
他们的推断也并非主观臆想,有的来自耗费数载甚至一生的探究。
对于他们的论断,笔者不便辩驳。
但笔者通过对有关考据的综合分析,推定曹雪芹即是曹天佑。
曹天佑与在这大地上生存过的万千普通百姓一样,没有留下明显的印迹。
如果没有红学的兴起,他的名字如沧海一粟,淹于烟波浩渺之中。
他唯一现存于世的信息就是“五庆堂”《曹氏宗谱》(1744年修订)的记载:曹天佑(颙子,现任州同)。
曹颙病逝于康熙五十四年(1715)正月,曹頫过继给曹寅遗孀李氏为嗣,接替江宁织造之职。
同年三月初七,曹頫奏曰:“奴才之嫂马氏,因现怀妊孕已及七月。
恐长途劳顿,未得北上奔丧。
将来倘幸而生男,则奴才之兄(颙)嗣有在矣。
”这表明曹颙生前无子,曹天佑是曹颙的遗腹子无疑,按怀胎8个月的科学计算,他应当生于1715年4月。
根据甲戍本脂批“芹于壬午除夕而逝”的记载,曹雪芹逝于1763年。
如果曹雪芹是曹天佑,他死时是48岁。
曹雪芹生前好友张宜泉在诗中注明他“年末五旬而逝”,即年近五旬而逝,这与曹天佑的年龄非常吻合。
有人根据敦诚《挽雪芹》“四十萧然太瘦生”来判断曹雪芹享年只有四十岁,是很不客观的。
如果曹雪芹只有四十岁,张宜泉在诗中应注“年仅四旬而逝”,不可能写成“年末五旬而逝”。
所以“四十萧然太瘦生”应是虚指。
以下进行详细论证。
(一)年龄分析1、生日影证曹天佑的年龄在《红楼梦》中有相关的影证。
第六回文学巨作_红楼梦_我给雪芹改文章_统计学的故事_五_

2003-8・总第161期俄国著名数学家马尔可夫(1865-1922),在对俄语字母序列的研究中,提出了马尔可夫随机过程,后来扩展成统计学的一个分支,对现代统计学的发展产生纪 宏 袁 卫\文漫 笔开篇不谈《红楼梦》,读尽诗书也枉然,曹公若懂概率论,不让马尔可夫链。
——国际红学大会未入选论文了深刻影响。
语言结构中所蕴藏着的统计规律,成了马尔可夫创造性思想的源泉。
作为人类语言和文学发展的新方向,马尔可夫的思想和工作在统计学与语言文学的结合上具有开创意义。
而后,到了20世纪中期,文献计量学、数理语言学、计算风格学相继诞生。
统计学进入了一个全新的领域。
我国学者也开始涉足这方面的研究。
本文作者之一,袁卫教授1989年在其专著《统计推断思想》一书中,给我们讲述和分析了曹雪芹一个鲜为人知的故事。
在《红楼梦》第六十三回“寿怡红群芳开夜宴死金丹独艳理亲丧”中宝玉过生日,晚上请来了林黛玉、史湘云、薛宝钗、李纨、探春、薛宝琴等在怡红院玩摇骰子抽签的游戏。
大家围成一圈,按照摇出骰子的点数数到谁,谁就从签筒中抽出一签,按照签上要求或罚做诗、或罚喝酒。
按照电视连续剧《红楼梦》编剧周雷的考证, 6 5李纨 宝钗黛玉7湘云8宝玉9袭 芳 碧 四 春 秋 麝 晴人 官 痕 儿 燕 纹 月 雯10 11 12 13 14 15 16 1香菱2宝琴3探春4图1怡红院群芳开夜宴座位顺序其位顺序见图1:开始时,由晴雯第一个摇装有四个骰子的罐儿。
摇毕一看,是为5点,即3个1点和1个2点。
然后,由摇骰子本人晴雯算起,按逆时针方向数至第5人是宝钗。
由宝钗抽签、再摇、再数……依此类推。
见表1:我们感兴趣的是摇四颗骰子出现的点数分布,设这四颗骰子均为正常的骰子,则其分布律如表2所示:我们看到,晴雯、宝钗等共摇了八次,竟然有六次结果是小于百分之五(0.05)的小概率事件。
特别是晴雯和香菱分别摇出了概率为0.0031和0.0077的5点和6点。
这种小概率事件对于单独的一次来说,是不可能发生的。
江苏省南通市如皋市2022-2023学年高二下学期3月月考语文试题含解析

故选B。
【2题详解】
本题考查学生理解分析作者的观点态度的能力。
D.偷换主语,文中“尽管这里所提出的近代红学和现代红学的概念从时间上来看与旧红学和新红学的提法多有重合,……但红学的方法与观念还是发生了根本性的变革”可知,主语是“近代红学和现代红学”,而不是“旧红学”和“新红学”。
故选D。
【3题详解】
本题考查学生分析论点、论据和论证方法的能力。
C.《红楼梦》“将真事隐去”是把“真事”隐在了书中,蔡元培认为只要采用索隐的方法就能将把隐藏的“真事”找出来。
D.周汝昌的《红楼梦新证》,将历史中的曹家和文学作品中的贾家合而为一进行考证,是考证学“自传说”发展的顶峰。
基于数理统计的《红楼梦》前80回与后40回相关性的多指标综合分析

基于数理统计的《红楼梦》前80回与后40回相关性的多指
标综合分析
杨粟森;彭旭;赵映诚
【期刊名称】《电子世界》
【年(卷),期】2017(0)2
【摘要】一直以来,红楼梦的作者是否唯一是一个很受争议的问题.本文在数理统计的基础上对《红楼梦》的前80回与后40回以及把前80回分成两个40回的相关性作了比较分析.先利用U检验分别从多个指标进行相关性分析,判断结果不尽相同.然后利用多指标综合的层次分析法把多个指标的计算结果结合起来判断.统计结果表明:《红楼梦》的前80回和后40回相关性弱,前80回的两组相关性很强,因此,可以确定前80回和后40回非同一人所写.
【总页数】3页(P197-199)
【作者】杨粟森;彭旭;赵映诚
【作者单位】中国石油大学(华东)理学院;中国石油大学(华东)理学院;中国石油大学(华东)理学院
【正文语种】中文
【相关文献】
1.《红楼梦》前80回和后40回叙事结构的元语言标记对比研究 [J], 肖强
2.《红楼梦》前80回与后40回模式词语穷尽调查分析 [J], 陈春兰
3.《红楼梦》前80回与后40回某些文风差异的统计分析(两个独立二项总体等价
性检验的一个应用) [J], 韦博成
4.《红楼梦》中差比句式的运用──兼论前80回和后40回的差异 [J], 黄晓惠
5.《红楼梦》前80回与后40回密不可分之微观探析
——力证结束于常州运河畔毗陵驿的全书是曹雪芹原著 [J], 王继宗
因版权原因,仅展示原文概要,查看原文内容请购买。
从文本情感角度探究《红楼梦》作者问题

第29卷㊀第3期Vol.29㊀No.3北京印刷学院学报Journal of Beijing Institute of Graphic Communication 2021年3月Mar.2021从文本情感角度探究‘红楼梦“作者问题严志永(北京印刷学院,北京102600)摘㊀要:本文从文本情感角度来研究‘红楼梦“作者问题㊂人工智能中的情感分析技术能够预测指定文本属于积极类别和消极类别的概率㊂本文将‘红楼梦“的每一回划分成若干句子,使用百度飞桨提供的情感分析服务来预测每个句子的情感,将句子情感的平均值作为每回的情感㊂从情感波动范围㊁情感波动模式和情感均值三个方面对前80回和后40回进行分析,结果表明前80回和后40回有较大差异,这表明‘红楼梦“不是一个作者所写㊂关键词:情感分析;红楼梦;作者信息中图分类号:G633文献标志码:A文章编号:1004-8626(2021)03-0072-04一㊁关于‘红楼梦“作者的相关研究‘红楼梦“的作者问题是一个尚未尘埃落定的问题㊂对此,学界的看法包括如下几种:前80回为曹雪芹所作,后40回为高鹗续写;全部120回由一人所作;作者包含多人[1]㊂其中持第一种看法的较为普遍㊂近年来,随着计算机技术的发展,学界出现了若干采用计算机技术来分析‘红楼梦“作者问题的工作㊂王世海和施政对这些工作进行了总结[2-3]㊂下面列举几个有代表性的工作㊂瑞典汉学家高本汉和美国威斯康星大学的陈炳藻分别使用统计方法对‘红楼梦“的词汇进行分析,认为‘红楼梦“前80回和后40回为同一人所作[1]㊂陈大康从数理语言学角度使用计算机对‘红楼梦“的词㊁字㊁句采用CMNPHOB法进行145次分布检验,认为后40回并非曹雪芹所作[4]㊂李贤平通过对从‘红楼梦“中抽取的47个虚字进行层次聚类来分析‘红楼梦“的作者,认为该书是由不同作者在不同时期写成的[5]㊂张运良等使用K 近邻算法对‘红楼梦“的句类特征进行分析,发现前40回和中间40回句类风格类似,后40回和前80回句类风格差异较大,由此认为前80回和后40回作者不是同一个人[6]㊂施建军使用支持向量机对‘红楼梦“中抽取的44个虚字进行分类,得出前80回和后40回作者是两个人的结论[1]㊂马创新和陈小荷从从高频词等级相关角度来分析‘红楼梦“,认为前80回应是同一人所写,后40回应是另一人所写[7]㊂王阳阳使用朴素贝叶斯和BP网络神经两种分类方法对‘红楼梦“中的虚字进行分类,得出前80回与后40回作者不是同一人的结论[8]㊂周靖使用机器学习中的Bagging㊁Adaboost 和Rotation Forest三种算法对选取的100个高频词汇进行分类研究,结果表明前80回和后40回有明显差异[9]㊂姜娜娜使用机器学习中的支持向量机㊁Logistic回归算法和K-means算法从虚词㊁长短句㊁词性标注㊁特有词四个主要特征入手,结果表明前80回和后40回作者不是同一人[10]㊂总体来看,研究者主要使用计算机技术来对‘红楼梦“的字㊁词进行分析,尤其是对虚字进行分析㊂这里暗含的假设是字㊁词的使用频率能够反映作者的写作风格,并且作者的写作风格会保持稳定㊂余韵对巴金小说的文本进行计量分析(包括词长㊁词长分布㊁词汇丰富度㊁共现词与独有词㊁平均句长㊁断句句长㊁句长分布㊁实词和虚词的分布㊁高频词与低频词的词性分布㊁人称代词的使用情况),发现巴金小说没有明显体现出创作分期现象,创作风格在语言结构上具有高度的一致性[11]㊂该研究为通过写作风格来分析‘红楼梦“作者提供了支持㊂从研究趋势上来看,早期的研究主要使用统计㊀㊀收稿日期:2020-11-25基金项目:北京印刷学院校级项目 社会化媒体文本校对工具研发 (编号:Ef202005)㊂方法(如主成分分析㊁典型相关分析),近期的研究则大量使用了人工智能中的聚类(如层次聚类算法㊁K-means算法)和分类技术(如K近邻算法㊁如支持向量机㊁朴素贝叶斯㊁BP神经网络),本文使用人工智能中的文本情感分析技术对这个问题进行探究㊂二㊁文本情感分析技术简介情感分析(Sentiment Analysis)是目前人工智能领域自然语言处理中的一个热门任务,也是计算传播学中的一项重要内容[12]㊂情感分析 主要探究人们对新闻报道㊁热点话题㊁突发事件的情感倾向 ,并分析 由此产生的对特定主题的态度 [13]㊂情感分析可以进行积极㊁中性㊁消极等粗粒度分类,也可以进行喜㊁怒㊁哀㊁乐等细粒度分类[13],其中后者又可以称为情绪分析[14]㊂在计算传播学领域,情感分析技术主要用来分析人们对于事件㊁话题㊁产品和服务等对象的态度,具体包括用户评论的情感倾向分析和口碑营销㊁社会化媒体虚假信息的判定以及社会化媒体的情绪刻画与情绪传播[12]㊂在计算传播学领域,情感分析还可以应用于政治传播领域,如检测推文对美国总统候选人的态度[15]㊂情感分析技术可以用于比较观点挖掘㊁垃圾评论检测㊁情感演化分析㊁情感与话题传播分析㊁结合观点的商品推荐[16]㊂从实践来看,情感分析技术所处理的文本主要包括微博㊁评论㊁新闻等㊂这类文本数量巨大,并且每天都会增加很多,仅靠人工分析很难达到所需要的处理速度㊂本文探讨将情感分析技术应用于小说这样的长篇文本㊂文本情感分析的技术包括基于词典匹配的方法和有监督机器学习情感分类方法[12]㊂有监督机器学习情感分类首先对文本进行分词㊁去除词根和停用词等预处理,然后挑选一部分文本人工标注情感作为训练集和测试集,之后进行特征选择以降低文本特征空间的维度,接着将分类算法在训练集上进行训练得到分类模型,最后在测试集上对分类模型进行评估[12]㊂文本情感分析所使用的机器学习算法包括朴素贝叶斯算法㊁K近邻算法㊁支持向量机等[16]㊂在深度学习兴起之后,出现了大量使用深度神经网络进行情感分析的技术㊂陈凌和宋衍欣使用LSTM (Long Short Term Memory,长短期记忆网络)对微博上台风 利奇马 事件的相关推文进行情感分析,剖析用户情感演化规律[17]㊂李井辉等使用CNN(Convolutional Neural Networks,卷积神经网络)和LSTM对电影评论数据进行了情感分析[18]㊂目前有很多开放的情感分析工具,例如对于Python语言有Textblob㊁Snownlp等程序包㊂百度的飞桨(PaddlePaddle)开源深度学习平台也提供了文本情感分析服务㊂飞桨平台提供了多种深度神经网络的预训练模型,包括CNN㊁LSTM和ERNIE(Enhanced Repre-sentation through kNowledge IntEgration)等,其中ERNIE模型的预测准确率最高,达到95.4%[19]㊂ERNIE模型预测结果包括属于积极类别的概率㊁属于消极类别的概率和情感标签㊂属于积极类别的概率和属于消极类别的概率都介于0和1之间,并且二者之和为1,情感标签根据属于两个类别概率的相对大小给出㊂本文使用属于积极类别的概率作为情感评分㊂使用文本情感分析技术对小说作者进行分析的一个假设是作者写作的情感风格保持稳定㊂从情感分析所使用的技术可知,机器学习算法是以文本的用词作为特征来进行情感分类,而根据余韵对巴金不同时期小说写作风格一致性的研究可知,作者在小说写作的用词和构句上具有稳定性,这表明作者的写作情感风格也会保持稳定㊂也就是说,本文使用文本情感分析技术来分析‘红楼梦“的作者与之前研究者使用统计方法和机器学习方法分析‘红楼梦“的作者所依据的假设是一样的,本文没有做额外的假设㊂三㊁基于文本情感的‘红楼梦“作者分析本文使用百度飞桨平台提供的ERNIE情感分析模型对‘红楼梦“的文本进行情感分析,根据各回的情感评分来分析‘红楼梦“的作者问题㊂在对各回做情感分析时,将一回划分成若干句子,分别使用ERNIE模型来预测每一个句子的评分,最后对所有句子的情感评分进行平均得到该回的情感评分㊂本文将ERNIE情感分析模型预测的属于积极类别的概率作为情感评分㊂在将各回划分为句子时,采用下面的规则: (1)对于人物说话,引导语和引号内的话作为一个句子;(2)对于非人物说话,以句号㊁问号和感叹号作为一句话结束的标志㊂‘红楼梦“各回的情感评分见表1和图1㊂从表1和图1可知,‘红楼梦“120回各回的情感评分37第3期严志永:从文本情感角度探究‘红楼梦“作者问题并不是一成不变的,而是在保持基本稳定的情况下在一定范围内波动㊂表1㊀‘红楼梦“各回情感评分㊀㊀从表1和图1可以看出,‘红楼梦“前80回的情感评分变化模式和后40回的情感评分变化模式不同㊂首先,前80回的情感评分波动范围更大㊂从表1可知,前80回的最大值为0.742(第2回‘贾夫人仙逝扬州城,冷子兴演说荣国府“),最小值为0.522(第80回‘美香菱屈受贪夫棒,王道士胡诌妒妇方“),二者之差为0.220;后40回的最大值为0.695(第120回‘甄士隐详说太虚情,贾雨村归结红楼梦“),最小值为0.544(第112回‘活冤孽妙尼遭大劫,死雠仇赵妾赴冥曹“),二者之差为0.151㊂其次,从情感评分波动模式来看,以局部最低点为标志,可以把前80回划分为7个部分(局部最低点放在前一部分中),每部分包含的回数为12㊁8㊁13㊁11㊁15㊁10和11;可以把后40回划分为3个部分,每部分包含的回数为23㊁9和8㊂前80回的情感评分波动模式较为清晰,大约11回就会出现以局部最低点区分的区间;而后40回的波动模式不太明显,因为三个区间包含的回数相差很大㊂最后,从表1的数据可知,前80回的情感评分的平均值为0.641,后40回的情感评分平均值为0.619㊂前80回的情感评分的中位数为0.644,后40回的情感评分中位数为0.619㊂前80回的情感评分的标准差为0.049,后40回的情感评分的标准差为0.035㊂双样本异方差假设下双尾t 检验结果表明前80回和后40回情感评分均值显著不同㊂从上述分析可知,前80回较后40回情感评分波动范围大,前80回和后40回的不同回之间情感波动模式也不同,从情感均值来看前80回和后40回有显著不同㊂总之,从文本情感来看,前80回和后40回有较大差异㊂由此,本文认为‘红楼梦“的前80回合后40回不是同一个作者所写㊂图1㊀‘红楼梦“各回的情感评分㊀本文研究虽然能够在一定程度上揭示‘红楼梦“的作者不只有一人,但仍有以下需要改进的地方㊂首先,和现有的很多研究一样,本文一开始就接受了红学界的主流观点,认为‘红楼梦“的作者争议出现在前80回和后40回,所以在分析各回的情感评分时,将前80回作为一个整体,将后40回作为另一个整体㊂因此,本文仅仅是从一个新的角度来验证了红学界的主流观点㊂未来可以深入研究每一回更细微的情感变化㊂其次,本文使用的百度飞桨平台的ERNIE 情感分析模型是基于现代汉语来训练的,‘红楼梦“虽然是白话小说,但是成书距今至少有200年的时间,语言习惯可能与现在不同,使用现代汉语的语言情感模型去预测200年前的白话小说的情感可能有一定偏差㊂未来可以基于古代汉语的语料对ERNIE 情感分析模型进行细47北京印刷学院学报2021年调以获得更精准的情感分析㊂四㊁总结与展望本文从文本情感的角度对‘红楼梦“120回的文本进行了情感分析,从情感波动范围㊁情感波动模式和情感均值三个方面分析的结果表明前80回和后40回的文本情感具有比较明显的不同,因此得出‘红楼梦“的前80回和后40回不是同一作者所写的结论,从而从一个新的角度验证了红学界的主流观点㊂目前人工智能界投入了很大精力来研发文本情感分析技术,也取得了重要的进展,不过在应用上还是集中在传统的意见分析领域㊂可以将该重要技术用于更广泛的领域,如作者写作风格的分析㊁图书的审读等㊂参考文献:[1]㊀施建军.基于支持向量机技术的‘红楼梦“作者研究[J].红楼梦学刊,2011(5):35-52.[2]㊀王世海.论数理统计方法研究‘红楼梦“作者问题的得与失[J].宜春学院学报,2019,41(4):105-109.[3]㊀施政.‘红楼梦“研究中的统计方法综述[J].吉林省教育学院学报,2019,35(1):151-156.[4]㊀陈大康.从数理语言学看后四十回的作者 与陈炳藻先生商榷[J].红楼梦学刊,1987(1):293-318.[5]㊀李贤平.‘红楼梦“成书新说[J].复旦学报(社会科学版),1987(5):3-16.[6]㊀张运良,朱礼军,乔晓东,等.基于句类特征的作者写作风格分类研究[J ].计算机工程与应用,2009,45(22):129-131,223.[7]㊀马创新,陈小荷.从高频词等级相关角度探析‘红楼梦“作者[J].中文信息学报,2018,32(11):97-102.[8]㊀王阳阳.基于朴素贝叶斯与BP 网络神经分类方法的‘红楼梦“文本特征差异研究[J].统计与决策,2018,34(13):121-125.[9]㊀周靖.基于机器学习的‘红楼梦“作者问题研究[D].昆明:云南大学,2018.[10]姜娜娜.基于机器学习的‘红楼梦“作者研究[D].杭州:浙江大学,2018.[11]余韵.巴金前后期小说的计量风格学研究[D].武汉:华中师范大学,2017.[12]张伦,王成军,许小可.计算传播学导论[M].北京:北京师范大学出版社,2018:11.[13]吴小坤,赵甜芳.自然语言处理技术在社会传播学中的应用研究和前景展望[J].计算机科学,2020,47(6):184-193.[14]李然,林政,林海伦,等.文本情绪分析综述[J].计算机研究与发展,2018,55(1):30-52.[15]巢乃鹏.人工智能与计算传播学[J].人民论坛㊃学术前沿,2019(20):20-31,107.[16]林政,靳小龙.文本情感分析[M].北京:清华大学出版社,2019:11.[17]陈凌,宋衍欣.基于公众情绪上下文的LSTM 情感分析研究 以台风 利奇马 为例[J].现代情报,2020,40(6):98-105.[18]李井辉,孙丽娜,李晶.基于LSTM 的评论文本情感分析方法研究[J].微型电脑应用,2020,36(5):1-4.[19]情感倾向分析[EB /OL].(2020-02-18)[2020-09-25].https:ʊ /PaddlePaddle /modelstreedevelop /PaddleNLP /sentiment_classification.(责任编辑:周宇)Author Identification of A Dream of Red Mansions Based on Text SentimentYAN Zhiyong(Beijing Institute of Graphic Communication,Beijing 102600,China)Abstract :This paper proposes an author identification method for A Dream of Red Mansions based ontext sentiment.Sentiment analysis technologies of artificial intelligence predict positive and negativeprobabilities of given text.This paper divides every chapter of A Dream of Red Mansions intosentences.Sentiment analysis service of PaddlePaddle provided by Baidu is used to predict sentiment score of every sentence.Then the mean of sentiment scores of all sentences of a chapter is used as thesentiment score of the chapter.This paper analyzes the former 80chapters and the latter 40chapters from sentiment fluctuation range,sentiment fluctuation pattern and sentiment means.Results show that there are differences between the former 80chapters and the latter 40chapters,which implies thesetwo parts were written by different authors.Key words :text sentiment;A Dream of Red Mansions;author identification57第3期严志永:从文本情感角度探究‘红楼梦“作者问题。
基于机器学习的红楼梦作者鉴定

基于机器学习的红楼梦作者鉴定车东宇;李新靓;王心如;吴宇航【期刊名称】《新一代信息技术》【年(卷),期】2018(001)003【摘要】《红楼梦》是中国古典小说巅峰之作,中国封建社会的百科全书,传统文化的集大成者,但由于历史原因,《红楼梦》在传播和保留过程中出现了令人遗憾的缺失,目前公认的版本是前80回为曹雪芹本著,高鹗续后40回,现通过建模佐证前80回与后40回作者不同。
用朴素叶贝斯分类器通过字的频率,判别《红楼梦》的章回作者不同。
首先,对每一章节进行分词,建立词频矩阵;接着使用非参数检验剔除显著性不大的人称代词;然后筛选出所有在每一章回出现大于6次的字;最后将频繁出现的字创建指示特征,利用红、玉等125个特征,训练朴素叶贝斯分类器,成功预测出作者的不同,预测正确率高达97%。
针对词的判断,首先引入红楼梦词语等细胞词库,使章回分词更加精确;接着,筛选出与文章情节关联不大的词语,计算词在每一章出现的频率的标准差,选择标准差小于0.9的词语作为特征;最后利用“宝玉”,“咱们”等256个词语作为特征训练建立的朴素叶贝斯分类器,成功预测出作者的不同,正确率高达95%。
【总页数】7页(P41-47)【作者】车东宇;李新靓;王心如;吴宇航【作者单位】华北理工大学理学院河北唐山063210华北理工大学数学建模创新实验室河北唐山063210;华北理工大学以升创新教育基地河北唐山063210华北理工大学数学建模创新实验室河北唐山063210;华北理工大学以升创新教育基地河北唐山063210华北理工大学数学建模创新实验室河北唐山063210;华北理工大学数学建模创新实验室河北唐山063210河北省数据科学与应用重点实验室河北唐山063210【正文语种】中文【中图分类】I20【相关文献】1.《红楼梦》原作者只能是曹颜?\r——与《〈红楼梦〉原作者非曹雪芹论》一文作者商榷 [J], 李琰2.基于机器学习的红楼梦作者鉴定 [J], CHE Dong-yu;LI Xin-liang;WANG Xin-ru;WU Yu-hang3.基于NLP和机器学习的短文本作者识别算法 [J], 吴桂玲4.乾隆时人是怎样看《红楼梦》的原作者的——兼评胡适对《红楼梦》作者的考证[J], 曾扬华5.于煜称《红楼梦》的作者是任丘人边连宝——《红楼梦》的作者是曹雪芹吗?[J], 祁艺因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
y2 ,…,yn ,并在直角坐标系上制得散点图,并用最小二乘法 拟合出词频 ——— 虚词序次直线. 其中,b 为该直线在 y 轴上
的斜率,a 为该直线在 x 轴上的截距,且满足方程如下:
n
{ ∑( xi - x) ( yi - y) b = i=1 n ∑( xi - x) 2 i =1
n
∑xiyi - nx y
准. 求解过程中 21 ~ 30 回和 101 ~ 110 回被随机选中. 剩余
10 节分别以这两节的顺序为基准,构建一元线性回归方程,
通过对线性相关系数及斜率的比较,将剩余 10 节归入到误
差较小即在标准数据内的那组,由此确认 120 回中哪几回
属于同一个作者.
使用盲眼测试法,即将章回数当作未知数据,通过将该
= i=1 n
,
∑x2i - nx2
i =1
a = y - bx.
线性相关系数( R2 ) : 由于之后的线性回归模型需要以
一个同类随机样本虚词的顺序为基准,因此,两个变量之间
的关系强度无法得到保证. 此时需要计算每条拟合直线的
线性相关系数,即 R2 来判断两个变量之间的线性关系密切
程度,在该问题中 表 现 为 虚 词 的 位 次 与 频 率 是 否 大 致 与 随
现频 率 较 高 的 虚 词: 吗、仍、越、让、其、比、但、可; 使 用
MATLAB 语言对这 8 个虚词的出现次数及频率进行统计;
数学学习与研究 2019. 7
高教视野
16
GAOJIAO SHIYE
以前 50 回中 8 个虚词的频率升序为基准,将前后两部分的
数据制作成散点图,并绘制出各自的线性回归方程. 两方程
小节以两个数据基准数据得出的散点图及线性回归方程与
其基准进行比较,得 出 更 接 近 基 准 的 该 组 即 为 该 小 节 所 属
部分.
以 31 ~ 40 回小节为例进行归类,将两组数据的相对差
距进行比较:
以 21 ~ 30 回为基准时,线性相关系数为 0. 765 223 92,
拟合效果出色,适合进行方程截距比较; 截距与基准之比为
机样本一致.
观测数据( xi ,yi ) ,i = 1,2,…,n 的样本相关系数
n
∑( xi - x) ( yi - y)
R=
i =1
n
n
槡∑ 槡∑ ( xi - x) 2 i =1
( yi - y) 2
i =1
n
∑xiyi - nx y
=
i =1
.
槡( ) 槡( ) n ∑x2i - nx2 i =1
x→0
x→0
limf(
x→0
x) x2
-
x为“
0 0
”未 定 式 (
满足洛必达法则的第一个条
件) ,综上分析可知洛必达法则的前两个条件满足,所以可
先用洛必达法则.
第二个等号用的也是洛必达法则,但是错误的. 因为函
数 f( x) 在点 x = 0 处二阶可导,即 f' ( x) 在点 0 处可导,但
f'( x) 在点 0 的某个邻域内不一定可导( 由命题 3 可知) ,这
( 上接 14 页)
命题 3 函数在一点处可导的话,函数在这点的某个邻
域内不一定可导.
下举一个应用 上 述 三 个 结 论 的 例 子,而 学 生 常 常 因 为
对上述三个结论不清楚而产生错误的解法. 例 2[2] 设函数 f( x) 在点 x = 0 处二阶可导,且 f( 0) =
0,f'( 0)
数学学习与研究 2019. 7
n
∑y2i - ny2
i =1
根据统计 学 知 识,在 本 数 学 模 型 中 规 定: 当 0. 75 <
R2 < 1 时,拟合效果出色; 当 0. 25 < R2 < 0. 75 时,拟合效果
良好; 当 0 < R2 < 0. 25 时,拟合效果较差.
由假设可知,同一作者作品中虚词词频是一致的. 因
比为00..
392 855
719 150
34 40
= 0.
459
240
082.
再将比值与标准数据
1 ± 0. 1 进行绝对差距比较,发现远超出可承受范围.
由于第 31 ~ 40 回与 21 ~ 30 回拟合效果出色,比值在合
理范围内; 与 101 ~ 110 回拟合效果较差,比值超出范围. 因
而,可以得出 31 ~ 40 回小节属于前 80 回.
斜率的差即为该 问 题 中 可 接 受 的 误 差,即 在 该 范 围 内 可 认
为两篇文本出自同一作者.
进行多组数据比对,作者认为以 1 ± 0. 1 为标准数据具
有适用性.
六、模型的求解
为使数据尽量可控、精细,将《红楼梦》以每 10 回划分
为 1 节,分别从前 8 节和后 4 节中各抽出 1 节作为顺序基
0. 0.
765 810
223 458
92 30
= 0.
944
186
666,将该比值与标准数据
1
±
0.
1Hale Waihona Puke 进行绝对差距比较,发现在可承受范围内.
以 101 ~ 110 回 为 基 准 时,该 小 节 线 性 相 关 系 数 为
0. 392 719 34,拟合效果偏差,不宜进行方程截距比较; 为使
得结果更合理、有力,进一步进行截距比较: 截距与基准之
此,如果各章节作者相同,那么相同的一组虚词按照不变的
排序后,所拟合出的直线近似一致. 并且,由于相同虚词在
不同作者作品中词 频 不 同,所 以 一 组 虚 词 按 照 不 变 的 顺 序
排序后,拟合出的词频 - 虚词直线一般不同,且拟合效果一
般较差. 同时,相关系数也与拟合直线的斜率一同作为判断
依据: 当斜率相差小且拟合效果好时,认为匹配成功; 否则,
f( x) 在点 0 某个邻域内是一阶可导( 满足洛必达法则的第
二个条件) ,又由命题 2 可知,函数 f( x) 在点 x = 0 处二阶可
导,则 f( x) 在点 0 处是连续的,所以 limf( x) = f( 0) = 0,从 x→0
而 lim[f( x) - x] = 0,而分 母 的 极 限 lim x2 = 0,所 以 极 限
= 1,f″( 0)
= 2,求
limf(
x→0
x) x2
-
x.
在该例中,学生常出现的错误解法为
limf(
x→0
x) x2
-
x
=
limf'(
x→0
x) 2x
-
1
=
limf″( x) x→0 2
=
1 2
f″(
0)
= 1.
在这个解法中,第一个等号用的是洛必达法则,是正确
的. 因为由命题 1 可知,函数 f( x) 在点 x = 0 处二阶可导,则
高教视野
GAOJIAO SHIYE
15
运用基于统计学建立的数学模型解决《红楼梦》作者之谜
◎陈城钰 于欣雨 苏世杰 ( 西北工业大学,陕西 西安 710000)
【摘要】本文借助数学知识建立一元线性回归模型,利 用最小二乘法来 拟 合 出 虚 词 频 率 直 线,通 过 分 析 虚 词 频 率 的差异,来推断《红楼梦》作者的问题. 根据建模分析,得出 前 80 回与后 40 回不是同一个作者的结论.
认为匹配失败.
五、标准数据设立
为了论证虚词 词 频 的 异 同 能 够 体 现 作 者 的 异 同 ,首 要
任务是建立各线性回归方程斜率之间的可承受误差区间,
即标准数据. 本文选用已确认由唯一作者书写的《西游记》
为参数来源.
数据获得步骤: 将 100 回的《西游记》平均分为前后各
50 回两个部分; 通过 Python 语言及 Jieba 分词插件得出总出
结论.
【参考文献】 [1]李贤平.《红楼梦》成书新说[J]. 复旦大学学报社 科版,1987( 5) : 3 - 16. [2]韦博成. 红楼梦前 80 回与后 40 回某些文风差异的 统计分析[J]. 应用概率统计,2009( 4) : 441 - 448. [3]吴军. 数学之美: 第 2 版[M]. 北京: 人民邮电出版 社,2014. [4]韦博成. 漫谈统计学的应用与发展[J]. 数理统计与 管理,2011( 1) : 85 - 97.
【关键词】红楼梦; 线性回归; 词向量
《红楼梦》是具有高度思想性和艺术性的伟大作品,因 某些历史原因,在传播过程中出现了增补、修订的现象. 本 文借助数学模型,对《红楼梦》前 80 回与后 40 回作者是否 为同一人进行了研究.
一、问题的分析 本文作者在前期研究中发现,《红楼梦》主要人物出现 的频率受小说情 节 的 影 响 较 大,虽 能 在 一 定 程 度 上 体 现 出 作者的差异,但并不明显. 现代汉语言文 学 研 究 认 为,虚 词 的 使 用 更 能 够 体 现 出 作者的写作习惯与语言风格. 因此,通过大规模的统计与合 理地建模,对不同章回中相同的虚词进行频率分析,得出每 章回作者的语言习惯,在误差范围内进行比较和判断,可判 断不同章回之间作者的异同. 二、模型假设 1. 同一个作者,认为他对词、句法的使用习惯基本保持 不变,作品中的虚词出现频率几乎没有差别; 2. 不同的作者之间,词汇的使用习惯、词与词的相关性 处理、长短句的偏好有较大的差别; 3. 本次所用《红楼梦》版本为作者成书时原貌,成书后, 除去遗失的原稿外,在传播过程中无其他人的修订. 三、数据概览 在使用模型对虚词词频进行分析之前,使用 MATLAB 语言对虚词在前 后 章 节 中 出 现 的 次 数 差 异 进 行 了 统 计 ,为 模型的建立及其结果提供有力论据. 采用 Python 语言及 Jieba 分词插件进行词频统计,挑选 了“再、可、别、为、之、啊、咧、吗、呀、仍、要、也、尚、偏、很、 比、越、往、向、让、故、皆”22 个在一般古汉语中高频出现的 虚词进行统计比 对,发 现 对 虚 词 的 使 用 偏 好 在 前 后 两 部 分 出现了巨大差异,如“吗”在前半部分出现频率 0. 0375 次 / 回,而在后半部分出现频率 1. 875 次 / 回,验证了前后部分 是由语言习惯相差明显的两位作者分别完成的推论. 之后 的模型求解均基于该理念完成. 四、模型的建立 本文通过建立一 元 回 归 方 程,对 虚 词 频 率 位 次 的 分 析 来估计不同文本之间虚词的频率异同. 作者取样同一部小 说中的大量虚词,根据虚词的频率从小到大排列,视其位次 为自变量 x1 ,x2 ,…,xn . 以虚词对应的频率为因变量,记 y1 ,