红楼梦文本分析
红楼梦文本分析

2013高教社杯全国大学生数学建模竞赛(选拔赛)承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从A/B/C/D中选择一项填写):我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):参赛队员 (打印并签名) :1.2.3.指导教师或指导教师组负责人 (打印并签名):日期:年月日赛区评阅编号(由赛区组委会评阅前进行编号):队员信息表(必须如实填写)学号姓名所属院专业年级电话指导教师是否有笔记本周怡数学与统计学院统计学2011 未选定段熙玉数学与统计学院统计学2011 未选定林阳机电与信息工程软件工程2010 未选定注:如未选定指导教师可不填写“指导教师”一栏。
2013高教社杯全国大学生数学建模竞赛(选拔赛)编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):对《红楼梦》文本的计算机识别方法的研究与设计摘要本文通过对文本人物关系、文本结构分层、作者行文风格的分析来分析中文文本。
针对问题一,我们运用聚类分析和层次分析建立模型从物理结构与逻辑结构两方面来分析文本,我们提取文本中和文本标题中的人名作为特征项,用matlab编程分别统计每个人名在各个段落中的频数。
通过运用主成分分析法对文本进行的分析我们得出自变量与常数项几乎不相关,因此不需要采取主成分回归分析。
高中语文课文《林黛玉进贾府》文本分析

浅析《林黛玉进贾府》人物描写的独到之处摘要《林黛玉进贾府》是高中语文必修三中的第一课,节选自《红楼梦》第三回。
在这篇课文中,贾府主要人物接连完成出场。
曹雪芹运用多种表现手法,刻画了一个个生动饱满的人物形象。
文章旨在分析人物形象,感受曹雪芹的艺术造诣,学习其塑造人物的多样化手法。
关键字《红楼梦》人物出场刻画手法在小说作品中,主要人物出场时的描写对人物形象塑造具有十分重要的作用,也是读者对小说人物的第一映像的来源。
《林黛玉进贾府》是《红楼梦》中第一次,也是最重要最集中的一次主要人物出场描写.著名红学家马瑞芳曾经说道:“黛玉进府是古今中外把人物的出场写得最为尽善尽美一个章节”.作者围绕“黛玉进府”这一中心事件,以林黛玉进贾府第一天的行踪为线索,或详或略、或实或虚地先后描写了林黛玉、贾母、邢、王二夫人、李纨、贾氏三姐妹、王熙凤、贾赦、贾政、贾宝玉、袭人等众多的人物。
尤其是对林黛玉、王熙凤、贾宝玉等几个主要人物的出场描写,作者匠心独具,综合运用了多种描写手法,使他们一出场亮相就展现出各自鲜明的性格特征一、人物出场的精心构思在《林黛玉进贾府》中,作者是通过林黛玉的眼睛写其他人物的。
黛玉辞别父亲,千里迢迢来到京城投靠外祖母,从礼节上来说,一到贾府必定要拜见自己的长辈,与同辈的姐妹也要一一见面,这是行文的必然,也是情理的必然。
因此林黛玉的到来,就自然地引出了贾府中大大小小人物的出场.而关于孰先孰后,作者做了精心的安排:“黛玉方进入房时,只见两个人搀着一位鬓发如银的老母迎上来,黛玉便知是他外祖母。
方欲拜见时,早被他外祖母一把搂入怀中,,心肝儿肉叫着大哭起来.当下地下侍立之人,无不掩面涕泣,黛玉也哭个不住。
一时众人慢慢解劝住了,黛玉拜见了外祖母。
———此即冷子兴所云之史氏太君, 贾赦贾政之母也。
当下贾母一一指与黛玉:‘这是你大舅母;这是你二舅母;这是你先珠大哥的媳妇珠大嫂子。
'"就这样邢夫人、王夫人、李纨就都一笔带过。
《红楼梦》文本献疑

为雪 芹手 笔 。又 ,打去 ” “ ” 为后 缀 , “ ,去 作 是湘 方言 重要 的表达 方式 。如 “ 吃去 ” “ 、玩去 ” “ 、告去 ” 等 。 等 “ ” 读作 k , 去 , e人声 ( 音客 )。红研所 本作 “ 呢” 离原 始文本 远 了些 。 去 ,
四 唬
第 五 回—— “ 玉听 如此说 , 唬得欲 退不能 退 ……” 宝 便
此处 为 “ 、失 ” 词吗 ?感谢 原始 文本作 者 的智 慧 , 感谢 雪芹 等人 的慎 重 , 留了这 一颇 为 独特 诙 冒” “ 一 亦 保
谐 的语意 表达 。
三 失 了家
收稿 日期 :09— 4—0 20 0 8 作 者简介 : 邓牛顿 , ,9 0年生 , 男 14 湖南长沙人 , 上海大学教授。
41
第五 回—— “ 玉在梦 中欢 喜 , 宝 想道 :这个 去处 有趣 , ‘ 我就 在此 处 过一 生 , 总然 失 了家也 愿 意 , 如 强
天天 被父母 、 傅打去 。 …… ” 师 ’ 周汇 校本 注 : 了家 , 失 虽摹 拟小儿语 态 , 实复后 文有家 亡人 散之境 , 总非 闲笔 。 邓说 : 老所言很 对 !需要 说 明的是 , 失 了家 ” 在 湘 方 言 中为 “ 了屋 ” 周 “ , 失 。将 “ ”改为 “ ” 疑 屋 家 ,
不懂 这个 缺笔 画 的“ 字 之义 , 昌” 于是 揣测加 注 “ 顶撞 ” 一类 的词 汇之 意 , 造成 语 义欠 通 。依 上 下文 义 , 愚 见 以为原始 文本 大约 为 “ 冒失 ” 一词 。说 到此处 , 获神 悟 : 冒” 下头 一横 丢失没 有 了 , 顿 “ 字 这不 就 是寓 意
邓说 : , 耕 娘胎 里带来 的体 斑 。典 型的湘 方言 , 当为原始 作者 以音 记字 。
部编版高中语文必修下册《红楼梦》整本书阅读教学分析学案

高中语文《红楼梦》整本书阅读教学分析就中学阶段中国古代小说教学的实际情况而言,受课程体制、教学时间、师生精力等多种因素的限制,短篇小说更适合中学语文的教学需要,而长篇小说只能以短篇小说的形式进入语文教学。
长篇小说与短篇小说的区别并不仅仅体现在篇幅上,两类体裁的作品对人物、情节、时空、结构等方面的安排处理乃至创作手法都有明显的不同。
仅就人物形象的塑造而言,限于篇幅,短篇小说只能从特定角度截取其人生的一个片段,突出其某一个方面的特点。
而长篇小说则可以较为完整详细地描写其人生的各个时期、多个方面。
同样,短篇小说只能展现人物性格中的某一个方面,而长篇小说则可以充分展示其性格的各个层面,展现其性格的形成过程,写出人物形象的多元性、丰富性和复杂性。
总的来说,短篇小说中的人物通常是扁平的,而长篇小说中的主要人物则多为立体的。
将长篇小说剪裁为短篇小说进入中学语文教学,往好处说,是尝鼎一脔,通过精彩片段的学习领略全书之一斑,但其缺憾也是很明显的,那就是挂一漏万,只能领略作品的部分佳处,把握作品的部分特点。
人们过去经常将以偏概全的方法说成是盲人摸象,但实际上这种裁长篇为短篇的方式正是盲人摸象。
以刘姥姥进大观园为例,这是刘姥姥第二次去贾府,也是《红楼梦》中的重要情节,曹雪芹整整用了三回多的篇幅,在作品中能占到如此多篇幅的故事并不多,只有秦可卿之死、元妃省亲、宝玉挨打和尤二姐、尤三姐之死等。
但教材并没有完整收录这个故事,而是节选了第四十回中的部分内容,即刘姥姥吃饭逗众人发笑的这个片段,连一回的篇幅都不到,就《红楼梦》全书来看,不到作品的八十分之一。
教材所选刘姥姥吃饭的这个片段固然写得非常精彩,但无论如何不能替代对《红楼梦》全书的阅读,即便是其中的核心人物刘姥姥,在这个选段里也只能展示其部分特点,根据这个片段产生的刘姥姥印象,与读过全书之后对刘姥姥的印象会有较大的差别。
毫无疑问,必须将全书有关刘姥姥的描写汇总起来,才能完整、准确理解这个人物形象。
红楼梦解说深度解析

红楼梦解说深度解析“红楼梦”是中国文学史上最为杰出的优秀作品之一,内容涉及千古流芳的宫闱世景、社会观照及政治实情,精彩绝伦,深情感人。
作者海棠,更是以一种抒写时人自己内心深处真实感受的尤其细腻及细致的方式,构筑了一部承载着深厚文化内涵的精彩文学作品,经过几百年的传播,深深地打动了读者最深处的情感。
“红楼梦”的深度解析,不仅是简单的文学性解读,更是一种文本背后蕴含的深层含义与历史意义的历史研究。
这些深层含义既有它的社会意义,也有它的政治意义;它的主题也从传统的家庭教育到文本的美学价值,从战争的历史记载到思想的解析,都有极大的价值。
“红楼梦”就是一种家庭教育思想的代表,它反映的是清朝当时的官场社会,反映的是在官场的尊贵人物和惯例的某种纷乱之中,以及受官场尊贵人物欺诈,把家庭拆散的悲剧性一面。
把这样的悲剧拿来借用,作者正是要表达对传统家庭教育的关怀和担忧,也正是这样,才使《红楼梦》经历几百年的光景,依然受到人们的追捧和喜爱。
另外,《红楼梦》还传达了另一种深度的意义,即社会当时贵族家庭礼仪观念的改变。
在《红楼梦》中,曹雪芹把贵族家庭的礼仪观念抽象出来,以普遍的价值取向来进行抽象思考,这就是曹雪芹所谓的“中性文化”。
曹雪芹并不是为贵族家庭著作,也不是指贵族家庭里所实行的礼仪观念,而是以礼仪来代表全体人民所遵守的社会规范,他借此使《红楼梦》具有更深刻而持久的社会意义,使这部小说的文本超越了纯粹的艺术对象,具有更深刻的社会价值。
此外,《红楼梦》还蕴含着浓厚的宗教色彩,其中涉及的道教诸神,也是更具有深刻的宗教意涵,因此,在宗教意义上,《红楼梦》也是一部有深度的文本。
通过对主角宝玉的崇拜及“活佛”和“神仙”的崇拜、祭神,作者揭示了宗教信仰本身对于传统文化的影响力,并从这一层面解释了小说中关于“身份赋予者”的文本意义。
总之,《红楼梦》是一部极具深度及内涵的文本,就深层含义及历史意义而言,它既体现了时代的历史,又反映了家庭教育与礼仪,以及宗教信仰对传统文化的影响。
红楼梦第十五回原文与解析

红楼梦第十五回原文与解析红楼梦是清代作家曹雪芹所作的长篇小说,被誉为中国古代小说的巅峰之作。
第十五回是红楼梦中一个重要的章节,探讨了人物关系、情感纠葛以及社会现象等多个方面的内容。
本文将对红楼梦第十五回的原文进行解析,并分析其中的意义和价值。
原文如下:“宁府的月老正是薛蟠搬到此地的缘故,所以立了宁府的月老。
王夫人是内宁之孙,素日忒惫懒,不打御书房,也未曾修来门第。
他那日正是发狠心在书房,礼貌儿地到他房内来,才问他。
”道:“书房里的月老手里是否有良辰吉日,我要和凤丫头结鸳鸯比翼,你给我一个好日子,我好来教他。
”分析:在这段原文中,提及了宁府的月老以及王夫人与凤丫头(袭人)之间的关系。
宁府的月老之所以成立,是因为薛蟠搬到了宁府。
月老指的是传说中主管人间姻缘的神仙,由于薛蟠住在宁府,因此在这里立了一个供人祈福结婚的场所。
接下来,提到了王夫人是内宁(王熙凤)的祖父的子孙,她平时很懒散,不经常到书房。
而在这一天,她却主动去书房找月老问良辰吉日,想要安排凤丫头和薛蟠结婚。
这表明了王夫人对凤丫头的重视和关心。
这段原文从一个侧面展示了人物关系的错综复杂。
薛蟠是宁府的主要人物,他的到来导致了宁府的月老的成立。
而王夫人作为内宁的祖父的子孙,对宁府的事情也有一定的了解和参与。
凤丫头则是王夫人特别关注和呵护的对象,王夫人愿意为她安排婚姻。
这些人物之间的互动,展示了家族和社会结构中的复杂关系。
此外,这段原文还呈现了社会上普遍存在的“红楼梦”中的追求美满婚姻的主题。
以月老为代表的传统婚姻观念与现实社会的结合,展示了人们对于婚姻以及家庭的期望。
在这个文本中,通过王夫人为凤丫头安排婚姻的情节,反映了当时社会对婚姻及家庭的高度重视。
总结:红楼梦第十五回原文的解析展示了文本中的人物关系和社会现象。
通过对宁府的月老、王夫人、凤丫头等角色的描绘,呈现了一个错综复杂的家族关系和社会结构。
同时,通过王夫人为凤丫头安排婚姻的情节,突出了当时社会对婚姻及家庭的重视。
《红楼梦》的语言艺术特点分析

《红楼梦》的语言艺术特点分析首先,《红楼梦》的语言艺术特点之一是其精细入微的描写。
曹雪芹运用了大量的细腻描写,将人物、场景、情感等进行了刻画。
例如,曹雪芹用了大量篇幅来描写贾宝玉和林黛玉的感情纠葛。
无论是描述两人的相见恨晚,还是笔下的文化差异和家庭纷争,都通过细腻的表达展现了人物内心的矛盾和复杂性。
这种细腻入微的描写,使读者能够深入了解人物的情感和心理,产生共鸣。
其次,《红楼梦》的语言艺术特点之二是其丰富多彩的修辞手法。
曹雪芹在小说中巧妙地运用了各种修辞手法来增强语言的艺术感染力。
首先是比喻手法,通过对事物的比喻来达到生动形象的效果,使文本更具有感染力和表现力。
例如,曹雪芹用“宝黛情深似海”来形容贾宝玉和林黛玉的深厚情感关系。
第二是夸张手法,通过夸张来凸显人物的特点和情感。
例如,对于林黛玉的美丽,曹雪芹曾用“月白风清”的夸张形容。
这些修辞手法在《红楼梦》中被运用得恰到好处,使文本更富有感染力和艺术性。
再者,《红楼梦》的语言艺术特点之三是其独特的韵味。
曹雪芹运用了韵律明快的文言白话,使小说具备了独特的韵味和声音美。
例如,曹雪芹常常使用抒情的诗句来描述人物情感,使得整个文本都充满了音乐般的美感。
而且,曹雪芹还运用了口语化的表达方式,使对话更为自然流畅,贴近人物形象和生活场景。
这些独特的语言运用为整个小说增添了一种美妙的音乐感。
最后,《红楼梦》的语言艺术特点之四是其精妙的对仗和才情展示。
曹雪芹在《红楼梦》中经常运用对仗的手法来组织语言。
例如,他在人物对话中常常运用平仄工整的句式,使整个对话更加协调和谐。
同时,曹雪芹还运用了自己的才情来展示文学造诣。
他对诗词歌赋的熟练运用,使得《红楼梦》中出现了许多优美精湛的诗句和歌唱段落。
这些对仗和才情的展示,为整个小说增添了一种风雅和才情的气息。
总之,《红楼梦》的语言艺术特点丰富多样,通过精细入微的描写、丰富多彩的修辞手法、独特的韵味和精妙的对仗和才情展示,曹雪芹展现了他卓越的语言艺术造诣,使得整个小说成为中国古代文学的瑰宝。
论《红楼梦》文本的核心意向

第2 0卷 第 3期 2006年 5月
长
沙
大
学
学
报
V0 . o N 3 12 o. Ma .2 0 0 6 y
J RN L OFC NG HA NI R I OU A HA S U VE STY
论《 红楼梦》 文本的核心意向
谭真明
( 长沙大学 中文与新 闻传播系 , 湖南 长沙 400 ) 1 3 0
摘 要:红楼梦》 《 文本的核心意向不是情, 而是 自由。贾宝玉对于人生意义的理解及其恶劝和意淫人
格, 无不体现任性 自 洒脱 自由的精神意蕴。同时作者将人性 自由的渴望寄墨于大观园诸芳。曹雪芹的 适、 自由观具有独特、 鲜明的历史文化内涵, 决不是此前任何文人学士的 自由观的翻版。受制于时代和所属阶
虽没有世袭 的资格 , 有世袭 的可能 , 仍 惟一 的缺憾 即是 活得 太不 自由。正如其对柳湘莲 所抱 怨的 :我 只恨天天 圈在家 “ 里 , 点儿做不得 主, 一 行动就 有人 知道 , 不是这 个拦着 , 就是
“ 戕宝钗之仙姿, 灰黛玉之灵窍” 。他之所以痛不欲生 , 是因
为他不 能Байду номын сангаас心所欲地驾驭情—— 自己的和她们 的。情 , 成了
予以贬抑, 留给读者的却是一个风度翩翩 、 但 自由洒脱的青 年形象 。他对 千百万 士人学子孜 孜 以求的功名 富贵似 乎具 有与生俱来 的厌恶。他不仅斥 责八 股文为“ 诓功名 、 吃” 混饭 的工具 , 饵 名钓禄 ” 是“ 的手段 。 并且烧儒经 , 底断绝 功名荣 彻 身的后路。他之所以鄙薄功名富贵和八股时文 。 并不说明他 对 科制制度的弊端有什么深刻的清醒的认识 , 而是与其对生 活意义的理解有关, 与其需求有关。生于钟鸣鼎食之家, 他
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
红楼梦文本分析承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从A/B/C/D中选择一项填写):我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):参赛队员(打印并签名) :1.2.3.指导教师或指导教师组负责人(打印并签名):日期:年月日赛区评阅编号(由赛区组委会评阅前进行编号):队员信息表(必须如实填写)编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):对《红楼梦》文本的计算机识别方法的研究与设计摘要本文通过对文本人物关系、文本结构分层、作者行文风格的分析来分析中文文本。
针对问题一,我们运用聚类分析和层次分析建立模型从物理结构与逻辑结构两方面来分析文本,我们提取文本中和文本标题中的人名作为特征项,用matlab编程分别统计每个人名在各个段落中的频数。
通过运用主成分分析法对文本进行的分析我们得出自变量与常数项几乎不相关,因此不需要采取主成分回归分析。
通过系统聚类分析,我们得到了聚类图,从中得出了主演人物之间的关系。
通过层次划分,我们将样本一划分为两层,样本二划分为两层,样本三划分为两层。
最后通过matlab编程统计样本中虚词的频数,并且分别对样本中虚词总体和各个虚词进行统计,运用计算风格学理论,我们得出前八十回与后四十回作者的行文风格存在差异。
针对问题二,我们对聚类分析、层次划分、行文风格进行了检验。
对于聚类分析的结果,我们与从对文本概述的文学概括分析得到的人物关系进行比较检验,验证了聚类分析结果是可靠性。
对于层次分析,我们通过用Excel对数据做出折线图,对图形进行分析,得出与用层次分析算法得出的相同的人物关系结论。
针对问题三,我们计算了各个样本中主要人物的比重,做出了折线图,从图中我们得出了文本结构一致性的结论,体现了三个样本的相同性。
通过计算同一个人物在不同样本中的频数(以黛玉为例),我们得出各个样本由于主题思想的不同主要人物也有差异。
最后说明模型的优缺点及需要改进的地方。
关键字:系统聚类计算风格学文本层次分析一、问题重述文本(text),与讯息(message)的意义大致相同,是有一定的符号或符码组成的信息结构体,这种结构体可采用不同的表现形态,如语言的、文字的、影像的等等。
文本是由特定的人制作的,文本的语义不可避免地会反映人的特定立场、观点、价值和利益。
因此,由文本内容分析,可以推断文本提供者的表述方式,意图和目的。
文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。
将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。
使计算机能够通过对这种模型的计算和操作来实现对文本的识别。
由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。
在分析问题是我们了解到目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。
用于表示文本的基本单位通常称为文本的特征或特征项。
特征项必须具备一定的特性:(1)特征项要能够确实标识文本内容;(2)特征项具有将目标文本与其他文本相区分的能力;(3)特征项的个数不能太多;(4)特征项分离要比较容易实现。
在中文文本中可以采用字、词或短语作为表示文本的特征项。
相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。
因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。
因此,在处理问题时角度和特征项的选择是关键。
我们要解决的问题是:(1)从第一回--第四十回,第四十一回--第八十回,第八十一回--第一百二十回分别选取3段文字(每段不少于2000字,指出开始,结束的页码和行数)作为3个样本,对这3个样本提出文本分析的角度,特征项的选取及数量表征,并建立数学模型。
(2)分别估计3个模型的参数,并对模型进行检验。
(3)基于你们的模型,对3个文本进行比较分析(包括相同点和它们之间的差异性分析)。
将上述研究结果写成综合性的研究报告。
二、问题分析本问题主要是通过不同的文本分析角度,建立数学模型,实现对文本的识别,来推断文本提供者的表述方式,意图和目的。
对于问题一,根据物理结构和逻辑结构两个角度确立我们文本分析角度,物理结构方面,通过计算文本虚词使用频率确定作者的行文风格;逻辑结构方面,以红楼梦主要人物名字为特征值对人物关系进行分析,和以标题词汇为特征值的文本层次分析。
使用聚类和层次分析法建模。
对于问题二,运用所建立的模型对选择样本进行运算,得到文本总字数,虚词的使用情况,人物关系情况由聚类法得到,再将文本由标题词汇判定段落分层。
在模型检验方面,我们由人为读出的结论与模型得到的人物关系进行大致方向上的比较,由分段后主要人物在各层次所占比重判断层次分析的精确性,作者行文风格通过所得结论与专家推断比较检验。
对于问题三,分别选取三个样本中的虚词频率和人物分析进行比较。
通过虚词频率的比较我们可以大致分析出各四十回中作者的行文风格从而判断红楼梦作者是否为一人;而对人物分析方面,对人物与人物之间关联度的比较,能大致确立出在整篇文章中的主要人物和与其关联密切的人物的关系进展,通过关联度相同性与差异性的比较,确立主要人物的日常交际圈和主要人物之间的关系变化。
三、模型假设[1]每个样本拥有独立性(不受其他样本影响也不影响其他样本);[2]样本选取是随机的,具有普遍性;[3]虚词的使用频率的异同可以充分区分作者的行文风格;[4]标题中词汇在整个文本中具有代表性(标题是整个文本中心思想的概括);[5]3个样本在整个文本各四十回中的人物关系具有代表性。
[6]可忽略同名不同义的词对研究结果的影响[7]样本中出现频率很低的人物名可忽略,对结果无影响。
四、符号系统x——人物i在第j段中的频数T——特征值组成的向量ijij t——表示人物i的第j个特征值的频数i p——第i自然段五、建立文本识别模型1)人物关系:由主要人物每段出现频数向量确定人物相关性;2)文本结构分析:由标题词汇每段出现频数比较分层,使层内差异达到最小值;3)行文风格:统计虚词使用情况。
5.1人物关系模型研究与确立目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。
这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。
因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。
为了解决这个问题,最有效的办法就是通过特征选择来降维。
红楼梦通篇是文言文,在进行文本分析时,由于虚词在文本内容角度的无用性我们将虚词统计次数后用批处理技术删除,同时去除的还有停用词(常用词如‘了’等和生僻词)。
从人物关系的分析角度看,由于文本中形容词的多样化与词义分析方面的复杂性,不从该角度分析。
为使操作简单化,我们根据研究的角度,将红楼梦中主要人物名字设置为特征值,),,,(21n t t t T =T 表示由人名组成的向量,i t 表示第i 个人名特征值,n 表示人名特征值的个数为n可将选择的文本表示为N P P P P I ++++= 321 I 表示所选文本,i p 表示文本I 中的第i 自然段,N 表示文本i 中共有N 个自然段。
将人物在文本每一自然段中出现的次数组合成向量,经过对不同人物之间的相关性度量,组合成相关系数矩阵,再对其聚类分析得出人物关联度。
⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=nN n n N N x x x x x x x x x A212222111211A 表示各特征词在各段的频数矩阵,ij x 表示第i 个特征词在第j 自然段中的频数,A 矩阵的行与行向量之间对应数据关系即可反映在该文本中两人物之间的联系。
,这里我们使用在对变量聚类分析时利用最多的相关系数矩阵()()()()2/111221⎥⎦⎤⎢⎣⎡--∑--∑∑====n i ni k ik j ij k ik j ij jkx x x x x x x x r ni||jk r 越接近1,j x 与k x 越相关或越相近;||jk r 越接近0,j x 与k x 的相关性越弱。
jx 与k x 分别表示j t 与k t 两个特征值的频数特征向量。
由于红楼梦中主要人物过多,我们要对特征值进行降维处理,再考虑人物关系。
人物关系体系建立:利用多元统计分析的主成分分析法、系统聚类分析法将所选主要人物特征值进行简化归类。
在多元统计分析中,主成分分析(英语:Principal components analysis ,PCA )是一种分析、简化数据集的技术。
主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。
[1]人为主要人物往往带有主观性,必须对所选文件的特征值用数理统计方法,由上所得的相关系数矩阵经过正交化处理,将文本所确立的人名特征值转化为少数几个综合人名后的新指标(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间相互正交,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠,把复杂问题简单化。
主成分分析法的基本步骤第一步:设估计样本数为n ,选取的文本人名特征值总数为p ,则由估计样本的原始数据可得矩阵()a ijA =,其中αij表示第i 个特征值在第j 段中的频数。
第二步:为了消除各项理化指标之间在量纲化和数量级上的差别,用极差标准化法对指标数据进行规范化,将其化为0~1间的标准数据得到规范化矩阵。
第三步:根据规范化数据矩阵建立协方差矩阵R ,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。