基于文本复杂网络的内容结构特征分析

合集下载

复杂网络的结构特性与功能研究

复杂网络的结构特性与功能研究摘要：随着社会的不断发展，现代网络已经成为人们日常生活中不可或缺的一部分。

复杂网络的研究成为了近年来计算机科学领域的热门话题之一。

本文将介绍复杂网络的结构特性和功能，并探讨这些特性和功能对网络的重要性。

一、引言近年来，复杂网络的研究吸引了广泛的关注，因为它们可以用来模拟和研究各种复杂系统，如社交网络、互联网、生物网络等等。

复杂网络的结构特性和功能不仅仅是理论上的研究，还可以应用到实际问题解决中。

二、复杂网络的结构特性1. 小世界效应复杂网络的小世界效应是指网络中的节点之间通过少量的跳数就能够相互连接。

研究表明，大多数真实世界的复杂网络具有小世界结构，这使得信息传播和交流更加高效。

2. 无标度特性复杂网络的无标度特性是指节点的度分布呈幂律分布，即少数节点连接了大多数的节点。

这使得复杂网络具有高度的鲁棒性和容错性，即使部分节点受到攻击或故障，网络仍然能够正常运行。

3. 社区结构复杂网络中常常存在着明显的社区结构，即节点之间存在着紧密的社交、聚集关系。

研究发现，社区结构在网络中起着重要的作用，它对于网络的功能和演化有着深远的影响。

三、复杂网络的功能1. 信息传播复杂网络的结构特性决定了其在信息传播方面的特殊性。

通过研究复杂网络的结构特征，可以预测信息传播的速度和范围。

这对于社交媒体、广告宣传等领域具有重要的指导作用。

2. 分析和预测复杂网络的结构特性可以用来分析和预测网络中的各种现象。

例如，可以利用网络的结构特征来预测疾病的传播路径，提高公共卫生系统的效率。

3. 纠错和优化复杂网络的鲁棒性和容错性使得它们在纠错和优化方面具有重要的应用价值。

通过研究网络的结构特性，可以找到关键节点并进行优化和保护，提高网络的性能和稳定性。

四、复杂网络的研究方法和应用复杂网络的研究方法包括数学建模、计算模拟和实验观测等多种手段。

研究人员可以通过实验证据收集、网络数据挖掘和社交网络分析等方法来获得网络的结构和功能信息。

网络谣言的文本结构与表达特征——基于腾讯大数据筛选鉴定的6000+谣言文本的分析

网络谣言的文本结构与表达特征——基于腾讯大数据筛选鉴定的6000+谣言文本的分析网络谣言的文本结构与表达特征——基于腾讯大数据筛选鉴定的6000+谣言文本的分析一、引言网络谣言作为当下社会中的严重问题之一，已经对人们的生活、社交关系和信息传播产生了巨大的影响。

为了更好地理解和应对网络谣言的传播特点和表达方式，本文基于腾讯大数据筛选鉴定的6000+谣言文本进行了深入分析。

通过研究网络谣言的文本结构和表达特征，可以为谣言的检测、防范和应对提供重要的理论和实证依据。

二、腾讯大数据筛选鉴定的网络谣言数据概况本文选取了腾讯大数据筛选鉴定的6000+谣言文本作为研究对象。

这些谣言文本涵盖了多个领域的谣言信息，包括食品安全、医疗健康、社会事件等。

通过对这些文本的整理和筛选，我们可以更加全面地了解网络谣言的传播情况和特点。

三、网络谣言的文本结构分析在网络谣言的文本结构分析中，我们主要关注以下几个方面： 1. 标题与开头：网络谣言常常通过吸引人的标题和夸张的开头来引起人们的兴趣和阅读欲望。

2. 内容构成：网络谣言的内容通常包含事实描述、事件发生原因、影响后果和涉及人物等元素。

这些元素的混合使用和组织方式使得谣言看起来似乎具有一定的真实性和逻辑性。

3. 证据引用：网络谣言为了增强信服力，常常会提供一些看似可信的证据，如图片、视频、新闻报道等。

然而，这些证据往往是伪造的或断章取义的，用以支持谣言的说法。

4. 结语和呼吁：网络谣言通常以一种呼吁或建议的方式结尾，鼓励读者转发、分享或采取某种行动。

这种结语和呼吁的方式往往能够激发读者的情感和行动。

四、网络谣言的表达特征分析在网络谣言的表达特征分析中，我们主要关注以下几个方面： 1. 内容感染力：网络谣言的表达方式常常具有强烈的感染力，通过使用情感化的语言、图片或视频来引起读者的共鸣和情绪反应。

2. 信息编排：网络谣言的文本表达通常包含精心编排的语言用词和句式，以达到更好的传播效果。

网络文本特征研析

网络文本特征研析作者：朱梦余昆鹏来源：《新闻世界》2012年第04期【摘要】随着互联网技术的提升和运用的延伸，网络文本发展迅速。

本文对网络传播过程中网络文本的特征进行研析，发现文字类网络文本带有文本话语的自恋情结，声频类网络文本注重心绪转换的认知效用，视频类网络文本内容草根、满足马斯洛需求理论、兼带对传统文化的戏谑解构。

【关键词】网络传播网络文本文本特征网络文本是指互联网用户生产、发布的内容，它以互联网为媒介传输，具体是指在互联网虚拟空间里写作、传输、阅读和评论的并能形成双向交流的文本。

它包括了不同的体裁、形式和表现方式，包含了多种形式的文本内容，具有日常性、随意性和娱乐性。

一、通过文字图片传播的网络文本——以凡客体为例2010年7月，中国作家韩寒和演员王珞丹担任凡客诚品（VANCL）形象代言人，各种不同形式的广告也开始出现在公众的眼帘。

简单的人物、抠图无背景加上同样的广告词模式，电子商务服装品牌凡客诚品（Vancl）广告引起了新一轮的PS狂潮，后被称为“凡客体”。

正因为网络文本简单、直接、有细节，凡客广告和凡客体真实地传达出广告创作者和公司传播者所处的语境以及由此产生的社会心理，并借由铺天盖地的网络宣传进而影响到广告用户的知识、心理和行为规范系统。

1、网络文本话语的自恋情结“麦克卢汉认为：因为一切媒介都是人的延伸，他们对人及其环境产生了极其深刻而持久的影响，这样的延伸器官、感官或曰功能的强大与放大。

无论什么时候发生这样的延伸，中枢神经系统似乎都要在受到影响的区域实行自我保护的麻醉机制，把它隔绝起来使它麻醉。

我把这种独特的自我催眠形式叫做自恋式麻木（narcisusnarcosis）。

”①凡客体固定的诗歌样式的文字通篇使用短句，整个广告词节奏非常的明快。

这些自始至终使用的陈述句在用词上极为纯朴，几乎不见形容词的踪影，这样简洁朴素的表达与广告整体的风格十分切合。

这些“凡客体”经过网民的ps改造后，或幽默风趣、或冷嘲热讽、但也不乏温馨感人，真正完成了易懂易记、深入人心并将自己怡情其中的效果。

KEK基于k-truss的短文本关键词提取方法

收稿日期：２０２００４２５；修回日期：２０２００６０９基金项目：国家自然科学基金资助项目（６１８７２１８６）；信息系统工程重点实验室开放基金资助项目（０５２０１９０１）作者简介：杨朝举（１９９６），男，河南平顶山人，硕士研究生，主要研究方向为数据挖掘；葛唯益（１９８５），男，江苏如东人，高级工程师，博士，主要研究方向为知识图谱、自然语言处理；王羽（１９８９），男，江苏扬州人，工程师，硕士，主要研究方向为自然语言处理；徐建（１９７９），男（通信作者），江苏江阴人，教授，硕导，博士，主要研究方向为数据挖掘、知识图谱（ｄｏｌｐｈｉｎ．ｘｕ＠ｍａｉｌ．ｎｊｕｓｔ．ｅｄｕ．ｃｎ）．ＫＥＫ：基于ｋｔｒｕｓｓ的短文本关键词提取方法杨朝举１，葛唯益２，王　羽２，徐　建１（１．南京理工大学计算机科学与工程学院，南京２１００９４；２．中国电子科技集团公司第二十八研究所信息系统工程重点实验室，南京２１０００７）摘　要：关键词提取在众多文本挖掘任务中扮演着重要的角色，其提取效果直接影响了文本挖掘任务的质量。

以文本为研究对象，提出了一种基于ｋｔｒｕｓｓ图分解的关键词提取方法，名为ＫＥＫ（ｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎｂａｓｅｄｏｎｋｔｒｕｓｓ）。

该方法首先借助空间向量模型理论，以文本中的词为节点，通过词语之间的共现关系来构建文本图，接着利用ｋｔｒｕｓｓ图分解技术来获取文本语义特征，并结合词频、单词位置特征、复杂网络特征等构造无参评分函数，最终根据评分结果来提取关键词。

通过在基准数据集上进行实验验证，结果表明ＫＥＫ算法在提取短文本关键词上的Ｆ１值性能指标优于其他基于文本图的关键词提取方法。

关键词：文本挖掘；图分解；关键词提取中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１００１３６９５（２０２１）０４０１１１０２２０５ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０２０．０４．０１１４ＫＥＫ：ｓｈｏｒｔｔｅｘｔｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｋｔｒｕｓｓＹａｎｇＣｈａｏｊｕ１，ＧｅＷｅｉｙｉ２，ＷａｎｇＹｕ２，ＸｕＪｉａｎ１（１．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ＆Ｅｎｇｉｎｅｅｒｉｎｇ，ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅ＆Ｔｅｃｈｎｏｌｏｇｙ，Ｎａｎｊｉｎｇ２１００９４，Ｃｈｉｎａ；２．Ｓｃｉｅｎｃｅ＆ＴｅｃｈｎｏｌｏｇｙｏｎＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍＥｎｇｉｎｅｅｒｉｎｇＬａｂｏｒａｔｏｒｙ，ｔｈｅ２８ｔｈＲｅｓｅａｒｃｈＩｎｓｔｉｔｕｔｅｏｆＣＥＴＣ，Ｎａｎｊｉｎｇ２１０００７，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎｐｌａｙｓａｎｉｍｐｏｒｔａｎｔｒｏｌｅｉｎｔｅｘｔｍｉｎｉｎｇｔａｓｋｓ．Ｔｈｉｓｐａｐｅｒａｉｍｅｄａｔｐｒｏｐｏｓｉｎｇａｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｋｔｒｕｓｓｇｒａｐｈｄｅｃｏｍｐｏｓｉｔｉｏｎｆｏｒｓｈｏｒｔｔｅｘｔｓ，ｎａｍｅｄＫＥＫ．Ｆｉｒｓｔｌｙ，ｔｈｅｍｅｔｈｏｄａｐｐｌｉｅｄｔｈｅｓｐａｃｅｖｅｃｔｏｒｍｏｄｅｌｔｏｐｒｅｓｅｎｔｅａｃｈｗｏｒｄｉｎｔｈｅｔｅｘｔ，ａｎｄｃｏｎｓｔｒｕｃｔｅｄａｔｅｘｔｇｒａｐｈｂｙｔａｋｉｎｇｗｏｒｄｓａｓｎｏｄｅｓａｎｄｔｈｅｃｏｏｃｃｕｒｒｅｎｃｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｗｏｒｄｓａｓｅｄｇｅｓ．Ｔｈｅｎ，ｔｈｅｍｅｔｈｏｄｕｓｅｄｋｔｒｕｓｓｇｒａｐｈｄｅｃｏｍｐｏｓｉｔｉｏｎｔｅｃｈｎｏｌｏｇｙｔｏｏｂｔａｉｎｔｈｅｓｅｍａｎｔｉｃｆｅａｔｕｒｅｓｏｆｔｈｅｔｅｘｔ，ａｎｄｃｏｎｓｉｄｅｒｅｄｗｏｒｄｆｒｅｑｕｅｎｃｙ，ｗｏｒｄｐｏｓｉｔｉｏｎ，ｃｏｍｐｌｅｘｎｅｔｗｏｒｋｆｅａｔｕｒｅｔｏｄｅｓｉｇｎａｐａｒａｍｅｔｅｒｌｅｓｓｓｃｏｒｉｎｇｆｕｎｃｔｉｏｎ．Ｆｉｎａｌｌｙ，ｉｔｅｘｔｒａｃｔｅｄｋｅｙｗｏｒｄｂａｓｅｄｏｎｔｈｅｓｃｏｒｉｎｇｒｅｓｕｌｔｓ．ＥｘｐｅｒｉｍｅｎｔｓｏｎｒｅａｌｄａｔａｓｅｔｓｓｈｏｗｔｈａｔＫＥＫｐｅｒｆｏｒｍｓｂｅｔｔｅｒｔｈａｎｏｔｈｅｒｇｒａｐｈｂａｓｅｄｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎｍｅｔｈｏｄｓｉｎｔｅｒｍｓｏｆＦ１ｓｃｏｒｅ．Ｋｅｙｗｏｒｄｓ：ｔｅｘｔｍｉｎｉｎｇ；ｇｒａｐｈｄｅｃｏｍｐｏｓｉｔｉｏｎ；ｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎ０　引言关键词提取是使用一个词或多个词来作为一篇文档内容的高度总结，提取出来的关键词可以用做信息检索也可以应用于自动摘要、文本分类、文本聚类、主题获取等众多自然语言处理任务中去。

网络分析：探索和理解复杂网络的结构和行为

网络分析：探索和理解复杂网络的结构和行为"网络如此之复杂，仿佛是一张错综复杂的蜘蛛网。

我们如何理解和探索这些复杂网络的结构和行为呢？网络分析就是我们的绳索和放大镜。

让我们一起来了解网络分析的概念、方法和应用吧！"网络在现代社会中无处不在，它连接了人与人，企业与企业，甚至是机器与机器。

不仅仅是互联网，我们生活中的各个方面都有着网络的存在。

这些网络承载着巨大的信息和互动，它们的结构和行为有时候又如此复杂和难以理解。

面对这样的复杂性，人们需要一种方法来解析和理解网络的结构和行为，这就是网络分析。

什么是网络分析？网络分析是一种通过数量化和视觉化网络中的关系、结构和特征的方法，以探索和理解网络的功能和行为。

它基于数学、统计学和计算机科学等多个学科，旨在揭示网络中的隐藏模式和规律。

在网络分析中，重点研究的对象是节点（节点可以是人、企业、网页等）和边（边表示节点之间的连接关系）。

通过分析节点之间的连接关系和属性，我们可以揭示出网络的结构和行为。

例如，我们可以通过分析社交网络中的节点连接模式来了解人际关系的特征；通过分析链路网络中的节点之间的传播过程来研究信息传播的规律。

网络分析的方法和工具要进行网络分析，我们需要使用一些方法和工具来处理和解读网络数据。

下面是一些常用的网络分析方法和工具：1. 数据收集和预处理网络分析的第一步是收集网络数据。

网络数据可以是社交媒体的用户关系、互联网页面之间的超链接、物流网络中的货物流动等等。

一旦收集到数据，我们需要对其进行预处理，例如去除噪声、处理缺失值和异常值等，以确保数据的质量和可用性。

2. 可视化可视化是网络分析中的重要工具，通过可视化可以将复杂的网络结构转化为直观的图形展示。

通过节点和边的位置、大小、颜色等属性，我们可以更好地理解网络的拓扑结构和连接关系。

常见的网络可视化工具包括Gephi、Cytoscape等。

3. 社区发现网络中的社区是节点的集合，这些节点之间的连接更加密集，而与其他社区之间的连接相对稀疏。

基于复杂网络的中文微博网络结构研究

微博是一种通过关注机制分享简短实时信息的广播式的社交网络平台[3]，本文从微博平台入手，使用复杂网络理论对其结构进行研究。
1 微博关系复杂网络的构建
在 2017 年 6 月时以第一作者的微博账号作为种子，先获取了所有第一作者关注的用户的数据，再获得了这些用户所关注的用户的数据，从而对微博网络进行了三层的广度优先遍历。这里的用户数据包括用户的微博条数、获得别人点赞的个数、用户关注的人和关注用户的人，数据包含 2.6 万名用户，461 万条关注连接。
（College of Computer Science and Engineering, Dalian Minzu University, Dalian, Liaoning 116605, China）
Abstract： For discussing complex network characteristics, the micro-blog user's follower relationship was used to build the micro-blog relationship complex network and the micro-blog follower relationship model by crawling and cleaning the Sina micro-blog data. Based on the theory and the analysis method of complex network, in this paper the micro-blog network characteristics were studied, the small-world and the scale-free characteristics of users' follower network was discussed. The research results show that the degree distribution of micro-blog follower network follows the power-law distribution. Comparing with low in-degree nodes, nodes with higher in-degree were more likely to be concerned, which makes the network enhance the overall scale-free property. Key words：micro-blog；relationship networks；small-world networks；scale-free networks；clustering coefficient

复杂网络结构的分析与模拟研究

复杂网络结构的分析与模拟研究在当今数字时代，互联网的兴起已经使网络成为了人们生活中必不可少的一部分。

然而，网络并不仅仅指互联网，还包括许多其他形式的网络，如社交网络、交通网络、物流网络等。

这些网络结构广泛存在于各个领域，通过对复杂网络结构的分析与模拟研究，可以帮助我们理解网络的本质、发现规律，并且为实际应用提供指导。

一、网络结构的分析网络结构的分析是研究复杂网络的基础。

通过对网络的拓扑结构、节点连接方式以及网络中的度分布等特征进行定量和定性的分析，可以揭示网络内部的规律和特点。

1.1 网络拓扑结构分析网络的拓扑结构指的是网络中各节点之间的连接方式和关系。

常见的网络拓扑结构包括星型网络、随机网络、小世界网络和无标度网络等。

通过分析网络的拓扑结构，可以了解网络的整体形态和结构特点。

1.2 节点度分布分析节点度分布是指网络中各节点的连接数分布情况。

对于随机网络，节点度分布一般近似呈现泊松分布；而对于无标度网络，节点度分布则呈现幂律分布。

通过节点度分布的分析，可以揭示网络中的关键节点和脆弱性，为网络的优化和改进提供依据。

二、网络模拟的方法网络模拟是通过计算机仿真的方法，对真实网络或者人工构建的网络进行模拟和分析。

通过模拟研究，可以深入理解网络内部的运行机制和行为规律。

2.1 静态网络模型静态网络模型是对网络结构进行一次性建模，并不考虑网络的动态演化过程。

常见的静态网络模型有随机网络模型、小世界网络模型和无标度网络模型等。

通过静态网络模型，可以研究网络的拓扑结构对其功能和韧性的影响。

2.2 动态网络模型动态网络模型考虑网络结构的动态演化过程，可以更好地模拟现实网络的演化和变化。

例如，人类社交网络可以通过动态网络模型来模拟人与人之间的社交关系是如何形成和发展的。

三、复杂网络模拟研究的应用复杂网络模拟研究不仅仅是理论上的探索，还可以应用于实际问题的解决和优化。

以下是复杂网络模拟研究的一些典型应用领域。

3.1 社交网络分析社交网络分析是对人与人之间社交关系的研究和分析。

网络科学中的复杂网络分析

网络科学中的复杂网络分析网络科学是一个涉及复杂的系统研究领域，复杂网络是这个领域中的重要概念。

复杂网络不仅在自然界和人类社会中广泛存在，也在人工设计的计算机网络中应用广泛。

因此，分析复杂网络的结构和行为具有重要的理论和实践意义。

网络分析是一种理论和方法学，用于研究网络中存在的结构和关系模式，进一步研究网络中不同部分之间的联系和交互。

复杂网络复杂网络是由大量节点和连接组成的网络系统，节点代表网络中的单个实体，连接代表节点之间的关系。

复杂网络具有结构复杂、动态变化、自适应和自组织等特点。

在现实生活和科学研究中，我们可以找到很多应用复杂网络的场景。

例如，社交网络、生物网络、物理网络和工程网络等。

在这些复杂网络中，我们可以研究它们的拓扑结构、时空演化、信息传播以及网络的鲁棒性和稳定性等属性。

网络分析网络分析是通过系统性、数据驱动的方法来研究网络的结构和行为，并发挥重要的理论和实践作用。

网络分析包括四个方面:网络拓扑分析、动力学模拟、信息传播和社会网络分析。

网络拓扑分析网络分析中的拓扑分析主要针对网络中节点之间的连接，通过图论理论分析网络的拓扑结构，从而更好地理解和描述网络的属性。

分析网络拓扑结构的主要目的是寻找网络的节点和连接的特征，例如网络中哪些节点之间有更多的连接、哪些节点具有重要的地位、网络的密度和聚集程度等。

动力学模拟动力学模拟是研究网络系统的动态行为以及这些行为所带来的全局影响的方法。

它涉及到复杂的微观和宏观的过程，并且在实践中被广泛地应用于模拟和预测网络中的信息传播、疾病扩散、地震和金融风险等动态过程。

信息传播通过网络传递信息是最引人注目的网络现象之一。

在社交网络中，我们可以了解量化的信息传播过程，例如通过推特传达意见和思想等。

在应用方面，通过研究和控制信息传播过程，可以帮助企业获得更好的市场营销效果、控制政策和项目达成更好的目标，以及预测和响应突发事件等。

社会网络分析社交网络是由个人和组织创建的，可识别且定义的网络结构，社交网络分析通过解释和研究交际能力和行为模式，并利用与此有关的概念和理论来帮助我们了解和解释社交网络中的现象。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

本文将句号作为界定句子的唯一标识, 根据 A 矩阵和 W 矩阵的定义, 应用计算机匹配算法, 自动抽取句子关系构成矩阵 A 和 W, 将名词关系映射到矩阵中, 最终借助社会网络分析软件 U CINET, 构建出文本的复杂网络 [ 。 12] 2. 3 文本复杂网络的分析
复杂网络是由点和边构成的, 文本中能够表示完整语义信息的最小单位是句子, 因此本文中用节点表示句子, 以句子为单位进行文本的结构特征分析具有可靠性。边的界定原则是如果两个句子间有一个共同的名词则产生一个边相联, 否则不产生边。如果在网络中的两个句子存在边, 即有一个公共名词, 则可能阐述同一主题或者传达同一主题的补充资料, 虽然两句话可能包含重复冗余的信息, 但两个句子涉及的内容最为密切。通过两个句子之间共同名词的关系来构建复杂网络, 最终得出文本复杂网络。
国内对于文本信息内容结构的研究相对不足, 仅停留在段与段之间的关系研究以及段与句之间层次分析方面, 应用的方法则是潜在语义分析、相似度分析等, 缺少创新性。而国外的研究, 虽然引入新方法研究文本, 但是对于文本结构特征分析方面的研究欠缺。本文通过对单个文本进行预处理, 构建出文本复杂网络, 并利用复杂网络的拓扑性质来分析文本内容结构的好坏, 同时力图用复杂网络的各项拓扑指标来提取文中的中心思想, 帮助读者理解文本信息。
地质资料信息社会化服务模型研究: 基于复杂网络分析
(项目编号:
X IANDA I TU SHU Q INGBAO JISHU 69
情报分析与研究
面。王孟国通过显和隐的分析方法对长篇小说的文本结构问题进行系统研究 [ 1] 。何维等通过对文本信息之间相似度的计算建立句子的关系图, 分析文本的主体句 [ 2] 。梁文婷等通过改进文本结构关系图对文本段与段之间的关系进行研究, 完成文本结构的分析 [ 3] 。刘军万等基于潜在语义的分析技术, 利用层次分析法研究文本结构 [ 4] 。
个节点有联系的节点总数, 网络强度是与某个节点有联系的共同名词的数量 (即是与某个节点有边联系的节点
70 现代图书情报技术
总第 201期 2011年第 1期
的边权重之和 )。度和强度反映了某个句子与其邻接句子的紧密关系, 能够反映文本的主题是否突出。
( 2)最短路径最短路径是测量网络结构中距离最常用的方法, 路径是由从一个节点到另一个节点的不重复边构成, 和网络度、网络节点强度不同的是, 它不仅考虑了节点的近邻节点, 还考虑了间接节点, 节点之间最短路径大于 1。无权网络和有权网络计算最短路径的方法有所不同, 有权网络需要对权重进行转变后再进行计算。该拓扑指标衡量的是某个句子与其他句子的衔接性, 是能够反映文本连贯性和凝聚力的结构特征。 ( 3)聚类系数节点的聚类系数反映了该节点的近邻之间的集团性质, 近邻之间关联越紧密, 该节点的聚类系数就越高, 即近邻句子之间的联系越紧密, 所有节点的聚类系数的平均值便是整个网络的聚类系数。聚类系数是某个句子邻接节点之间的连接关系, 能够反映文本的凝聚力和段落分明的结构特征。
关键词文本复杂网络内容结构最短路径聚类系数分类号 G 203
R esearch on Content Characteristics About Complex N etwork of Text
L iu H onghong An H aizhong G ao X iangyun ( Lab o f R esou rces and Environmen talM anagem en t, Ch ina U n iversity of Geoscien ces, Be ijing 100083, Ch ina) ( S chool ofH um an it ies and Econom icM anagem ent, Ch in a Un ivers ity of G eosc ien ces, Beijing 100083, Ch ina)
2 文本复杂网络的构建与分析
2. 1 文本预处理文本预处理主要包括文本的噪声处理和自动分词
两个过程。噪声处理过程主要是去除停用词和消除歧义, 停用词包括助词、叹词、语气词、拟声词; 歧义消除是指对文本中具有指代意义或者同一语义的词语进行统一, 如文本中同时出现中国人民大学和人大 , 两者表示的意义完全相同, 需要进行唯一化处理。
选用中国科学院计算技术研究所研制的汉语词法
分析系统 ICTCLA S ( In stitu te of Compu ting T echnology, Ch inese Lexical Analys is System ) [11]作为文本自动分词的工具, 该系统不仅支持中文分词和词性标注, 还具有关键词识别和支持用户自定义词典等功能。 ICTCLAS3. 0 分词速度单机 996KB / s, 分词精度达到 98. 45% , 可信度较高, 是现有的比较好的汉语词法分析器。 2. 2 文本网络的构建
K eywords Comp lex network of text Conten t stru cture Shortest path C lu ste的发展, 大量文本涌现出来, 其中包括新闻信息、报告、论文以及散文小说等。大量信息的出现, 给读者阅读和理解带来困难, 这些文本信息的表述内容参差不齐, 如何提取文本中心思想并评价文本内容紧凑和衔接程度的好坏, 目前还主要依据专家的个人经验和主观评价, 缺少量化的评价方法。
总第 201期 2011年第 1期
基于文本复杂网络的内容结构特征分析*
刘红红安海忠高湘昀 ( 中国地质大学资源环境管理实验室北京 100083 ) ( 中国地质大学人文经管学院北京 100083 )
摘要针对文本信息内容结构参差不齐的问题, 提出一种评价文本内容结构分析方法, 该方法将文本中的句子作为节点, 句子之间的共同名词作为边, 构建文本复杂网络, 并选取复杂网络的拓扑性质对文本结构特征进行分析。基于一个新闻文本案例构建复杂网络, 并计算度、强度、最短路径、加权聚类系数等衡量指标, 这些指标能很好地评价文本内容结构的好坏, 也为理解和提取文本的中心思想、生成摘要、文本检索过滤提供重要参考依据。
经过预处理后, 将文本中各个句子产生的名词映射到网络中。根据邻接矩阵和 N 阶矩阵权重 ( N 是节点或句子的数量 ) 的概念, 定义两个矩阵 A 和 W, A 矩阵表示句子间边的关系, W 矩阵表示句子的权重。在 A 矩阵中, 如果节点 i和节点 j之间有边的话, 则 aij aji 等于 1, 其他情况都等于 0。W 矩阵中, 边的权重 wijw ji 是节点 i和节点 j中出现共同词的次数。
国外的研究除了包括前文国内的一些分析方法外, 更重要的是随着复杂网络的兴起, 尤其是 1998 年小世界和无标度性质在实际网络中的发现, 推动了自然语言处理的研究 [ 5] , 国外研究者利用复杂网络对文本信息进行分析的研究相对较多, 网络节点 ( 顶点 ) 被用来代表词、句或段落, 而网络边则根据一些任务依赖的标准来进行界定。将复杂网络与文本结合起来的研究, 主要应用于作者评定和散文评价、摘要总结和翻译质量 [ 6] 的评估等方面。 An tiqu eira与 P ardo等在这方面取得了突出的成果, 分别通过构建文本复杂网络并研究其规律, 能够了解作者写作特性, 从而对作者和散文质量进行评定 [ 7, 8] 。 A nt iqueira等通过以句子为节点构建文本复杂网络, 利用网络测量值自动获取文本摘要并对摘要质量进行评价 [ 9, 10] 。
Abstract T o solve the p rob lem of irregu lar stru ctu re of som e texts, th is paper presents a m ethod based on th e comp lex network th eory to evaluate th e text stru ctu re. Th is m ethod u ses a node to represen t a senten ce and an edge b etw een two nodes to rep resent a common w ord of two sen ten ces, wh ich constru ct the com p lex network o f a text. Th en th e au thors ana lyze characters of text stru ctu re by topo log ical ch aracteristics of text com p lex n etwork. By bu ild ing a text comp lex n etwork based on a selected article, th e degree, th e degree of inten sity, th e shortest paths and th e weigh ting clu stering coefficien ts of th is selected art icle are calcu lated. T he resu lts show that th e stru ctu re of th e text con ten t can b e effectively evalu ated by th is proposed m ethod. M oreover, the resu lts also p rov id e mi portant referen ces to understand m ain ideas, to generate sum m aries and to filter tex t retrieval o f a given text.