基于相关系数和最佳阈值的股票网络模型构建

合集下载

基因共表达网络的构建及其相关性分析

基因共表达网络的构建及其相关性分析

基因共表达网络的构建及其相关性分析近年来,随着高通量技术的发展,基因数据的产出速度也在不断加快。

然而,单个基因的研究往往无法发现复杂疾病背后的机制,而对基因共表达网络的构建及其相关性分析能够探索基因之间的相互作用,从而揭示得疾病的本质。

基因共表达网络是指通过计算基因表达量的相似性,将基因相互联系起来形成的网络。

与传统的研究方式不同,基因共表达网络将基因看做一个整体,旨在研究基因的相互影响,从而更好地理解生物系统的复杂性。

当前,基因共表达网络已被广泛地应用于多种研究领域,比如疾病筛选、药物开发、基因调控网络的重构等。

构建基因共表达网络的基本步骤包括数据预处理、基因表达数据标准化、基因表达相关系数计算、筛选相关性达到一定标准的基因,并将它们构成一个网络图等。

常用的数据预处理方法包括质量控制、归一化、去除批次效应等。

目前主要有Pearson相关系数、Spearman相关系数和互信息等方法用于基因表达的相关系数计算。

在筛选相关性较高的基因时,常用的方法有阈值法、P值法、False Discovery Rate(FDR)法或者公认的基因相关模型等。

基因共表达网络分析不仅关注单个基因,更重视整体上基因之间的协同作用与相互关联,需要从全局的角度去探究基因网络中的基因间相互作用关系。

基因网络分析的主要内容包括度数分布、节点中心性、聚类分析和模块检测。

节点度数分布是指节点在整个网络中的连接数分布状况,通常用来表征网络的复杂性和稳健性。

而节点中心性能够评估各个节点在网络中的重要性,并说明节点在整个网络结构中所处的位置。

常见的节点中心性指标包括度中心性、介数中心性、接近中心性等。

聚类分析是基于节点的相似性来讲整个网络划分成若干个子网络并对其进行进一步分析的一种方法。

聚类分析可以使得相似的基因或样本聚集在一起,方便对其进行进一步的生物学研究。

常见的聚类算法包括Hierarchical Clustering和K-Means 算法等。

基于协同过滤的推荐系统设计与实现作业指导书

基于协同过滤的推荐系统设计与实现作业指导书

基于协同过滤的推荐系统设计与实现作业指导书第1章绪论 (2)1.1 推荐系统概述 (2)1.2 协同过滤推荐算法简介 (2)1.3 作业目标与要求 (3)第2章数据收集与预处理 (3)2.1 数据来源与类型 (3)2.1.1 数据来源 (3)2.1.2 数据类型 (4)2.2 数据清洗与预处理方法 (4)2.2.1 数据清洗 (4)2.2.2 数据预处理 (4)第3章用户画像构建 (4)3.1 用户特征提取 (5)3.2 用户画像建模方法 (5)第四章物品特征提取 (6)4.1 物品属性分析 (6)4.2 物品特征提取方法 (6)4.2.1 基于统计的方法 (6)4.2.2 基于文本挖掘的方法 (6)4.2.4 基于深度学习的方法 (7)4.2.5 结合多种方法的特征提取 (7)第5章基于用户的协同过滤推荐算法 (7)5.1 用户相似度计算 (7)5.1.1 相似度计算方法 (7)5.1.2 相似度计算的优化 (8)5.2 推荐算法实现 (8)第6章基于物品的协同过滤推荐算法 (9)6.1 物品相似度计算 (9)6.1.1 相似度计算方法概述 (9)6.1.2 余弦相似度计算 (9)6.1.3 皮尔逊相关系数计算 (9)6.1.4 调整余弦相似度计算 (9)6.2 推荐算法实现 (10)6.2.1 推荐算法流程 (10)6.2.2 推荐算法具体实现 (10)6.2.3 算法优化与扩展 (10)第7章混合推荐算法 (10)7.1 混合推荐方法概述 (11)7.2 混合推荐算法实现 (11)7.2.1 算法框架 (11)7.2.2 算法步骤 (11)7.2.3 算法优化 (12)第8章推荐系统评估与优化 (12)8.1 评估指标与方法 (12)8.1.1 评估指标 (12)8.1.2 评估方法 (13)8.2 优化策略与实践 (13)8.2.1 优化策略 (13)8.2.2 优化实践 (13)第9章推荐系统应用案例分析 (14)9.1 电商推荐系统案例 (14)9.1.1 案例背景 (14)9.1.2 系统架构 (14)9.1.3 案例分析 (14)9.2 社交媒体推荐系统案例 (15)9.2.1 案例背景 (15)9.2.2 系统架构 (15)9.2.3 案例分析 (16)第10章总结与展望 (16)10.1 作业总结 (16)10.2 未来研究方向与挑战 (17)第1章绪论1.1 推荐系统概述互联网的迅速发展,用户在网络上可获取的信息资源日益丰富。

基因共表达网络的构建和分析

基因共表达网络的构建和分析

基因共表达网络的构建和分析基因共表达网络是一种描述基因表达之间关系的图形化方法,旨在解释基因调控网络中基因之间的相互作用。

这种分析方法可以帮助探索复杂的基因调控网络并提供有关生物物种的结构和功能的信息。

本文将探讨基因共表达网络的构建和分析。

一、构建基因共表达网络构建基因共表达网络的第一步是获得与基因表达相关的数据集。

这可以通过基因芯片数据或RNA测序数据实现。

芯片数据可以测量成千上万个基因的表达水平,而RNA测序数据可以提供更详细的信息。

然后,将这些数据标准化,使得在样本和实验之间存在可比性。

接下来,需要确定基因共表达的标准。

最常用的是皮尔逊相关系数,但也可以使用其他计算方式。

例如,Spearman相关系数和互信息。

相关系数用于确定两个基因之间的线性关系,互信息用于确定非线性关系。

然后,通过设置相应的阈值来确定基因之间的共表达关系。

如果两个基因之间的相关系数达到特定阈值,就会被认为是共表达的。

最后,根据共表达关系构建一个基因网络。

这个网络是一个图形,其中每个基因被表示为一个节点,并且共表达关系被表示为边缘。

这个网络可以用来探索基因的功能和相互作用,例如识别调控基因,鉴定环路和发现功能模块。

二、分析基因共表达网络基因共表达网络旨在推断生物系统中的基因调控网络并揭示这些网络的一般原则。

在分析中,有几个主要的统计学方法,例如节点度分布,群集系数和小世界特性。

节点度分布是指节点的度数(即节点连接数)的分布。

一个高度异质性的基因共表达网络显示出一个“幂律分布”,它表明大多数节点具有非常低的度数,但是有一些节点(所谓的hubs)具有非常高的度数。

这些hubs是网络中最关键的基因,因为它们通过多个路径连接到大量其他基因,如果它们从网络中消失,整个网络的稳定性将会下降。

群聚系数是每个节点的局部聚类程度的平均值。

它描述了在一个给定节点周围的基因之间形成群体的概率。

对于群聚系数大的网络,可以看出该网络预示着具有密集的关联推测的主题群的特征。

基于无标度网络的深圳证券交易市场特性分析

基于无标度网络的深圳证券交易市场特性分析
无 标度性 。本文利用 复杂网络 的理论和研究 方法分析 了深圳证 券交 易市场 的特性 , ] 以该 市场 的股 票为节点 , 股 票价格波动相关性为边构建一个 无向无权网络 , 分析 了该 网络的拓扑 结构 , 揭示 了深圳证 券市场 网络具有典 型的无标度特性 。
1 网 络 模 型 的构 建
维普资讯
第2卷 第 2 1 期 2008年 6月
青 岛 大 学 学 报 (自 然 科 学 版 ) J OURNAL OF QI NGDA UNI RS TY ( t r l ce c d t n) O VE I Nau a in eE i o S i
~■
其 中 , ( 为股票 在 期 内的平均 收益率 , ER )
1 —
ER ) ( 一÷ >: () R £
() 2
本文 抽样 选取 2 0 年 以前 在深圳证 券交易所上市 并且 持续交易 的 30家股票为节点 , 04 0 以其 2 0 04年 ̄2 0 06
年股 票周 收盘价来计算对数 收益 率 , 并对每支股票周 收盘价 以 2 0 04年 1 1日为基点进行后 向除权 , 月 得到每支
9 3
股票 各有 10 收盘价数据 。通 过计算 得 到相关 系数 ( , 5个 见 .
图 l 。 1

2 无标度 特性分析
2 1 无 标 度 网络 检 验 .

JL l j i

研究 表 明, 量 现 实 中 的 网络 的 节 点度 服 从 幂 律 分 布 。 大 这里节点 的度 k 是指节点 拥有相邻节点 的数 目, 或者说 与节点 关联 的边的数 目。所有 节点 的度 k 的平均值 称 图 l 深圳证券交易市场股票相关系数概率分布

基于遗传算法和神经网络的股票价格预测

基于遗传算法和神经网络的股票价格预测
p o pe t r s c・
KEYW ORDS BP e a t n ur lnewor k, ge e i l ort n tca g ihm , soc rc t k p ie, pr diton e ci
在股 票 市场 中交易 股 价往 往 与 它 的本 身价 值 有
B L 作 为 输 入 项 。数 据 来 源 为 大 智 慧 软 件 收集 的 OL 20 0 4年 3月 1 0日到 2 0 0 9年 5月 2 1日之 间 12 3个 1 交 易 日里 金融 街 股票 的 相关 数据 。其 中前 12 0个 数 0
据 作 为训 练数据 , 1 后 3个数 据作 为预 测数 据 。

史 基本 信息 , 有如 KD 还 J等 间接 反应 走 势 的处理 后 信
息 。 文选 择开 盘价 、 高价 、 本 最 最低 价 、 收盘 价 、 交量 、 成
M A5 、MA1 、M A2 、M ACD、KDJ 0 0 、W&R、OB 、 V
定 的差别 , 这将 导致人 们投 资的风 险和机 遇 。例 如 ,
【 关键词 1B P神 经 网络 ,遗传 算 法 ,股 票价格 ,预 测
中图 分 类 号 :TP 9 33 文 献 标 识 码 :A
AB T S RAC T To t e c mp e i f h p r to f h e u iis ma k t a h o l x t o e o e a i n o e s c rt r e , n i r v d B e r l e wo k mo e sp o o e a d y t t e mp o e P n u a t r d l n wa r p s d, n
1 2 神经 网络 设计 .

电力负荷预测模型的建立与精度评估方法

电力负荷预测模型的建立与精度评估方法

电力负荷预测模型的建立与精度评估方法随着电力系统的快速发展和电力需求的不断增长,准确预测电力负荷成为了电力行业和能源规划的关键问题。

电力负荷预测模型的建立和精度评估方法成为了研究热点,对于电力系统的稳定运行、经济调度和资源配置具有重要意义。

一、电力负荷预测模型的建立电力负荷预测模型是基于历史负荷数据和相关影响因素的统计学方法,通过建立合适的数学模型来预测未来一段时间内的电力负荷。

常用的电力负荷预测模型包括回归分析模型、时间序列模型和人工神经网络模型等。

1. 回归分析模型回归分析模型是一种常用的电力负荷预测方法,它基于历史负荷数据和相关影响因素之间的线性关系建立预测模型。

常见的回归分析模型包括线性回归模型和多元回归模型。

首先,根据历史负荷数据和影响因素数据进行数据预处理,包括数据清洗和特征提取等。

然后,建立回归方程,通过最小二乘法估计模型参数。

最后,利用建立的回归模型对未来一段时间的电力负荷进行预测。

2. 时间序列模型时间序列模型是一种基于时间趋势的电力负荷预测方法,它假设未来的负荷与过去的负荷存在某种规律和关系。

常用的时间序列模型包括移动平均模型、指数平滑模型和自回归移动平均模型等。

首先,对历史负荷数据进行平稳性检验,确保数据满足模型的基本假设。

然后,选择适当的时间序列模型,比如ARIMA模型。

最后,利用选定的模型对未来一段时间的电力负荷进行预测。

3. 人工神经网络模型人工神经网络模型是一种基于机器学习的电力负荷预测方法,它通过构建多层神经网络模型来模拟人脑的神经元网络,实现非线性模型的建立和预测。

常用的人工神经网络模型包括前馈神经网络、循环神经网络和长短期记忆网络等。

首先,根据历史负荷数据和相关影响因素构建神经网络结构,包括输入层、隐藏层和输出层。

然后,通过反向传播算法训练神经网络模型,不断调整权值和阈值以提高模型的预测性能。

最后,利用训练好的神经网络模型对未来一段时间的电力负荷进行预测。

二、精度评估方法电力负荷预测模型的精度评估是衡量模型预测性能的重要指标,常用的评估方法包括均方根误差(RMSE)、平均绝对百分比误差(MAPE)和相关系数等。

证券配对交易策略研究

证券配对交易策略研究作者:卢海君来源:《商情》2019年第45期【摘要】本文基于协整方法对配对交易进行了研究,选取2015-2018年的上证50指数成分股前复权收盘价数据进行了实证分析,并将2018年作为样本外数据进行回测。

实证结果表明:本文所构建的策略获得的超额收益为11.295%,且触发交易次数较多,盈利机会比较大,说明配对交易策略在中国市场是可行的。

【关键词】配对交易; 选股; 协整方法; 阈值一、引言股票市场波动往往较大,投资者的资产收益会受到市场波动的影响而不稳定。

配对交易作为一种市场中性策略应运而生,它是统计套利交易的一种形式,主要的思路是通过买卖具有长期相似趋势的股票对的短暂价差赚取收益。

当这两个股票对的价差出现偏离时,通过做多股价被低估同时做空股价被高估的股票,并在价差逐渐收敛回复时做反向交易而获得套利收益。

目前我国已推出融资融券业务,使得做空机制成为可能,这在一定程度上为配对交易提供了发展的空间。

其中,股票配对的选择是配对交易策略制定中的重要步骤,主要包括由Gatev等(2006)提出的基于距离的股票配对方法,由Vidyamurthy(2004)提出的基于协整的方法以及由Elliott等(2005)提出的基于随机价差的方法。

中国学者在这方面也进行了相应的研究。

王春峰等(2013)参考GGR模型,实证分析了中国市场2006-2009年的沪深300指数成分股,基于价格差异的最小距离法来配对股票,结果表明在市场环境变化的情况下仍然可以获得收益。

王春丽和王佩帆(2017)则对配对交易策略进行了改进,利用相对价差进行实证分析,其交易绩效优于传统绝对价差的方法。

欧阳红兵和李进(2015)则从配对交易的阈值选定角度出发,基于协整方法确定了最优的阈值,实现了利润最大化。

综上,本文将从投资者角度出发,研究基于协整法的配对交易策略。

本文利用Wind数据库选取了上证50指数成分股,时间跨度为2015年1月1日至2018年12月31日,对其前复权日交易数据进行实证分析,选择合适的配对标的资产并选定合理阈值,构建出最优的套利策略。

基于LSTM_TCN模型的降雨型滑坡时间概率预测及气象预警建模

( MAE ) 、 均 方 根 误 差 ( RMSE ) 、 受 试 者 特 征 曲 线
( ROC)4 个指标上的表现性能,选出最优模型。
(3) 利用模型进行实例应用与验证。 通过给最
据的时序特征来预测滑坡时序的相关研究较少。 目
优模型输入另一验证区的相应累积有效降雨量因子
前应用于时间序列预测领域常见的深度学习模型有

通信作者, E-mail: lixiachen@ cug. edu. cn
2022-11-24 收稿; 2023-01-12 修回; 2023-01-13 接受
基金项目: 国家自然科学基金项目(41877525)
中图分类号: P642. 22 文章编号: 2096-8523(2024)02-0201-14 doi:10. 19509 / j. cnki. dzkq. tb20220657
[30]
、长短时记
Hale Waihona Puke ( long short-term memory neural network,
简称 LSTM) 。 但是利用深度学习算法提取降雨数
(由 1 或 0 表示) 作为输出,构建 ANN、LSTM、TCN、
LSTM_TCN 4 种模型并进行训练和测试。 比较和分
析 4 种 模 型 在 准 确 率 ( ACC ) 、 平 均 绝 对 误 差
值模型
[17]
等。 CROZIER
[18]
研究表明降落至地表的
雨水会沿坡面径流和蒸发,真正入渗于地表以下对
滑坡的发生产生作用的雨水只有一部分,被称为有
效降雨量。 其中常用的有效降雨量模型是幂指数模
型,广泛地应用于降雨阈值研究 [13,19-20] 。
但是,上述方法同样也存在滑坡发生时间样本

特征选择距离相关系数法

特征选择距离相关系数法特征选择是机器学习中的重要步骤,它可以帮助我们筛选出对于模型训练最有用的特征,从而提高模型的准确性和效率。

距离相关系数法是一种基于统计学的方法,它通过计算特征之间的距离相关系数来评估特征之间的相关性。

距离相关系数是一种度量两个变量之间关系强度的指标,它的值介于-1到1之间。

如果值接近1,表示两个变量之间存在正相关关系;如果值接近-1,表示两个变量之间存在负相关关系;如果值接近0,表示两个变量之间没有线性关系。

在特征选择中,我们可以使用距离相关系数来评估每个特征对于目标变量的贡献程度。

具体来说,我们可以按照以下步骤进行:1.计算每个特征与目标变量之间的距离相关系数。

2.将每个特征按照距离相关系数的值进行排序。

3.根据需要选择前N个特征作为最终的特征集合。

距离相关系数法具有以下优点:1.它是一种无监督学习方法,不需要训练集就可以计算特征与目标变量之间的距离相关系数。

2.它考虑了特征之间的相互关系,能够筛选出那些与目标变量关系最密切的特征。

3.它适用于不同类型的数据,包括连续型和离散型数据。

然而,距离相关系数法也存在以下缺点:1.它只能考虑特征之间的线性关系,无法处理非线性关系。

2.它对于小样本数据可能会出现过拟合现象。

3.它需要手动设定阈值来选择特征,可能会造成结果的不稳定。

为了克服这些缺点,我们可以采用以下方法:1.对于非线性关系,可以使用核方法将数据从原始空间映射到高维空间,从而将非线性问题转化为线性问题。

2.对于小样本数据,可以使用一些稳健的统计方法来估计距离相关系数,如Bootstrap方法。

3.对于手动设定阈值的问题,可以使用一些自动化方法来确定阈值,如交叉验证。

总之,距离相关系数法是一种有效的特征选择方法,它可以帮助我们筛选出与目标变量关系最密切的特征,从而提高模型的准确性和效率。

在实际应用中,我们需要根据具体问题的特点来选择合适的方法和参数设置,以达到最佳的效果。

相关系数法筛选特征值

相关系数法筛选特征值引言在现代数据科学和机器学习中,特征选择是一个重要的任务,它可以帮助我们找到对于构建准确和鲁棒的模型而言最重要的特征。

特征选择有助于减少维度灾难,并提高模型的解释性和性能。

本文将详细介绍相关系数法筛选特征值的原理、步骤和应用示例。

相关系数法是一种常用的特征选择方法之一,它通过衡量特征与目标变量之间的相关性来选择重要的特征。

相关系数法的原理相关系数是一种用于衡量两个变量之间线性关系强度的统计指标。

在特征选择中,我们可以使用相关系数来度量特征与目标变量之间的相关性,进而判断特征的重要性。

常用的相关系数有皮尔逊相关系数(Pearson correlation coefficient)、斯皮尔曼相关系数(Spearman correlation coefficient)和肯德尔相关系数(Kendall correlation coefficient)。

其中,皮尔逊相关系数适用于测量两个连续变量之间的线性关系,而斯皮尔曼相关系数和肯德尔相关系数适用于测量两个有序变量或等级变量之间的单调关系。

相关系数法筛选特征值的步骤使用相关系数法筛选特征值通常包括以下步骤:步骤1:计算相关系数对于每个特征与目标变量之间的关系,我们首先需要计算它们之间的相关系数。

具体而言,我们可以使用皮尔逊相关系数、斯皮尔曼相关系数或肯德尔相关系数来计算相关系数的值。

步骤2:选择相关系数阈值在选择相关系数阈值时,我们需要根据具体的问题和数据集来确定。

一般而言,绝对值较高的相关系数表示特征与目标变量之间具有强烈的线性/单调关系,因此可能更重要。

根据相关性的要求,我们可以选择适当的相关系数阈值。

步骤3:筛选特征值根据选择的相关系数阈值,我们可以将相关系数较高的特征值选择为最终的特征。

具体而言,我们可以选择相关系数绝对值大于阈值的特征作为重要特征,而剩余的特征可以被认为是不相关或相关性较低的特征,可以进行后续的特征选择操作或直接剔除。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第1O卷第4期 2013年12月 复杂系统与复杂性科学 

CoMPLEX SYSTEMS AND CoMPLEXITY SCIENCE Vol|1O No.4 

Dec. 2013 

文章编号:1672—3813(2013)04—0049—07 基于相关系数和最佳阈值的股票网络模型构建 

吴翎燕,韩 华,宋宁宁 (武汉理工大学理学院,武汉430070) 

摘要:运用收集到的沪市股票数据,在给定阈值0.5得到的网络的基础上,基于相关 系数和最佳阈值,构建了新的沪市股票网络模型。从网络的节点,社团结构和模体结 构3个角度验证分析了该方法构建的网络的拓扑结构稳定。并对构建股票网络的方 法进行推广运用,运用收集到的深市股票数据构建了深市股票网络模型,分析了该网 络的社团结构和模体结构。结果显示:该方法构建的股票网络具有稳定的拓扑结构。 基于相关系数和最佳阈值构建网络的方法可以推广应用到其他领域。 关键词:股票网络;相关系数;最佳阈值 中图分类号:N949 文献标识码:A 

The Construction of Stock Network Model Based on Correlation Coefficient and Optimal Threshold 

WU Ling—yan,HAN Hua,SONG Ning-ning (Department of Science,Wuhan University of Technology,Wuhan 430070,China) 

Abstract:This paper collects Shanghai stock data.On the basis of stock network constructed by the given threshold 0.5,we build a stock network model based on correlation coefficient and opti— mal threshold.We prove the stability of the topological structure of the network from the per— spective of network node,community and motif structure.Then we promote the way to build Shenzhen stock network by using Shenzhen stock data,and we analyze community and motif structure of the network.The results show that the topological structure of stock networks con— structed based on correlation coefficient and optima1 threshold iS stable.And we can promote the way to other fields. Key words:stock networks;correlation coefficient;optimal threshold 

0 引言 目前复杂系统受到越来越多的关注,许多学者都开始用复杂网络的工具来描述复杂系统,一个典型的网 络由节点与连接两个节点的边组成,其中节点代表复杂系统中不同的个体,边表示个体之间的关系。目前学 者用复杂网络的工具在不同领域描述了复杂网络,例如因特网、社交网络、交通网络、食物网络以及股票网络 

收稿日期:2012—12—17 基金项目:国家自然科学基金(71140015);中央高校基本科研业务费专项基金(2013一Ia一007) 作者简介:吴翎燕(1990一),女,安微芜湖人,硕士研究生,主要研究方向为复杂网络分析。 复杂系统与复杂性科学 2013年12月 等。 股票网络是目前最受关注的复杂网络之一,许多国内外学者也纷纷在这方面做出了很多有力的研究。 构建股票网络的方法也不唯一。Mantegna[1 利用网络的最小生成树(MST)来找到股票之间最重要的连接, 而且最小生成树还能揭示网络的层次组织结构。Onnela[2 等通过按相关性由强到弱的顺序逐步向网络中添 加边的方法来研究网络的拓扑结构。Tse Chi K等 以股票为节点,股票收盘价格之间的相关性为连边,给 定阈值再结合赢者全赢的标准构建股票网络模型。Sultornsanee等[4 以股票为节点,股票之间的相关性为 连边,用同阶段同步股票相关性方法构建股票网络模型。Garas A等l_5 采用边权重过滤技术和距离变换来 构建股票网络模型,这样得到的股票网络的拓扑结构最明显。网络中存在噪声和较多复杂干扰的信息,为了 更好地提取出网络中有用的信息,更好地描述复杂系统,本文考虑在已有构建网络的方法的基础上对网络进 行精简,从而构建出新的股票网络模型。Thomas Kaue Dal’Maso Peron等 将金融市场视为一种高度复杂 的对经济不稳定性非常敏感的进化系统,基于最小生成树构建金融加权网络,并提出一种基于股票相关矩阵 分析网络的拓扑结构和动态演化规律,证明了金融危机时期遭受变化时网络的拓扑组织变得更加健壮,恢复 能力更好。 许多学者从不同角度研究了股票网络的拓扑性质,例如标度理论、过滤技术、阈值、最大连通子图的方法 等。一些学者采用阈值的方法分析和解决复杂网络中的问题。Boginski_7]、Huangl_8 等利用边相关系数阈 值法来得到不同的网络。Lee等 ]建立韩国证券市场的股票相关性的复杂网络,并通过相关系数提出了阈 值的概念,当阈值介于0.4和0.6之间时,网络具有无标度性。Namaki等 叩指定相关矩阵的最大特征向量 作为市场模型,运用随机矩阵理论去除了市场模型,并以德黑兰证券交易所为例,用相关系数和阈值构建了 股票网络模型,并分析了不同阈值下网络的拓扑性质。杨治辉和贾韩梅[1 建立了股票关联网络模型,找出 股票节点间的相关系数,确定股票网络的阈值,进而分析股票网络结构的统计特性。最大连通子图也是复杂 网络的重要拓扑性质之一,Albert等Ⅲ】 ]选择了最大连通子图尺寸和平均最短路径来测度复杂网络的连通性 能。汪涛和吴琳丽[1胡运用最大连通子图的相对大小和网络效率对公交网络的抗毁性进行了分析研究,可以 得出最大连通子图的相对大小和节点数对于网络的抗毁性具有重要意义,也反映出它对于网络的稳定性具 有重要作用。通过学者们对阈值和最大连通子图的研究,本文考虑在运用阈值构建网络的基础上,运用最大 连通子图节点数的变化和阈值的变化相结合的方法,基于相关系数和最佳阈值来构建和分析网络。 

1网络模型构建 1.1相关概念 1.1.1相关系数 网络的节点代表股票,边代表股票之间的相关性。任意两只股票i和J的皮尔逊相关系数为 苦每 ㈩ 

其中,i、J为股票的记号,对数价格收益r ( )一lnP (£)一lnP (£一1),<…>为统计平均,P ( )为第i只股 票在时间t时的价格,ID ,的取值范围为[一1,1]。若f0 一一1,则表示两只股票完全负相关;若l0 一1,则表 示两只股票完全正相关,若 一0,则表示两只股票不相关。由此,可以得到股票市场的股票相关系数矩阵。 1.1.2 阈值 股票代表网络中的点,如果皮尔逊相关系数l I≥0(0 E[一1,1]),就认为节点i和 之间有连边,这 里的0即阈值点。因此,在不同阈值基础上构建的网络是不一样的,它们具有相同数量的节点,不同数量的 边_8]。阈值的变化与网络的连边数的变化是成反比关系的,阈值在某个区问逐渐增大时,网络连边数急剧减 小,当在此区间外时,阈值变化对连边数的变化影响不大。阈值在一定区间变化时,网络是高度聚类的,具有 明显的拓扑性质,在此区间外,网络分布稀疏口 。本文中选取的最佳阈值是指在该阈值下构建的股票网络 

的拓扑性质稳定,更有利于对股票网络的研究。 第1O卷第4期 吴翎燕,等:基于相关系数和最佳阈值的股票网络模型构建 1.2沪市股票网络构建 为建立股票网络模型,本文搜集了2000年1月1日 ̄2011年4月1日在上海证券交易所上市的884家 A股公司的收盘价格数据,共有4 109个交易日。利用收集到的股票价格数据建立股票网络。 在给定阈值0.5所构建的网络的基础上,分别选取一系列新的阈值点,算出每个阈值所构建的网络的最 大连通子图的节点个数,如表1所示。 

表1不同阈值构建沪市股票网络的最大连通子图节点数 Tab.1 Node number of giant component in Shanghai stock network based on different threshold 

阈值0 0.647 0.657 0.660 0.662 0.665 0.667 0.670 0.675 0.680 0.685 最大连通子图节点个数 

根据表1阈值与最大连通子图的节点个数的对应关 系,可以作出两者的线图,如图1所示。 从图1可以看出,阈值在0.657~0.662之间时,最 大连通子图的节点个数的变化较平稳,并且可以看出在 阈值0.657之前,最大连通子图的节点个数变化较快,到 0.657时变化开始变得平缓。发现阈值为0.657时网络 拓扑性质较稳定,因此选取0.657为最佳阈值。这与 Garas.Al5 提出的边权重过滤技术相吻合,即去除了给 定阈值0.5构建的网络的约为98 的弱连边,留下了约 为2 的强连边。如此,基于相关系数和最佳阈值构建 的股票网络,如图2所示。 

2 网络模型构建方法合理性分析 为证明基于相关系数和最佳阈值构建的股票网络的 合理性,分别从网络的节点,模体结构和社团这3个方面 来对上述构建的沪市股票网络的拓扑性质进行分析。 2.1 关键节点 无标度网络中存在一定数量的度值(连接数)极高的 节点,即度最大的那些节点,通常称为hub节点,也称为 网络的关键节点_1 。少数hub节点拥有极其多的连接, 而大多数节点只有少量的连接。少数hub点对网络的 运行起着主导的作用,对于分析网络的鲁棒性、脆弱性等 具有重要作用。 

壮 囤 

罔 

嗌 

220 170 12O 70 0.645 0.65 0.655 0.66 0.665 0.67 0.675 0.68 0.685 0.690 阈值 

图1 阈值与最大连通子图的节点个数的线圈 Fig.1 Line graph of the node number of threshold and giant component 

相关文档
最新文档