案例-盐城-基于R语言采用大数据手段支撑L800M网络负荷优化

合集下载

R语言数据挖掘(第2版)课件：R的网络分析初步

《R语言数据挖掘(第2版)》
网络的定义表示及构建
网络分析的基础是网络的定义及表示，通常有两种相互联系的表示方式：图论表示方式、矩阵表示方式
图论表示方式：从图论角度看，网络由多个节点和节点间的连接（也称边）组成，是一种广义的图
网络可记为G=(N,E) 。网络G中沿着连接在不同节点间的移动，称为游走
相关R函数：
shortest.paths(graph=网络类对象名, v=起始节点对象, to=终止节点对象,mode=方向类型)
diameter(graph=网络类对象名 ,directed=TRUE/FALSE,unconnected=TRUE/FALSE)
《R语言数据挖掘(第2版)》
节点“中心”作用的测度
《R语言数据挖掘(第2版)》
R的网络可视化
网络可视化的核心是以怎样的外观轮廓展示网络，尤其对较为庞大的网络更为如此
合理安排网络外观轮廓的算法
最小分割法：目的是最小化连接间的交叉数最小空间法：基于几何意义上的空间距离，令空间距离较
近的节点摆放在相邻的位置上谱分解法：依据节点的特征向量中心度安排节点的位置树形/层次法：根据节点间的连接将节点安排成树形形状，
edge.betweenness(graph=网络类对象名)，可计算连接的中间中心度
《R语言数据挖掘(第2版)》
节点重要性的其他方面
结构洞
一个系统（网络）中，若某个成员（节点）退出系统，使得局部系统中的其他成员（节点）间不再有任何联系（连接）。从结构上看就像局部网络中出现了一个关系断裂的 “洞穴”，该成员称为一个结构洞
在网络G中，若一对节点被两个以上的连接相连，则称网络G存在多边
若网络G存在环或者多边，则称网络G为多重图。否则为简单图。网络的分析中，通常需将多重图简化为简单图后再研究

基于R语言的大数据处理平台的设计与实现

基于R语言的大数据处理平台的设计与实现周芸韬【摘要】R语言是一种基于统计、运算和绘图的数据处理方式，其能够较为理想地进行大数据处理工作。

因此，设计基于R语言的大数据处理平台。

当平台的用户请求层向技术层发送大数据处理指令，技术层随即开始工作，其处理结果也将反馈至用户请求层。

技术层由大数据管理模块、大数据处理模块和R语言控制模块组成，大数据处理模块的EP1C6Q240C8芯片通过借鉴大型数据库内容，进行大数据的挖掘工作，并将其挖掘结果提供给大数据处理模块进行大数据的筛选、汇总、转换和标准控制。

经大数据处理模块处理后的大数据，将通过串口通信电路回传给用户请求层。

R语言控制模块为整个平台制订处理标准。

软件方面利用R语言的类聚性能设计技术层挖掘功能图和大数据向量化处理代码。

实验结果表明，所设计的平台能够对大数据进行高性能的处理。

%The R language is a data processing way based on statistics,computation and graphics. It can process the big da?ta ideally. Therefore,the big data processing platform based on the R language was designed. When the platform′s user request layer sends big data processing instructions to its technology layer,the technology layer gets to work immediately,and feeds the processing result back to the user request layer. The technology layer is composed of big data management module,data data processing module and R language control module. EP1C6Q240C8 chip of the big data processing module is adopted to execute big data mining by means of content in a large?scale database,and provide the big data processing module with the miningre?sults for big data screening,summary,conversion and standard control.The big data processed by the big data processing module is sent back to the user request layer through a serial port communication circuit. The R language control module works out the processing standards for the whole platform. The type clustering performance of R language is utilizedto design technology layer′s mining functional diagram and big data vectorization processing code. The experimental result shows that the platform designed in this paper can carry out the high?performance big data processing.【期刊名称】《现代电子技术》【年(卷),期】2017(040)002【总页数】5页(P53-56,59)【关键词】R语言;大数据处理平台;EP1C6Q240C8;数据挖掘【作者】周芸韬【作者单位】云南师范大学商学院，云南昆明 650106【正文语种】中文【中图分类】TN911-34;TP914.2网络时代的来临，使大数据不可避免地吸引到了各界的关注。

R语言在大数据处理中的应用

排名第一），荣登榜首。ＲｅｘｅｒＡｎａｌｙｔｉｃｓ５ｔｈ
图２
数据挖掘者调查报告指出：Ｒ语言一直保持
科技资讯ＳＣＩＥＮＣＥ＆ＴＥＣＨＮＯＬＯＧＹｉＮＦＯＲＭＡＴＩＯＮ
１９
ＳＣＩＥＮＯＥ＆ＴＥＣＨＮＯＬ０ＧＹＩＮＦＯＲＭＡＴＩＯＮ
Ｒ语言在大数据处理中的应用
杨霞吴东伟（中国人民解放军９１４６９部队北京１００８４１）摘要：互联网数据的爆炸性增长催生了诸多海量数据存储与大数据处理的新技术，本文对基于Ｈａｄｏｏｐ平台利用Ｒ语言进行大数据处理分
的技术架构日渐难以满足海量数据处理的ｂｅｒｔＧｅｎｔｌｅｍａｎ共同创立。Ｒ语言在ＧＮＵ多的数据分析师的喜爱，Ｒ语言在大数据处Ｒｏ
需求。为解决海量数据的存储和数据查询理中的应用也越来越被学界和业界所重协议下免费发行，其源代码可自由下载使的的延时问题，出现了诸多新的技术与工视。具。其中，开源统计分析语言Ｒ被广泛应用干互联网、制药、环境保护等行业，进行经济计量、财经分析、人文科学研究、用户行为分析、以及人工智能相关的计算。Ｒ语言用，也有已编译的可执行文件版本可以下

大数据技术在5G通信网络中的网络优化应用_3

大数据技术在 5G 通信网络中的网络优化应用发布时间：2022-11-20T09:48:16.301Z 来源：《中国科技信息》2022年第14期第7月作者：蔡伟嘉[导读] 近年来，网络技术发展迅速蔡伟嘉中国电信股份有限公司潮州分公司广东省潮州市 521000摘要：近年来，网络技术发展迅速，与有线网络不同，无线网络没有固定设施，数据接收与传输无法集中管理。

5G网络是第5代移动通信网络技术，与以往通信网络技术相比，具有高效率、低延时以及大连接的优势。

5G网络不仅为人们提供了更加便捷的网络环境，还拓宽了网络业务渠道。

传统5G网络容量自适应算法的自适应时间较长，网络业务容量较大，其他业务容量较小。

当用户较多时，网络整体延时较长，影响用户上网体验。

同时，传统算法的网络吞吐量较小，网络容量自适应性较差。

基于此，本篇文章对大数据技术在5G通信网络中的网络优化应用进行研究，以供参考。

关键词：大数据技术；5G通信网络；网络优化应用引言随着网络通信技术日新月异的发展，大数据运应而生，不仅促进了国民经济的高速发展，还凭借自身的优势在各个领域都发挥了至关重要的作用。

作为新一代宽带移动通信技术，5G高速率、低时延、大连接的特征5G网速高达1Gbps以上，较为4G网络不仅提高了通信技术能力，为夯实了大数据的发展，因此文章探讨了数据技术在5G通信网络中的特征和应用，以期实现5G网络通信技术和大数据技术的融合，构建"万物万联"的世界，助力社会的发展。

1 大数据的巨大作用大数据的应用领域很多，包括商业、工业、农业、科学以及医学等。

沃尔玛作为全球最大的超市，掌握着大量的销售数据。

巧妙地利用大量的销售数据，帮助沃尔玛在商业上获得了巨大的成功。

例如，通过统计大量的销售数据发现每当季节性飓风来临之前，手电筒和蛋挞的销量都显著增加了。

所以当季节性暴风来临前，沃尔玛会把蛋挞放在飓风用品旁边，以提高总体销售额。

此外，在沃尔玛超市有一个有趣的现象：尿布和啤酒摆在一起。

LTE超忙小区优化处理ppt课件

100
0
4.21
92.25
优化后
48%
-112.25
0.48
100
0
8.34
52.75
紫竹园小区3号楼2单元
近点
优化前
88%
-100.32
5.73
100
0
5.57
100
优化后
100%
-101.95
12.27
100
0
38.36
0
紫竹园小区6号楼1单元
远点
优化前
56%
-107.38
2.75
100
0
1.28
小区名称
本小区L800M主要接入距离（米）
本站L1.8G主要接入距离（米）
本站L2.1G主要接入距离（米）
站间距（米）
优化方案
小区A
1950-3510
546-1014
546-1014
850
收缩L800M覆盖
小区B
1014-1950
234-546
234-546
960
增强L1.8/2.1G覆盖
TA值的含义 TA就是time advanced，表征的是UE与天线端口之间的距离。
门限一（大流量）
自忙时小区PRB利用率≥50%且小区流量≥1.5GB
自忙时小区PRB利用率≥50%且小区流量≥6GB
门限二（多用户）
自忙时小区PRB利用率≥50%且RRC连接用户数≥50
自忙时小区PRB利用率≥50%且RRC连接用户数≥200
统计条件
大数据平台按月提取全月数据，连续7天至少4天自忙时统计达到扩容门限一或扩容门限二
1
优化类分析
2

基于R语言的A医院大数据应用案例分析

基于R语言的A医院大数据应用案例分析4.1案例背景1949年之后的建国初期，我国公立医院方面实行的模式是：计划管理模式，也就是对患者收取低价（接近甚至是低于成本价格）的医疗服务费和（接近甚至是低于成本价格）药品成本费。

但是长此以往，在这种经营模式下，公立医院的总是入不敷出，出现经营亏损的情况。

并且随着社会的进一步发展，对于医疗服务的诉求得到了提升，长此以往政府会出现弊端。

于是，在1954年初期的时候，政府财政负担越来越重。

因此，为缓解政府财政对公立医院补助不足的压力，中华人民共和国启动药品加成的一些相关的政策，也就是县以上公立的医疗机构在进行销售药品的时候，可以选择以成本为基础，以一定的加价率，来实施或者制定相关的药品价格。

但是随着加成药品的出现，一些公立医院渐渐的出现了滥收费的模式，严重的影响居民的看病体验；21世纪初期，国家鉴于加成药品的情况越来越严重，已经出台了一些相应的政策来控制，本文的案例分析，就是某A公立医院的加成药品的分析。

4.2案例分析本文选择的研究对象是针对 A 公立医院，数据是：西药入库数据；时间是：2013-2016；研究该案例的目的是，分析 A 公立医院药品在进行售出的时候，究竟是否依然存在加成情况。

其中R软件是一款数据集可视化的开源软件，R软件的优势在于数据分析人员使用R程序语言对数据集进行处理，通过R软件的强大功能来展示出可视化的图像，用起来灵活多样，能够更加清晰的展现出该案例中药品是否依然存在加成的情况。

具体工作流程如下图所示（参见图4.1）：图4.1 工作流程根据图4.1 工作流程可以看出工作流程主要分为三个步骤：前置操作主要是为了获得前期数据，以及数据存储；数据分析主要就是基于R语言对于需要的信息进行挖掘，然后统计分析，进而可以得到我们需要的信息，最后将分析得到的结果运用R语言进行可视化展示。

4.2.1 RStudio前置操作1）改变R 软件工作目录本文在应用R 软件具体的实施开展数据分析之前，第一步要进行的是通过改变R 软件工作目录，来简化接下来的操作；具体操作时，先指定电脑硬盘中的具体的一个目录（任何一个盘都可以）作为R 软件具体工作时候的工作目录，这样在打开数据文件的时候，就不必要继续写路径操作了，进而达到简化操作的目的，具体的改变R 软件工作目录的操作方法如下图所示（参见图4.2）：图4.2 改变R 软件工作目录2）导入表格接着在数据分析之前，必须将所必须处理的数据应用R 软件读取；读取数据的时间节点为2013-2016，当然也包括了在这期间期间全部的西药入库的具体的数据，对于具体的读取数据的代码也就是DAX表达式如下所示（参见图4.3）：图4.3 读取数据的代码4.2.2数据分析导入成功数据之后，就可以具体实施运行了；在R 软件中运行图4.2读取数据代码的DAX表达式，通过R 软件具体数据分析，就可以得到在时间范围是2013-2016 的时候；A公立医院之内全部的加成药品；还有这些加成药品的信息也将变得一目了然；具体数据分析后结果如下图所示（参见图4.4）：图4.4 加成药品以及一些相关信息从图中 4.3 加成药品以及一些相关信息可以具体看出来；在时间范围是2013-2016 的时候；A公立医院之内其实每年都会产生药品加成的情况，并且阅读最后一栏的数据；在出现的这些药品加成的情况之中，2013年最为严重有18种加成药品出现；；2016年最好仅仅只有2种加成药品出现；并且从具体药品种类出发，可以发现复合维生素B药品加成的情况最多。

【原创】R语言使用特征工程泰坦尼克号数据分析应用案例数据分析报告论文(含代码数据)

咨询QQ：3025393450有问题百度搜索“”就可以了欢迎登陆官网：/datablogR语言使用特征工程泰坦尼克号数据分析应用案例数据分析报告来源：大数据部落| 有问题百度一下“”就可以了特征工程对于模型的执行非常重要，即使是具有强大功能的简单模型也可以胜过复杂的算法。

实际上，特征工程被认为是决定预测模型成功或失败的最重要因素。

特征工程真正归结为机器学习中的人为因素。

通过人类的直觉和创造力，您对数据的了解程度可以带来不同。

那么什么是特征工程？对于不同的问题，它可能意味着许多事情，但在泰坦尼克号的竞争中，它可能意味着砍伐，并结合我们在Kaggle的优秀人员给予的不同属性来从中榨取更多的价值。

通常，机器学习算法可以更容易地从工程学习算法中消化和制定规则，而不是从其导出的变量。

获得更多机器学习魔力的最初嫌疑人是我们上次从未发送到决策树的三个文本字段。

票号，舱位和名称都是每位乘客独有的; 也许可以提取这些文本字符串的一部分以构建新的预测属性。

让我们从名称字段开始。

如果我们看一下第一位乘客的名字，我们会看到以下内容：> train$Name[1][1] Braund, Mr. Owen Harris891 Levels: Abbing, Mr. Anthony Abbott, Mr. Rossmore Edward ... Zimmerman, Mr. Leo以前我们只通过子集化访问乘客组，现在我们通过使用行号1作为索引来访问个人。

好吧，船上没有其他人有这个名字，这几乎可以肯定，但他们还有什么共享？好吧，我确信船上有很多先生。

也许人物头衔可能会给我们更多的洞察力。

咨询QQ：3025393450有问题百度搜索“”就可以了欢迎登陆官网：/datablog如果我们滚动数据集，我们会看到更多的标题，包括Miss，Mrs，Master，甚至是Countess！标题“大师”现在有点过时，但在这些日子里，它被保留给未婚男孩。

【原创】R语言主题模型(LDA)案例：分析人民网留言板数据数据分析报告论文(代码+数据)

咨询QQ：3025393450欢迎登陆官网：/datablogR语言主题模型(LDA)案例：分析人民网留言板数据数据分析报告来源：原文链接:/?p=2155随着网民规模的不断扩大，互联网不仅是传统媒体和生活方式的补充，也是民意凸显的地带。

领导干部参与网络问政的制度化正在成为一种发展趋势，这种趋势与互联网发展的时代需求是分不开的。

▼人民网《地方领导留言板》是备受百姓瞩目的民生栏目,也是人民网品牌栏目,被称为“社情民意的集散地、亲民爱民的回音壁”。

基于以上背景，tecdat研究人员对北京留言板里面的留言数据进行分析，探索网民们在呼吁什么。

1数量与情感朝阳区群众最活跃图表咨询QQ：3025393450欢迎登陆官网：/datablog从上图可以看出不同地区留言板的情感倾向分布，总的来说，负面情感留言数目和积极情感相差不多，负面情感留言较多，占比46%，积极情感留言占比42%，中立情感的留言占比11%。

从地区来看，活跃在各大媒体的“朝阳区群众”留言数目也是最多的，其次是海淀区，昌平区。

因此，从情感分布来看大部分留言还是在反应存在的问题，而不是一味赞美或者灌水。

2咨询QQ：3025393450欢迎登陆官网：/datablog主题分析外地户口问题呼声最高接下来，我们对于语料进行LDA建模，就是从语料库中挖掘出不同主题并进行分析，换言之，LDA提供了一种较为方便地量化研究主题的机器学习方法。

我们使用最大似然估计进行最优化主题个数的选取。

当主题个数定为20的时候，似然估计数最大，即留言板数据分为20个主题的可能性比较大。

将模型生成的20个主题中的前五个高频词取出，如下表所示。

图表咨询QQ：3025393450欢迎登陆官网：/datablog然后我们将占比最高的前六个主题与它们的情感倾向进行分析。

图表。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于R语言采用大数据手段支撑L800M网络负荷优化
目录
一、概述 (2)
二、情况分析 (3)
1、准备工作 (3)
2、数据清洗 (3)
3、关联扇区的确定 (4)
4、关联扇区的分析 (5)
5、算法实现 (5)
三、成果展示 (5)
四、结论 (7)
一、概述
现网中有1.8G、800M两个频点为全网覆盖频点，话务热点区域补充L2.1G 以及TD-LTE分流，今年盐城LTE周流量增长了788TB，增幅为124%。

大规模网络建设后，如何利用有限的网络资源，应对不断增加的流量需求，同时还要提升客户感知，这对网络优化工作提出的终极目标，很具有挑战性。

网络覆盖的基础在于信号的强弱，为了保证信号覆盖，更希望用户处在L800M网络，如此可以更好的利用L800M的广覆盖优势，但是L800M现网仅有5MHz的带宽，吸收话务的能力有限，所以为了保证用户感知质量，又希望更多用户处在L1.8G网络中，因此需要针对L1.8G和L800M做好均衡。

中兴现网的版本尚未支持频率优选，因此在修改多频组网切换门限以求提升MR覆盖率时，会造成L800M的负荷明显增加。

因此一方面需要对高负荷区域适配“基于负荷均衡的MCS位置切换”参数，以求在“面”上降低L800M网络负荷，另一方面需要针对仍然负荷很高的具体“点”的扇区，进行逐一细致的分析，由于牵涉多频网络的各项工参、指标等多维数据，因此工作十分繁复。

本案例中提出利用大数据手段充分利用AGPS栅格数据，筛查出L800M高负荷扇区的关联L1.8G扇区，并对这些扇区的覆盖范围及质量进行评估，同时利用R语言的数据可视化输出功能，实现高负荷区域关联数据的一图可视，便于优化人员结合高清卫星地图进行高效率的分析，提升工作成效。

二、情况分析
通过AGPS数据，可以有效评估网络覆盖情况，将高负荷的L800M扇区的AGPS数据展现出来，则可以明确的看出其覆盖区域范围、覆盖信号强度、结合每个栅格点的采样次数的分布则可以推断出用户的集中区域。

1、准备工作
（1）开发平台：R语言、WINDOWS 7系统。

（2）数据源，20*20米AGPS栅格数据（包括L800M、L1.8G）、基站工参、各个频段全量扇区的负荷、MR指标等统计数据；
（3）电子地图，以便于对应分析。

2、数据清洗
通过性能统计筛查出L800M高负荷扇区，匹配关联20*20米的AGPS栅格数据，就得到了相应的L800M高负荷扇区的覆盖区域。

由于该数据为终端上报的GPS，因此存在一定的数据偏差，会出现偏远的覆盖点，需要对数据进行清洗。

高负荷L800M扇区的覆盖栅格点清洗算法示意
从图中的数据点分布情况可以看出，经过清洗后散点涉及范围压降到不足原先的20%的面积，同时保留了90%的分布点，使得数据更加聚集并有效。

3、关联扇区的确定
对于高负荷L800M扇区的分析，离不开共站的L1.8G关联扇区的覆盖质量以及负荷情况的分析，这个扇区也是重要的负荷分担目标扇区，因此特别需要明确其覆盖范围和L800M扇区的关联关系，但是仅此是远远不够的。

确定高负荷L800M扇区的共站关联扇区算法示意
通过L800M的栅格经纬度，匹配出所对应的L1.8G的栅格数据，并由此获得相关的L1.8G扇区，再进一步筛查出这些L1.8G扇区所覆盖的20*20米AGPS栅格数据信息，至此则已经获得和该L800M具有重叠覆盖的L1.8G的扇区，以及其相对应的栅格数据。

由于现网的L800M和L1.8G不是1:1对应布局，因此一个L800M扇区的覆盖往往对应着几个L1.8G的扇区覆盖范围，这些可以分为两种情况，一种是L800M 的覆盖点中有较高的比例落在相关L1.8G扇区的覆盖范围内，这属于交叠扇区；还有一种相关L1.8G扇区整体覆盖点中有较高的比例落在L800M覆盖范围内，同时加上在该范围内的分布系统，这些都属于包含扇区。

4、关联扇区的分析
对于关联的L1.8G扇区来说，首先需要查看其是否存在弱覆盖，如有则需要加强覆盖以减少切到L800M的概率；其次需要查看其是否存在高负荷，如有则
需要新增信源或者其他手段以分流；最后对于分布系统或滴灌来说，则直接考察其覆盖质量和负荷，对于负荷高的提出分布系统新增信源进行分流，对于覆盖质量不足的提出整治。

5、算法实现
基于R语言实现相关算法，筛查出高负荷的L800M扇区，以及其关联扇区、覆盖栅格情况等。

并且可以将L800M扇区覆盖的采样点集中区域展示出来以确定话务集中区，包括分析结果、网络拓扑、基站工参、扇区指标整合在一起，实现图形化显示，对于优化方案的制定提供极大的帮助，有效提升效率。

三、成果展示
通过R语言实现自动化分析，可以达到分析结果一图呈现。

具体如下：
Figure 4 质差区域及周边关联站点分布图
上图展示的即为马沟联垛村的分析情况：
A、红点位置即为高负荷L800M扇区，红色的名称表明该站L800M的18
扇区忙，PRB利用率达到53%，MR优良比为80%，所覆盖的栅格点使用
从采样点数量高的深蓝色到采样少的浅绿色展现；
B、蓝色点表明算法计算出所关联的L1.8G扇区的位置，蓝色扇区名表明
了扇区编号及天线挂高，可以看出同站的L1.8G的50扇区挂高27米；
C、紫色线段则表明L1.8G扇区的覆盖方向，标注表示扇区号/PRB利用
率/MR优良率，其中共站L1.8G可以看出为50扇区、PRB17%、MR96%，
其覆盖的栅格点使用黄色展现，可以看到覆盖点集中在扇区的近端；
D、玫红点表明该出为分布系统，如果有高负荷或差覆盖的则显示其扇
区名称以及相关指标。

方案制定如下：
A、从覆盖栅格来看，L800M扇区覆盖正常，过忙应该都是由于覆盖区
域中包含东山精密造成的。

而该处已经建设开通8台RRU，其中3台MR
覆盖优良率比较差并且其PRB利用率比较低，需要进行整改。

B、共站的L1.8G覆盖主要集中在近端，而且其MR指标很好并且PRB
也不高，可以进行天馈及功率调整，稍微加大一些覆盖范围，多吸收一
点话务。

C、另外在厂区的北侧以及西南侧存在很多的接入，了解到这些区域的
分布系统尚在建设中，需要尽快开通。

四、结论
现有的AGPS数据栅格化以后可以有效的对网络覆盖情况进行评估，本案例中采用相关的关联算法，利用栅格数据，针对L800M高负荷扇区，挖掘出对其覆盖和负荷有较大影响的L1.8G关联扇区，并分析了其相关的覆盖质量和负荷，有效提高数据分析的准确性、并且大大提高了工作效率、减轻了分析人员的工作强度。

优化实施完成后，盐城800M高负荷扇区（即:PRB利用率>50%）从之前的403个下降到204个，800M的流量占比从之前的9.2%降到7.6%，基础KPI指标保持稳定。

采用R语言通过软件系统的开发，可以实现全自动的数据分析、问题定位、一图呈现分析结果，便于方案制定及优化解决，实现评估优化的一体化和智能化运营。