利用数据库分析HOMAX法
hopkins统计量

hopkins统计量Hopkins统计量(Hopkins Statistic)是用于评估聚类倾向性的一种统计量。
通常情况下,聚类算法是针对输入数据的处理方法。
但是,有时候我们并不知道数据是否适合进行聚类。
这时,我们需要一种方法来评估数据的聚类性质。
Hopkins统计量就是这么一种方法。
Hopkins统计量的本质是估计输入数据集是否适合进行聚类,以及给出适合聚类的程度。
该统计量的取值范围在[0, 1]之间。
Hopkins统计量越接近1,代表数据聚类性越明显,越接近0,代表数据聚类性越不明显。
Hopkins统计量由两部分组成。
第一部分是计算随机抽样的“对立样本”(complementary sample)。
对立样本可以理解为输入数据集的“反面”。
例如,如果输入数据集是一组表示肿瘤患者的医疗数据,那么对立样本则应该是一组表示健康人的医疗数据。
这里,我们需要随机生成样本数据,然后通过计算距离,得到随机抽样点与数据集中点的距离。
我们可以类比前面的例子,如果随机生成的抽样点与数据集中的点距离小于一定的阈值,那么我们可以将该点标记为潜在聚类点。
最终,我们可以得到随机抽样的点中所含的潜在聚类点的数量。
第二部分是计算数据集的“实际聚类”(actual clustering)。
随机抽样的点被标记为潜在聚类点之后,我们需要对数据集进行聚类。
这里,我们采用K-means算法来进行聚类,以得到数据集的实际聚类。
然后,我们可以得到实际聚类中所含的点的数量。
最终,我们可以通过以下公式得到Hopkins统计量:$$H=\frac{\sum_{i=1}^{n} d_{i}}{\sum_{i=1}^{n} d_{i}+\sum_{j=1}^{m} d_{j}}$$其中,n表示随机抽样点中潜在聚类点的数量,m表示实际聚类中所含的点的数量,$d_{i}$表示随机抽样点与数据集中最近点的距离,$d_{j}$表示实际聚类中点与聚类中心的距离。
大数据分析的案例、方法与挑战_黄志洪(DTCC2012)

2012.4 中山大学海量数据与云计算研究中心 黄志洪
DTCC2012
44
MIC观察
2012.4 中山大学海量数据与云计算研究中心 黄志洪
DTCC2012
45
MIC与线性回归模型对比
2012.4 中山大学海量数据与云计算研究中心 黄志洪
DTCC2012
46
对基因数据集spellman的探索
数据集包含6223组基因数据 MINE对关联关系的辨认力明 显强于以往的方法,例如双方 都发现了HTB1,但MINE方法 挖出了过去未被发现的HSP12
2012.4 中山大学海量数据与云计算研究中心 黄志洪
DTCC2012
2
场景介绍
信令监测是做什么的?
2012.4 中山大学海量数据与云计算研究中心 黄志洪
DTCC2012
体系架构
数据库服务器:HP小型机,128G内存,48颗CPU,2节点RAC,其中一个节点用于入 库,另外一个节点用于查询 存储:HP虚拟化存储,>1000个盘 入库节点 入库方式——常规路径sqlldr 大量使用表分区设计 数据量:每小时写入200G左右数据磁盘物理写大约 为450G每小时 问题:1 入库瓶颈 2 查询瓶颈
31
Hive
基于Hadoop的常用数据分析工具 可以看成是SQL到Map-Reduce的转换器 HiveQL尚未能完全支持SQL 92 外部应用可以通过hive客户端、JDBC、ODBC等方式访问Hive
2012.4 中山大学海量数据与云计算研究中心 黄志洪
DTCC2012
32
HBase
5
入库故障描述
由于数据量太大,不得不同时启用多个处理机,产生了多个入库节点 当入库节点分别增加到2节点和4节点以后,sqlldr出现停顿现象
tukey-kramer法

Tukey-Kramer法是一种在统计分析中常用的方法,特别是在方差分析(ANOVA)的事后检验(post-hoc test)中。
这种方法主要用于比较不同组之间的平均值是否存在显著差异。
首先,需要建立一些假设来进行Tukey-Kramer法。
通常,零假设是所有组之间的平均值相等,备择假设则是至少有一对组之间的平均值不相等。
然后,需要计算一个检验统计量来评估组间差异的显著性。
在Tukey-Kramer法中,这个检验统计量称为HSD(Honestly Significant Difference)值。
它考虑了样本大小和均方差的情况,从而提供了对不同组之间差异的准确评估。
利用GA算法进行数据分析与建模方法研究

利用GA算法进行数据分析与建模方法研究随着信息技术的不断发展和普及,数据分析和建模成为了不可或缺的工具,应用范围也愈发广泛。
目前,人们在数据分析和建模领域中,最常用的方法包括传统的统计学方法和机器学习方法,其中机器学习方法在近些年来受到了越来越多的关注。
而在机器学习方法中,遗传算法(GA)也成为了不可或缺的一部分,成为了研究数据分析和建模的重要工具之一。
下面,本文将从遗传算法的原理入手,探讨在数据分析和建模中如何利用GA算法进行研究。
一、遗传算法的原理遗传算法,简称GA,是一种模拟达尔文进化论的计算方法。
其基本原理是将个体的遗传信息编码成染色体,并利用自然选择和遗传机制进行进化,以找到最优的解。
在具体实现上,遗传算法主要包含4个步骤:初始化种群、适应度评价、选择和交叉、变异。
其中,种群是指所有的个体集合,适应度评价是指对每一个个体进行适应度评价,选择和交叉是指根据个体适应度,对于适应度高的个体进行遗传操作(交叉和变异),以产生新一代的个体。
整个过程就像生物进化一样,从而最终找到最优解。
二、利用GA算法进行数据分析在数据分析领域中,使用GA算法主要可以用于特征选择、回归分析、分类识别等方面。
具体而言,可以采用以下方法:1. 特征选择特征选择是指从原始数据中筛选出最具代表性的特征。
在传统的统计学方法中,一般是采用信息增益和基尼系数等方法,但这些方法无法处理非线性的数据。
而GA算法可以通过适应度评价筛选出最优特征,从而大大提高特征选择的效率。
2. 回归分析回归分析是指针对输入变量和输出变量之间的关系建立数学模型。
在建立模型时,需要确定哪些自变量对因变量有影响,这也是非常适合采用GA算法进行特征选择的原因。
通过使用GA算法,可以选择出对因变量影响最大的自变量,从而优化回归模型的预测能力。
3. 分类识别分类识别是指将原始数据分为不同的类别。
在计算机视觉、语音识别等领域中,分类识别尤其重要。
而GA算法可以对分类模型进行优化,优化指标不仅可以是分类准确率,还可以是训练时间、泛化能力等。
GEO数据库分析步骤

GEO数据库分析步骤
1.确定研究问题:首先要明确自己的研究问题,例如,比较不同组织类型的基因表达差异,寻找与其中一种疾病相关的基因表达模式等。
这将有助于确定后续的数据分析方法和流程。
3.数据预处理:对于原始数据,在进行进一步的分析之前,可能需要进行一些预处理步骤来减少噪音、校正技术差异等。
例如,应用质量控制方法去除异常值、进行批次效应校正等。
4.数据探索和可视化:使用适当的数据可视化方法,我们可以对数据进行初步的探索,了解基因表达的整体分布情况,寻找异常样本等。
常用的可视化方法包括箱线图、热图、散点图等。
5.差异分析:差异分析是GEO数据库分析的重要步骤之一,它可以帮助我们找到在不同组间差异显著的基因。
对于基因表达数据,可以使用一些常见的差异分析方法,如t检验、方差分析、线性模型等。
6.功能富集分析:在找到差异表达基因后,我们还希望了解这些基因的功能和代谢通路等信息。
功能富集分析可以帮助我们将差异基因映射到特定的功能类别或通路中。
常用的功能富集分析工具包括GSEA、GO、KEGG等。
8.结果解释和验证:通过对分析结果的解释和验证,我们可以更好地理解研究问题并得出结论。
这可以涉及文献调研、对不同数据库的数据进行对比、验证分析等。
数据挖掘概念与技术第三版部分习题答案

(b)
如何确定数据中的离群点?
(c)
对于数据光滑,还有哪些其他方法?
解答:
(a)
使用分箱均值光滑对以上数据进行光滑,
箱的深度为3。解释你的步骤。评述对于给定
的数据,
该技术的效果。
用箱深度为3的分箱均值光滑对以上数据进行光滑需要以下步骤:
步骤1对数据排序。(因为数据已被排序,所以此时不需要该步骤。)
聚类分析 的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间 的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织 形式,将观测组织成类分
层结构,把类似的事件组织在一起。
数据演变分析 描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据 的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、 序列或周期模式匹配、和基于相似性的数据分析
ra,b=刀(ai-A)(bi-B)/N<ra <tb=(刀(aib)-NAB)/N<ra<tb=(刀(aibi)-18*46.44*28. 78)
/18*12 .85*8.99=0.82
相关系数是0.82。变量呈正相关。
3.3使用习题2.4给出的age数据回答下列问题:
(a)使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。评述对于给
SRSWOR
(n=5)
SRSWR
(n=5)
T4
16
T7
20
T6
20
T7
20
Tio
22
T20
35
Tii
25
T21
35
基于HITEMP_数据库的分子吸收光谱高精度快速建模方法
基于HITEMP数据库的分子吸收光谱高精度快速建模方法钱宝健,蔡静*,常海涛,高一凡(航空工业北京长城计量测试技术研究所,北京 100095)摘要:为解决高温环境下分子吸收光谱精确计算的时间复杂性,满足宽光谱测量领域对理论吸收光谱计算的需求,本研究利用Python语言以逐线计算为基础,结合线型函数的简化、线翼截止准则和谱线数据库的优化,建立了基于高温分子吸收参数数据库(High⁃Temperature molecular spectroscopic absorption parameters data⁃base,HITEMP)的分子吸收光谱精确快速计算模型。
以Hartmann⁃Tran线型函数作为吸收光谱标准线型编写部分相关二次速度依赖硬碰撞函数(partially⁃Correlated quadratic⁃Speed⁃Dependent Hard⁃Collision Profile,pCqSDHC),结合复概率函数(Complex Probability Function,CPF)简化模型实现了线型函数的精确快速计算,相较于理论计算模型计算速度提高了20倍。
按照光谱计算残差在10-5量级确定了固定波数截断结合谱线半宽等倍数截断的线翼截止准则。
以阈值线强度10-25 cm-1/(mol∙cm-2)为标准筛选了每100 K温度梯度时的光谱数据,整合得到优化数据库。
在6 500 ~ 8 000 cm-1范围内对水分子的吸收光谱进行计算,并与“”分子气体集成光谱建模网站仿真结果对比,逐线模型的计算误差在10-7量级,优化模型的计算误差在10-5量级,计算速度平均提升25倍。
该模型满足吸收光谱测量中对于理论吸收光谱的高效准确计算,为复杂环境中基于宽调谐、超连续激光吸收光谱的测量研究提供了理论模型基础。
关键词:吸收光谱;HITEMP数据库;线型函数;线翼截止中图分类号:TB9;O433 文献标志码:A 文章编号:1674-5795(2023)05-0039-10Modeling molecular absorption spectra based on the HITEMP databaseQIAN Baojian, CAI Jing*, CHANG Haitao, GAO Yifan(Changcheng Institute of Metrology & Measurement, Beijing 100095, China)Abstract: To address the computational complexity of accurately calculating molecular absorption spectra in high⁃temperature environments and meet the demand for theoretical absorption spectrum calculations in broad⁃spectrum mea⁃surement fields, this study developed a precise and fast calculation model for molecular absorption spectra based on the High⁃Temperature molecular spectroscopic absorption parameters database (HITEMP). The model was implemented us⁃ing Python language, employing a line⁃by⁃line calculation approach combined with simplification of line shape functions, line wing truncation criteria, and optimization of spectral line databases. The Hartmann⁃Tran line shape function was used as the standard absorption spectrum line shape, and partially⁃Correlated quadratic⁃Speed⁃Dependent Hard⁃Collision Pro⁃file (pCqSDHC) was developed for relevant second⁃order velocity⁃dependent hard⁃collision functions. By incorporating the doi:10.11823/j.issn.1674-5795.2023.05.06收稿日期:2023-09-26;修回日期:2023-10-08基金项目:国家“十三五”计量技术基础科研项目(JSJL2020205A003)引用格式:钱宝健,蔡静,常海涛,等.基于HITEMP数据库的分子吸收光谱高精度快速建模方法[J].计测技术,2023,43(5):39-48.Citation:QIAN B J,CAI J,CHANG H T,et al.Modeling molecular absorption spectra based on the HITEMP database[J].Metrology & Measurement Technology,2023,43(5):39-48.Complex Probability Function (CPF) and simplifying the model, the line shape functions were calculated accurately and rapidly, resulting in a 20⁃fold increase in computational speed compared to theoretical models. The line wing truncation criteria were determined based on the spectral calculation residual at the level of 10-5 and involved the truncation of fixed wavenumbers combined with equal multiple truncations of spectral line half widths. Spectral data for each temperature gradient of 100 K were selected using a threshold line intensity of 10-25 cm-1/(mol∙cm-2) and integrated to create an opti⁃mized database. The absorption spectra of water molecules were calculated within the range of 6 500 ~ 8 000 cm-1 and compared with the simulation results from "", a molecular gas integrated spectral modeling website. The calculation error of the line⁃by⁃line model was at the level of 10-7, while the optimized model achieved a calculation error at the level of 10-5, with an average speed improvement of 25 times. This model enables efficient and accurate calculation of theoretical absorption spectra for absorption spectral measurements and provides a theoretical foundation for measuring studies based on wide⁃tunable and supercontinuum laser absorption spectra in complex environments.Key words: absorption spectrum; HITEMP database; line shape functions; line wing cutoff0 引言分子吸收光谱是一种描述物质分子对特定波长光的吸收能力的图谱,通过测量物质对不同波长光的吸收程度,可以推断物质的组成、浓度、结构和化学性质等重要信息,从而在燃烧诊断[1-2]、温度测量[3-4]、污染物监测[5]等领域中进行定性和定量分析。
基因家族分析套路
基因家族分析套路近年来,测序价格的下降,导致越来越多的基因组完成了测序,在数据库中形成了大量的可用资源。
如何利用这些资源呢?今天小编带你认识一下不测序也能发文章的思路--全基因组基因家族成员鉴定与分析(现在这一领域可是很热奥);一、基本分析内容数据库检索与成员鉴定进化树构建保守domain和motif分析.基因结构分析.转录组或荧光定量表达分析.二、数据库检索与成员鉴定1、数据库检索1)首先了解数据库用法,学会下载你要分析物种的基因组相关数据。
一般也就是下面这些数据库了Brachypodiumdb Genome Annotation Project :NCBI基因组数据库:)已鉴定的家族成员获取。
如何获得其他物种已发表某个基因家族的所有成员呢,最简单的就是下载该物种蛋白序列文件(可以从上述数据库中下载),然后按照文章中的ID,找到对应成员。
对于没有全基因组鉴定的,可以下列数据库中找:a. NCBI: nucleotide and protein db.b. EBI:c. UniProtKB、比对工具。
一般使用blast 和hmmer,具体使用命令如下:Local BLASTformatdb–i –p F/T;blastall–p blastp(orelse) –i –d –m 8 –b 2(or else) e 1 e-5 –o .-b:output two different members in subject sequences (db).Hmmer (hidden Markov Model) search. Thesame as PSI-BLAST in function. It has a higher sensitivity, but the speed islower.Command:、过滤。
Identity: 至少50%.Cover region: 也要超过50%或者蛋白结构域的长度.domain: 必须要有完整的该蛋白家族的。
独立性检验(课件)高二数学(人教A版2019选修第三册)
|ad-bc|越大,说明玩电脑游戏与注意力集中之间的关系越强.
为了使不同样本容量的数据有统一的评判标准,我们构造一个随
机变量
n(ad-bc)2 χ2=
(a+b)(c+d)(a+c)(b+d)
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性 检验,读作卡方独立性检验,简称独立性检验.
若H0成立,即玩电脑游戏与注意力集中没有关系,则χ2应该 很小;若H0不成立,即玩电脑游戏与注意力集中有关系,则χ2应 该很大.那么,究竟χ2大到什么程度,可以推断H0不成立呢?
2 88(33 7 10 38)2
43 45 7117
α
0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
学校
甲校(X=0) 乙校(X=1)
合计
数学成绩
不优秀(Y=0) 优秀(Y=1)
33
10
38
7
71
17
0.001 10.828
合计
43 45 88
0.837 2.706 x0.1.
于不同的小概率值α的检验规则,对应不同的临界值x0,其与χ2的大小关 系可能不同,相当于检验的标准发生变化,因此结论可能会不同.
3. 为考察某种药物A对预防疾病B的效果,进行了动物试验,根据105个有
放回简单随机样本的数据,得到如下列联表: 依据α=0.05的独立性检验,分析药物A对
药物A
疾病B 未患病 患病
解:根据题意,可得
xα 2.706 3.841 6.635 7.879 10.828
2 4.881 3.841 x0.05 .
根据小概率值α=0.05的χ2独立性检验,推断H0不成立,即认为两种疗 法的效果有差异,该推断犯错误的概率不超过0.05.
数据挖掘_概念与技术(第三版)部分习题答案
1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。
它用表组织数据,采用ER数据模型.相似:它们都为数据挖掘提供了源数据,都是数据的组合。
1。
3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。
使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子.答:特征化是一个目标类数据的一般特性或特性的汇总。
例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。
区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较.最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是.关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。
例如,一个数据挖掘系统可能发现的关联规则为:major(X,“computing science")⇒ owns(X,“personal computer”)[support=12%, confidence=98%]其中,X 是一个表示学生的变量.这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机.这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。
分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值.它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
操作法介绍 利用数据库分析HOMAX法 摘要: 通过将HOMAX文件与邻区关系文件导入sql2000数据库,从而实现比阿朗homax软件更为灵活的分析。
正文: 在日常的网络优化工作中,邻区、切换关系的分析是重点,通常情况下采用厂家提供的软件进行分析处理。本文介绍了一种利用SQL2000进行邻区分析的方法。 一、创作背景 阿朗系统中的HOMAX文件位于OMP的/home/rfteam/homax/output目录中,文件根据时间命名,记录了网络中小区间切换发生的详细情况。通过对HOMAX的分析,我们可以更加合理的设置邻区,从而达到优化网络的目的。 二、常用解决方法 目前,网优工作中对HOMAX的主要分析是借助于阿朗公司的homax软件实现的,该软件对HOMAX文件的分析方法较为方便,但因一直没有过更新和改进,在网络的发展过程中逐渐显示出分析结果不够灵活,处理速度较慢等缺点。
三、实现目标 本文中介绍的方法通过将HOMAX文件导入sql2000数据库,利用数据强大的数据处理能力,达到与homax软件相同的结果,并在其基础上实现更多的分析。
四、创新点和原理说明 本文方法利用SQL软件的数据处理能力,通过数据库SQL语言进行灵活快速的分析,达到比传统HOMAX软件更加灵活的分析功能。
五、主要步骤或功能 本方法的具体实施方式如下:(以安徽电信网优平台1期为例): (一) 提取HOMAX文件与SUR文件。HOMAX文件目录为/home/rfteam/homax/output;SUR文件目录为/home/rfteam/RFC,在下载完某日的SUR文件后需要对文件进行重命名,将后缀名改为RAR并解压,解压后出现的nbrsp文件中记录有系统邻区关系。 (二) 将nbrsp文件导入sql2000服务器。 首先,打开sql2000文件系统中的“导入和到处数据”,启动DTS导入导出向导: 点击下一步,进入数据源选择界面,在数据源选择项目中选择文本文件: 点击文本名后的浏览键,在文件类型中选择所有文件,并将目录浏览至下载下来后的nbrsp文件: 点击下一步,选择导入格式,设置如下所示: 点击下一步,指定列分隔符,设置如下: 点击下一步,进入目的数据库设置,可以选择一处单独新建的数据库,本例中使用的HOMAX数据库即为笔者单独指定的数据库。 点击下一步,可对导入后的表进行命名和格式转换,此处格式不需要进行转换: 继续下一步,完成数据导入: 至此,nbrsp文件已导入数据库。 (三) 同以上步骤,将.hom文件导入数据库,注意应和nbrsp文件放在不同的表下。 在浏览源数据时应选择hom文件:
注意在选择文件格式时设置与前面不同: 列分隔符应选择制表符:
目的数据库应与nbrsp同一个数据库: 点击下一步,数据格式同样不需要转换,表名可以根据个人习惯进行命名。
(四) 至此,数据导入已完成,可以通过sql查询分析器看到已建成的数据表。在分析homax文件时通常会一次分析一周的数据,只需将一周的文件均通过以上方式导入数据库即可,需要注意的是在后面的导入中目的数据表应采用相同的表名,本实例中笔者将5天的homax数据均导入13_091209数据表中。 (五) 通过编写sql命令,即可对邻区和切换进行一系列的分析。 命令: use homax go select Col001 小区,Col002 扇区,Col003 SID,Col004 ECP,Col005 切换小区,Col006 切换扇区,Col007 次数 from "13_091209" where Col001+Col002+Col005+Col006 not in (select nbrcellno+nbrface+ cellno+face from nbrsp20091210) order by convert(numeric,Col007) desc 运行结果如下,显示的即为发生了切换但未做邻区,并根据切换次数进行降序排列:
命令: use homax go select * from nbrsp20091210 where nbrcellno+nbrface+cellno+face not in (select Col001+Col002+Col005+Col006 from "13_091209" ) and ecp=0 order by nbrpri,cellno,face 运行结果如下,显示的即为系统中有邻区关系,但在指定日期内未发生切换的小区,并根据小区优先级显示,将优先级为0但未发生切换的小区关系列在前面:
命令: select * from nbrsp20091210 where cellno+face+nbrcellno+nbrface not in (select nbrcellno+nbrface+cellno+face from nbrsp20091210) and ecp=0 运行结果如下,显示的为单边邻区信息:
命令: use homax select Col001 小区,Col002 扇区,count(*)/5 切换对象数 from "13_091209" where Col001<=600 group by Col001,Col002 order by 切换对象数 desc 运行结果如下,显示了与前面小区有切换关系的平均小区数量,需要注意的是命令中count(*)/5的意思是13_091209数据表中共存储了5天的homax数据,需要除以5进行平均:
六、综合评价 该方法与常用操作方法相比,有以下特点: (一)、数据处理速度快,分析更加灵活。 (二)、对网优人员要求有一定的数据库基础,要求较高。 操作法应用实例如下:
六安-张灿-利用sql2000实现HOMAX的分析
七、主要作者和团队介绍 张灿,中国电信六安分公司无线网络优化工程师,2006年毕业后进入无线维护中心从事无线维护工作,曾获得2008年度安徽省“知识型职工先进个人”,2010年安徽省电信公司无线网络优化技能大赛个人优秀奖、团体三等奖, 2010年六安市公司优秀信息员,2010年“六安市青年岗位能手”。
八、附录 无。 操作法手册 室内分布信号时延定位法 张灿 中国电信六安公司
一、总则 本操作法通过SQL2000软件进行邻区和切换关系的分析处理。 本操作法特别适合于需要对切换关系进行各种深层次和灵活分析的情况。 本操作法适用于对数据库有一定了解的网优人员。
二、使用步骤 按照省公司(本地网)相关要求,准备方案、检查各个环节、备份相关数据等。 进入预定操作时间之后,在实施既定操作方案前,执行本操作法: (六) 提取HOMAX文件与SUR文件。HOMAX文件目录为/home/rfteam/homax/output;SUR文件目录为/home/rfteam/RFC,在下载完某日的SUR文件后需要对文件进行重命名,将后缀名改为RAR并解压,解压后出现的nbrsp文件中记录有系统邻区关系。 (七) 将nbrsp文件导入sql2000服务器。 首先,打开sql2000文件系统中的“导入和到处数据”,启动DTS导入导出向导:
点击下一步,进入数据源选择界面,在数据源选择项目中选择文本文件: 点击文本名后的浏览键,在文件类型中选择所有文件,并将目录浏览至下载下来后的nbrsp文件: 点击下一步,选择导入格式,设置如下所示:
点击下一步,指定列分隔符,设置如下: 点击下一步,进入目的数据库设置,可以选择一处单独新建的数据库,本例中使用的HOMAX数据库即为笔者单独指定的数据库。
点击下一步,可对导入后的表进行命名和格式转换,此处格式不需要进行转换: 继续下一步,完成数据导入: 至此,nbrsp文件已导入数据库。 (八) 同以上步骤,将.hom文件导入数据库,注意应和nbrsp文件放在不同的表下。 在浏览源数据时应选择hom文件: 注意在选择文件格式时设置与前面不同: 列分隔符应选择制表符: 目的数据库应与nbrsp同一个数据库:
点击下一步,数据格式同样不需要转换,表名可以根据个人习惯进行命名。 (九) 至此,数据导入已完成,可以通过sql查询分析器看到已建成的数据表。在分析
homax文件时通常会一次分析一周的数据,只需将一周的文件均通过以上方式导入数据库即可,需要注意的是在后面的导入中目的数据表应采用相同的表名,本实例中笔者将5天的homax数据均导入13_091209数据表中。
(十) 通过编写sql命令,即可对邻区和切换进行一系列的分析。 命令: use homax go select Col001 小区,Col002 扇区,Col003 SID,Col004 ECP,Col005 切换小区,Col006 切换扇区,Col007 次数 from "13_091209" where Col001+Col002+Col005+Col006 not in (select nbrcellno+nbrface+ cellno+face from nbrsp20091210) order by convert(numeric,Col007) desc 运行结果如下,显示的即为发生了切换但未做邻区,并根据切换次数进行降序排列:
命令: use homax go select * from nbrsp20091210 where nbrcellno+nbrface+cellno+face not in (select Col001+Col002+Col005+Col006 from "13_091209" ) and ecp=0 order by nbrpri,cellno,face 运行结果如下,显示的即为系统中有邻区关系,但在指定日期内未发生切换的小区,并根据小区优先级显示,将优先级为0但未发生切换的小区关系列在前面:
命令: select