数据分析方法论文15篇(土工实验数据分析方法探讨)
岩土工程勘察中土工试验数据分析与应用探讨

岩土工程勘察中土工试验数据分析与应用探讨发布时间:2022-08-01T05:25:58.794Z 来源:《中国科技信息》2022年33卷3月第6期作者:宋学踊曾思敏[导读] 土工试验信息收集与分析属于岩土项目勘察阶段针对岩土物理特性、力学研究、化学组分以及渗透率等展开的相关测试。
宋学踊曾思敏广东省矿产应用研究所 512026摘要:土工试验信息收集与分析属于岩土项目勘察阶段针对岩土物理特性、力学研究、化学组分以及渗透率等展开的相关测试。
对于不同工程建设采取对应的土工试验,详细探究土工试验信息在岩土项目勘察方面的具体运用,希望为岩土项目勘察提供良好的借鉴与参考依据。
关键词:土工试验;岩土勘察;信息校核科学评估与摸清土的项目性质,为构筑物地基规划及建设提供良好的依据与参数,就岩土工程而言是十分关键的,还是土工试验的根本所在。
土工试验的具体内容包含土的基础物力特性指标,粘性土的可塑性参数,粒度构成与砂土的密度参数、透水性参数、击实性参数、承载比参数、力学性质参数等等。
岩土项目勘察的本质目的是根据《岩土项目勘察标准》(GB50021-2001)与《建筑地基基础规划标准》(GB5007-2001)等,主要分析现场的原始项目地质环境与水文地质环境,提供每种地基土层的承载力规范值,其中最关键的依据即土工测试、标贯测试、静动探测试等信息。
1、土工试验要点1.1岩土含水量测试岩土含水量测试对象包含粗/细粒土、有机质土与冻土。
测试分析岩土含水特性属于土工试验必不可少的部分。
采样要按照土质布局均匀与代表特质处理,不同土层取样。
室内试验时保证采样工作严格遵守标准,防止样本受扰动,保存样本与运输环节配合专业技术人员处理。
1.2岩土防剪强度数据岩土防剪强度数据包含内摩擦角与粘聚力,主要用专门的仪器检测。
仪器:无侧限压力设备、直接剪切设备、十字板剪切设备与三轴压缩设备。
直接剪切测试包含应力管控式和应变管控式两类。
应力管控式选择发码与杠杆分级增荷;应变管控式采取手轮根据特定位移速度持续增荷,通过弹性量力环表面的测微计检测位移计算剪应力。
浅述土工实验数据整理和方法

浅述土工实验数据整理和方法前言:土工实验的结果对岩土工程的施工方案和设计的精度具有重要影响,实验结果的可靠性越强,岩土工程的施工方案和工程设计就会越加科学合理。
因此,加大对土工实验数据整理和分析方法的研究成为目前土工领域亟待解决的问题,对于土工的施工工程的正常运行具有重大意义。
1 土工实验数据整理1.1Excel图解法整理土工实验数据在对土工实验数据整理的过程中会遇到不合理的实验数据,这时就需要工作人员对实验数据进行改正和取舍。
在实验数据的舍弃过程中,舍弃的标准要按照概率或误差分析中的标准差的3倍设置,对于不在标准范围内的实验数据就要选择舍弃,然后对实验进行重新计算和整理。
土工实验的数据的土性指标主要有两种类型,一种是以水溶盐、有机质、塑限、液限、颗粒组成、土粒比重、天然含水率、天然密度等为主要类型的一般特性指标,主要作用是用来对土性进行分类和定名,以及说明岩土的物理化学特征。
另一种是以岩土的渗透系数、变形模量、压缩系数、内摩擦角、粘聚力等为主要类型的主要计算指标,主要用来确定土体的稳定性、变形、强度。
在对这两种土工数据指标进行整理的时候,通常使用Excel图解法,利用这种方法整理实验数据,能够简化大量繁重的数据计算工作,为分析数据节约更多的时间,从而提高计算的准确率和土工实验数据整理的效率。
Excel图解法主要是根据图表制作的功能,进行相应的功能设置。
如表1土工实验数据所示利用Excel进行整理[1],表1 土工实验数据压实系数0.77 0.82 0.87 0.92 0.95 0.97荷載系数0.5 15.0 14.8 17.2 19.1 22.5 18.21.0 29.7 27.5 28.6 32.7 37.4 30.01.5 38.9 42.4 39.0 44.8 44.3 45.62.0 55.7 44.3 55.8 52.8 61.5 55.8具体的操作方法是:首先打开Excel,将表格中的数据输入其中;其次选择x y散点图选择图表类型,修改相应指标名称,最后生成图表,相关工作人员可以根据整理好的数据图像分析土体的强度。
土工试验研究分析论文

土工试验研究分析论文1引言众所周知,微软公司的Word软件在文字处理方面功能强大,已广泛应用于科学研究的各个领域。
但Word本身不具备数据运算功能,绘图功能也有限。
Matlab是MathWorks公司推出的一套高性能的数值计算和可视化软件。
它是一个高度集成的系统,集科学计算、图像处理、声音处理于一体,具有极高的编程效率。
如何把Matlab的数值处理和绘图功能与Word结合起来,扩展Word的功能,使二者能协调地进行工作,本文将就此问题作一探讨(以Matlab6.5和Word2002为例)。
在土工试验的数据处理过程中,经常需要用图形法来描述试验结果,然后通过查图法来求得所需试验参数,例如在土的颗粒分析试验中,需要绘制级配曲线来确定土料的限制粒径和有效粒径以及,从而计算土的不均匀系数和曲率系数;在土的击实试验中,需要用击实曲线来体现试验结果,通过查图找出最大干密度和最优含水率;在土的三轴试验中,需要绘制摩尔圆来确定土的凝聚力C和内摩擦角φ。
以前的处理方法是手工绘制或使用EXCEL工具中的图表功能,但是仅局限于其图形功能,而不能进行数值计算,相应的数值计算则需要人工进行。
MATLAB不仅提供了图形功能,还增加了计算功能,使数据处理工作进一步简化。
2Matlab和Word的链接2.1安装MatlabNotebook有两种方法:一种是从Matlab系统中安装:首先启动Matlab6.5,在命令窗口运行函数命令“notebook-setup”(中间有一空格)。
回车后命令窗口出现如下提示:>>Notebook-setupWelcometotheutilityforsettinguptheMATLABNotebookforinterfacingMATLABtoMicros oftWord(欢迎建立MatlabNotebook与Word的公用程序)ChooseyourversionofMicrosoftWord:(选择你所使用的Word版本)[1]MicrosoftWord97[2]MicrosoftWord2OOO[3]MicrosoftWord2002(XP)[4]Exit,makingnochangesMicrosoftWordVersion:3(我们这里选择3)然后命令窗口出现如下提示:Notebooksetupiscomplete.(MatlabNotebook安装完成)另一种方式是把C:/Matlab6p5/notebook/pc/M_book.dot文件直接拷贝到C:/ProgramFiles/Microsoftoffice/office10/2052目录下。
土工实验数据整理和分析方法研究

土工实验数据整理和分析方法研究摘要随着土木工程数量的不断增多以及规模的不断扩张,前期的土工实验工作则成为保障土工工程建设的有力数据支持,可有效避免工程施工建设中危险隐患的潜藏。
而在土工实验研究中会获得大量数据,如何高效地对这些数据展开整理与分析,则成为数据实效发挥的关键工作,因此文章将主要针对土工实验数据的整理与分析方法展开研究,以期为相关从业人员提供参考借鉴。
关键词土工实验数据;整理;分析;方法对于土工工程施工方案设计而言,前期的土工实验数据精准度会对设计合理性产生直接影响,但由于实验过程中的土体性质较为复杂,再加上质检、采样、运输以及储存等过程中会造成对数据的干扰,最终分析出的实验结果便存在一定误差[1]。
正因为土工实验会受到诸多因素的影响,所以我们需要高度中实验数据的整理与分析工作,确保相关因素的干扰性能够减小,从而提高实验数据的精准率,为土工工程施工设计提供正确指导。
1 土工实验数据的主要内容1.1 土体比重实验在土工实验过程中,土体比重实验是其中的关键组成内容。
通常来讲,处在相同或接近地域环境中,土体比重便会十分接近,但由于在实际实验过程中的全部操作流程繁复,因此相关单位会直接利用过去已经出具的数据直接应用于比重实验,也就导致实验数据出现一定程度的误差。
1.2 土体密度实验开展土体密度实验能够对土体的内在组成有深入了解,进而了解土体成分性质,为今后的设计与施工提供数据支持。
土体密度参数与其重量、孔隙大小和体积等内容密切相关,是土体组成与结构特征的完整反映,所以在实验过程中要尽可能避免对样品的即时性实验,最好要等待样品达到了日常状态后再展开实验,如此可有效提高土体密度数据的精准性。
1.3 土体含水量实验土体含水量实验作为土工实验中的关键内容,最终实验结果会对土木工程的地基建设形成直接影响,还关系到工程后期的稳定性。
地域的不同会导致土体样品中的含水量有所不同,并且可能存在较大差异,所以工作人员在样品收集时要确保其均匀性与代表性,避免最终实验数据对工程建设无实质指导意义。
浅谈公路工程中土工试验成果的分析整理方法

浅谈公路工程中土工试验成果的分析整理方法土工试验测得的土性指标,可按其在工程设计中的实际作用区分为一般特性指标和主要特性指标。
一般特性指标如土的天然密度、天然含水量、颗粒比重、颗粒组成、液限、塑限、有机质、水溶盐等,系指作为对土分类定名和阐明其物理化学特性的土性指标。
主要特性指标如土的凝聚力、内摩擦角、压缩系数、回弹模量或承载比、渗透系数等,系指在设计计算中直接用以确定土体对于强度、变形和强度稳定性的土性指标。
对于一般特性指标的成果整理,通常可采用多次测定值X1的算术平均值,并计算相应的标准差S与变异系数Cv ,或绝对误差mx与精度指标Px,以反映实际测定值对于算术平均值的变化程度,从而判别其采用算术平均值时的可靠性。
算术平均值、变异系数、绝对误差和精度指标按下列各式确定。
……………………(A1)……………(A2)CV= ±× 100% …………………(A3)mX=±……………………………(A4)PX=±× 100% …………………(A5)A1式中:――指标各测定值的总和;N――指标测定的总次数。
对于试验成果中那些明显不合理的数据,应通过仔细的调查研究,分析原因,或有条件时,进行一定的补充试验,以便决定对可疑数据的取舍或改正。
当最后舍弃试验数据时,应根据误差分析的概念,按3倍标准差(即±3s)作为舍弃标准,即在资料分析中,应该舍弃那些在x±3s范围以外的测定值,然后再重新计算整理。
对于主要计算指标,在进行成果整理时,如果测定的组数较多,此时指标的最佳值接近于诸测值的算术平均值,仍可按上述对于一般特性指标的方法确定其设计计算值,即采用算术平均值。
但通常由于试验的数据较少,考虑到测定误差的影响,土体本身不均匀的影响,施工质量的影响以及构造物的规模和设计阶段,为安全计,除对于初步设计和次要的构造物仍可采用算术平均值作为计算指标外,一般均应区别不同指标在设计计算中的不利影响,采用一个略高于(或低于)算术平均值的数值,作为计算指标。
浅谈土工试验的相关问题及数据处理

浅谈土工试验的相关问题及数据处理摘要:本文笔者结合工作经验,对土工试验及原位的测试,论述了勘探取样、设计、施工的关系问题,并提出了解决的方法;对试验数据的多变性、复杂性和不确定性问题,进行了详细的分析及提出解决措施。
关键词:土工试验问题分析数据整理1 土工试验土工试验是解决土工问题为工程设计提供设计参数的一个重要工作环节,它与勘探取样、设计、施工都有关系,因此要制订好符合设计要求且能反映实际情况的试验规划,对成果作出合理评价。
2 综合分析土工试验的成果土的颗粒大小和矿物成分差别很大,土的三相间的数量比例不尽相同,且土粒与其周围的水分又发生复杂的物理化学作用,因此,造成了其物理性质的复杂性;那么,通过室内试验测出的土的性质,就存在是否准确的问题,要对各项指标作出分析判断确定结果。
3 土的相对密度、密度、含水量试验土粒的相对密度是一个相对稳定的值,决定于土的矿物成分,不同的土,含水量就可能不一样;而且由于各种因素,如土层的不均匀、取样不标准、取土器和筒壁的挤压、土样在运输和存放期间保护不当等等,均会影响成果的准确度。
土的密度指标,也是一个变化的值,不同的土样密度值不同,但对于某一个土样来说,它的值较稳定和较容易测准的,土的这3个指标是基础,土的其它指标也将通过换算计算出来,计算出来的指标,有时会出现和实际不符的情况,如饱和度>100%等,这就说明,原始指标的测定有问题,大多数情况下,问题出在含水量和相对密度的测定上,需对这2个指标作进一步的确定,以保证这2项指标试验值的准确,从而提高其它指标的准确度。
4 土的液限与塑限液塑限的测定,原则上采用天然含水率的土样制备试样,但也允许用风干土制备式样,取样规定土要过0.5mm的筛,才能进行试验,在操作中,一些土用眼观察含有较多砂粒,一旦过0.5mm筛后做试验,测出的土塑性指数可能很大,不能反映土的实际情况,因此,对于这种土最好采用筛分法确定砂粒含量,如果砂粒含量已达确定该土为砂土的标准,那么就不必再做液、塑限试验,反之可进行相应的液、塑限试验确定土的名称。
土木工程专业毕业论文的实验设计与数据分析方法科学严谨的研究手段

土木工程专业毕业论文的实验设计与数据分析方法科学严谨的研究手段为了确保土木工程专业毕业论文的实验设计与数据分析方法的科学性和严谨性,研究者需要运用恰当的实验设计与数据分析方法,并注意确保研究手段具有科学性。
本文将探讨一些常用的科学严谨的研究手段,以进行土木工程专业毕业论文的实验设计与数据分析。
一、实验设计1. 研究目标明确在进行实验设计之前,研究者需要明确研究目标,明确要解决的问题和研究的范围。
明确的研究目标可以帮助研究者确定实验的内容和方向。
2. 变量控制在实验设计中,变量的控制非常重要。
研究者应该明确要研究的因变量和自变量,并正确控制其他可能影响结果的变量。
只有这样,实验结果才能准确地反映因变量与自变量之间的关系。
3. 样本选择样本选择是实验设计的重要环节之一。
研究者需要根据研究目标和实验方法的要求,合理选择样本。
样本应该具有代表性,能够有效地反映研究对象的特征。
4. 实验分组在进行实验设计时,通常需要将样本分为不同的组别进行对照实验。
研究者需要根据研究目标和实验要求,合理地划分实验组和对照组。
同时,还需要注意确保各组别之间的差异性。
二、数据分析方法1. 数据收集在实验设计完成后,研究者需要进行数据的收集工作。
数据收集方法应该科学可靠,确保数据的准确性和完整性。
研究者可以采用问卷调查、实地观察、实验记录等方式进行数据的收集。
2. 数据整理与清洗在收集到数据后,研究者应该对数据进行整理与清洗的工作。
这包括对数据进行分类、归档,排除异常值和错误数据等。
数据整理与清洗的目的是确保数据的可靠性和准确性。
3. 数据分析方法选择根据研究目标和数据的特点,研究者需要选择合适的数据分析方法进行数据的分析。
常用的数据分析方法包括描述性统计分析、相关性分析、回归分析、方差分析等。
不同的数据分析方法适用于不同类型的数据和研究问题。
4. 数据结果解释数据分析得出的结果需要进行合理的解释和说明。
研究者应该清楚地解释结果的含义,说明数据之间的关系,并根据结果对研究问题进行回答或结论的得出。
土工击实试验数据处理的解决方案

土工击实试验数据处理的解决方案摘要:本文探讨了土工击实试验数据处理的解决方案,从基本原理到实际应用,对试验方法、样品制备、放置时间以及数据处理等方面进行了深入论述。
针对土工击实试验中的关键问题,提出了一系列解决方案,旨在提高试验结果的准确性和可靠性。
通过探讨取样方法的选择、试验放置时间的合理确定、数据处理方法的比较与优化等内容,为土工工程领域的从业者提供了实用的指导和建议,以确保击实试验的科学性和可靠性。
关键词:土工击实试验;数据处理;解决方案土工击实试验作为基础工程领域的重要试验方法,其结果直接影响到工程的稳定性和安全性。
然而,试验过程中存在诸多关键问题,如取样的代表性、试验放置时间的合理确定以及数据处理方法的选择等,都需要在实际工程中加以解决。
本文将从这些方面入手,论述土工击实试验数据处理的解决方案,以期为工程实践提供科学的依据和方法。
1土工击实试验方法与问题阐述1.1基本原理与流程土工击实试验的基本原理是模拟工程现场的实际压实过程,通过一系列的机械冲击将试样逐渐压实,以获得不同压实状态下的干密度和含水率数据。
试验流程主要包括以下几个步骤:(1)试样制备:从野外取得土样后,根据规程要求将其加工成试验用样品,以确保试验结果的准确性和可重复性。
(2)试样放置:将试样放置在击实仪内,准备开始实验。
此时需要注意击实仪的校验和调整,以确保试验的可靠性。
(3)试验进行:根据规程的要求,进行一系列的冲击击实,模拟土壤在工程中受到的压实作用。
在不同冲击次数下,记录试样的干重和湿重,以及击实仪的相关参数。
(4)数据处理:将试验数据进行处理,计算得出不同压实状态下的干密度和含水率。
常见的处理方法包括绘制干密度-含水率曲线,从中得出最大干密度和最优含水率。
1.2问题的提出与重要性1.2.1取样的代表性和准确性土壤的性质在不同位置可能会有很大差异,不当的取样方法会导致试验结果的偏差。
另外,土样中的颗粒大小分布、含水率分布等因素也会对试验结果产生影响,需要在试样制备时予以考虑。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据分析方法论文15篇土工实验数据分析方法探讨数据分析方法论文摘要:数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
这一过程也是质量管理体系的支持过程。
在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。
数据分析是数学与计算机科学相结合的产物。
关键词数据分析方法数据论文数据数据分析方法论文:土工实验数据分析方法探讨【摘要】土工实验是进行土木工程的重要前提条件,其能够为施工建设提供可靠的数据支持,能够有效防止工程建设中可能存在的潜在危险事故。
本文对其数据涉及的内容进行分析,分析了实验准确性的因素,进而提出相应的方法应用,希望可以为土工实验的发展提供借鉴。
【关键词】土工实验;实验数据;数据分析;分析方法一、引言在进行实验过程中,由于土体本身所具有的复杂性,土质质检所存在的物理学特性以及采样、运输、存储等等方面所表现出来的特点,都容易对数据造成一定程度的干扰,致使实验的结果出现误差。
另外,因为实验本身受到很多因素的干扰,也同样容易发生数据偏差的问题。
因此,本文着重从实验数据所涉及的内容,影响实验数据的因素,以及提升实验准确率的角度出发,对土工实验数据分析方法进行探讨。
二、土工试验数据所涉及内容(一)土的比重实验。
土工试验过程中,土的比重实验是非常重要的。
一般来说,地域相同或者相近,那么土的比重也将会比较相近。
但是,因为在实际操作中,其整个的操作流程比较复杂,所以不同的单位会采用本地所出具的或者考察的相关数据直接进行比重实验,这样容易导致实验数据的误差存在。
(二)土的密度实验。
通过土的密度实验可以详细的了解土的组成,可以了解其组成成分的性质,能够为之后的施工提供更多的参考。
土的密度与土粒的重量、孔隙体积、孔隙大小、孔隙水重等等内容息息相关,能够反映土的组成和基本结构特征。
在进行实验的过程中,要注意尽量避免对取样即时进行实验,最好能够等待土样达到日常状态之后再进行试验,这样可以让土密度实验的结果更加准确。
(三)土的含水量实验。
土的含水量实验可以说是土工实验中的核心内容,其实验的情况将会影响到工程地基建设,还会影响到后续工程的稳定性。
不同地区的土样其含水量不同,并存在很大程度上的差异性。
实验人员在进行取样的过程中,要保证其样品的均匀性,或者具有代表性,否则进行试验所获得的数据就没有任何指导意义,其数据在实践应用中的效率和质量也将会呈现大幅度的下降。
三、土性参数实验结果误差性的原因(一)土体本身性质导致。
依照相关的物理力学和力学性质,我们可以了解到土体的分层具有不均匀性,加上其所处环境的变化,可能发生的雨水冲击、水文变化、其后影响等等语速怒,都会让土体的性质发生改变。
这样在进行土工试验的时候就非常容易造成实验结果的差异性,甚至有可能会成为差异产生的主要影响因素。
(二)系统误差。
系统误差是由于仪器的某些不完善、测量技术上受到限制或实验方法不够完善没有保证正确的实验条件等原因产生。
不同的单位所使用的仪器往往不尽相同,所使用的试验方法也有一定的出入,加上不同的试验方法让土工参数出现离散性,其所实验的数据也就会有所不同。
系统误差的存在可以予以避免,其与偶然误差不同,这就需要实验室对设备和系统进行改进。
(三)偶然误差。
偶然误差的特点是它的随机性。
如果实验人员对某物理量只进行一次测量,其值可能比真值大也可能比真值小,这完全是偶然的,产生偶然误差的原因无法控制,所以偶然误差总是存在,通过多次测量取平均值可以减小偶然误差,但无法消除。
偶然误差的存在属于客观存在的现象,其与人为原因所造成的误差有很大的差别,对于两者应当予以区分。
四、土工实验数据分析方法的应用(一)进行数据检查,果断进行取舍。
在进行实验的过程中,如果有明显不符合物理力学性质的值的范围点,则可以通过观察予以了解,实验人员要对其进行细致观察,一旦发现异常立刻予以放弃。
一般判断的标准是大部分数值为范围内波动,但是有一点超出正常值或者距离正常值较远,则可以被认定为不合理。
在实验数据较多的情况下可以运用3σ法则进行数据之间取舍的考量。
在进行实验过程中,存在于之外数值所占比例较少,因此,大于和小于之间数值作为异常处理。
(二)土工实验数据中最小样本数问题。
在土工试验过程中,最小样本数问题需要引起人们的重视。
实验中的样本数要选取适当,如果样本数过小就会影响实验结果的准确性。
但是,样本数的数量并不是随意定制的,其受到多种因素的影响,比如工程规模、工程精度要求、现场勘查情况等等。
(三)土体性质指标的自相关性的问题。
根据以往数据实验的关联性,求的往往是其之间的线性相关系数,但是对于其自相关函数通常并没有表现出线性相关,而是指数相关。
因此,不能简单依照求相关系数的方法判断其相关性。
在进行土工实践过程中,往往可以通过δ对其独立性进行判断。
在相关距离范围内,图形指标基本相关;在此范围外,图形指标基本不相关。
但是对于δ事先未知,因此其需要根据样本测值进行求算,一般使用递推平均法对相关距离δ进行计算,并使用间距Z对δ的影响进行综合考量。
一般来说,Z /δ的数值越大,其各抽样点的土性越接近相互独立,抽样误差也就越小。
五、结束语土工试验对于土工建设来说影响较大,其影响因素包括土体本身性质、取样仪器情况、人为因素等,需要对此方面予以重视。
对其不合理点来说,可以通过3 原则进行剔除。
对于其数据相关性来说,其可以通过迭代求解土性指标相关距离予以解决,通过样本的加权平均来对该区域的平均性指标进行估算。
为了让样本能够满足实验需要,可以利用Bayes方法对其土性指标与因确认,从而弥补数目不准确的情况。
通过此三个方面对其进行方法的应用,则可以有效提升实验数据的准确性、可靠性,可以让实验的结果更加符合实际需要。
数据分析方法论文:社会调查数据建模及基于超图的数据分析方法摘要:针对现今的社会调查数据处理与分析中存在的问题,该文通过三维矩阵建立了社会调查数据的数学模型。
将每一题表示为空间中的一个维度,每一张问卷表示成一个矩阵,将多个矩阵叠加即可得到社会调查数据的三维矩阵模型。
在建立三维矩阵模型的基础上,可以利用三维矩阵的性质对其进行多种数学处理,也可以采用超图理论对数据进行进一步的分析,大大丰富了调查数据的处理方法。
关键词:社会调查数据三维矩阵超图社会调查是了解各方面信息的重要途径之一,社会调查数据主要是通过调查问卷的方法得到的。
由于社会调查数据的维数较高,加上人为主观因素,数据类型主要为二元变量、离散变量、序数变量等为主,所以对于社会调查数据的分析和处理大都基于统计学,只对单一题目进行统计学分析,其分析方法主要是基于题型进行处理的,对于题目和题目之间的关系很少关心[1]。
许多数据挖掘算法因为种种限制无法在社会调查的数据分析中得到应用。
因为方法的限制,所以现在很多社会调查只能验证事先想好的内容和假设,很少可以对高维数据进行相对复杂的回归分析处理。
根据以上存在的问题,该文建立了基于三维矩阵的数学模型,将单选题、多选题和排序题用向量形式进行表示,每一题定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。
每份问卷的信息用一个M×N矩阵表示。
这样表示可以将所有问卷内容当作一个整体,作为后续算法的基础。
1 社会调查数据的特点通常情况下,社会调查数据特点如下。
(1)相关性。
对于一个样本个体而言,它具有本身的多个特征,这些特征之间就具有一定的相关性。
对于多个样本而言,个体与个体的特征之间具有相关性。
如果样本随时间而变化,那么该样本在不同时刻的特征之间又具有相关性。
因此,由于上述多个原因使得社会调查数据具有了复杂的相关性,传统的统计学调查难以解决这样的问题。
(2)离散性。
因为社会调查数据是通过自填式问卷、网络调查数据库等方法得到,所以社会调查数据一般以离散变量为主,且这些数据之间只有标示作用,并没有严格的逻辑关系。
(3)模糊性。
社会调查数据当中不可避免的会接触到各种表达方式和概念,因此,它具有模糊性。
因为由自填式问卷或结构式访问的方法得到的社会调查数据具有以上特点,所以在实际应用中基于统计学的处理方法只能笼统的显示数据的部分特性,如频数、离散程度等[2]。
对于数据之间的关系只能分析出维数极少的大致的关系。
而且利用软件进行数据挖掘时,因为现有的软件中的数据挖掘算法对于数据类型和格式要求较高,所以能应用到的数据挖掘算法很少。
就算是数据要求较低的关联分析,其结果也存在大量的冗余。
因此,我们需要建立一个合适的社会调查数据的数学模型来完善原先的方法并使跟多的数据挖掘方法可以运用到其中,使得结果更准确。
2 社会调查数据的建模研究中我们发现,三维矩阵可适用于社会调查数据的建模。
2.1 三维矩阵的定义三维矩阵的定义:由n个p×q阶的矩阵组成的n×p×q阶的矩阵A称为三维矩阵,又称立体阵。
Ak,i,j表示三维矩阵A的第k层,第i行,第j列上的元素。
其中n,p,q 分别表示三维矩阵的高度,厚度和宽度。
2.2 三维矩阵模型的建立调查问卷的题目一般有三种类型:单选题、多选题和排序题。
这三类题目都可以表示成向量的形式,其中每一道单选题、多选题可以表示成一个向量,排序题可以表示成多个向量组成的矩阵。
对于单选题和多选题,可以按选项的顺序可以表示成一个向量,其中选中的项用“1”表示,未选中的项用“0”表示。
对于排序题,可以表示成一个n×n 的方阵,其中n表示该排序题的选项个数,。
这样,每一题就可以定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。
每份调查问卷的信息用一个M×N矩阵表示(M为题目的最大选项数),其在每一维上的选择称之为一个元素,这样每份问卷的信息就包括了N个元素。
以第1,2,3题数据为例,其中第1题为单选题选择“B”,用向量表示为一个元素,第2题为多选题选择“ACE”,用向量表示为一个元素,第3题为排序题顺序为CBADEFIHG,用矩阵表示,每一个列向量是一个元素,如图1所示。
那么,假设有一问卷信息用一个大小为M×N的矩阵表示。
K份的问卷信息就可以用K个大小为M×N的矩阵表示。
将这K个矩阵叠加,形成一个三维矩阵。
这个三维矩阵就是我们建立的三维矩阵数学模型,如图2所示。
在图2中我们看到,该三维矩阵数学模型有三个坐标轴,它们分别是题目,人数,选项。
题目轴以每一道题为一个单位;人数轴以每一份问卷为一个单位;选项轴的刻度为A,B,C,D,E,F等题目选项,其个数为该调查问卷中选项最多的题目的选项个数。
在此基础之上,这样的三维矩阵具有以下性质。