【矿床统计预测 实习指导】实习3c-聚类分析法
矿统实习讲义-实习2-回归分析法

实习二、用多元线性回归分析法进行矿床统计预测目的 通过实习,学会使用多元线性回归分析进行矿床统计预测,加深对该方法原理的理解。
要求 (1)根据所提供资料,自己动手完成预测计算的各环节,用控制单元数据建立回归模型,对所提供的各未知单元,评价它们含有小型及以上矿床的可能性;按时提交实习报告。
(2)复习课程“多元线性回归分析”有关内容。
资料 研究区是湖北省某地区一个铁矿成矿带。
为在该区进行矿床统计预测,已将研究区划分为500m ×500m 基本单元408个,并提取了地质变量。
为应用回归分析法,选取一种矿床值(储量乘以某个系数得到的矿床价值)为因变量y 和多个地质因素、找矿标志为自变量(i x )。
本次实习为简便只使用其中两个自变量:1x 为单元磁异常值,2x 为单元中闪长岩体出露面积比。
表2-1(控制单元数据及回归估值表)最左4列列出了实习所用数据。
表2-1控制单元数据及回归估值表方法步骤 第一步:分析研究区内铁矿特征及控矿地质条件和找矿标志,划分基本单元,提取地质变量,地质变量赋值并做适当变换(使因变量尽量服从正态分布、使因变量与自变量之间有线性关系)。
这些工作已经完成(不必重新做),见表2-1的最左4列。
第二步:建立回归方程。
二元回归方程为22110ˆx b x b b y++= (1) 上式中各系数210,,b b b 用最小二乘法确定。
最小二乘法就是使偏差平方和∑=-=ni i i yy Q 12)ˆ( (2) 达到极小而求出210,,b b b 。
上式中n 为观测样品总数。
为此令0,0,0210=∂∂=∂∂=∂∂b Qb Q b Q (3) 将(1)和(2)代入(3),可得到关于210,,b b b 的线性方程组,称正规方程组。
解正规方程组可求出各系数210,,b b b ,从而得到回归方程。
虽然可以采用矩阵形式,但为利于深入细节,本次实习采用分步骤计算的方式。
先计算∑y ,∑1x等值,填满表2-1的最下面一行。
矿床统计预测实习讲义-实习1-证据权法

实习1、用证据权法进行找矿远景区预测目的 通过实习,学会使用证据权法进行矿床统计预测,加深对该方法原理的理解。
要求 (1)根据所提供资料,自己动手完成预(2)对计算过程中涉及的计算公式要了解其物理意义;对所涉及各地质变量,要分析了解其地质意义。
(3)复习课程“证据权法”有关内容。
资料 研究区是河北某地区一个北东向复式向斜控制的铁矿集中区。
该区铁矿主要赋存于前铁质来源与火山—沉积作有关,经历了复杂的区域变质(包括混合岩化)和构造变动,矿体多呈大小不等的透镜体状。
方法步骤第一步:分析研究区内控矿地质条件和找矿标志,划分网格单元,提取地质变量(统称为证据层),并将所有地质变量变换为逻辑变量(二值变量),选择控制区(有矿和无矿两类单元)。
在控制单元中统计出各变量存在的单元数(i S )和含矿单元数(i N )。
这些工作已经完成(不必重新做),得到表1-1最左边3列。
控制单元总数S =160,其中含矿N =70。
表1-1地质变量(证据层)证据权计算表注:N 表示含有证据层X i 但不含矿的单元数。
第二步:计算各变量的证据权和对比度系数。
证据权分两种,即正权(+i W )和负权(-i W )。
它们的计算公式为:)/(/lnN S N N N W i i i -=+)/(1/1lnN S N N N W i i i ---=- (Eq. 1-1)正权和负权分别表示变量与单元含矿和不含矿的关系密切程度。
为表示变量对于单元含矿/不含矿的区分能力,可计算对比度系数(C i ,或称衬度系数),公式为-+-=i i i W W C (Eq. 1-2)根据对比度系数大小可以评价各变量对找矿的重要性。
请根据以上公式,计算填满表1-1,然后填满表1-2。
注意在表1-2中,为节省空间和时间只评价5个变量。
请在每格填写一个变量名(符号)。
表1-2证据层示矿意义评价表第三步:计算各单元的含矿后验概率。
一个变量在任一单元中的证据权为:⎪⎩⎪⎨⎧===-+if ,1if ,i i i i i X W X W W (Eq. 1-3)即若变量在该单元出现,其权为+i W ,否则为-i W 。
矿床统计预测讲义

矿床统计预测讲义简介矿床统计预测是指通过对已知矿床数据进行统计分析和模型建立,从而对未知矿床进行预测的一种方法。
它是矿床勘探中重要的工具之一,可以帮助矿业公司和勘探者制定科学合理的采矿方案和决策。
本讲义将介绍矿床统计预测的基本原理、主要方法和实际应用,帮助读者了解和掌握该领域的知识和技能。
内容1. 矿床统计预测的基本原理矿床统计预测是基于已知矿床数据的分析和模型建立,通过对已有数据进行统计分析,找出其中的规律和趋势,从而对未知矿床进行预测。
其基本原理包括:•数据收集:收集已知矿床的地质勘探数据,包括地质剖面、岩石样品、地球物理扫描等。
•数据分析:对已有数据进行统计分析,包括数据的中心趋势、离散程度、分布形态等。
•模型建立:根据数据分析结果建立预测模型,包括回归模型、聚类模型、神经网络模型等。
•预测验证:利用已有数据验证模型的准确性和预测能力。
2. 矿床统计预测的主要方法矿床统计预测涉及多种统计学和数学方法,常用的方法包括:2.1. 回归分析回归分析是一种用于探索因变量与一个或多个自变量之间关系的统计方法。
在矿床统计预测中,回归分析可用于确定地质因素对矿床分布的影响程度,并建立预测模型。
2.2. 空间插值空间插值是一种通过已有数据推断未知位置上的值的方法。
在矿床统计预测中,空间插值可用于填补数据缺失的位置,从而得到完整的矿床数据集。
2.3. 聚类分析聚类分析是一种将相似对象归为一类的方法。
在矿床统计预测中,聚类分析可用于将矿床按照地质特征划分为不同的类型,为矿床预测提供参考。
2.4. 神经网络神经网络是一种模拟人脑神经元网络的计算模型。
在矿床统计预测中,神经网络可用于识别矿床数据中的隐藏关系,并建立预测模型。
3. 矿床统计预测的实际应用矿床统计预测在矿业勘探中有着广泛的应用,主要包括以下几个方面:3.1. 矿床评估通过对已有数据的统计分析和模型建立,可以对矿床进行定量评估,包括矿床的储量、品位、开采潜力等指标。
聚类分析_精品文档

1聚类分析内涵1.1聚类分析定义聚类分析(Cluste.Analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术.也叫分类分析(classificatio.analysis)或数值分类(numerica.taxonomy), 它是研究(样品或指标)分类问题的一种多元统计方法, 所谓类, 通俗地说, 就是指相似元素的集合。
聚类分析有关变量类型:定类变量,定量(离散和连续)变量聚类分析的原则是同一类中的个体有较大的相似性, 不同类中的个体差异很大。
1.2聚类分析分类聚类分析的功能是建立一种分类方法, 它将一批样品或变量, 按照它们在性质上的亲疏、相似程度进行分类.聚类分析的内容十分丰富, 按其聚类的方法可分为以下几种:(1)系统聚类法: 开始每个对象自成一类, 然后每次将最相似的两类合并, 合并后重新计算新类与其他类的距离或相近性测度. 这一过程一直继续直到所有对象归为一类为止. 并类的过程可用一张谱系聚类图描述.(2)调优法(动态聚类法): 首先对n个对象初步分类, 然后根据分类的损失函数尽可能小的原则对其进行调整, 直到分类合理为止.(3)最优分割法(有序样品聚类法): 开始将所有样品看成一类, 然后根据某种最优准则将它们分割为二类、三类, 一直分割到所需的K类为止. 这种方法适用于有序样品的分类问题, 也称为有序样品的聚类法.(4)模糊聚类法: 利用模糊集理论来处理分类问题, 它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果.(5)图论聚类法: 利用图论中最小支撑树的概念来处理分类问题, 创造了独具风格的方法.(6)聚类预报法:利用聚类方法处理预报问题, 在多元统计分析中, 可用来作预报的方法很多, 如回归分析和判别分析. 但对一些异常数据, 如气象中的灾害性天气的预报, 使用回归分析或判别分析处理的效果都不好, 而聚类预报弥补了这一不足, 这是一个值得重视的方法。
聚类分析实习报告

聚类分析实习报告(经典版)编制人:__________________审核人:__________________审批人:__________________编制单位:__________________编制时间:____年____月____日序言下载提示:该文档是本店铺精心编制而成的,希望大家下载后,能够帮助大家解决实际问题。
文档下载后可定制修改,请根据实际需要进行调整和使用,谢谢!并且,本店铺为大家提供各种类型的经典范文,如报告总结、演讲发言、活动方案、条据文书、合同协议、心得体会、社交礼仪、教学资料、作文大全、其他范文等等,想了解不同范文格式和写法,敬请关注!Download tips: This document is carefully compiled by this editor. I hope that after you download it, it can help you solve practical problems. The document can be customized and modified after downloading, please adjust and use it according to actual needs, thank you!Moreover, our store provides various types of classic sample essays, such as report summaries, speeches, activity plans, written documents, contract agreements, personal experiences, social etiquette, teaching materials, complete essays, and other sample essays. If you want to learn about different sample formats and writing methods, please stay tuned!聚类分析实习报告聚类分析是一种常用的数据分析技术,能够将一组相似的样本数据分为若干个不同的类别或簇。
聚类分析

聚类分析1聚类分析的概念聚类分析是一组将研究对象认为相对同质的群组的统计分析技术,即依据研究对象在特征上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法,其中:类内个体具有较高的相似性,类间的差异性较大,其目的是为了将相近事物归入类,减少研究对象的数目。
聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。
随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。
后来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。
传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。
采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、MATLAB等。
2.聚类分析的主要步骤(1)数据处理数据预处理包括选择数量,类型和特征的标度,它依靠特征选择和特征抽取,特征选择选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类,数据预处理还包括将孤立点移出数据,孤立点是不依附于一般数据行为或模型的数据,因此孤立点经常会导致有偏差的聚类结果,因此为了得到正确的聚类,我们必须将它们剔除。
(2)为衡量数据点间的相似度定义一个距离常用来衡量数据点间的相似度的距离有海明距离、欧式距离、切比雪夫距离过程一直进行下去,每个样品总能聚到合适的类中。
有时为了直观反映系统聚类过程,可以把整个分类系统画成一张谱系图,因此系统聚类也称为谱系分析。
(2)系统聚类过程:○1假设总共有n 个样品,首先将每个样品独自聚成一类,共有n 类;然后根据所确定的样品“距离”公式,形成初始距离阵。
矿床统计预测要点

1、资源量是指经成矿预测或勘查工作所计算或估计的矿产资源的数量。
2、根据地质可靠程度和经济技术可行性,资源量分不同的级别。
可靠程度较高、经济意义较大的资源量是储量。
3、矿床统计预测,是运用数学地质的理论和方法进行矿产预测的科学和技术。
4、成矿预测,是分析区域地质背景,研究成矿规律,划分成矿区带,建立区域成矿模式或矿床模型,进行类比,圈定不同类别的远景区,预测不同级别的资源量,并提出地质找矿工作部署建议的工作。
5、找矿远景区、预测区、预测段、找矿靶区经成矿预测工作所圈定的找矿有利地段称找矿远景区;根据成矿条件有利程度、预测依据的充分程度、找矿标志的明显程度、资源潜力大小以及开采条件,远景区一般可分为A、B、C三类。
成矿预测工作种类不同,远景区有不同的尺度,可靠性和精度也有差别,故各有不同的名称:名称:精度远景区尺度量级(粗略)预测区1/10万几十——200 km2预测段比例尺为1/5万<20 km2找矿靶区1/2.5万<2 km26、数学地质,是地质学的一个分支学科,是研究地质体、地质现象、地质作用、地质工作方法的最优数学模型的科学。
是以解决地质问题为目标和出发点,以数学为工具,以计算机为手段,研究客观世界规律性的科学。
根据前面“矿床统计预测”的定义可知,矿床统计预测是数学地质理论方法在矿产预测中的具体应用,也可以说矿床统计预测是数学地质的一个组成部分。
7、在统计学及矿床统计预测中,数据看作是随机试验的试验结果,即对随机变量的抽样观测结果。
数据的统计分布,又称经验分布,对应于随机变量的概率分布。
随机变量的概率分布函数和概率密度反映该变量取不同值的概率。
相应地,数据的统计分布反映一批数据出现不同值的频率。
8、一个随机变量可能取值的全体称为一个总体或母体;9、对随机变量进行有限次观测得到的数据集合称为一个样本。
10、一次观测的结果称为一个样品。
11、作频率分布直方图和/或累计频率分布直方图(或曲线)的方法。
聚类分析的思路和方法

一种叫相似系数,性质越接近的变量或样本,它们的相似系数越接近于1或一l,而彼此无关的变量或样本它们的相似系数则越接近于0,相似的为一类,不相似的为不同类。
3
另一种叫距离,它是将每一个样本看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。
设有n个样本单位,每个样本测得p项指标(变量),原始资料矩阵为:
聚类分析终止的条件
*
迭代次数:当目前的迭代次数等于指定的迭代次数(SPSS默认为10)时终止迭代。
类中心点偏移程度:新确定的类中心点距上个类中心点的最大偏移量小于等于指定的量(SPSS默认为0)时终止聚类。
壹
贰
例子1:31个省区小康和现代化指数的聚类分析
利用2001年全国31个省市自治区各类小康和现代化指数的数据,对地区进行聚类分析。
夹角余弦
相关系数
计数变量(Count)(离散变量)的聚类统计量
对于计数变量或离散变量,可用于度量样本(或变量)之间的相似性或不相似性程度的统计量主要有卡方测度(Chi-square measure)和Phi方测度(Phi-square measure)。
二值(Binary)变量的聚类统计量
*
组间平均连接法(Between-group linkage)
03
组内平均连接法(Within-group linkage)
04
重心法(Centroid clustering)
05
中位数法(Median clustering)
06
离差平方和法(Ward’s method)
07
最短距离法(Nearest Neighbor) 以两类中距离最近的两个个体之间的距离作为类间距离。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
实习3c 用聚类分析法进行矿床统计预测
目的 通过实习,学会使用聚类分析法进行矿床统计预测,加深对该方法原理的理解。
要求
(1)根据所提供资料,自己动手完成预测计算的各个环节,按时提交实习报告。
(2)复习课程“聚类分析”有关内容。
资料 研究区是湖北省某地区一个铁矿成矿带。
为在该区进行矿床统计预测,已将研究区划
分为500m ×500m 基本单元408个,并提取了多个地质变量。
本次实习为简便只使用其中两个变量:1x 为单元磁异常值,2x 为单元中心距断裂喷发带的距离。
表4-1(单元数据表)列出了实习所用数据。
表4-1单元数据表(表中?表示“未知”) 单元号
1 2 3 4 5 6 7 8 9 10 11 1x 1.86 3.0 1.3 2.45 1.28 2.5 2.0 0.78 1.09 1.5 2.4 2x
0.5 2.0 2.1 1.0 2.5 0.8 0.9 2.4 2.2 0.8 1.5 含矿情况
?
?
无矿
有矿
无矿
?
?
?
?
有矿
?
方法步骤
第一步:分析研究区内铁矿特征及控矿地质条件和找矿标志,划分基本单元,提取地质变量、为各变量赋值。
这些工作已经完成(不必重新做)。
所用数据见表4-1。
第二步:数据预处理。
主要是通过规格化或标准化变换,使数据统一量纲,从而使各变量的数据具有可比性,避免因有的变量数值大而得到突出、有的变量因数值小而受到压制、
2
从而各变量在分类中作用程度不同的情况。
本次实习所用数据可以不做这种预处理。
第三步:选择相似性指标。
本次实习中,选择距离系数ik d 。
其定义为:
∑=-=
p
j kj ij
ik x x
d 1
2)( (Eq 4-1)
上式中
p 为变量数;ij x 表示第j 变量在第i 样品(单元)中的值;ik d 表示在多维变量空
间(本次实习是2维)内第i 和第k 两样品间的欧氏距离。
两样品距离越近(小)越相似。
第四步:计算所有样品(单元)两两之间的距离,得到距离矩阵。
尚未完成的距离矩阵如表4-2所示。
请完成该表(还有39个距离需计算)。
计算过程举1例说明如下:
22222
12121
()(1.86 3.0)(0.5 2.0) 1.14 1.5 1.884p
j j j d x x ==
-=-+-=+=∑ 余类推。
注意可以将表4-1拷贝到Excel 工作表中,输入合适的公式,快速计算。
第五步:以距离矩阵为基础,用一次计算法画出聚类谱系图。
方法:
(1)画坐标轴。
以距离为横坐标轴。
它的刻度从0开始,最大刻度相当于所有距离中最大者。
以样品(单元)为纵坐标轴,刻度单位1(即1个单元一行)。
表4-2距离矩阵 单元 1 2 3 4 5 6 7 8 9 10 11 1 0 2 1.884 0 3 1.695 1.703 0 4 0 5 1.902 0 6 0.206 2.095 0 7 0 8
3
9 0 10 0 11
(2)归类。
1)从表4-2中依次挑选距离最小的样品(单元)对。
设该最小距离为d 。
2)若该两单元都尚未归入任何一类,则将它们归为一类。
对齐距离轴的d 处,画出谱系图的分枝,并在纵坐标轴左边标出单元号。
3)若该两单元有一个已经被归入某一类,则另一个加入该类。
4)若该两单元已经分别被归入某两类中,则将该两类联接成一大类。
5)若该两单元已经都被归入同一类中,则这两单元不用再处理。
反复进行1)-5),直到所有单元归类完毕,形成一个分类系统,完成分类谱系图。
注意从距离矩阵中寻找最小元素时,可以用Excel 的min()函数。
请完成下面(图4-1)的谱系图(已画完一部分)。
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
距离
单元号
含矿 单元
4 6
3 9
×。