石油数学地质复习资料

第一章地质数据的表达方式及其特征

一、地质变量的概念及其分类

★1、地质变量的概念(Geological Variables)

它是反映某地质现象在时间或空间上变化规律的量。

★2、地质变量的分类

一般根据地质变量所取数据的方法及性质，可将其分为观测变量(定性和定量变量)和综合变量。

★二、地质变量的特征

(1)具有明确的地质意义:指地质变量所代表的具体地质含义或特征。

(2)具有明显的统计性质:多数地质变量可认为是随机变量，因此，它们的观测值具有明显的统计意义。

(3)具有相关性：地质变量之间具有一定程度的相关性。

三、地质数据

★1、地质数据的概念(Geological Data)

用物理、化学及直接观测方法获得的用以表示地质样品特性的各种数据和其它形式记录的资料统称为地质数据(或样品观测值)。

★2、地质数据的分类

狭义上地质数据分为定量和定性数据。据地质数据的来源，又把地质数据分为观测数据、综合数据和经验数据三类。

(1)观测数据

指对样品用物理、化学或直接观测的方法获得的表达样品特性的数据。依据观测数据的性质，又可分为定性、定量数据两类。

①定性数据

它是用符号或代码表示的没有数量概念的观测数据。又分为名义型和有序型两类:

a.名义型数据：是没有数量概念和次序之分,但彼此之间有“相等”或“不相等”关系的定性数据。

b.有序型数据：是没有数量概念，但彼此之间具有次序关系的定性数据。

②定量数据

定量数据是指用数值来描述的观测数据。包括间隔型数据和比例型数据。

a.间隔型数据：是有明确数量概念和地质含义的定量数据。

b.比例型数据是指定量数据的比值。

(2)综合数据

由定量数据(或经定量化后的定性数据)经有限次算术运算后得到的定量数据。

(3)经验数据

经验数据是在研究地质现象和规律的基础上，根据大量实际资料和经验总结归纳出的数据。

★四、地质数据的主要特点及数据矩阵

★1、地质数据的主要特点

因地质系统复杂性及测试手段的差异等因素影响，地质数据有如下主要特点：

(1)地质数据类型多，性质不一，反映地质内容丰富；量纲不统一，定量数据的数量级相差很大，各类数据的数量和精度相差悬殊。

(2)地质数据往往是多种地质因素综合作用的结果，故具有混合分布特征。

(3)地质数据以定量数据为主，而定性数据的定量化研究和应用目前尚不成熟。

地质数据的特点决定了地质数据不是单一性质的数据集合,而是多种来源的混合数据集合，这一特点客观存在且不易改变。使用地质数据时,要注意它们的适用性，同时还要研究和改进数据加工和处理技术，发挥各种地质数据的作用，才能使地质定量研究获得良好效果。 ★2、数据矩阵

假设有个n 样品，每个样品有个m 变量，为便于数据处理,那么常把样品变量的观测值记为如下数据矩阵：

其中Xij 是第i 个样品第j 个变量的观测值。 ★五、地质数据的预处理(Pretreatment )

指在定量研究地质问题时，预先对原始数据进行的各种处理。其主要内容为定量数据的标准化、定性数据的定量化、原始数据的网格化、原始数据的简缩和增补、离群(异常)数据的识别与剔除等。

★1、定量数据的标准化（记公式！）

是对变量的观测值进行的标准化。主要目的是消除量纲造成的数量级差异。常用方法有标准差和极差标准化、极差正规化。 (1)标准差标准化

其中：

注：

①标准化是对每一列进行的。

②标准化后数据的特点:平均值为0，标准差为1，又称Xj’为规格化变量。 (2)极差标准化

??????==?nm n n m m

m n j i x x x x x x x x

x x X 212222111211]

[

j i j i s

x x x -=

'),,,;,,,(m j n i 2121==∑==n

i ij

j x n

x 11

()1

n j i j j i s x x n ==

--∑)

,,2,1;,,2,1(/)(m j n i x

x x x j

j j i j i ==?-='()

m j ,,2,1???=

其中：

注：特点：各列的极差为1。 (3)极差正规化注：极差正规化后新数据的特点是：最大值为1，最小值为0，即新数据分布在区间[0，1]内。

第二章多变量相关分析

§1 相关分析

★1、相关分析(correlation analysis)的概念

是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度，是研究随机变量之间的相关关系的一种统计方法。 2、相关关系

是变量之间存在关系,但不是严格对应的依存关系，而是一种不确定的依存关系，当一种现象发生变化时，会引起另一种现象的变化，当一种现象确定时，另一种现象不会随之完全确定。具有相关关系的变量称为随机变量。 3、相关关系的特点

(1)变量间关系不能用函数关系精确表达；

(2)一个变量的取值不能由另一个变量唯一确定；

(3)当变量x 取某个值时，变量y 的取值可能有几个； (4)各观测点分布在直线周围 ;

(5)现象之间客观存在的不严格、不确定的数量依存关系。 ★4、相关关系常见类型

包括线性相关（正线性相关、负线性相关）、非线性相关、完全相关和不相关。 ★5、相关系数的计算

相关系数r ：是确切表示变量之间相关关系密切程度的指标。求取方法有：①公式法；②EXCEL 计算。

★公式法计算相关系数：

可简化为：

)

,,2,1(min max 11m j x x x j

i n i j i n i j =-=?≤≤≤≤1

111()()

11()()n i i xy i n n x y i i i i x x y y s n r s s x x y y n n ===--==-?-∑

∑∑

222211

()()

i i xy

i n n x y i i i i x y nxy

L r L L x nx y ny ===-==-?-∑

∑∑

相关系数有如下特点：

①相关系数的取值范围在-1～+1之间，即-1≤r≤+1；

②当r>0时，表明变量之间呈正相关，当 r<0时，表明变量之间呈负相关；

③相关系数的绝对值越接近于1，说明两个变量之间的相关关系越强，越接近于0说明相关关系越弱，当|r|=1时，说明两个变量之间的关系属于确定性关系，当|r|=0时说明两个变量之间完全没有线性相关关系，但并不说明两个变量之间不存在其他非线性相关关系。 6、相关系数的显著性检验

常用两种检验法：①相关系数检验法；②t 检验法； §2 一元线性回归分析

1、回归分析：处理变量之间的相关关系的一种数学方法。 ★

2、最小二乘法求线性回归方程所谓“最小二乘”原理就是要使误差平方和

（式①)达到最小。只需将Q 分别a ，b 求偏导并令其为0，即，

（式②）。即可得到：。其中，，。式①两边同时乘以再与式②相加，得到：。

再将代入上式整理后可得：，其中，，。

再由可求出 a ，便可得出y 与x 之间的关系:

上式就称为y 对x 的回归方程，它所对应的直线就称为回归直线，同理，我们也可求出x

对y 的回归方程：

。 ★3、观测值k y 围绕其平均值y 的波动大小，可用总离差平方和总S 来描述。总离差平方和可分解为两部分：一部分叫做剩余（偏差）平方和，记为剩S ，另一部分叫做回归平方和，叫做回S 。

★4、用回归方程来预测其精度如何？

为了研究预测的可靠程度，我们采用类似于区间估计的方法，假定随机变量y 服从正

态分布

，由正态分布的性质可知，对于任一固定的i x 、i y 以95%的概率落在区间

之内。 ★5、回归分析主要解决以下几个方面的地质问题：

(1)对于具有相关关系的地质变量，找出它们之间的数学表达式。

(2)根据一个或几个相对而言较易测定或控制的变量值，来预测或控制另一个变量的取值，并确定这种预测的精度。

(3)在共同影响某个特定地质变量的许多变量（因素）之间找出哪些是主要因素，哪些是次

y a bx

=+2221

()()n n n

i i i i i i i i Q y y y a bx δ=====-=--∑∑∑

12()0n

i i i Q

y a bx a =?=---=?∑

12()0n i i i i Q y a bx x b =?=---=?∑

a y bx =-11

n i i x x n ==∑

1n i i y y n ==∑

-1()()0n i i i i y a bx x x =---=∑

a y bx =-12

1()()()n

i i xy

i n xx

i i x x y y L b L x x ==--==

-∑

∑

()()n n xy i i i i i i L x x y y x y nxy ===--=-∑∑

22211()n n xx i i i i L x x x nx ===

-=-∑∑

a y bx

=-**

x a b y =+2

(,)N y σ( 1.96, 1.96)i i y y σσ-+

要因素，以及这些因素之间有什么关系，从而提供解决地质问题的方法。

★6、回归方程的显著性检验，常用两种检验法：①相关系数检验法；②F 检验法。

第三章多变量分类分析 §1 相似性统计量

★1、相似性统计量：衡量个体间性质或成因亲疏(相似、相关)程度的统计指标。是开展定量分类工作的基础。最常用的相似性统计量(聚合法)：①相似系数；②距离系数；③相关系数。

★(1)对于样品的统计量（记公式！） ①相似系数设样品观测值:

将Xi 与Xj 看成两个矢量，则Xi 与Xj 的相似系数定义为两矢量夹角的余弦：

如此，可形成一个相似系数矩阵n n ij r R ?=][。

在上述相似系数矩阵中， ji ij r

r = ，ii r =1。ij r 越接近1，Xi 与Xj 的性质越相近。R

描述了各样品间的相似程度。 ②相关系数

矢量Xi 与Xj 的相关系数为:

如此可形成一个相关系数矩阵n ]n [r R ij ?=。

在相关系数矩阵中， ji ij r

r = ，ii r =1。ij r 越接近1，Xi 与Xj 的性质越相近。

}

{im i i i x x x X ,,,21 =}

{

jm j j j x x x X ,,,21 =∑∑

∑

===?=?==m k m

k jk ik m k jk ik j i j

i j i j i x x x x X X X X r 11

21cos θ),,2,1,(n j i =??

???

?????=nn n n n n r r r r r r r r r R 2

12222111211j

j i i j i m k m k j k j i k i m k j k j i k i j i S S S x x x x x x x x r =

----=∑∑

∑

===11

221)()()

)(()

,,2,1,(n j i =

③距离系数

在m 维直角坐标系中，2个点间的距离为：

为避免d ij 过大造成计算溢出，将上式改为:

即形成距离系数矩阵n n dij ?][。dij =dji , dii =0。dij 越接近0，Xi 与Xj 的性质越相近。

(2) 变量的统计量

变量间的相关性是数据矩阵中列间的相关关系。仿照样品的统计量，容易写出变量的统计量。

§2 聚类分析

★ 聚类分析:根据个体之间的亲疏程度，将它们进行逐级定量分类的一种多元统计分析方法。根据分类的不同方式，又把聚类分析分为聚合法和分解法聚类分析。 ★①对样品进行分类，称Q 型聚类分析； ②对变量进行分类，称R 型聚类分析。

★★★1、对样品进行分类，Q 型聚类分析（一次形成法）(PPT) (1)第一步，原始数据标准化:将原始数据极差正规化，以消除量纲的影响，得到标准化数据。 (2)第二步，求取统计量矩阵：计算两两样品的相似系数（夹角余弦），得相似系数矩阵

。 (3)第三步，形成分群图：用一次形成法形成分群图（根据矩阵Q 一次对样品分类完毕）。

★注：一定要画聚类结果表！

Q 型聚类结果表

2/112)(??????-=∑

=m k jk ik j i x x d 2/112)(1??

????-=∑

k jk ik j i x x m d )

,,2,1,(n j i =[cos ][]ij ij Q q θ==（Ⅰ）记下Q 中的非1的最大值230.9933q =，划去矩阵的第3行第3列。

（Ⅱ）记下Q 中剩余元素非1的的最大值240.9364q =，划去矩阵第4行第4列。（Ⅲ）记下Q 中剩余元素非1的的最大值560.7809q =，划去矩阵第6行第6列。

（Ⅳ）记下Q 中剩余元素非1的的最大值250.7306q =，划去矩阵第5行第5列。（Ⅴ）记下Q 中剩余元素非1的的最大值120.2626q =，划去矩阵第2行第2列。连接顺序连接样品相似系数

1 X

2 X

3 0.9933 2 X 2 X 3 X

4 0.9364 3 X

5 X

6 0.7810 4 X 2 X 3 X 4 X 5 X 6 0.7306 5 X 2 X 3 X 4 X 5 X 6 X 1 0.2626

Q 型聚类一次划分分群图：

★注：地质解释很重要！

6个样品之间关系存在一定差异，反应不同储集能力的储集岩，其中X2、X3、X4之间关系相对密切，相似系数均在0.9以上；X5、X6之间关系较密切，X1和其它5个样品之间的关系较不密切。因此，我们可以判断X1代表一类储集能力的储集岩， X2、X3、X4代表另一类储集能力的储集岩， X5、X6则是代表不同于前两类储集能力的储集岩。 §3 费歇准则下的两组判别分析 1、判别分析的类型设ag(g=1，2，···，G)表示 G 个总体，每个总体中分别有n g 个样品，每个样品有m 个变量。

当G = 2时，叫做两总体判别，又称为线性判别;当G > 2时，叫做多总体判别；筛选变量建立判别函数的方法叫做逐步判别分析。 2、判别分析的基本步骤：

(1)搜集来自G 个总体的G 组已知观测值(m 个变量)； (2)根据已知数据建立判别函数；

(3)利用判别函数判别未知总体的样品类属。 3、判别系数的确定 (1)原始数据

若总体A 、B 各有a n 、b n 个样品观测值,分别为:

这是建立判别函数所需要的数据。 (2)费歇尔(Fisher )准则下的判别函数

把)(a x ij 、)(

b x kj 分别代入上式得判别函数值：

)2121( )(, m , , ; j , n , , i a x a ij ???=???=)

2121( )(, m , , ; j , n , , k b x b kj ???=???=∑===m

j a ij j i n i a x c a y 1

)

,,2,1()()( ∑===

m j b kj

j i n k b x c b y 1

)

,,2,1()

()(

记： ——两组判别函数点的中心距

——组内判别函数点的离散度

★费歇尔准则: 使Q 达到最大、H 达到最小。它的含义是：

Q 达到最大，表明两组判别函数点的中心距最大；H 达到最小，判别函数点的分布最集中。满足以上条件的判别函数可最大限度地把A 和B 区分开。

第四章因子分析 §1 定义、基本思想 1、因子分析的定义

因子分析是数学地质中应用最广的多元统计分析方法之一。通过因子分析可以对大量地质观测数据进行浓缩，提炼出有代表性的独立新变量（因子），以揭示出变量之间、样品之间以及物质成分与地质作用之间的相互关系，为研究系统分类和成因提供依据。 ★2、因子分析的基本思想

实际上是一种降维方法，降维后能使新变量或样品具有明确的地质意义，更能反映出地质现象的内在联系。 3、因子分析的分类

根据研究对象的不同，因子分析分为Q 型因子分析和R 型因子分析。 §2 主因子载荷矩阵

★因子载荷矩阵的求取（例：PPT ） (1)求取相似系数矩阵R

资料矩阵：

变量相似矩阵：

得到相似系数矩阵：

[]2

)()(b y a y Q -=[][

]

∑∑==-+-=b a n k k

n i i b y b y a y a y H 1

12)()()()(?

???????????----=

011111100111432

x x x

X 321X

X X 444

111

cos /,,123ij li lj li lj l l l x x x x i j θ====

?=∑

∑

、、1313211033012R ?

?-????

??=-????

????

(2)求取相似系数矩阵的特征值和特征向量(采用雅克比法) 矩阵R 的特征方程：

展开后得到：

即：

解之，得到3个特征值：

求相似系数矩阵R 的特征向量:

对于，解方程组：

得到：

得到特征向量：

同理可以得到，的特征向量。

(3)求取因子载荷矩阵

如果取3个主因子，即3=m ，则此时计算得因子载荷矩阵：

131321

||1003

3012R E λλλλ---=--=-3

91(1)(1)(1)0

49λλλ-----=322927224(1)(9184)0λλλλλλ-+-=--+=1231.7451

0.255λλλ===，，745.11=λ???

???

?=-+=-+-=---0)745.11(320)745.11(3103231)745.11(31

112111312111u u u u u u u 1121311,0.4472,0.894u u u ==-='

[10.4470.894]u =-、、12=λ225.03=λ????

?????=??????????=33332

231

12332222111331221113332

232221

131211u u u u u u u u

a a a a a a a a

a A λλλλλλλλλ

第五章油气资源定量预测 §1 翁(Weng )旋回模型法

Weng 旋回模型是著名科学家翁文波提出的一种对生命总量有限的体系进行描述和预测的模型。

★一、模型中的名词

1、体系:若干互相联系的事物或意识构成的一个整体，体系为要素构成的整体，记为Q 。

2、生命旋回:Q 从兴起到衰亡的全过程为一个生命旋回，代表了生命的全过程。

3、生命量:截止时间为t 时Q 的产出量,记为t t

Q ∑。

4、生命量:截止时间为∞时Q 的产出量,记为

t Q ∑

∞

。

二、Weng 旋回模型

由模型看出:

①Q 的兴起正比于时间t 的x 次方(兴起因子)； ②Q 衰亡正比于时间t 的负指数函数(衰亡因子)。

★ Q 是时间t 的函数,而t 又可看成是时间间隔(T-T 0)与C 的比值。因此Weng 旋回模型又可写为: (t >0)

其中：T 0-生命起始时刻；T -生命过程中的某时刻；

x 、C 、A -待确定的拟合系数。三、Weng 旋回模型的性质

★Q 的生命旋回大致分为四个阶段： ①加速上升阶段(x x -~0)；

②一般上升阶段(x x x ~-

)；

③一般下降阶段(x x x +~)；

④缓慢下降阶段(∞+

~x x )。

§2 油田规模序列法

一、油田规模序列的统计分布规律

1230.93400.3500.4180.8940.15960.8350.4470.319X X X -????=--??????

21f f f t x e

At Q -=??

?-==-C T T t e

At Q t

x t /)(0

油田规模——指油田的最终可采储量;

油田规模序列——指含油区内的油田最终可采储量从大到小排出的序列。二、油田规模序列法 1、齐波夫定律

★ 齐波夫定律中的)321(???=,,,n Q n ，在双对数坐标系中分布在一条直线上，直线的斜率等于-1。

2、帕雷托定律

★ )321(???=,,,n Q n 在双对数坐标系中分布在一条斜率为-k 的直线上。

★ 齐波夫定律仅仅是帕雷托定律中k =1时的特例。斜率k 可称为油田规模分布系数。 ★3、油田规模序列法

含油气区内一组油气田的石油储量是一组离散型随机变量，它们的分布规律服从帕雷托定律。

油田规模序列法是根据油气区内已发现的油气田数量及规模，利用帕雷托定律预测油区内尚未发现的油气田数量和规模以及全区油气总规模(储量或资源量)的一种油气资源估算方法。

4、方法使用条件及注意事项 (1)方法使用条件

事实表明,对于一个完整而独立的石油地质体系,油田规模序列法的预测效果较好。所谓一个完整而独立的石油地质体系是指该体系内的油气生成、运移、聚集以及其后的地质变迁都是在同一石油地质演化历史条件下发生的，即含油气区内油气田(或油气藏)应具有统一的地质成因。

另外，该方法适用于含油气区勘探初期至晚期。 (2) 注意事项

利用油田规模序列法预测未发现油田时，要注意含油气区内油田的成油期。油田规模分布系数的不同，反映了油田规模序列的多样性。当一个大的含油气地区具有多期成油过程时，就可能存在多个油田规模序列。因此，应先把含油气区内的油田分类，然后按类应用油田规模序列法。

第六章数学地质模型

★数学地质模型的一般流程：

§1 模糊综合评判模型

模糊综合评判又称模糊多元决策，它是模糊理论中用于评价综合系统质量的一种方法。 ★1、模糊综合评判的基本思想：

就是通过合理地选择影响地质体类型的主要因素（即建立因素集），并给这些因素分配合适的权重（即建立权重集），根据一定的评判规则（即建立评判集），经过试算后，选取适当的隶属函数，求取评判对象的隶属度，采用择优原则，选取隶属度高的对象，舍弃隶属度低的，从而对某地质体类型作出判断，为勘探开发提供依据。 2、权重集的确定方法：

权重集是指的各参数权重系数的集合。权重系数是表示某一指标项在指标项系统中的重要程度，它表示在其它指标项不变的情况下，这一指标项的变化，对结果的影响。 ★常见的求取方法： ①专家打分法； ②灰色关联法； ③层次分析法（AHP ）； ④BP 神经网络。 (1)灰色关联法

灰色关联分析实质上就是比较各类数据到曲线几何形态的接近程度。一般来说，几何形态越近，变化趋势也就越接近，关联度就越大。因而在进行关联分析时，必须先确定参考数列（母因素），然后比较其它数列（子因素）同参考数列的接近程度，这样才能对其它数列进行比较，进而作出判断。 (2)层次分析法

层次分析法把复杂问题中的各种因素通过划分为相互关联的有序层次，使其条理化，并把数据、专家意见和分析者的主客观判断直接且有效地结合起来，就每一层次的相对重要性给予定量表示。然后利用数学方法确定表达每一层次全部要素的相对重要性权值。 3、确定隶属函数

目前，常用的隶属函数有：“矩形分布”、“τ分布”、“梯形分布”、“凹（凸）分布”、“哥西分布”、“岭形分布”等。 4、模糊综合评判的基本思路 ①第一步，确定因素集； ②第二步，计算权重系数； ③第三步，确定权重集； ④第四步，确定评判集； ⑤第五步，确定隶属函数； ⑥第六步，求取隶属度；

⑦第七步，构建模糊关系矩阵：

模糊关系距阵R 是由在第i 种评价因素作用下，第j 个样本对于储层质量的隶属度所确定和组成的矩阵。

111212122212...

..................

m m n n nm

r r r r r R r

r r ?????

?=??????

R是评价因素和评价结果之间的模糊关系，通过它可以使评价因素转化成评价结果。

⑧第八步，模糊综合评判。

§2 模糊聚类模型

1、概念：模糊聚类分析是建立在传统的聚类分析和模糊集理论上的一种方法。

★2、中心思想：是应用模糊集理论中的“软划分”方法来处理聚类问题，使聚类具有真正的动态性。

3、模糊聚类和聚类分析的区别

聚类分析是一种硬划分，它把每个待识别的对象严格地划分到某类中，这种类别划分的界限是分明的，具有相当大的人为因素。模糊聚类用的“软划分”。

4、“软划分”的具体步骤

(1)求取相似统计量，标定；

(2)建立模糊等价矩阵：通过传递闭包的方法来完成改造，使模糊等价关系矩阵具有传递性和动态性。

(3)求取模糊等价关系的水平截集λ，进行分类。