投影寻踪方法及应用

投影寻踪方法及应用
投影寻踪方法及应用

投影寻踪方法及应用

内容摘要:本文从投影寻踪的研究背景出发,给出了投影寻踪的定义和投影指标,在此基础上得出了投影寻踪聚类模型,随后简单介绍了遗传算法。最后结合上市公司的股价进行实证分析,并给出结论和建议。

关键词:投影寻踪投影寻踪聚类模型遗传算法

一、简介

(一)产生背景

随着科技的发展,高维数据的统计分析越来越普遍,也越来越重要。多元分析方法是解决高维数据这类问题的有力工具。但传统的多元分析方法是建立在总体服从正态分布这个假定基础之上的。不过实际问题中有许多数据不满足正态假定,需要用稳健的或非参数的方法来解决。但是,当数据的维数很高时,即使用后两种方法也面临以下困难:第一个困难是随着维数增加,计算量迅速增大。第二个困难是对于高维数据,即使样本量很大,仍会存在高维空间中分布稀疏的“维数祸根”。对于核估计,近邻估计之类的非参数法很难使用。第三个困难是对低维稳健性好的统计方法,用到高维时则稳健性变差。

另一方面,传统的数据分析方法的一个共同点是采用“对数据结构或分布特征作某种假定——按照一定准则寻找最优模拟——对建立的模型进行证实”这样一条证实性数据分析思维方法〔简称CDA法)。这种方法的一个弱点是当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,很难收到好的效果。其原因是证实性数据分析思维方法过于形式化、数学化,受束缚大。它难以适应千变万化的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。针对上述困难,近20年来,国际统计界提出采用“直接从审视数据出发—通过计算机分析模拟数据—设计软件程序检验”这样一条探索性数据分析新方法,而PP就是实现这种新思维的一种行之有效的方法。因此,高维数据尤其是非正态高维数据分析的需要,加上80年代计算机技术的高度发展是PP产生的主要背景。

(二)发展简史

PP最早由Kruskal于70年初建议和试验。他把高维数据投影到低维空间,通过数值计算得到最优投影,发现数据的聚类结构和解决化石分类问题。1974年Frledman和Tukey加以改正,提出了一种把整体上的散布程度和局部凝聚程度结合起来的新指标进行聚类分析,正式提出了PP概念,并于1976年编制了计算机图像系统PRIM——9。1979年后,Friedman 等人相继提出了PP回归、PP分类和PP密度估计。在这以后Huber等人积极探索了PP的理论。1981年Donoho提出了用Shannan嫡作投影指标比wiggins用标准化峰度更好的方法,接着他又利用PP的基本思想给出了多元位置和散布的一类仿射同变估计。Diaeonis、Friedman和Jones等还讨论了与PP有关的其他理论问题。上述工作和结果在1985年Huber

的综述论文中作了概括和总结。

我国学者成平和吴健福于1985年证明了PP密度估计的一个收敛性问题,并于1987年给出PP经验分布的极限分布。陈忠琏和李国英等于1986年用PP方法给出了散布阵和主成分的一类稳健估计。成平和李国英于1986年还对多元位置和散布的PP型估计性质进行了讨论叫。陈家弊于1986年证明了密度PP估计的一个极限定理。宋立新和成平于1996年就PP回归逼近的均方收敛性,回答了Huber1985年的猜想。这些都是很好的工作。在PP的应用研究方面,从1985年起,郑祖国、杨力行等人通过几年的潜心研究和探索,成功地完成了投影寻踪回归(PPR)和投影寻踪时序(PPTS)软件包的程序设计,并对大量实例进行了验算。

二、PP及其分类

投影寻踪是用来分析和处理高维数据,尤其是来自非正态总体的高维数据的一类统计方法。其基本思想是:利用计算机技术,把高维数据通过某种组合,投影到低维(1~3维)子空间上,并通过极小化某个投影指标,寻找出能反映原高维数据结构或特征的投影,在低维空间上对数据结构进行分析,以达到研究和分析高维数据的目的。

它的一般方案是:

(l)选定一个分布模型作为标准(一般是正态分布),认为它是最不感兴趣的结构;

(2)将数据投影到低维空间上,找出数据与标准模型相差最大的投影,这表明在投影中含有标准模型没能反映出来的结构;

(3)将上述投影中包含的结构从原数据中剔除,得到改进了的新数据;

(4)对新数据重复步骤(2)(3),直到数据与标准模型在任何投影空间都没有明显差别为止。

PP方法的主要特点是:

(l)PP方法能够在很大程度上减少维数祸根的影响,这是因为它对数据的分析是在低维子空间上进行的,对1-3维的投影空间来说,高维空间中稀疏的数据点就足够密了,足以发现数据在投影空间中结构特征;

(2)PP方法可以排除与数据结构和特征无关,或关系很小的变量的干扰;

(3)PP方法为使用一维统计方法解决高维问题开辟了途径,因为PP方法可以将高维数据投影到一维子空间,再对投影后的一维数据进行分析,比较不同一维投影的分析结果,找出好的投影;

(4)与其他非参数方法一样,PP方法可以用来解决某些非线性问题。PP虽然是以数据的线性投影为基础,但它找的是线性投影中的非线性结构,因此它可以用来解决一定程度的非线性问题,如多元非线性回归;

(二)PP的分类

PP包括手工PP和机械PP两方面内容。手工PP主要是利用计算机图像显示系统在终端屏幕上显示出高维数据在二维平面上的投影,并通过调节图像输入装置连续地改变投影平面,使屏幕上的图像也相应地变化,显示出高维数据在不同平面上投影的散点图像。使用者通过观察图像来判断投影是否能反映原数据的某种结构或特征,并通过不断地调整投影平面来寻找这种有意义的投影平面。

最早的图象显示系统是斯坦福大学教授J.H.Friedman 等人1974年编制的,PRIM 一9。利用这个系统可以看到不超过九维的数据在任何二维平面上的投影图象,以发现数据的聚类和超曲面结构。这个系统还可以只显示指定的区域内的高维点,把其他点移出屏幕不显示出来。因此当人们在投影平面上发现了某种聚类结构时,可以把不同类的数据分开,再分别考察每个类中的数据的结构和特征。

使用手工PP 成功的例子是美国的Reaven 和Miller 于1979年关于多尿病病理的研究。他们将145人的5项指标观察值输入PRIM 一9图像显示系统,对5项指标中的每3项指标,观察145个3维点构成的点云在任何2维平面上的投影图像,最后找到了一个在医学上有意义的图像。从这张图像上可以看到隐性和显性多尿症患者的数据是完全分开的。不经过中间正常状态,两者是不能相互转换的。

机械PP 是模仿手工PP ,用数值计算方法在计算机上自动找出高维数据的低维投影,即让计算机按数值法求极大解的最优化问题的方法,自动地找出使指标达到最大的投影。它要求对一个P 维随机向量X ,寻找一个K (K

有些传统的多元分析方法可以看成是机械投影寻踪的特例。例如主成份分析,判别分析等,但是主成分分析方法是用主成分来描述或逼近原始数据,所反映的是数据的全局特征或宏观特征,这样显然就有可能会漏掉主要的局部特征或细节特征。下面以大家熟知的主成份分析为例具体说明机械投影寻踪方法。

主成份分析的目的是要考察P 维数据n x x x ,,,21Λ,是否真正散布在P 维空间上,还是主要只散布在某个维数小于P 的子空间上。好比一块铁饼,虽然是三维空间中的形体,由于相对地说厚度明显地小,所以它主要是散布在二维平面上的园形东西,在与这个园形垂直的方向上没有多少布散布。我们取描述一维数据散布程度的标准差作为投影指标。实数

n y y y ,,,21Λ的标准是∑--=

n

i n n y y y y y 1

2

21)1/()

(),,,(Λσ,其中n y y n

i /1

∑=。用投影寻踪了

解数据n x x x ,,,21Λ的散布情况,就是找出一个方向b ,使得数据在这个方向上的投影的散布达到最大,即),,(m ax ),,('1'1

'11'1n a n x a x a x b x b ΛΛσσ==,1b 就是n x x x ,,,21Λ的样本协差阵S 的最

大特征根1λ的特征向量。把S 的特征根从大到小排列,记作p λλλ,,,21Λ,这样投影寻踪就给出了n x x x ,,,21Λ的第一主成份n x b x b x b '12'11'1,,,Λ,它的标准差1'11'1),,(λσ=n x b x b Λ。继续作

投影寻踪,在与1b 垂直的空间里求单位向量2b ,使),,(m ax ),,('1',1'

21'2

1

n b a a n x a x a x b x b ΛΛσσ<==。可以证明2b 就是相应于2λ的特征根,进而得到n x x x ,,,21Λ的第二主成份n x b x b '

21'2

,,Λ,及其标准差2λ,如此类推,就可以求出第三、第四主成份等等,直到某个主成份的标淮差接

近零为止。

当然,主成份分析只是机械投影寻踪的一个特例。一般的并不要求后面的投影方向与前面找到的投影方向垂直。而且,对于主成分分析其样本协方差阵及特征根和特征向量对离群点是非常敏感的,正是由于样本协方差阵的不稳定,造成了传统主成分分析的不稳健。为了得到稳健性,可以采用稳健的散布度量加以改进另外,实际作主成份分析时也不用求极值的投影寻踪法,而是直接求样协差阵S 的特征根和特征向量。

三、投影指标

PP 的出发点是度量投影分布所含信息的多少,而我们知道高维数据集合的线性投影是?几乎正态的,并且正态分布通常为无信息分布的代表。从而寻求与正态分布差异最大的线性投影分布,即含信息最多的投影分布,成为PP 方法的常用方式之一。既然如此,那么它是如何实现的呢?为了避免繁杂的细节讨论,突出问题的重点,我们选取简单的度量准则,如方差、偏度、峰度,至于更加复杂的度量准则也有完全类似的描述、解释,这里从略。

(1)方差指标)()(X a Var X a Q T T =

设),,,(21n x x x Λ是总体X 的独立同分布的样本,方差指标的样本形式为

2

1

))((1)(∑=-=n i T

i T T

X a E x a n X a Q 。如果我们求)(max X a Q T ,得到的∧

a 就是样本散布最大的方

向。主成分分析就是取样本方差为投影指标的PP 方法。

(2)Friedman 指标 设有Legendre 多项式

R R Q R Q ==)(,1)(10, Λ3,2],)1()12[(1

21=---=--j Q j RQ j j

Q j j j

设X 为P 维随机向量,协方差阵∑的正交分解T UDU =∑,U 是标准正交阵,D 是对角阵。),,,(21n x x x Λ是X 的n 个样本,n P 是其经验分布。为了达到PP 的主要目的,并减少计算量,我们要求PP 指标对P 维数据的任何非奇异仿射变换保持不变。为此,对x 及它的子样进行球面化,即令)(2

1EX X U D Z T -=-,如果∑未知,则用样本的协方差阵n ∑的正交分解T

n n n n U D U =∑的n n D U ,代替D U ,。设)(x Φ为标准正态分布分布函数,则Friedman 指标

为21

)]1)(2([)12(21),(-Φ+=∑=Z a Q E j P a I T j P J

i 其中P 是X 的分布函数。

样本形式为21

)]1)(2([)12(21)(-Φ+=∑=Z a Q E j a I T j P J

i n n

(3)偏度指标和峰度指标

偏度是用来衡量分布非对称性的统计指标,峰度是用来衡量分布平坦性的统计指标,它们都对离群点非常敏感。因此可以用作投影指标来寻找离群点。设原随机变量为X ,投影方向为a ,偏度指标和峰度指标分别为

2311)()(k X a Q a I T ==和2

422)()(k X a Q a I T ==

以及两者混合产生的指标

12/)()(242333k k X a Q a I T +==和242344)()(k k X a Q a I T ?==

这类指标对于检测噪声背景下的比较细小的特征目标有较好的效果。 (4)信息散度指标

一般认为服从正态分布的数据含有的有用信息最少,因而我们感兴趣的是与正态分布差别大的结构。多元正态分布的任何一维线性投影仍然服从正态分布,因此如果一个数据在某个方向上的投影与正态分布差别较大,那它就一定含有非正态的结构,这是我们关心的。高维数据在不同方向上的一维投影与正态分布的差别是不一样的,它显示了在这一方向上所含有的有用信息的多少,因此可以用投影数据的分布与正态分布的差别来作为投影指标。人们已经设计出许多具有这种特点的指标,信息散度指标就是其中之一。设f 是一

维密度函数,g 是一维标准正态分布密度函数,f 对g 的相对嫡为dx x g x f x g g f d ?+∞

-?=

)

()

(log

)()( 信息散度指标定义为:)()()(f g d g f d f Q +=

当g f =时,0)(=g f d ;若f 偏离g 越远,那么)(g f d 值就越大,因此)(g f d 刻划了 f 到g 的偏离程度。由于根据样本估计f 是很麻烦的,因此更简便有效的方法是用离散化的概率分布p 和q 分别代替连续的密度函数f 和g ,这时指标变为

)()(),(p q D q p D q p Q +=,其中∑?=)log()(q

p

q q p D 。如果投影指标的值越大,那么意味

着它越偏离正态分布,因而是我们感兴趣的方向

基于结构的PP 降维流程

四、投影寻踪聚类模型

(一)用PP 探索高维数据的结构或特征时,一般采用迭代模式。首先根据经验或猜想给定一个初始模型;其次把数据投影到低维空间上,找出数据与现有模型相差最大的投影。这表明在这个投影中含有现有模型中没有反映的结构,然后把上述投影中所包含的结构并在现有模型上,得到改进了的新模型。再从这个新模型出发,重复以上步骤,直到数据与模型在任何投影空间都没有明显的差别为止。由于PP 是一种数据分析的新思维方式,因此

高 维

数据集

结构

线 性 投 影

结构

度量

将这种新思想与传统的回归分析、聚类分析、判别分析、时序分析和主分量分析等相结合,会产生很多新的分析方法。例如投影寻踪聚类(Projection Pursuit Classification ,简称PPC ),它是以每一类内具有相对大的密集度,而各类之间具有相对大的散开度为目标来寻找最优一维投影方向,并根据相应的综合投影特征值对样本进行综合分析评价。

(二)投影寻踪聚类模型

设第i 个样本第j 个指标为),,2,1;,,2,1(m j n i x ij ΛΛ==,n 为样本个数,m 为指标个数,用投影寻踪技术建立投影寻踪聚类模型的步骤如下:

(1)样本指标数据归一化:由于各指标的量纲不尽相同或数值范围相差较大,因此,在建模之前对数据进行归一化处理为max 'j x x x ij ij =,其中max j x 表示第j 个指标的样本最大值。

(2)线性投影:所谓投影实质上就是从不同的角度去观察数据,寻找最能充分挖掘数据特征的作为最优投影方向。可在单位超球面中随机抽取若干个初始投影方向

),,,(21m a a a a Λ,计算其投影指标的大小,根据指标选大的原则,最后确定最大指标对应的

解为最优投影方向。

若),,,(21m a a a Λ为m 维单位向量,则样本i 在一维线性空间的投影特征值i z 的表达为

∑==m

j ij

j i x a z 1'

。 (3)寻找目标函数:综合投影指标值时,要求投影值i z 的散布特征应为:局部投影点尽可能密集,最好凝聚成若干个点团,而在整体上投影点团之间尽可能散开。故可将目标函数)(a Q 定义为类间距离)(a s 与类内密度)(a d 的乘积,即)()()(a d a s s Q ?=。

类间距离用样本序列的投影特征值方差计算,21

2

1])

([)(n z z a s n

i a i ∑=-=。其中a z 为序列

},,2,1)({n i i z Λ=的均值,)(a s 愈大,散布愈开。

设投影特征值间的距离),,2,1,(n k i z z r k i ij Λ=-=,则)()()(11ik n

i n

k ik r R f r R a d --=∑∑==,)

(t f 为一阶单位阶跃函数,0≥t 时,其值为1;0

?<≥=-ik

ik ik r R r R r R f 0

1

)(,

R 为估计局部散点密度的窗宽参数,按宽度内至少包括一个散点的原则选定,其取值与样本数据结构有关,可基本确定它的合理取值范围为m R r 2max ≤<,其中,

),,2,1,)(m ax (max n k i r r ik Λ==。类内密度)(a d 愈大,分类愈显著。

(4)优化投影方向:由上述分析可知,当)(a Q 取得最大值时所对应的投影方向就是所

要寻找的最优投影方向。因此,寻找最优投影方向的问题可转化为下列优化问题:

??

???==?=∑=m

j j

a a a d a s a Q 121)()()(max ,这是以j a 为优化变量的复杂非线性优化问题,可采用遗传算法等优化方法求解。

(5)综合评价聚类分析:根据最优投影方向,便可计算反映各评价指标综合信息的投影特征值i z 的差异水平,以i z 的差异水平对样本群进行聚类分析。

五、遗传算法

(一)定义

遗传算法(Genetic Algorithm ,简称GA )以生物进化过程为背景,模拟生物进化的步骤,将繁殖、杂交、变异、竞争和选择等概念引入到算法中,通过维持一组可行解,并通过对可行解的重新组合,改进可行解在多维空间内的移动轨迹或趋向,最终走向最优解。它克服了传统优化方法容易陷入局部极值的缺点,是一种全局优化算法。其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐并行性和更好的全局寻优能力;采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调整搜索方向,不需要确定的规则。

(二)运算过程 1. 遗传算法染色体编码

遗传算法不能直接处理问题空间的参数,必须把它们转换成遗传空间的由基因按一定结构组成的染色体或个体,这一转换操作就叫做编码。二进值编码是目前遗传算法中最常用的编码方法。即是由二进值字符集{0, 1}产生通常的0, 1字符串来表示问题空间的候选解。

2. 适应度函数

遗传算法的适应度函数也叫评价函数,是用来判断群体中的个体的优劣程度的指标,它是根据所求问题的目标函数来进行评估的。遗传算法在搜索进化过程中一般不需要其他外部信息,仅用评估函数来评估个体或解的优劣,并作为以后遗传操作的依据。由于遗传算法中,适应度函数要比较排序并在此基础上计算选择概率,所以适应度函数的值要取正值。由此可见,将目标函数映射成求最大值形式且函数值非负的适应度函数是必要的。

在具体应用中,适应度函数的设计要结合求解问题本身的要求而定。适应度函数设计直接影响到遗传算法的性能。

3. 遗传算子 3.1. 选择

选择算子有时又称为再生算子。选择的目的是把优化的个体(或解)直接遗传到下一代或通过配对交叉产生新的个体再遗传到下一代。选择操作是建立在群体中个体的适应度评估基础上的,目前常用的选择算子有以下几种:适应度比例方法、随机遍历抽样法、局部选择法、局部选择法。

其中轮盘赌选择法 是最简单也是最常用的选择方法。在该方法中,各个个体的选择概

率和其适应度值成比例。设群体大小为n ,其中个体i 的适应度为i f ,则i 被选择的概率i P ,为遗传算法 ∑==n

j i

i f

f

P 1

显然,概率反映了个体i 的适应度在整个群体的个体适应度总和中所占的比例。个体适应度越大,其被选择的概率就越高,反之亦然。计算出群体中各个个体的选择概率后,为了选择交配个体,需要进行多轮选择。每一轮产生一个[0,1]之间均匀随机数,将该随机数作为选择指针来确定被选个体。个体被选后,可随机地组成交配对,以供后面的交叉操作。

3.2 交叉

在自然界生物进化过程中起核心作用的是生物遗传基因的重组(加上变异)。遗传算法中起核心作用的是遗传操作的交叉算子。所谓交叉是指把两个父代个体的部分结构加以替换重组而生成新个体的操作。通过交叉,遗传算法的搜索能力得以飞跃提高。

交叉算子根据交叉率将种群中的两个个体随机地交换某些基因,能够产生新的基因组合,期望将有益基因组合在一起。根据编码表示方法的不同,可以有以下的算法:

a)实值重组

1)离散重组;2)中间重组; 3)线性重组; 4)扩展线性重组。 b )二进制交叉

1)单点交叉; 2)多点交叉; 3)均匀交叉; 4)洗牌交叉; 5)缩小代理交叉 常用的交叉算子为单点交叉。具体操作是:在个体串中随机设定一个交叉点,实行交叉时,该点前或后的两个个体的部分结构进行互换,并生成两个新个体。下面给出了单点交叉的一个例子:

个体A :1 0 0 1 ↑1 1 1 → 1 0 0 1 0 0 0 新个体 个体B :0 0 1 1 ↑0 0 0 → 0 0 1 1 1 1 1 新个体 3.3. 变异

变异算子的基本内容是对群体的个体串的某些基因座上的基因值变动。基于字符集{0,1}的二值码串而言,变异操作就是把某些基因座上的基因值取反,即1→0或0→1。

一般来说,变异算子操作的基本步骤如下:

(1)在群体中所有个体的码串范围内随机地确定基因座。

(2)以事先设定的变异概率Pm 来对这些基因座的基因值进行变异。

遗传算法引入变异的目的有两个:一是使遗传算法具有局部的随机搜索能力。当遗传算法通过交叉算子已接近最优解领域时,利用变异算子的这种局部随机搜索能力可以加速向最优解收敛。显然,此种情况下的变异概率应取较小值,否则接近最优解的积木块会因变异而遭到破坏。二是使遗传算法可维持群体多样性,以防止出现未成熟收敛现象。此时收敛概率应取较大值。

4. 迭代终止

当遗传算法已经寻找到最优的投影方向或者迭代次数已经达到预先设定的次数时,算法迭代终止,这时所返回的值即为本次寻优过程所得到最优的投影方向。

六、实证分析

本文应用投影寻踪聚类模型对上市公司的股价的高低进行分析,所选的盈利指标是每股现金流量和每股收益、每股净资产、股东收益率、净资产收益率、总资产收益率、销售利润率、主营业务收益率等等。把每股收益、每股净资产、净资产收益率这三个指标作为聚类的标准。其中:

净资产利润率=净利润/平均净资产(平均股东权益); 每股收益=净利润/期末总股本; 每股净资产=期末净资产/期末总股本。

样本股票的指标数据来自于华夏证券网公布的深圳2003年中期上市公司财务指标(如下表:原始股票样本数据表)

原始股票样本数据表

序 号 股票 代码 股票 简称 每股收益

摊薄(元) 每股净

资产(元) 净资产收

益率%

总股本 (万股) 股东 人数 投影 特征值 分类 结果 1 000488 晨鸣纸业 0.39 4.45 8.83 89772.79 49314 1.6257 1 2 000538 云南白药 0.3257 2.82 11.54 18581.8 14030 1.3397 2 3 000605 四环药业 0.11 1.53 7.43 8250 6174 0.66032 3 4 000631 蓝宝信息 0.0878 3.22 2.73 24036.96 40601 0.55416 3 5 000881 大连国际 0.027 2.29 1.18 30891.84 68148 0.33647 4 6 000961 大连金牛 0.05 3.5 1.35 30053 74276 0.4742 4 7 000965 天水股份 0.016 2.57 0.62 23870.54 32323 0.28538 4 8 000407 胜利股份 0.053 2.25 2.36 23958.88 65959 0.4362 4 9 000410 沈阳机床 0.03 2.31 1.25 34091.93 68727 0.37511 4 10 000510 金路集团 0.09 1.36 6.53 60918.23 90129 0.76483 3 11 000527 粤美的 A 0.24 4.77 5.06 48488.97 144585 1.1481 2 12 000633 合金投资 0.1191 1.59 7.49 32092.2 3323 0.74452 3 13 000637 茂化实华 0.112 2.04 5.49 28978.56 6365 0.65497 3 14 000687 保定天鹅 0.088 3.24 2.7 32080 54753 0.58434 3 15 000819 岳阳兴长 0.042 2.27 1.85 16513.39 17263 0.34416 4 16 000852 江钻股份 0.1115 2.43 4.59 28000 29997 0.64465 3 17 000918 亚华种业 0.124 4.02 3.09 17000.2 16092 0.64583 3 18 000960 锡业股份 0.0607 3.29 1.86 35790.4 85274 0.52768 3 19 000002 万科 A 0.15 3.1 4.83 136540.6 248117 1.1847 2 20

000012

南玻科控

0.14

2.95

4.6

67697.54

61534

0.84962

3

将样本指标数据代入投影寻踪模型,其中n =20,m =5,给定3max +=r R ,由于模型比较麻烦在此不予给出。通过模型运算得到最优投影方向向量

)15169.0,36518.0,55317.0,26736.0,68276.0(=a 。根据投影方向向量值的大小可知,每股收益、

净资产收益率是影响分类结果的主要因素。同时可以利用∑===5

1

)20,,2,1(j ij

j i i x a z Λ计算

各个样本的投影特征值。根据股票样本的投影特征值的大小,将20支股票分为4类,投影

特征值越大说明对应的股票投资价值越大。分类结果如下:

第1类:晨鸣纸业。这类股票是明显的高收益的绩优股,发展前景令人期待,投资价值比较大。

第2类:云南白药,粤美的A,万科A共有3支股票。这类股票有较好的发展态势,但盲目介入有一定风险,投资者可适当关注,择机介入。

第3类:四环药业,兰宝信息,金路集团等共有10支股票。这类股票业绩一般,操作上以回避为主,不过也可能有反弹空间,故还是以观望为主。

第4类:大连国际,大连金牛,天水股份等共有6支股票。这类股票是明显的低收益的绩差股,投资上还是以回避为好。

七、结语

PP的最显著特点是克服了高维点稀分布所造成的“维数祸根”困难,是对传统证实性数据分析思维方法的突破。其次,它使用了降维手段,当维数较高时,数据结构常表现在几个投影方向上。PP法正好能找出反映数据结构的投影方向,而排除了那些与结构无关的投影方向上的数据的干扰作用,因此,它能有效地发现高维数值的结构和特征。再次,由于PP采用了探索性数据分析方法,与传统的证实性数据分析思维方法法相比,它在处理数据时,无须人为假定,不会损失大量有用的偏态信息,能自动找出数据内在规律,因此稳健性较好。

投影寻踪回归

第一节 投影寻踪回归 我们先介绍一下Peter Hall 提出的投影寻踪回归(Projection Pursuit Regression)的思想,它一点也不神秘。 我们手中的资料是k n k k k x Y x ,},{1=是p 元,Y k 是一元。非参数回归模型是 n k x G Y k k k ≤≤+=1 ,)(ε (10.1.0) 我们的任务是估计p 元函数G ,当然}|{)(x x Y E x G k k ==。G 是将p 元变量映像成一元变量,那么何不先将p 元变量投影成一元变量,即取k x u θ'=,再将这个一元实数u 送进一元函数G 作映像呢?由于要选择投影方向),,(1p θθθ =,使估计误差平方和最小,就是要寻踪了。所以取名为投影寻踪回归。 具体操作如何选方向θ,如何定函数G ,如何证明收敛性,下面将逐步讲述。需要指出的是,投影寻踪回归与单指针半参数回归模型的思想基本上一样,基本算法也差不多,差别大的方面是收敛结果及证明。若论出现时间,投影寻踪回归较早,在1989年,单指针模型较晚,在1993年。 一、投影寻踪回归算法 假设解释变量集合}1,{n k x k ≤≤是来自密度函数为f 的p 元随机样本,对每一个p 元样本x k ,有一元观察Y k 与之对应,并且 )()|(x G x x Y E k k == (10.1.1) 这里G 是回归函数,也是目标函数。令Ω为所有p 维单位向量的集合,θ,θ1,θ2,…是Ω中 的元素。如果H 是一个p 元函数,比如f 或G ,则H 沿方向θ的方向导数记作 u x H u x H x H n /)}()({lim )(0 )(-+=→θθ (10.1.2) 假如这个极限存在的话。高阶导数则记作)()()(2121)(θθθθH H =?,等等。x ∈R p 的第i 个分量记作x (i ),点积) () (i i y x y x ∑=?,模长2 1 )(x x x ?=。符号A 表示R p 的子集,通常是指凸集。I (·∈ A)表示A 的示性函数,I (x ∈A )=1,0)(=∈A x I 。u 一般代表实数。

几种常见地图投影各自的特点及其分带方法

高斯-克吕格(Gauss-Kruger)投影,是一种“等角横切圆柱投影”。德国数学家、物理学家、天文学家高斯(Carl Friedrich Gauss,1777一 1855)于十九世纪二十年代拟定,后经德国大地测量学家克吕格(Johannes Kruger,1857~1928)于 1912年对投影公式加以补充,故名。设想用一个圆柱横切于球面上投影带的中央经线,按照投影带中央经线投影为直线且长度不变和赤道投影为直线的条件,将中央经线两侧一定经差范围内的球面正形投影于圆柱面。然后将圆柱面沿过南北极的母线剪开展平,即获高斯一克吕格投影平面。 一、只谈比较常用的几种:“墨卡托投影”、“高斯-克吕格投影”、“UTM 投影”、“兰勃特等角投影” 1.墨卡托(Mercator)投影 1.1 墨卡托投影简介 墨卡托(Mercator)投影,是一种" 等角正切圆柱投影”,荷兰地图学家墨卡托(Gerhardus Mercator 1512-1594)在1569年拟定,假设地球被围在一中空的圆柱里,其标准纬线与圆柱相切接触,然后再假想地球中心有一盏灯,把球面上的图形投影到圆柱体上,再把圆柱体展开,这就是一幅选定标准纬线上的“墨卡托投影”绘制出的地图。 墨卡托投影没有角度变形,由每一点向各方向的长度比相等,它的经纬线都是平行直线,且相交成直角,经线间隔相等,纬线间隔从标准纬线向两极逐渐增大。墨卡托投影的地图上长度和面积变形明显,但标准纬线无变形,从标准纬线向两极变形逐渐增大,但因为它具有各个方向均等扩大的特性,保持了方向和相互位置关系的正确。 在地图上保持方向和角度的正确是墨卡托投影的优点,墨卡托投影地图常用作航海图和航空图,如果循着墨卡托投影图上两点间的直线航行,方向不变可以一直到达目的地,因此它对船舰在航行中定位、确定航向都具有有利条件,给航海者带来很大方便。 “海底地形图编绘规范”(GB/T 17834-1999,海军航保部起草)中规定1:25万及更小比例尺的海图采用墨卡托投影,其中基本比例尺海底地形图(1:5万,1:25万,1:100万)采用统一基准纬线30°,非基本比例尺图以制图区域中纬为基准纬线。基准纬线取至整度或整分。 1.2 墨卡托投影坐标系 取零子午线或自定义原点经线(L0)与赤道交点的投影为原点,零子午线或自定义原点经线的投影为纵坐标X轴,赤道的投影为横坐标Y轴,构成墨卡托平面直角坐标系。 2.高斯-克吕格(Gauss-Kruger)投影和UTM(Universal

投影寻踪技术的理论及应用研究进展

第24卷第1期2009年2月柳 州 师 专 学 报Journal of Liuzhou Teachers College Vol 124No 11 Feb 12009  [收稿日期]2008-11-10  [基金项目]广西青年科学基金(0832092)  [作者简介]吴春梅(1970— ),女,讲师,研究方向:计算机应用和神经网络应用;罗芳琼(1971—),女(壮族),广西忻城人,讲师。投影寻踪技术的理论及应用研究进展 吴春梅,罗芳琼 (柳州师范高等专科学校数学与计算机科学系,广西柳州 545004) 摘 要:投影寻踪技术是国际统计界于70年代中期发展起来的、用来处理和分析高维观测数据,尤其是非正态、非线性高维数据的一种新兴统计方法。它利用计算机直接对高维数据进行投影降维分析,进行数据客观投影诊断,自动找出能反映高维空间规律的数据结构,达到研究分析高维数据的目的。本文对30多年来投影寻踪技术在应用领域方面的文献进行收集整理,探讨投影寻踪技术在相关领域的应用和发展状况,为从事投影寻踪研究或应用的专业人员获取和利用相关信息提供线索和参考。 关键词:投影寻踪;岭函数;回归分析 中图分类号: TP30116 文献标识码: A 文章编号: 1003-7020(2009)01-0120-06 0 前言 近三十多年来,随着计算技术的发展和计算机的普及,国际统计界发展了一类处理和分析高维数据的新兴统计方法———投影寻踪(Projection Pursuit ,简称 PP )法,它是采用“审视数据→模拟→预测”探索性数 据分析(Exploratory Data Analysis ,简称EDA )的新途径[1],适宜于非线性、非正态分布数据的处理,并能避免“维数祸根”,因为投影寻踪技术不需要人为地把高维数据整理成知识、构造成数据库进行训练后再推理,而是直接利用计算机对高维数据进行投影降维分析,进行数据客观投影诊断,自动找出能反映高维空间规律的数据结构,它具有稳健性、抗干扰性和准确度高等优点,因此在许多领域获得成功应用[2-3] 。 1 投影寻踪技术的产生背景与实现方 法 111 投影寻踪技术的产生背景 随着科学技术的发展,高维数据的统计分析越来越普遍,也愈来愈重要。多元分析方法是解决这类问题的有力工具。但传统的多元分析方法是建立在总体服从某种分布比如正态分布这个假定基础之上的,采用所谓的“对数据结构或分布特征作某种假定———按照一定准则寻找最优模拟———对建立的模型进行证实”,也就是“假定—模拟—检验”这样一种证实性 数据分析法(C onfirmatory Data Analysis ,简称CDA )。但实际问题中有许多数据并不满足正态分布,需要用稳健的或非参数的方法去解决。不过,当数据维数很高时,这些方法都将面临一些困难:(1)随着维数增加,计算量迅速增大;(2)对于高维数据,即使样本量很大,仍会存在高维空间中分布稀疏的“维数祸根”,非参数法也很难使用;(3)低维稳健性好的统计方法用到高维时稳健性变差。因此,当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,传统的CDA 方法很难收到好的效果。其原因是它过于形式化、数学化,受束缚大,难以适应千变万化的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。为了克服上述困难,需要对客观数据不作假定或只作极少假定,而采用“直接审视数据———通过计算机模拟数据结构———检验”这样一种探索性数据分析方法。而PP 就是实现这种新思维的一条行之有效的途径。 PP 最早由Kruskal 在70年代初提出并进行试 验。他把高维数据投影到低维空间,发现数据的聚类结构和解决化石分类问题[4-5] 。随后Friedman 和 Tukey 提出了一种把整体上的散布程度和局部凝聚 程度结合起来的新指标进行聚类分析,正式提出了 PP 概念[6]。1981年,Friedman 等人相继提出了PP 回归,PP 分类和PP 密度估计[7],Donoh 则提出了用 21

地图投影的基本问题

3.地图投影的基本问题 3.1地图投影的概念 在数学中,投影(Project)的含义是指建立两个点集间一一对应的映射关系。同样,在地图学中,地图投影就是指建立地球表面上的点与投影平面上点之间的一一对应关系。地图投影的基本问题就是利用一定的数学法则把地球表面上的经纬线网表示到平面上。凡是地理信息系统就必然要考虑到地图投影,地图投影的使用保证了空间信息在地域上的联系和完整性,在各类地理信息系统的建立过程中,选择适当的地图投影系统是首先要考虑的问题。由于地球椭球体表面是曲面,而地图通常是要绘制在平面图纸上,因此制图时首先要把曲面展为平面,然而球面是个不可展的曲面,即把它直接展为平面时,不可能不发生破裂或褶皱。若用这种具有破裂或褶皱的平面绘制地图,显然是不实际的,所以必须采用特殊的方法将曲面展开,使其成为没有破裂或褶皱的平面。 3.2地图投影的变形 3.2.1变形的种类 地图投影的方法很多,用不同的投影方法得到的经纬线网形式不同。用地图投影的方法将球面展为平面,虽然可以保持图形的完整和连续,但它们与球面上的经纬线网形状并不完全相似。这表明投影之后,地图上的经纬线网发生了变形,因而根据地理坐标展绘在地图上的各种地面事物,也必然随之发生变形。这种变形使地面事物的几何特性(长度、方向、面积)受到破坏。把地图上的经纬线网与地球仪上的经纬线网进行比较,可以发现变形表现在长度、面积和角度三个方面,分别用长度比、面积比的变化显示投影中长度变形和面积变形。如果长度变形或面积变形为零,则没有长度变形或没有面积变形。角度变形即某一角度投影后角值与它在地球表面上固有角值之差。 1)长度变形 即地图上的经纬线长度与地球仪上的经纬线长度特点并不完全相同,地图上的经纬线长度并非都是按照同一比例缩小的,这表明地图上具有长度变形。 在地球仪上经纬线的长度具有下列特点:第一,纬线长度不等,其中赤道最长,纬度越高,纬线越短,极地的纬线长度为零;第二,在同一条纬线上,经差相同的纬线弧长相等;第三,所有的经线长度都相等。长度变形的情况因投影而异。在同一投影上,长度变形不仅随地点而改变,在同一点上还因方向不同而不同。 2)面积变形 即由于地图上经纬线网格面积与地球仪经纬线网格面积的特点不同,在地图上经纬线网格面积不是按照同一比例缩小的,这表明地图上具有面积变形。 在地球仪上经纬线网格的面积具有下列特点:第一,在同一纬度带内,经差相同的网络面积相等。第二,在同一经度带内,纬线越高,网络面积越小。然而地图上却并非完全如此。如在图4-9-a上,同一纬度带内,纬差相等的网格面积相等,这些面积不是按照同一比例缩

几种常用地图投影

一:等角正切方位投影(球面极地投影) 概念:以极为投影中心,纬线为同心圆,经线为辐射的 直线,纬距由中心向外扩大。 变形:投影中央部分的长度和面积变形小,向外变形逐渐增 大。 用途:主要用于编绘两极地区,国际1∶100万地形图。 二:等距正割圆锥投影 概念:圆锥体面割于球面两条纬线。 变形:纬线呈同心圆弧,经线呈辐射的直线束。 各经线和两标纬无长度变形,即其它纬线均有 长度变形,在两标纬间角度、长度和面积变形 为负,在两标纬外侧变形为正。离开标纬愈远, 变形的绝对值则愈大。 用途:用于编绘东西方向长,南北方向稍宽地区 的地图,如前苏联全图等。 三:等积正割圆锥投影 概念:满足mn=1条件,即在两标纬间经线长度放 大,纬线等倍缩小,两标纬外情况相反。 变形:在标纬上无变形,两标纬间经线长度变形为正, 纬线长度变形为负;在两标纬外侧情况相反。角度 变形在标纬附近很小,离标纬愈远,变形则愈大。 用途:编绘东西南北近乎等大的地区,以及要求面积 正确的各种自然和社会经济地图。

四:等角正割圆锥投影 概念:满足m=n条件,两标纬间经线长度与纬线长度 同程度的缩小,两标纬外同程度的放大。 变形:在标纬上无变形,两标纬间变形为负,标纬外变 形为正,离标纬愈远,变形绝对值则愈大。 用途:用于要求方向正确的自然地图、风向图、洋流图、 航空图,以及要求形状相似的区域地图;并广泛用于制 作各种比例尺的地形图的数学基础。 如我国在1949年前测制的1∶5万地形图,法国、比利 时、西班牙等国家亦曾用它作地形图数学基础,二次大 战后美国用它编制1∶100万航空图。 五:等角正切圆柱投影——墨卡托投影 概念:圆柱体面切于赤道,按等角条件,将经 纬线投影到圆柱体面上,沿某一母线将圆柱体 面剖开,展成平面而形成的投影。是由荷兰制 图学家墨卡托(生于今比利时)于1569年创拟 的,故又称(墨卡托投影)。 变形:经线为等间距的平行直线,纬线为非等 间距垂直于经线的平行直线。离赤道愈远,纬 线的间距愈大。纬度60°以上变形急剧增大, 极点处为无穷大,面积亦随之增大,且与纬线 长度增大倍数的平方成正比,致使原来只有南 美洲面积1/9的位于高纬度的格陵兰岛,在图 上比南美洲大。 用途:等角航线表现为直线,用于编制海图、印度尼西亚和赤道非洲等赤道附近国家和地区的地图、世界时区图和卫星轨迹图等。

投影寻踪模型

投影寻踪方法及应用 内容摘要:本文从投影寻踪的研究背景出发,给出了投影寻踪的定义和投影指标,在此基础上得出了投影寻踪聚类模型,随后简单介绍了遗传算法。最后结合上市公司的股价进行实证分析,并给出结论和建议。 关键词:投影寻踪投影寻踪聚类模型遗传算法 一、简介 (一)产生背景 随着科技的发展,高维数据的统计分析越来越普遍,也越来越重要。多元分析方法是解决高维数据这类问题的有力工具。但传统的多元分析方法是建立在总体服从正态分布这个假定基础之上的。不过实际问题中有许多数据不满足正态假定,需要用稳健的或非参数的方法来解决。但是,当数据的维数很高时,即使用后两种方法也面临以下困难:第一个困难是随着维数增加,计算量迅速增大。第二个困难是对于高维数据,即使样本量很大,仍会存在高维空间中分布稀疏的“维数祸根”。对于核估计,近邻估计之类的非参数法很难使用。第三个困难是对低维稳健性好的统计方法,用到高维时则稳健性变差。 另一方面,传统的数据分析方法的一个共同点是采用“对数据结构或分布特征作某种假定——按照一定准则寻找最优模拟——对建立的模型进行证实”这样一条证实性数据分析思维方法〔简称CDA法)。这种方法的一个弱点是当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,很难收到好的效果。其原因是证实性数据分析思维方法过于形式化、数学化,受束缚大。它难以适应千变万化的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。针对上述困难,近20年来,国际统计界提出采用“直接从审视数据出发—通过计算机分析模拟数据—设计软件程序检验”这样一条探索性数据分析新方法,而PP就是实现这种新思维的一种行之有效的方法。 (二)发展简史 PP最早由Kruskal于70年初建议和试验。他把高维数据投影到低维空间,通过数值计算得到最优投影,发现数据的聚类结构和解决化石分类问题。1974年Frledman和Tukey加以改正,提出了一种把整体上的散布程度和局部凝聚程度结合起来的新指标进行聚类分析,正式提出了PP概念,并于1976年编制了计算机图像系统PRIM——9。1979年后,Friedman 等人相继提出了PP回归、PP分类和PP密度估计。在这以后Huber等人积极探索了PP的理论。1981年Donoho提出了用Shannan嫡作投影指标比wiggins用标准化峰度更好的方法,接着他又利用PP的基本思想给出了多元位置和散布的一类仿射同变估计。Diaeonis、Friedman和Jones等还讨论了与PP有关的其他理论问题。上述工作和结果在1985年Huber 的综述论文中作了概括和总结。

地图投影

世界地图常用地图投影知识大全 在不同的场合和用途下使用不同的地图投影,地图投影方法及分类名目众多,象:墨卡托投影,空间斜轴墨卡托投影,桑逊投影,摩尔维特投影,古德投影,等差分纬线多圆锥投影,横轴等积方位投影,横轴等角方位投影,正轴等距方位投影,斜轴等积方位投影,正轴等角圆锥投影,彭纳投影,高斯-克吕格投影,等角圆锥投影等等。 一、世界地图常用投影 1、等差分纬线多圆锥投影(Polyconic Projection With Meridional Interval on Same Parallel Decrease Away From Central Meridian by Equal Difference) 普通多圆锥投影的经纬线网具有很强的球形感,但由于同一纬线上的经线间隔相等,在编制世界地图时,会导致图形边缘具有较大面积变形。1963年中国地图出版社在普通多圆锥投影的基础上,设计出了等差分纬线多圆锥投影。 等差分纬线多圆锥投影的赤道和中央经线是相互垂直的直线,中央经线长度比等于1;其它纬线为凸向对称于赤道的同轴圆弧,其圆心位于中央经线的延长线上,中央经线上的纬线间隔从赤道向高纬略有放大;其它经线为凹向对称于中央经线的曲线,其经线间隔随离中央经线距离的增加而按等差级数递减;极点投影成圆弧(一般被图廓截掉),其长度等于赤道的一半(图2-30)。 通过对大陆的合理配置,该投影能完整地表现太平洋及其沿岸国家,突出显示我国与邻近国家的水陆关系。从变形性质上看,等差分纬线多圆锥投影属于面积变形不大的任意投影。我国绝大部分地区的面积变形在10%以内。中央经线和±44o纬线的交点处没有角度变形,随远离该点变形愈大。全国大部分地区的最大角度变形在10o以内。等差分纬线多圆锥投影是我国编制各种世界政区图和其它类型世界地图的最主要的投影之一。

人教版地理高二选修7第二章第一节地图和地图投影A卷

人教版地理高二选修7第二章第一节地图和地图投影A卷 姓名:________ 班级:________ 成绩:________ 一、单选题 (共15题;共36分) 1. (2分) GIS中,不同类型的地理空间信息储存在不同的图层上。叠加不同的图层可以分析不同要素间的相互关系。 城市交通图层与城市人口分布图层的叠加,可以()。 A . 为商业网点选址 B . 分析建筑设计的合理性 C . 计算城市水域面积 D . 估算工农业生产总值 【考点】 2. (2分)湖水、长江水、黄河水三种含沙量水体反射光谱曲线图,关于图示信息的叙述,正确的是()。 A . 分析使用的地理信息技术是GIS B . ①②曲线对应的是湖水、黄河水 C . 0.7波长λ/μm的反射率区分度最大 D . 含沙量与反射率呈正相关 【考点】 3. (2分)两颗卫星同时运行,每隔九天可以覆盖地球一遍,说明遥感技术 A . 受地面限制条件少 B . 测量范围小、距离远 C . 手段多,获得信息量大 D . 获得资料速度快、周期短 【考点】 4. (2分)有关遥感技术的叙述,不正确的是()。

A . 遥感的关键装置是传感器 B . 遥感技术的主要环节是目标物→传感器→成果 C . 飞机遥感图像分辨率比卫星对地物的分辨率高 D . 遥感技术能在短时间内获得全面资料,以便及时安全安排防灾、救灾工作 【考点】 5. (2分)下列说法不正确的是否()。 A . GIS技术是地图的延伸 B . RS技术是地图的延伸 C . GPS技术可为用户提供精确的三维坐标 D . GIS技术可分析、处理GPS技术及GPS技术提供的图像和数据 【考点】 6. (2分) GIS是用于空间分析的计算机系统,某中学地理小组将它作于课题研究。据此回答: 华北平原地势平坦开阔,土壤深厚肥沃,夏季高温多雨,适宜冬小麦和玉米轮作。若该结论是通过GIS而得到的,那么这属于下列GIS能解决的哪一类问题() A . 趋势分析 B . 模式分析 C . 与分布、位置有关的基本问题 D . 模拟问题 【考点】 7. (2分)下列关于电子地图的说法,正确的是() A . 制作所有地图都需要电子地图作底图 B . 外出学习或旅行,可以先在电子地图上查找出行路线 C . 电子地图可以完全代替纸质地图 D . 电子地图就是分层设色地形图 【考点】 8. (4分)在遥感技术中,可以根据植物的反射波谱特征判断植物的生长状况。

地图投影的基本理论

第一节地图投影的概念与若干定义 一、地图投影的产生 我们了解地球上的各种信息并加以分析研究,最理想的方法是将庞大的地球缩小,制成地球仪,直接进行观察研究。这样,其上各点的几何关系——距离、方位、各种特性曲线以及面积等可以保持不变。 一个直径30厘米的地球仪,相当于地球的五千万分之一;即使直径1米的地球仪,也只有相当于地球的一千三百万分之一。在这一小的球面上是无法表示庞大地球上的复杂事物。并且,地球仪难于制作,成本高,也不便于量测使用和携带保管。 通过测量的方法获得地形图,这一过程,可以理解为将测图地区按一定比例缩小成一个地形模型,然后将其上的一些特征点(测量控制点、地形点、地物点)用垂直投影的方法投影到图纸(图4-1)。因为测量的可观测范围是个很小的区域,此范围内的地表面可视为平面,所以投影没有变形;但对于较大区域范围,甚至是半球、全球,这种投影就不适合了。 由于地球(或地球仪)面是不可展的曲面,而地图是连续的平面。因此,用地图表示地球的一部分或全部,这就产生了一种不可克服的矛盾——球面与平面的矛盾,如强行将地球表面展成平面,那就如同将桔子皮剥下铺成平面一样,不可避免地要产生不规则的裂口和褶皱,而且其分布又是毫无规律可循。为了解决将不可展球面上的图形变换到一个连续的地图平面上,就诞生了“地图投影”这一学科。 二、地图投影的定义 鉴于球面上任意一点的位置是用地理坐标()表示,而平面上点的位置是用直角坐标(X,Y)或极坐标()表示,因此要想将地球表面上的点转移到平面上去,则必须采用一定的数学方法来确定其地理坐标与平面直角坐标或极坐标之间的关系。这种在球面与平面之间建立点与点之间对应函数关系的数学方法,称为地图投影。 三、地图投影的实质 球面上任一点的位置均是由它的经纬度所确定的,因此实施投影时,是先将球面上一些经纬线的交点展绘在平面上,并将相同经度、纬度的点分别连成经线和纬线,构成经纬网;然后再将球面上的点,按其经纬度转绘在平面上相应位置处。由此可见,地图投影的实质就是将地球椭球体面上的经纬网按照一定的数学法则转移到平面上,建立球面上点()与平面上对应点之间的函数关系。 这是地图投影的一般方程式,当给定不同的具体条件时,就可得到不同种类的投影公式,依据各自公式将一系列的经纬线交点()计算成平面直角坐标系(X,Y),并展绘在平面上,连各点得经纬线得平面表象(图4-2)。经纬网是绘制地图的“基础”,是地图的主要数学要素。 四、地图投影的基本方法 (一)几何透视法 系利用透视关系,将地球表面上的点投影到投影面上的一种投影方法。例如,我们假设地球按比例缩小成一个透明的地球仪般球体,在其球心、球面或球外安置光源,将透明球体上的经纬线、地物和地貌投影到球外的一个平面上,所形成的图形,即为地图。 图4-3即是将地球体面分别投影在平面和圆柱体面上的透视投影示意图。几何透视法只能解决一些简单的变换问题,具有很大的局限性,例如,往往不能将全球投影下来。随着数学分析这一学科的出现,人们就普遍采用数学分析方法来解决地图投影问题了。(二)数学解析法 在球面与投影平面之间建立点与点的函数关系(数学投影公式),已知球面上点位的地理坐标,根据坐标转换公式确定在平面上的对应坐标的一种投影方法。

世界地图常用地图投影知识大全

世界地图常用地图投影知识大全 2009-09-30 13:20 在不同的场合和用途下使用不同的地图投影,地图投影方法及分类名目众多,象:墨卡托投影,空间斜轴墨卡托投影,桑逊投影,摩尔维特投影,古德投影,等差分纬线多圆锥投影,横轴等积方位投影,横轴等角方位投影,正轴等距方位投影,斜轴等积方位投影,正轴等 角圆锥投影,彭纳投影,高斯-克吕格投影,等角圆锥投影等等。 一、世界地图常用投影 1、等差分纬线多圆锥投影(Polyconic Projection With Meridional Interval o nSame Parallel Decrease AwayFrom Central Meridian by E qual Difference) 普通多圆锥投影的经纬线网具有很强的球形感,但由于同一纬线上的经线间隔相等,在编制世界地图时,会导致图形边缘具有较大面积变形。1963年中国地图出版社在普通多圆锥投影的基础上,设计出了等差分纬线多圆锥投影。 等差分纬线多圆锥投影的赤道和中央经线是相互垂直的直线,中央经线长度比等于1;其它纬线为凸向对称于赤道的同轴圆弧,其圆心位于中央经线的延长线上,中央经线上的纬线间隔从赤道向高纬略有放大;其它经线为凹向对称于中央经线的曲线,其经线间隔随离中央经线距离的增加而按等差级数递减;极点投影成圆弧(一般被图廓截掉),其长度等于赤道的一半(图2-30)。 通过对大陆的合理配置,该投影能完整地表现太平洋及其沿岸国家,突出显示我国与邻近国家的水陆关系。从变形性质上看,等差分纬线多圆锥投影属于面积变形不大的任意投影。我国绝大部分地区的面积变形在10%以内。中央经线和±44o纬线的交点处没有角度变形,随远离该点变形愈大。全国大部分地区的最大角度变形在10o以内。等差分纬线多圆锥投影是我国编制各种世界政区图和其它类型世界地图的最主要的投影之一。

几种地图投影的特点及分带方法

一、只谈比较常用的几种:“墨卡托投影”、“高斯-克吕格投影”、“UTM投影”、“兰勃特等角投影。 1.墨卡托(Mercator)投影 1.1 墨卡托投影简介 墨卡托(Mercator)投影,是一种"等角正切圆柱投影”,荷兰地图学家墨卡托(GerhardusMercator1512-1594)在1569年拟定,假设地球被围在一中空的圆柱里,其标准纬线与圆柱相切接触,然后再假想地球中心有一盏灯,把球面上的图形投影到圆柱体上,再把圆柱体展开,这就是一幅选定标准纬线上的“墨卡托投影”绘制出的地图。 墨卡托投影没有角度变形,由每一点向各方向的长度比相等,它的经纬线都是平行直线,且相交成直角,经线间隔相等,纬线间隔从标准纬线向两极逐渐增大。墨卡托投影的地图上长度和面积变形明显,但标准纬线无变形,从标准纬线向两极变形逐渐增大,但因为它具有各个方向均等扩大的特性,保持了方向和相互位置关系的正确。 在地图上保持方向和角度的正确是墨卡托投影的优点,墨卡托投影地图常用作航海图和航空图,如果循着墨卡托投影图上两点间的直线航行,方向不变可以一直到达目的地,因此它对船舰在航行中定位、确定航向都具有有利条件,给航海者带来很大方便。 “海底地形图编绘规范”(GB/T17834-1999,海军航保部起草)中规定1:25万及更小比例尺的海图采用墨卡托投影,其中基本比例尺海底地形图(1:5万,1:25万,1:100万)采用统一基准纬线30°,非基本比例尺图以制图区域中纬为基准纬线。基准纬线取至整度或整分。 1.2 墨卡托投影坐标系 取零子午线或自定义原点经线(L0)与赤道交点的投影为原点,零子午线或自定义原点经线的投影为纵坐标X轴,赤道的投影为横坐标Y轴,构成墨卡托平面直角坐标系。 2.高斯-克吕格(Gauss-Kruger)投影和UTM(UniversalTransverseMercator)投影 2.1 高斯-克吕格投影简介 高斯-克吕格(Gauss-Kruger)投影,是一种“等角横切圆柱投影”。德国数学家、物理学家、天文学家高斯(CarlFriedrichGauss,1777一1855)于十九世纪二十年代拟定,后经德国大地测量学家克吕格(JohannesKruger,1857~1928)于1912年对投影公式加以补充,故名。设想用一个圆柱横切于球面上投影带的中央经线,按照投影带中央经线投影为直线且长度不变和赤道投影为直线的条件,将中央经线两侧一定经差范围内的球面正形投影于圆柱面。然后将圆柱面沿过南北极的母线剪开展平,即获高斯一克吕格投影平面。 高斯一克吕格投影后,除中央经线和赤道为直线外,其他经线均为对称于中央经线的曲线。高斯-克吕格投影没有角度变形,在长度和面积上变形也很小,中央经线无变形,自中央经线向投影带边缘,变形逐渐增加,变形最大处在投影带内赤道的两端。由于其投影精度高,变形小,而且计算简便(各投影带坐标一致,只要算出一个带的数据,其他各带都能应用),因此在大比例尺地形图中应用,可以满足军事上各种需要,并能在图上进行精确的量测计算。 按一定经差将地球椭球面划分成若干投影带,这是高斯投影中限制长度变形的最有效方法。分带时既要控制长度变形使其不大于测图误差,又要使带数不致过多以减少换带计算工作,据此原则将地球椭球面沿子午线划分成经差相等的瓜瓣形地带,以便分带投影。通常按经差6度或3度分为六度带或三度带。六度带自0度子午线起每隔经差6度自西向东分带,带号依次编为第1、2…60带。三度带是在六度带的基础上分成的,它的中央子午线与六度带的中央子午线和分带子午线重合,即自1.5度子午线起每隔经差3度自西向东分带,带号

投影寻踪 遗传算法MATLAB程序

clear close all Alpha=0.1; X=load('d:\data.txt'); for k=1:21 eval(sprintf('syms a%d',k)); end a=[a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12,a13,a14,a15,a16,a17,a18,a19,a 20,a21]; [n,p]=size(X); x=zeros(n,p); Xjmax=max(X); Xjmin=min(X); for i=1:n x(i,:)=(X(i,:)-Xjmin)./(Xjmax-Xjmin); end %构造投影指标 for i=1:n Z(i)=sum(a.*x(i,:)); end %计算投影指标函数 meanZ=mean(Z); Sa=0; for k=1:n sa=(Z(i)-meanZ).^2; Sa=Sa+sa; Sa=sqrt(Sa/n); end R=Alpha*Sa; Da=0; for k=1:n rik=abs(Z(i)-Z(k)); %if R>rik Da=Da+rik; %end end Qa=Sa*Da;

%选择操作 function ret =select(individuals,sizepop) individuals.fitness=1./(individuals.fitness); sumfitness=sum(individuals.fitness); sumf=individuals./fitness; index=[]; for i =1:sizepop pick=rand; while pick==0 pick=rand; end for j =1:sizepop pick =pick-sumf(j); if pick<0 index=[index j]; break; end end end indivlduals.chrom=indivuduals.chrom(index,:); individuals.fitness=individuals.fitness(index); ret=individuals; %交叉操作 function ret=Cross(pcross,lenchrom,chrom,sizepop,bound) for i=1:sizepop pick = rand(1,2); while prod(pick)==0 pick=rand(1,2); end index=ceil(pick.*sizepop); pick=rand; while pick==0 pick=rand; end if pick>pcross continue; end flag=0;

各种地图投影全解析

地图投影全解析 科技名词定义 中文名称:地图投影 英文名称:map projection 定义1:按照一定的数学法则,把参考椭球面上的点、线投影到可展面上的方法。 所属学科:测绘学(一级学科);测绘学总类(二级学科) 定义2:根据一定的数学法则,将地球表面上的经纬线网相应地转绘成平面上经纬线网的方法。 所属学科:大气科学(一级学科);动力气象学(二级学科) 定义3:运用一定的数学法则,将地球椭球面的经纬线网相应地投影到平面上的方法。即将椭球面上各点的地球坐标变换为平面相应点的直角坐标的方法。 所属学科:地理学(一级学科);地图学(二级学科) 本内容由全国科学技术名词审定委员会审定公布 地图投影是利用一定数学方法则把地球表面的经、纬线转换到平面上的理论和方法。由于地球是一个赤道略宽两极略扁的不规则的梨形球体,故其表面是一个不可展平的曲面,所以运用任何数学方法进行这种转换都会产生误差和变形,为按照不同的需求缩小误差,就产生了各种投影方法。 目录

展开 定义 地图投影,Map Projection.把地球表面的任意点,利用一定数学法则,转换到地图平面上的理论和方法。 地图投影 书面概念化定义:地图投影就是指建立地球表面(或其他星球表面或天球面)上的点与投影平面(即地图平面)上点之间的一一对应关系的方法。即建立之间的数学转换公式。它将作为一个不可展平的曲面即地球表面投影到一个平面的基本方法,保证了空间信息在区域上的联系与完整。这个投影过程将产生投影变形,而且不同的投影方法具有不同性质和大小的投影变形。 由于球面上任何一点的位置是用地理坐标(λ,φ)表示的,而平面上的点的位置是用直角坐标(χ,у)或极坐标(r,)表示的,所以要想将地球表面上的点转移到平面上,必须采用一定的方法来确定地理坐标与平面

投影寻踪方法在边坡稳定性评价中的应用

投影寻踪方法在边坡稳定性评价中的应用Application of projection pu rsu it method to assessment of slope stability 汪明武,金菊良 (合肥工业大学土木建筑工程学院,安徽合肥230009) 摘要:探讨了基于实码加速遗传算法的边坡稳定性投影寻踪评价模型,并给出了相应算法和流程,实例表明应用投影寻踪方法来评价边坡稳定性是有效可行的,且取得了理想的结果。 关键词:投影寻踪;遗传算法;边坡稳定性;神经网络;综合评价 中图分类号:TU457文献标识码:A文章编号:1000-4548(2002)05-0619-03 作者简介:汪明武(1972-),男,安徽歙县人。2000年于南京大学获博士学位,副教授,现主要从事城市环境岩土工程、工程物探和计算机应用的教学和科研工作。 W ANG Ming-wu,JIN Ju-liang (School of Civil Engineeri ng,Hefei Univers ity of Technology,Hefei230009,China) Abstract:The model of assessment of slope s tability using projection pursuit(PP)method founded on real coding based accelerating genetic algo-rithm(RAGA)is investigated in this paper.The algorithm and the flowchart are also propo sed.T he practical example has s hown that the PP method is feasible and effective to assess the slope s tability. Key words:projection pursuit;genetic algorithm;slope stability;neu ral network;comprehensive evaluation 1引言X 人类活动对地质环境的影响,常诱发各种地质灾害,其中边坡失稳是最主要的一种灾害类型,边坡问题已成为全球性三大地质灾害源(边坡、地震和火山)之一。边坡失稳不仅产生重大经济损失,且多涉及生命财产,故边坡稳定性评价是边坡工程的重要核心内容之一,具有重要的社会和经济意义。 边坡是由漫长的地质作用造成的,地质环境的复杂性和影响边坡稳定性因素(如斜坡的外形、岩性、构造、水、地震和人为因素等)的不确定性,使边坡稳定性问题表现为多因素、多层次和多阶段的复杂动态非线性系统,故边坡稳定性评价是一项复杂的综合评价过程。人们尝试应用模糊综合评价、灰色聚类分析等数学方法进行综合评价,但是这些方法都忽略了评价指标的作用有些是相互依赖或相互关联的。用传统的统计学方法、力学计算法、可靠性分析方法等不能深刻揭示边坡灾害演化的非线性行为,因此传统力学计算方法难以精确解决问题。基于概率理论的可靠性分析方法的实质仍是用泰勒级数展开并忽略高阶项,以得到简单的解析关系[1~4]。基于人工神经网络的评价方法则受知识获取/瓶颈0问题限制,对于边坡工程这样复杂的巨系统,其知识获取将更是一件不容易的事,所以应用神经网络评价边坡稳定性有一定的适用范围和局限性[5,6]。传统的多元分析方法是建立在总体服从某种分布(如正态分布)假定基础上,是采用/假定)模拟)检验0的证实性数据分析法(confirmatory da ta analysis,简称CDA),但实际边坡问题中有许多数据并不满足正态分布,需要用稳健的或非参数的方法去解决。传统的CD A 方法对于高维非正态、非线性数据分析很难收到好的效果。20世纪70年代后期,国际统计界发展了一类处理和分析高维数据的新兴统计方法)))投影寻踪(projec-tion pursuit,简称PP)方法,它采用/审视数据)模拟)预测0探索性数据分析(exploratory data analysis,简称EDA)的新途径,适宜于非线性、非正态分布数据的处理,并能避免/维数祸根0,在许多领域获得了应用[7~12]。 影响与控制边坡稳定因素的数据大多具有高维和非线性特征,基于EDA的PP技术适宜分析和处理这类问题。本文将基于遗传算法的PP方法应用于边坡稳定性的评价预测,并将预测结果与神经网络方法预测结果相比较。 2投影寻踪基本原理 投影寻踪的基本思想是利用计算机技术,把高维数据通过某种组合,投影到低维(1~3维)子空间上,并通过极小化某个投影指标,寻找出能反映原高维数据结构或特征的投影,在低维空间上对数据结构进行分析,以达到研究和分析高维数据的目的[7~12]。 X基金项目:安徽省自然科学基金资助项目(01045409;01045102); 安徽省优秀青年科技基金资助项目;合肥工业大学博士专项基 金资助项目 收稿日期:2002-01-07 第24卷第5期岩土工程学报Vol.24No.5 2002年9月Chinese Journal of Geotechnical Engineering Sept.,2002

坐标系统与地图投影--基础知识

空间参照系统和地图投影 导读:正如上一章所描述的,一个要素要进行定位,必须嵌入到一个空间参照系中,因为GIS所描述是位于地球表面的信息,所以根据地球椭球体建立的地理坐标(经 纬网)可以作为所有要素的参照系统。因为地球是一个不规则的球体,为了能够将 其表面的内容显示在平面的显示器或纸面上,必须进行坐标变换。 本章讲述了地球椭球体参数、常见的投影类型。考虑到目前使用的1:100万以上地 形图都是采用高斯——克吕格投影,本章最后又对该种投影类型和相关的地形图分 幅标准做了简单介绍。 1.地球椭球体基本要素 1.1地球椭球体 1.1.1地球的形状 为了从数学上定义地球,必须建立一个地球表面的几何模型。这个模型由地球的形状决定的。它是一个较为接近地球形状的几何模型,即椭球体,是由一个椭圆绕着其短轴旋转而成。 地球自然表面是一个起伏不平、十分不规则的表面,有高山、丘陵和平原,又有江河湖海。地球表面约有71%的面积为海洋所占用,29%的面积是大陆与岛屿。陆地上最高点与海洋中最深处相差近20公里。这个高低不平的表面无法用数学公式表达,也无法进行运算。所以在量测与制图时,必须找一个规则的曲面来代替地球的自然表面。当海洋静止时,它的自由水面必定与该面上各点的重力方向(铅垂线方向)成正交,我们把这个面叫做水准面。但水准面有无数多个,其中有一个与静止的平均海水面相重合。可以设想这个静止的平均海水面穿过大陆和岛屿形成一个闭合的曲面,这就是大地水准面(图4-1)。 图4-1:大地水准面 大地水准面所包围的形体,叫大地球体。由于地球体内部质量分布的不均匀,引起重力方向的变化,导致处处和重力方向成正交的大地水准面成为一个不规则的,仍然是不能用数学表达的曲面。大地水准面形状虽然十分复杂,但从整体来看,起伏是微小的。它是一个很接近于绕自转轴(短轴)旋转的椭球体。所以在测量和制图中就用旋转椭球来代替大地球体,这个旋转球体通常称地球椭球体,简称椭球体。

再生核

再生核 定义:H是一个定义在一抽象集合B的实值或复值的Hilbert函数空间,对任意f(x)属于H,x属于B,若存在二元函数K(x,y),满足: (1)对任意固定y属于B,K(x,y)作为x的函数属于H; (2)对任意f(x)属于H,有f(y)=(f(x),K(x,y))H(H为下标)。 则称K(x,y)为H的再生核,H是以K(x,y)为再生核的Hilbert空间,简称再生核Hilbert空间,简记为RKHS(Reproducing Kernel Hilbert Space)。 通常称(2)为再生性质。 性质: (1)唯一性:如果Hilbert空间有再生核K(x,y),则再生核唯一(如果内积不同,也可能有不同的再生核); (2)存在性:Hilbert空间H有再生核=所有的泛函et(t为下标),t∈E在H上连续; (3)全空间与子空间核的关系;参考《以{EI}I^N=1为正交基的再生核HILBERT空间》--李莎莎,郭锐 (4)正定性:任何一个再生核都是正定矩阵(对应的二次型)。 数学解释 定义: H是一个定义在一抽象集合B的实值或复值的Hilbert函数空间,对任意f(x)属于H,x属于B,若存在二元函数K(x,y),满足:(1)对任意固定y属于B,K(x,y)作为x的函数属于H;(2)对任意f(x)属于H,有 f(y)=(f(x),K(x,y))H(H为下标)。则称K(x,y)为H的再生核,H是以K(x,y)为

再生核的Hilbert空间,简称再生核Hilbert空间,简记为RKHS(Reproducing Kernel Hilbert Space)。通常称(2)为再生性质。 性质: (1)唯一性:如果Hilbert空间有再生核K(x,y),则再生核唯一(如果内积不同,也可能有不同的再生核);(2)存在性:Hilbert空间H有再生核=所有的泛函et(t为下标),t∈E在H上连续;(3)全空间与子空间核的关系;参考《以{EI}I^N=1为正交基的再生核HILBERT空间》--李莎莎,郭锐(4)正定性:任何一个再生核都是正定矩阵(对应的二次型)。 我们知道对于一个连续函数,用紧支撑的频率范围在[-oimga,omiga]内,也就是带限的傅立叶表示,这样的要完全重构的函数系数,即傅立叶变换系数是有界的就可以得出函数本身可以表示成函数的抽样值得叠加。就是 f(x)=sum(f(n*pi/omiga)*sin(omiga*x-n*pi))/(omiga*x-n*pi)).只要采样速率取到omiga/pi这个那奎斯特速率上就可以,但是为了使sinc衰减更快些,可使用大于1倍的那奎斯特速率去采样。当然,如果小于1的话,肯定会产生频谱混叠了。这样函数就可以由其抽样f(n.)和sinc函数的线性组合来表示,这是在指时域的表示。这里sinc就相当于一个再生核函数,说明白些,这其实就相当于希尔伯特空间基的概念。只是这其中的理论很复杂,小波在希尔伯特空间中相当于再生核,所有的函数都是投影在小波上的。虽然小波系数积分为零,而函数的积分不为零。 统计学习理论的本质正在读(2人),已读过(6人)放入书架分享到:开心网|人人网 当当价:¥25.90 定价:¥32.00折扣:81折 顾客评分:已有6人评论 作者:(美)瓦普尼克著,张学工译 出版社:清华大学出版社

相关文档
最新文档