高维、相依和不完全数据的统计分析

合集下载

高维数据分析与处理的方法与应用

高维数据分析与处理的方法与应用

高维数据分析与处理的方法与应用随着科学技术的发展,许多领域中产生了越来越多的高维数据。

高维数据是指数据量大、特征维数多的数据,通过对这些数据进行分析和处理,可以得到很多有用的信息,如发现数据间的联系、提取重要的特征以及预测未来的趋势。

然而,高维数据的分析和处理也面临着许多挑战,如维数灾难、数据稀疏性、过拟合等问题。

本文将介绍一些高维数据分析和处理的方法和应用,帮助读者更好地理解和应用这些方法。

一、高维数据的表示和降维高维数据包含了大量的特征维度,这也就让数据的表示和可视化变得十分困难。

因此,高维数据的降维是解决这个问题的关键。

常用的降维方法有主成分分析(PCA)、线性判别分析(LDA)、局部线性嵌入(LLE)等。

其中,PCA是一种广泛应用的降维方法,它可以找到数据中的主要成分,并将数据映射到一个新的低维空间中。

LDA是一种有监督的降维方法,它可以将数据映射到一个新的低维空间,并尽量分开不同类别之间的距离。

LLE是一种非线性的降维方法,它通过保持数据之间的局部距离来将数据映射到一个新的低维空间中。

二、高维数据的聚类和分类高维数据的聚类和分类是数据挖掘和机器学习中的重要问题。

在高维空间中,数据点往往是稀疏的,这也就使得常用的聚类和分类方法不太适用。

常用的聚类算法有k-means、层次聚类等,而分类算法则有支持向量机(SVM)、朴素贝叶斯(NB)等。

这些算法通常基于计算数据间距离或相似度来进行聚类或分类。

然而,在高维空间中,距离计算很容易受到噪声和无关特征的影响,导致分类或聚类效果不佳。

因此,设计更有效的高维数据聚类和分类方法还是一个重要的研究方向。

三、高维数据的特征提取和选择在高维数据分析过程中,通常需要从大量的特征中提取出有用的信息。

常用的特征提取方法有主成分分析、奇异值分解、独立分量分析等。

这些方法通常可以有效地提取出数据中的主要特征,减少维数并降低噪声影响。

在特征选择方面,可以通过计算特征与目标变量之间的关系来衡量特征的重要性,从而选择出最相关的特征。

高维数据的分析与挖掘研究

高维数据的分析与挖掘研究

高维数据的分析与挖掘研究随着互联网技术的发展,数据量呈现爆炸式增长。

如何从这些数据中发现信息并从中获取价值成为一个热门话题。

这就需要高效和准确的处理方式,这也促进了高维数据的分析和挖掘的发展。

1. 高维数据的定义高维数据是指在多个属性或特征下的数据,可以是数值型数据,也可以是文本、图像、音频等各种形式的数据。

比如,一張图片就可以看成是高度、宽度和色彩三个属性组成,因而是一个三维数据。

2. 高维数据的研究意义高维数据在现代社会中的应用非常广泛。

比如,基因数据中的每个基因就可以看做一个属性,而人类拥有数以万计的基因,因而每个人的基因数据就构成了一个高维数据。

而在金融领域中也面临着高维数据分析的问题。

许多金融数据具有多个属性或维度,如市值、财务指标等,使用传统的分析方法可能无法对这些数据进行有效的分析和挖掘。

因此,高维数据的分析和挖掘的研究具有非常重要的实际意义。

3. 高维数据的技术挑战一般情况下,高维数据有成百上千,甚至上万个属性,比如人脸识别中的特征点,每个人都有数百个不同的特征点,因此数据维度非常高。

这也意味着,一旦进入高维空间,数据变得稀疏且难以直观的理解。

此外,高维数据还存在“维数灾难”的问题。

所谓“维数灾难”,是指随着数据的维度增加,需要的样本量也呈指数级增长。

当数据维度增加到一定程度时,已有的数据量可能不足以用于建模和分析,这将进一步增加数据处理的复杂度。

4. 高维数据的处理技术为了解决高维数据处理的问题,研究者们提出了一些针对高维数据的算法。

(1)主成分分析(Principal Component Analysis)主成分分析是一种常用的降维方法。

它通过将原始的高维数据映射到一个低维空间内,在保留数据信息的前提下将维数减少到较低的水平。

主成分分析可以对数据进行降噪处理、数据压缩和可视化等操作。

(2)聚类分析(Cluster Analysis)聚类分析是一种常用的无监督学习方法。

它通过将相似的数据点归为一类,进而实现高维数据的分类。

举例讨论大数据高维问题的统计分析方法

举例讨论大数据高维问题的统计分析方法

举例讨论大数据高维问题的统计分析方法随着科学技术的发展,人们在实际应用过程中经常会碰到各种类型的海量数据,如证券市场交易数据、多媒体图形图像视频数据、航天航空采集数据、生物特征数据等,这些数据在统计处理中通常称为高维数据。

在分析高维数据过程中碰到最大的问题就是维数的膨胀,也就是通常所说的“维数灾难”问题。

研究表明,当维数越来越多时,分析和处理多维数据的复杂度和成本成指数级增长。

在分析高维数据时,所需的空间样本数会随维数的增加而呈指数增长。

传统的多元统计分析方法在处理实际数据时会碰到数据不符合正态分布或对数据没有
多少先验信息的情况,所以,处理时只能用非参数的方法去解决。

处理这类问题的非参数方法主要依赖大样本理论,但高维数据在空间中通常是非常稀疏的,与空间的维数相比样本量总是显得非常少,因此,大样本理论处理高维数据不适用。

另外,许多经典的低维数据处理方法,如回归分析、主成分分析、聚类算法中的划分方法和层次方法等,在处理高维数据时存在着难以解决的困难,例如,维数的增加会导致数据的计算量迅速上升;高维导致空间的样本数变少,使得某些统计上的渐近性难以实现;传统的数据处理方法在处理高维数据时不能满足稳健性要求等。

上述问题给高维数据处理中的模式识别带来了极大的困难,同样,这种维数的膨胀,给数学和数据分析带来了重大的挑战。

高维数据分析方法及其应用

高维数据分析方法及其应用

高维数据分析方法及其应用随着科技和信息技术的不断发展,数据在我们日常生活和各个领域中的应用愈发广泛。

由于许多数据集包含许多变量,数据的维度呈现高维的趋势。

高维数据比低维数据更加复杂,因此需要更先进的技术来分析和探究。

高维数据分析是一种用于理解高维数据集的方法。

它主要通过统计学和数学方法来抽象和压缩数据,以便能够更好地解释和预测数据。

这种分析方法非常有用,因为它可以揭示数据中的隐含模式和规律,从而提高对数据的理解,进一步推动各个领域的发展。

高维数据的定义高维数据通常是指数据集中包含的变量数比样本点数多得多的数据。

在低维数据分析中,变量数通常低于样本数。

例如,在二维空间中,我们通常只有两个坐标轴,一个横向轴和一个纵向轴,我们可以通过坐标点来描述物体的位置。

而在高维数据集中,我们需要更多的坐标轴来描述同一个物体,这些坐标通常代表数据集中的不同特征。

例如,在三维空间中,我们有x轴,y轴和z轴,可以用三个数值来表示一个点的位置。

而在高维空间中,我们需要更多的坐标,例如在四维空间中,我们有x,y,z,t四个坐标轴。

高维数据的挑战高维数据分析的一个主要挑战是“维数噪声”,这意味着在高维空间中,大量的变量会使得很难找到有效的和重要的特征。

当维度增加时,数据点之间的距离也会增加。

数据点变得稀疏,导致数据的相关性变低,从而增加了分析和预测的困难性。

高维数据还面临着诸多数据存储和计算的问题。

高维数据集通常比低维数据集更大,更复杂,更难以处理。

这些数据缺乏明显的结构和属性,常常需要人工干预分析,导致分析耗时费力。

高维数据分析方法为了解决高维数据问题并提高大数据的分析效率,有许多新兴的高维数据分析方法出现。

这些方法包括统计学、概率论、机器学习以及人工智能等技术。

其中,以下几个方法在高维数据分析中受到广泛关注:1. 主成分分析(PCA)PCA是最常用的高维数据分析方法之一,它可以利用数据的线性组合来提取数据的主要特征。

它降低了数据的维度,并且保留了数据的主要特征。

写文章统计学方法描述-概述说明以及解释

写文章统计学方法描述-概述说明以及解释

写文章统计学方法描述-概述说明以及解释1.引言1.1 概述概述部分:统计学方法是一种应用于数据分析和推断的科学方法,它通过收集、整理、分析和解释数据来揭示事物的本质规律和现象。

统计学方法在各个学科领域都有广泛的应用,包括社会科学、自然科学、工程技术等。

本文旨在描述和讨论几种常用的统计学方法,并说明它们在实际应用中的优势和局限性。

通过系统介绍这些方法的原理、应用场景和实施步骤,希望读者能够全面理解统计学方法的工作原理和应用要点。

首先,我们将引言部分简要介绍统计学方法的重要性和意义,并概述本文的结构和内容。

其次,正文部分将详细介绍三种主要的统计学方法,即统计学方法1、统计学方法2和统计学方法3。

这些方法分别用于不同类型的数据分析和问题解决,具有各自独特的特点和适用范围。

在结论部分,我们将总结各种统计学方法的特点和应用价值,并归纳实际应用中常见的问题和挑战。

同时,我们也将展望未来统计学方法的发展方向和趋势,探讨可能的创新和改进。

通过本文的阅读,读者将能够了解不同统计学方法的基本原理和操作流程,以及如何根据具体问题选择合适的统计学方法进行数据分析和推断。

希望本文能够为读者提供实用的参考和指导,促进统计学方法在各个领域的应用与发展。

1.2文章结构文章结构指的是文章的组织框架和脉络。

在本文中,我们将按照以下结构展开讨论:引言、正文和结论。

引言部分将对本文的整体内容进行概述,说明统计学方法在文章中所起的作用以及本文的目的和意义。

接下来,我们将详细介绍文章的组织结构。

正文部分将依次介绍三种统计学方法。

首先,我们将介绍统计学方法1,包括该方法的定义、应用领域和基本原理等内容。

然后,我们将介绍统计学方法2,阐述其特点和使用场景。

最后,我们将介绍统计学方法3,探讨其在实际问题中的应用和效果。

结论部分将对全文进行总结。

我们将回顾并概括所介绍的统计学方法,并进一步归纳它们在实际应用中的价值和作用。

此外,我们还将展望统计学方法未来的发展方向,并探讨可能的研究和应用方向。

高维数据分析及优化策略

高维数据分析及优化策略

高维数据分析及优化策略现今社会,数据已成为企业决策的重要基础和竞争优势。

然而,传统的数据分析方法已经无法胜任大规模高维数据分析的任务。

高维数据分析及优化策略成为了企业获取洞察力和提高业务绩效的关键。

本文将探讨高维数据分析的挑战和优化策略。

高维数据分析的挑战主要体现在维度灾难和维度诅咒两个方面。

维度灾难指的是随着数据维度的增加,数据样本的稀疏性也会随之增加,数据之间的距离测度变得困难。

这使得采用传统的数据分析方法变得不可行,无法准确地刻画数据的特征。

维度诅咒是指随着维度的增加,数据之间的相关性下降,这导致了各种偏差和误差的产生,影响了数据分析的准确性和可靠性。

为了应对高维数据分析的挑战,我们需要采用一系列优化策略。

首先,特征选择是解决维度灾难和维度诅咒的关键步骤。

通过选择最具代表性和具有显著影响的特征,可以减少数据的维度,提高数据稀疏性和相关性。

常用的特征选择方法包括过滤法、包裹法和嵌入法,可以根据问题的特点选择合适的方法。

其次,降维是处理高维数据的重要手段。

降维可以通过线性和非线性的方式进行。

线性降维方法包括主成分分析(PCA)和线性判别分析(LDA),可以将高维数据映射到低维子空间中。

非线性降维方法比如等距映射(Isomap)和局部线性嵌入(LLE)可以更好地保留数据的局部结构,并减少信息丢失。

此外,模型选择也是高维数据分析的关键环节之一。

传统的数据模型可能在处理高维数据时表现不佳,因此需选择适合高维数据的模型。

常用的高维数据模型包括支持向量机(SVM)、稀疏表示模型(SRM)和随机森林(Random Forest)。

选择合适的模型有助于提高数据分析的准确性和稳定性。

另外,对于高维数据分析,数据可视化也发挥着重要的作用。

通过数据可视化,可以直观地展示数据的特征和分布情况,帮助分析人员快速理解数据。

常用的数据可视化方法包括散点图、热力图和雷达图。

数据可视化可以为高维数据的分析提供直观的指引,帮助分析人员发现数据中隐藏的模式和规律。

高维数据异构分布特征分析

高维数据异构分布特征分析

高维数据异构分布特征分析高维数据是指在多个维度下存在的数据,这种数据的特点是维度高且复杂,通常需要使用更多的算法来处理数据。

由于高维数据的分布往往呈现异构性,因此分析高维数据的异构分布特征是一项十分重要的工作。

一、高维数据的异构分布特征高维数据的异构分布特征能够体现在如下几个方面:1.维度不均匀高维数据的不同维度之间的取值范围和变化差异较大,因此存在维度不均匀的现象。

不同维度的数据分布不同,难以用同一种算法来处理和分析。

2.数据稀疏性对于高维数据而言,数据点很少,因此样本空间的维度高,导致数据稀疏性较高。

对于这种情况,应该考虑采用一些特殊的模型来进行数据预处理和建模。

3.数据分布的异构性同一数据集中的数据可能呈现出异构的数据分布,比如数据的分布形状不同、方差不同等。

这种异构性使得分析和预测变得更为困难。

二、分析高维数据的方法为了分析高维数据的异构分布特征,通常采用如下方法:1.数据可视化在分析高维数据的时候,数据可视化是一种非常有效的手段。

通过将数据可视化成不同形式的图表,可以使得数据变得更加直观和易于理解,从而更方便地分析和处理。

2.数据降维数据降维是为了减少数据维度,从而更方便地进行分析和处理。

常见的数据降维方法有主成分分析、独立成分分析、t-SNE 算法等。

3.聚类分析聚类分析是将数据点按照某种相似度分成不同簇的过程。

对于高维数据而言,聚类分析可以使得数据点按照不同的特征进行分组,从而更好地分析数据分布的异构性。

常见的聚类算法有 K-Means、DBSCAN 等。

4.分类分析分类分析是将数据点按照某种特征进行分类的过程。

对于高维数据而言,分类分析能够根据不同特征和属性,将数据点按照不同的类别进行划分。

常见的分类算法有朴素贝叶斯、支持向量机等。

5.回归分析回归分析是根据数据的历史数据和相关变量的信息,预测未来的数值以便采取相应的行动。

对于高维数据而言,回归分析可以根据不同属性之间的关系,预测未来变化的趋势。

多元统计分析方法的介绍与应用

多元统计分析方法的介绍与应用

多元统计分析方法的介绍与应用多元统计分析方法是指同时考虑多个变量之间关系的统计分析方法。

在现代科学和社会科学研究中,我们常常需要从多个角度对问题进行分析、探索变量之间的关系。

本文将介绍几种常见的多元统计分析方法以及它们在实际应用中的作用。

一、方差分析(Analysis of Variance, ANOVA)方差分析主要用于比较两个或更多个组别之间的差异。

它基于对观察数据的方差进行分解,通过计算组内方差和组间方差来判断不同组别之间的差异是否显著。

方差分析可用于多个组别的均值比较、因素对结果的影响分析等。

在实际应用中,方差分析广泛用于医学研究、教育研究、工程实验等领域。

例如,我们可以利用方差分析比较不同药物对疾病治疗效果的差异,或者比较不同教学方法对学生考试成绩的影响。

二、回归分析(Regression Analysis)回归分析是一种用于探索和建立变量之间关系的统计分析方法。

它通过建立一个数学模型来描述自变量对因变量的影响,并利用样本数据来估计模型中的参数。

回归分析可用于预测、因果推断和变量影响分析等。

在实际应用中,回归分析被广泛用于经济学、金融学、市场营销等领域。

例如,我们可以利用回归分析建立股票价格与影响因素(如股市指数、公司盈利等)之间的关系模型,以便进行股票价格的预测。

三、主成分分析(Principal Component Analysis, PCA)主成分分析是一种用于数据降维和特征提取的统计分析方法。

它通过将原始数据转换为一组主成分,使得主成分之间相关性较低,从而达到数据压缩和简化的目的。

主成分分析可用于数据可视化、数据预处理和特征选择等。

在实际应用中,主成分分析被广泛用于图像处理、模式识别和生物信息学等领域。

例如,在图像处理中,我们可以利用主成分分析将高维图像数据降低到低维空间,以便进行图像分类和识别。

四、聚类分析(Cluster Analysis)聚类分析是一种用于将对象或样本按照某些相似性准则进行分组的统计分析方法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

高维、相依和不完全数据的统计分析高维、相依和不完全数据的统计分析李国英中国科学院数学与系统科学研究院系统科学所现代科学技术和社会经济的许多领域都遇到高维、相依和不完全数据的统计分析问题,它是目前统计学应用和理论中面临困难最多、挑战最严峻,也是最有可能取得突破的研究领域之一。

本文试就笔者个人的认识,分三部分介绍、讨论与该领域有关的情况和问题。

首先简要讲述统计学的发展情况,然后介绍我国学者在相关领域中的研究成果,最后探讨该领域中一些值得注意的研究方向。

本文旨在抛砖引玉,以期得到国内同仁对统计学发展更多的关心和支持。

由于笔者水平和知识所限,定有疏漏和不妥之处,欢迎批评指正。

统计学(statistics,我国习惯上称为数理统计)研究有效地收集、分析和解释数据,以提取信息、建立模型,并进行推断、预测和决策的方法和理论。

人类在社会、生产和科学活动中常常通过实验、观测和调查获得数据(包括各种资料),再从数据中获得知识。

统计学正是在这样的过程中产生和发展起来的。

社会经济、科学技术和工农业生产的发展是它的源泉和动力,也是它的目的和归宿。

统计学的本质性特征决定了它有广泛的应用性和很强的交叉性。

大致从十七世纪开始,由于天文、物理、生物、遗传以及人口和社会调查等方面的需要而萌发了统计学。

例如,17世纪中期,J.Graunt在人口死亡等社会问题的研究中,发展了最早的描述统计;18世纪末19世纪初,A.M.Legendre和C.F.Gauss在研究测地学和天体物理的数据分析中,提出了最小二乘法和误差的正态分布理论;19世纪中期,F.Galton在研究生物遗传规律的过程中发明了相关分析和回归分析方法。

关于统计学的早期历史可参阅陈希孺的文章《数理统计学小史》(《数理统计与管理》,1998年第2期至1999年第6期)。

进入二十世纪以后,相继出现了几位伟大的数学家和统计学家K.Pearson、R.A.Fisher、A.N.Kolmogrov、N.Neyman、E.Pearson和A.Wald等,由于他们的奠基性工作,统计学方法和理论都有了很大发展,到四十年代中期成为一门成熟的学科。

近五十多年,突飞猛进的社会经济和科学技术不断提出各种各样的统计学问题,计算机的急速发展为收集和分析数据提供了方便。

这些都极大地推动了统计学的发展和应用。

统计学的内容更加丰富,理论更加深刻,统计方法也越来越广泛深入地渗透到社会经济、科学技术和工农业生产的各个领域,对人类社会的繁荣进步起到了积极的推动作用。

统计学也因此受到社会的承认和重视。

例如,1984年美国《科学》杂志把统计学列为1900年以来对人类生活影响最大的二十项科学成就的第十八项(第一项是塑料,第六项是电视,第十六项是计算机)。

美国和印度等国家曾聘用统计学家作为国家元首的科学顾问。

一些发达国家和地区的大部分大学设有统计系,许多大学还同时设有生物统计系或林业统计系等等;许多大企业聘用统计学家为其解决统计问题,例如美国的贝尔公司就拥有数十人的统计学家队伍,著名统计学家J.W.Tukey生前在该公司任职长达数十年。

现在,统计学已经成为许多学科领域必不可少的工具;它还与一些学科相结合形成了相应的专业统计,例如,生物统计、计量经济、地质统计、气象统计、农业统计、林业统计、心理统计和教育统计等。

在当今的信息和知识经济时代,人类研究的科学和社会问题更加高深、更加复杂、更加庞大,有效地收集和分析数据以提取信息和获得知识变得更加须臾不可离。

而且发达的信息技术和高性能的计算机使收集、储存、传输数据和进行科学计算更加便捷。

这就给统计学提出了许许多多更大、更难、更复杂的问题。

例如,复杂系统的统计建模,经济金融中的预测和决策,高维、定性和不完全数据的统计分析,数据库等巨型复杂数据的信息提取和知识发现,相依变量和动态系统的统计规律,小样本和相关信息的统计推断,信号和图象的统计处理等等。

因此,统计学正面临着前所未有的巨大挑战和机遇,其中高维、相依和不完全等复杂数据的统计分析是一个带有普遍性的突出难题。

例如,雷达网、信息网等接收和传输的信号数据,卫星遥感观测的图象数据,文字语言的记录数据,DNA和蛋白质结构的测试数据,全国乃至全球的气象和环境数据,人口、企业、教育、科技、医疗卫生等社会调查数据,以及股市、保险、信用卡、房地产等经济金融数据,都是维数很高(数十、数百乃至上千维)、结构十分复杂的数据,许多数据还是前后相依(不独立)的;在工业、国防、天文和医学等领域存在大量的不完全数据,即人们不能得到所关心的某些变量的数值,而只知道它们所在的区域,甚至完全不知道部分变量在部分场合的数值(即缺失数据)。

而且在实际问题中,往往同时遇到多种情况。

例如,来自复杂现象的数据一般是高维的,许多时候还是相依的、动态的,有时还含有不完全数据;图象和信号可以转化为高维数据处理,而信号一般是前后相依的动态数据;许多高维数据(例如DAN和基因数据),相对其维数而言,样本量相当小;许多小样本问题中经常含有不完全数据等等。

对于这些问题,统计学工作者和实际领域中的数据分析工作者都进行了许多研究,有些方面已经形成了一些比较有效的方法,但很多方面还处在探索阶段,缺乏系统有效的方法,更缺乏完整的统理论。

近些年,特别是在发达国家中,有许多统计学家深入到实际领域,或与实际领域的专家合作,探索解决这些挑战性问题的途径。

我们将在第三部分介绍一些有关的具体情况。

二我国的统计学起步较晚。

解放前只有以许宝禄先生为代表的少数几位统计学者,他们是四十年代从国外回来的。

解放后,特别是在1956年的国家科学发展规划的推动下,统计学有了较大的发展。

改革开放以来,统计学有了新的发展,从事统计学研究、应用和教学的队伍壮大了许多,先后成立了四个全国性学术团体,出版了几种专业刊物,北京大学等七所综合性或理工科大学成立了统计系(或概率统计系等),有近百所财经类高校设有统计系或统计专业;统计学的研究水平不断提高,应用范围不断扩大。

我国的统计工作者在理论和应用研究方面也取得了丰硕的成果,不少成果达到国际先进、甚至领先水平。

这里仅简要列举与该方向有关的成果。

由于时间所限,未能全面收集有关情况,定有疏漏和不当之处,敬请原谅。

经典统计学中与高维数据分析直接相关的是多元分析和线性模型的统计分析。

早在四、五十年代,这方面的理论研究还处在早期阶段,我国统计学家许宝禄先生获得了一系列开创性研究成果,是国际上公认的奠基人之一。

改革开放以来,我国有不少学者从事这方面的研究,成果也很多。

例如,中国科学院研究生院陈希孺和中国科学技术大学赵林城比较系统地研究了多元线性回归的LS、和M估计的相合性、渐近正态性和线性表示等大样本性质,在一些情况下得到了或几乎得到了充分必要条件,有的问题得到了精确的阶估计和理想的界限。

他们的成果在国际上有较大反响和许多引用,国际著名统计学家、美国科学院院士C.R.Rao等在专著中把他们的主要成果列为6条定理。

此外,中国科学院应用数学所方开泰和上海财经大学张尧庭等在椭球总体的多元分析方面,中国科学院系统科学所吴启光和北京理工大学徐兴忠等在多种线性模型估计的容许性和其他统计决策问题方面,北京工业大学王松桂在线性回归的估计方面,以及东北师范大学史宁中在有约束的线性模型方面也都有不少好成果。

比线性模型复杂的多元模型是非线性参数模型、半参数和非参数模型。

在这些模型的理论方面我国统计学者也有许多工作。

例如,中国科学院系统科学所成平等在研究半参数模型的渐近有效估计方面,陈希孺、赵林城和安徽大学陈桂景等在研究非参数回归、密度估计和非参数判别方面,东南大学韦博成等在用微分几何方法研究非线性(参数)回归方面,以及南京大学王金德在非线性回归估计的渐近性质方面均有一系列成果。

在非参数理论的成果中,陈希孺和赵林城彻底解决了关于U统计量分布的非一致收敛速度问题,有关结果被美国《统计科学百科全书》以及美国和前苏联等出版的多本专著引述。

自助法等重抽样方法也是一类非参数方法,主要是用来逼近那些无法从理论上给出的统计量分布及有关的量。

北京大学郑忠国及其合作者与美国D.B.Rubin独立提出了一种与自助法功能相似的随机加权法。

他们在多种模型下研究了统计量的随机加权逼近,结果表明该类方法无需重抽样也能达到用自助法的效果,在有些情况下还优于自助法。

有关多元统计模型的另一类重要问题是模型的统计诊断,目的是了解实际数据与选用的模型是否吻合。

韦博城、人民大学吴喜之以及云南大学王学仁和石磊等在模型和数据的统计诊断方面有许多好成果。

云南大学的学者还把他们的成果用于地质探矿的数据分析等实际问题取得成功。

解决数据与模型这一对矛盾的另一种途径是使用对模型不敏感的统计方法,即当模型与数据吻合或不太吻合时都能给出比较正确的结论,这就是稳健统计方法。

中国科学院系统科学所李国英和张健等在多元位置和散布阵的稳健估计及其性质,位置M估计的崩溃性质等方面也取得了一些好成果。

在多维试验设计方面,中国科学院数学所王元和应用数学所方开泰引进数论方法提出了均匀设计,能用于缺乏使用正交设计条件的情况。

该设计方法已在国内的多个实际部门应用,效果良好。

这一工作在国际上也受到重视。

南开大学张润楚等在研究计算机试验设计方面也有一些好成果。

七十年代中期出现的投影寻踪(projection pursuit,简称PP)技术是分析高维数据的较好方法,到八十年代初文献中还很少有理论研究。

中国科学院系统科学所成平和李国英领导的研究小组自八十年代中开始从事PP方法和理论的研究,构造了一些分析高维数据的新方法,研究了PP统计量的渐近性质和自助(Bootstrap)逼近,获得了一系列重要结果。

例如,成平、朱力行和张健研究了多种PP拟合优度统计量尾概率的估计,对有的统计量得到了精确的阶,否定了前人的猜测;李国英和施沛德等对两类应用普遍的PPU和PPL统计量作出了统一处理,研究了它们的渐近分布及其自助逼近;张健和成平给出了一个一般性结果,解决了大部分PP检验的功效问题;李国英和张健等分别用PP技巧构造了几种多元质量控制图,比原有的控制图提高了检测效果。

他们的工作曾多次在有关的国际学术会议上作邀请报告,受到国际同行的好评,在国内外文献中引用较多。

有些成果还在国内的水文、气象、医学等方面得到了应用,解决了用传统方法难以处理的问题。

与相依数据的统计分析关系密切的是时间序列分析。

在这方面我国学者也有很好的工作。

北京大学江泽培是这方面最资深的学术带头人。

改革开放以来,他和他的学生何书元等在多元平稳序列的谱估计方面取得了一系列重要成果。

有些成果还被北京大学谢衷洁、程乾生等应用到天文、地质和医学等实际数据的分析,获得了有价值的发现。

中国科学院应用数学所安鸿志在时间序列分析中的重对数律,自回归的选元方法及其相容性,以及非线性和条件异方差模型的性质等方面有不少重要成果,有些成果在国际上有较多引用,受到好评。

相关文档
最新文档