数量生态学(第二版)第2章 数据处理
实验设计与数据处理(第二版部分答案)教学内容

实验设计与数据处理(第二版部分答案)试验设计与数据处理学院班级学号学生姓名指导老师第一章4、相对误差18.20.1%0.0182x mg mg ∆=⨯=故100g 中维生素C 的质量范围为:18.2±0.0182mg 。
5、1)、压力表的精度为1.5级,量程为0.2MPa ,则 max 0.2 1.5%0.003330.3758R x MPa KPax E x ∆=⨯==∆=== 2)、1mm 的汞柱代表的大气压为0.133KPa , 所以max 20.1330.1331.6625108R x KPax E x -∆=∆===⨯ 3)、1mm 水柱代表的大气压为gh ρ,其中29.8/g m s = 则:3max 339.8109.810 1.225108R x KPax E x ---∆=⨯∆⨯===⨯ 6.样本测定值3.48 算数平均值 3.421666667 3.37 几何平均值 3.421406894 3.47 调和平均值 3.421147559 3.38 标准差s 0.046224092 3.4 标准差σ 0.04219663 3.43 样本方差S 2 0.002136667总体方差σ20.001780556算术平均误差△ 0.038333333 极差R 0.117、S ₁²=3.733,S ₂²=2.303F =S ₁²/ S ₂²=3.733/2.303=1.62123而F 0.975 (9.9)=0.248386,F 0.025(9.9)=4.025994 所以F 0.975 (9.9)< F <F 0.025(9.9)两个人测量值没有显著性差异,即两个人的测量方法的精密度没有显著性差异。
分析人员A分析人员B8 7.5 样本方差1 3.733333 8 7.5 样本方差2 2.302778 10 4.5 Fa 值 0.248386 4.025994104F 值1.62123|||69.947|7.747 6.06p pd x =-=>6 5.56 84 7056 7.56 5.58 88.旧工艺新工艺2.69% 2.62%2.28% 2.25%2.57% 2.06%2.30% 2.35%2.23% 2.43%2.42% 2.19%2.61% 2.06%2.64% 2.32%2.72% 2.34%3.02%2.45%2.95%2.51%t-检验: 双样本异方差假设变量 1 变量 2平均0.025684615 2.291111111 方差0.000005861 0.031611111 观测值13 9 假设平均差0df 8t Stat -38.22288611P(T<=t) 单尾0t 单尾临界 1.859548033P(T<=t) 双尾0t 双尾临界 2.306004133F-检验双样本方差分析变量 1 变量 2平均0.025684615 2.291111111 方差0.000005861 0.031611111 观测值13 9 df 12 8 F 0.000185422P(F<=f) 单尾0F 单尾临界0.3510539349. 检验新方法是否可行,即检验新方法是否有系统误差,这里采用秩和检验。
刘超_简明应用统计学_第2版 第2章_描述数据:频数分布与图形表示

2.2 构造频数
2-5
简明应用统计学(第2版)
刘超,北京航空航天大学数学与系统科学学院
频数分布表 (frequency distribution table)
• 频数表(frequency table)或频数分布表 (frequency distribution table)可以帮助了解 变量取值的分布状况。 • 频数表是遵循既不重叠又不遗漏的原则,按 变量(数据特征)的取值归类分组,把总体 的所有单位按组归并排列,其各个组别所包 含的数据数目(频数)的汇总表格。简而言 之,频数表包括两个要素:总体按其标志所 分的组和各组所分布的单位数量。
简明应用统计学(第2版)
刘超,北京航空航天大学数学与系统科学学院
频数分布表
(例题分析)
• 第1步:确定组的个数。太多或太少的组都不能揭示数据集的基
本形态,例如,本例中若将数据集分为3组就不能使我们对数据的分 布形态有多少了解(见表2.2)。
表2.2 组数太少
月收入(元) 1200~2100 2100~3000 3000~3900 总计
1200~1499元 1500~1799元 1800~2099元 2100~2399元 2400~2699元 2700~2999元 3000~3299元
2 - 17
简明应用统计学(第2版)
刘超,北京航空航天大学数学与系统科学学院
频数分布表
(例题分析)
第4步:把月收入记入各组中。首先,表2.1中第1个月收入是2120元,它被 记入2100~2399元这一组。表2.1中第1列的第2个月收入是1659 元,它被记入1500~1799元这一组。其余的月收入以相同的方法 记入,见表2.3。 第5步:数出每组中的项目个数。在1200~1499元这一组中有8个观测值, 在1500~1799元这一组中有23个观测值。因此,第1组的频数是8, 第2组的频数是23。总的观测值个数或总的频数应该是80。
《数量生态学》课程教学大纲

《数量生态学》课程教学大纲课程名称:数量生态学课程类别:必修课适用专业:生态学考核方式:考试总学时、学分:32 学时 2 学分其中实验学时:0 学时一、课程教学目的数量生态学是用数学的方法研究植被、植物群落及植物种与环境之间生态关系的科学,是植物生态学和植被生态学的组成部分。
数量生态学就是借助数量分析方法从杂乱的数据中,经过多次运算,分析综合,找出植物种、植物群落和植被与环境之间的内在联系,以更准确的揭示生态规律。
本课程重点介绍数量生态学的基本概念和重要数量分析方法的计算过程,为学生提供良好的数量生态学方法。
二、课程教学要求本课程要求学生能够根据虚拟的简单数据来练习方法的基本计算过程,并掌握常用的分析软件进行数据处理和分析。
三、先修课程自然地理学、生态学基础、群落生态学等四、课程教学重、难点教学重点:群落的数量分类和排序教学难点:物种的多度分布格局五、课程教学方法与教学手段教学方法:讲授法、讨论法等。
教学手段:多媒体。
六、课程教学内容第一章绪论(2学时)1.教学内容(1) 数量生态学的概念(2) 数量生态学的研究内容(3) 数量生态学的发展2.重、难点提示(1) 数量生态学的研究内容第二章取样与统计特征描述(2学时)1.教学内容(1) 概念(2) 取样(3) 植物群落的数量特征(4) 植被的环境特征2.重、难点提示(1) 无样地取样。
(2) 植物群落的数量特征第三章数据的处理(2学时)1.教学内容(1) 数据的类型(2) 数据的处理2.重、难点提示(1) 不同类型数据间的转换(2) 数据标准化第四章基础分析方法(2学时)1.教学内容(1) 样品分析(2) 相关与回归分析(3) 标定2.重、难点提示(1) 生态回归分析第五章种-面积关系(2学时)1.教学内容(1) 种数-面积曲线(2) 群落最小面积(3) 种面积关系的模型2.重、难点提示(1) 群落最小面积(2) 种-面积关系模型模拟效果的检验第六章种的多度格局(2学时)1.教学内容(1) 生态位模型(2) 统计模型(3) 动态模型(4) 物种多度格局与物种多样性2.重、难点提示(1) 生态位模型和统计模型(2) 模型模拟效果的检验第七章物种多样性(2学时)1.教学内容(1) 物种多样性的定义(2) 物种多样性的变化机制(3) 种多样性的测定2.重、难点提示(1) 多样性变化的机制学说(2) 种多样性的测定第八章种间亲和性(2学时)1.教学内容(1) 种间关联(2) 种间相关(3) 群落关联和相关分析(4) 种间分离2.重、难点提示(1) 群落关联和相关分析(2) 种间分离第九章生态位(3学时)1.教学内容(1) 生态位的概念(2) 生态位的宽度(3) 生态位的重叠和竞争(4) 生态位的测度2.重、难点提示(1) 生态位的测度第十章排序(4学时)1.教学内容(1) 排序的目的和意义(2) 主分量分析及其衍生的方法(3) 对应分析及其衍生的方法(4) 其他排序方法(5) 排序方法的比较2.重、难点提示(1) RDA和CCA(2) 排序方法的比较第十一章数量分类(4学时)1.教学内容(1) 分类的目的和意义(2) 分类的基础(3) 分类方法(4) 分类方法的比较2.重、难点提示(1) TWINSPAN(2) 分类方法的比较第十二章空间格局分析(3学时)1.教学内容(1) 格局分析的目的和意义(2) 种群分布类型的判定(3) 格局分析方法2.重、难点提示点格局分析第十三章植物群落的演替(2学时)1.教学内容(1) 演替的理论和学说(2) 群落演替的模型(3) 群落演替的数量分析方法2.重、难点提示(1) 静态演替分析(2) 以种群动态为基础的分析方法七、学时分配八、课程考核方式1.考核方式:笔试,开卷2.成绩构成:总成绩=70%期末+30%平时九、选用教材和参考书目[1]《数量生态学》(第二版),张金屯编,科学出版社,2012年;[2]《数量生态学--R语言的应用》,赖江山译,科学出版社,2014年;[3]《植被生态学的数量分类方法》,阳含熙编,中国科学技术出版社,1981年;[4]《数量生态经济学》,(德)巴特姆斯编(齐建国等译),社会科学文献出版社,2010年;[5]《生态学》(第二版),付荣恕编,科学出版社出版,2017年。
生态学 第二版 (杨持 著) 高等教育出版社 课后答案

1、如何理解生物与地球环境的协同进化?生物依赖于环境,只有适应了环境生物才能生存并进化;同时,环境又靠生物来维持与调控;生物与环境是相互依存的。
2.试述生态学的定义、研究对象与范围。
生态学的定义:生态学是研究生物及环境间相互关系的科学。
研究对象与范围:从分子到生物圈都是生态学研究的对象。
3.现代生态学的民展趋势及特点是什么?研究对象的层次性更加明显,向宏观与微观两极发展;研究手段的更新;研究范围的扩展;国际性是其民展趋势。
4.简述经典生态学的几个学派及其特点法瑞学派:重视群落研究的方法,用特征种和区别种划分群落的类型,建立了严密的植被等级分类系统。
北欧学派:重视群落分析、森林群落与土壤pH 值关系。
英美学派:重视群落的动态,从植物群落演替观点提出演替系列、演替阶段群落分类方法,并提出了演替顶极的概念。
苏联学派:注重建群种与优势种,建立了一个植被等级分类系统,并重视植被生态、植被地理与植被制图工作。
5.简述生态因子的概念及生态因子作用的一般特征。
生态因子:指环境中对生物生长、发育、生殖、行为和分布有直接或间接影响的环境要素。
生态因子作用的一般特征:综合作用;直接和间接作用;主导因子作用(非等价性);不可替代作用和补偿作用;阶段性作用。
6.关于生态因子的限制性作用有哪些定律?限制因子:限制生物生存和繁殖的关键性因子就是限制因子。
主要有以下两个定律:A .Leibig 最小因子定律:生物的生长取决于处在最小量食物的量;不少学者对此作了两补充:这一定律只适用于稳定状态;要考虑各生态因子之间的相互作用。
B .Shelford 耐性定律:生物的生存与繁殖要依赖于某种综合环境因子的存在,只要其中一项因子的量(或质)不足或过多,超出了某种生物的耐性限度,则使该物种不能生存,甚至灭绝。
应作几点补充:生物能够对一个因子耐受范围很广,而对另一个因子耐受范围很窄;对所有因子耐受范围很宽的生物一般分布较广;在一个因子处于不适状态时,对另一个因子耐受性会受影响;生物不同生长阶段对生态因子的耐受范围不同,繁殖往往是敏感期;生物实际并不是在某一特定环境因子最适范围内生活,可能有其它更重要的因子在起作用。
《统计学》课后答案(第二版_贾俊平版)

第1章统计与统计数据一、学习指导统计学是处理和分析数据的方法和技术,它几乎被应用到所有的学科检验领域。
本章首先介绍统计学的含义和应用领域,然后介绍统计数据的类型及其来源,最后介绍统计中常用的一些基本概念。
本章各节的主要内容和学习要点如下表所示。
二、主要术语1. 统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。
2. 描述统计:研究数据收集、处理和描述的统计学分支。
3. 推断统计:研究如何利用样本数据来推断总体特征的统计学分支。
4. 分类数据:只能归于某一类别的非数字型数据。
5. 顺序数据:只能归于某一有序类别的非数字型数据。
6. 数值型数据:按数字尺度测量的观察值。
7. 观测数据:通过调查或观测而收集到的数据。
8. 实验数据:在实验中控制实验对象而收集到的数据。
9. 截面数据:在相同或近似相同的时间点上收集的数据。
10. 时间序列数据:在不同时间上收集到的数据。
11. 抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法。
12. 普查:为特定目的而专门组织的全面调查。
13. 总体:包含所研究的全部个体(数据)的集合。
14. 样本:从总体中抽取的一部分元素的集合。
15. 样本容量:也称样本量,是构成样本的元素数目。
16. 参数:用来描述总体特征的概括性数字度量。
17. 统计量:用来描述样本特征的概括性数字度量。
18. 变量:说明现象某种特征的概念。
19. 分类变量:说明事物类别的一个名称。
20. 顺序变量:说明事物有序类别的一个名称。
21. 数值型变量:说明事物数字特征的一个名称。
22. 离散型变量:只能取可数值的变量。
23. 连续型变量:可以在一个或多个区间中取任何值的变量。
第2章数据的图表展示一、学习指导数据的图表展示是应用统计的基本技能。
本章首先介绍数据的预处理方法,然后介绍不同类型数据的整理与图示方法,最后介绍图表的合理使用问题。
本章各节的主要内容和学习二、主要术语24. 频数:落在某一特定类别(或组)中的数据个数。
计量经济学 第二版 课后习题1-14章 中文版答案汇总

7.45≤β1≤20.35
即SmallClass对测试成绩效应99%的置信区间为[7.45,20.35]。
6.
(1)不一定。没有资料表明大班与小班的测试成绩变异是否相同。
(2)5.3式既适应于同方差,也适应于异方差,所以不会影响置信区间的准正确性。
(4)β0的99%置信区间为[ -2.58SE( ), +2.58SE( )]
=-520.4,SE( )=20.4
467.7≤β0≤573.0
2.
(1)性别差距估计值= =$2.12/h
(2)H0:性别差距=β1=0;H1:性别差距=β1≠0
t= = =5.89
p=2 (- )=2 (-5.89)=2×[1- (5.89)]<2×(1-0.9999)=0.0001
=49+0.24×120=77.8
=49+0.24×150=85
② =10ΔXi=10×0.24=2.4
第五章
习题
1.
(1)β1的95%置信区间为[ -1.96SE( ), +1.96SE( )]
=-5.82,SE( )=2.21
-10.152≤β1≤-1.4884
(2)t= = =-2.6335
p=2 (- )=2 (-2.6335)=2×[1- (2.6335)]≈2×(1-0.)=0.<0.01<0.05
(2)经济发展水平高的县,犯罪率会相对提高,同时也增大警察力量。但在遗漏经济发展水
平情况下,经济发展水平提高带来的犯罪率上升,会被归咎到警察力量上面来,所以高
统计学第二版课后答案

附录1:各章练习题答案第1章绪论(略)第2章统计数据的描述2.1 (1)属于顺序数据。
(2)频数分布表如下:服务质量等级评价的频数分布服务质量等级家庭数(频率)频率%A1414B2121C3232D1818E1515合计100100(3)条形图(略)2.2 (1)频数分布表如下:40个企业按产品销售收入分组表按销售收入分组(万元)企业数(个)频率(%)向上累积向下累积企业数频率企业数频率100以下100~110 110~120 120~130 130~140 140以上591274312.522.530.017.510.07.55142633374012.535.065.082.592.5100.04035261473100.087.565.035.017.57.5合计40 100.0 ————(2)某管理局下属40个企分组表按销售收入分组(万元)企业数(个)频率(%)先进企业良好企业一般企业落后企业11119927.527.522.522.5合计40 100.0 2.3 频数分布表如下:某百货公司日商品销售额分组表按销售额分组(万元)频数(天)频率(%)25~30 30~35 4610.015.035~40 40~45 45~50 159637.522.515.0合计40 100.0 直方图(略)。
2.4 (1)排序略。
(2)频数分布表如下:100只灯泡使用寿命非频数分布按使用寿命分组(小时)灯泡个数(只)频率(%)650~660 2 2660~670 5 5670~680 6 6680~690 14 14690~700 26 26700~710 18 18710~720 13 13720~730 10 10730~740 3 3740~750 3 3合计100 100 直方图(略)。
(3)茎叶图如下:65 1 866 1 4 5 6 867 1 3 4 6 7 968 1 1 2 3 3 3 4 5 5 5 8 8 9 969 0 0 1 1 1 1 2 2 2 3 3 4 4 5 5 6 6 6 7 7 8 8 8 8 9 970 0 0 1 1 2 2 3 4 5 6 6 6 7 7 8 8 8 971 0 0 2 2 3 3 5 6 7 7 8 8 972 0 1 2 2 5 6 7 8 9 973 3 5 674 1 4 72.5 (1)属于数值型数据。
生态学研究的方法与数据分析

生态学研究的方法与数据分析生态学是一个关注生命体系和环境互动的学科,旨在理解和解决生态问题。
生态研究方法和数据分析是生态学的重要组成部分,它们为生态学家提供了深入研究和理解生态系统的工具。
一、研究方法生态研究方法是用来收集和分析生态数据的步骤和流程。
生态学家通常使用不同的方法来收集生态数据,例如:野外观察、实验和建模。
其中,野外观察是生态学家最广泛使用的方法之一,其目的是通过观察野生动植物和生态系统来了解它们的生态学行为和互动。
实验是生态学家识别生态关系和系统中的特定过程的主要方法,生态学家在控制实验条件的同时,观察物种和环境如何相互作用。
已开发出许多实验室和田间试验方法,其中包括悬挂粘虫纸、捕获和观察蝴蝶、分析土壤样本等方法。
建模是将不同的生态数据组合起来以模拟寻求理解生态系统的方法。
例如,通过使用计算机程序,生态学家可以模拟随时间变化的种群大小或环境特征变化,进而确定生态系统中潜在的稳定性。
二、数据分析数据分析是生态学中对采集的数据进行计算、转换和解释的过程,用于揭示生态现象的规律。
数据分析可分为描述性、统计和模型分析三个部分。
描述性统计学分析包括对数据的详细描述,例如,用频数分布表和图表示数据。
例如,柱状图很容易将各种形式的生态数据集从最高值到最低值进行排序显示。
统计分析是指用数学和计算机技术来揭示生态现象的规律。
统计方法常常用于检验假设、评估方差并对实验结果进行解释。
例如,方差分析可用于比较不同分类变量(如地区、扰动模拟等)之间的平均值和方差。
模型分析主要是用于数学、计算机和其他模拟技术。
模型分析是根据生态学理论,建立计算机模拟模型来分析和预测生态系统的变化。
这些技术可应用于分析生态系统如何随时间变化,以及人类行为对生态系统的影响。
三、应用研究近年来,生态研究方法和数据分析逐渐应用于环境保护、生态修复和可持续发展方面。
在环境保护方面,生态学可以为各行业建立环境规划和监测方案提供方法和指导。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章数据的处理数据是数量生态学的基础,我们对数据的类型和特点应该有所了解。
在数量分析之前,根据需要对数据进行一些预处理,也是必要的。
本章将对数据的性质、特点、数据转化和标准化等做简要介绍。
第一节数据的类型根据不同的标准,数据可以分成不同的类型。
下面我们将介绍数据的基本类型,它是从数学的角度,根据数据的性质来划分的;然后叙述生态学数据,它是根据生态意义而定义的,不同的数据含有不同的生态信息。
一、数据的基本类型1、名称属性数据有的属性虽然也可以用数值表示,但是数值只代表属性的不同状态,并不代表其量值,这种数据称为名称属性数据,比如5个土壤类型可以用1、2、3、4、5表示。
这类数据在数量分析中各状态的地位是等同的,而且状态之间没有顺序性,根据状态的数目,名称属性数据可分成两类:二元数据和无序多状态数据。
(1)二元数据:是具有两个状态的名称属性数据。
如植物种在样方中存在与否,雌、雄同株的植物是雌还是雄,植物具刺与否等等,这种数据往往决定于某种性质的有无,因此也叫定性数据(qualitative data)。
对二元数据一般用1和0两个数码表示,1表示某性质的存在,而0表示不存在。
(2)无序多状态数据:是指含有两个以上状态的名称属性数据。
比如4个土壤母质的类型,它可以用数字表示为2、1、4、3,同时这种数据不能反映状态之间在量上的差异,只能表明状态不同,或者说类型不同。
比如不能说1与4之差在量上是1与2之差的3倍,这种数据在数量分析中用得很少,在分析结果表示上有时使用。
2.顺序性数据这类数据也是包含多个状态,不同的是各状态有大小顺序,也就是它一定程度上反映量的大小,比如将植物种覆盖度划为5级,1=0~20%,2=21%~40%,3=41%~60%,4=61%~80%,5=81%~100%。
这里1~5个状态有顺序性,而且表示盖度的大小关系。
比如5级的盖度就是明显大于1级的盖度,但是各级之间的差异又是不等的,比如盖度值分别为80%和81%的两个种,盖度仅差1%,但属于两个等级4和5;而另外两个盖度值分别为41%和60%,相差19%,但属于同一等级。
顺序性数据作为数量数据的简化结果在植被研究中有着较广泛的应用,但在数量分析中,这种数据所提供的信息显然不如数量数据。
因此,使用并不十分普遍。
3、数量属性数据数量属性数据简称为数量数据(quantitative data),它是实际测得的属性数值。
这些值可以是连续的数值,称为连续数据(continuous data),也可以是不连续的枚举数值,叫做离散数据(discrete data)。
前者可以是任何数值(包括小数部分),比如植物的高度,可能是5m,也可能是5.21m;而后者只包括0和正整数,比如植物个体的数目,可以是1、5或20等数目,但不能是5.2。
连续数据和离散数据一般在数量分析中等同对待,二者也很容易相互转化。
二、不同类型数据间的转化数据类型转化是指由一个数据类型按照某些规则转变成另一数据类型。
理论上讲,上面讲的各种数据类型之间都可以相互转化,但是,有的数据类型在转化成其它类型上有较大的困难,比如多状态数据转化成数量数据,在植被数量分析中一般很少涉及这样的转化。
对于数量数据的转化用得较多。
因为数量数据类型转化成二元数据,在某些分析中具有优越性,转化成多状态数据类型在某些分析结果的表示上具有重要意义。
比如要在排序图上表示植物的盖度变化趋势,一般用多状态数据较佳,而数量数据由于数字多,在图上表示较为困难,因此,我们简单介绍数量数据的转化。
数量数据转化成二元数据比较容易,一般选一阈值,大于或等于该阈值的值记为1,小于该阈值的值记为0,就变成了二元数据,这种转化显然损失不少信息,所以只有对一些特殊的只能使用二元数据而不能使用数量数据的分析方法才进行这样的转化。
数量数据转化为多状态数据一般要求在其取值范围内适当分成若干等级即可。
比如土壤PH测量值,我们规定1=3.5~4.5,2=4.6~5.5,3=5.6~6.5,4=6.6~7.5,然后将PH数量值换成相应的等级值1~4,就变成了有序多状态数据,至于两级之间的间距多大,应该分为多少等级诸类问题,应该从生态学的角度考虑,而不是数学问题。
三、生态数据生态数据(ecological data)以反映生态信息的属性为测量指标而测得的数据。
它有很多类型,这里仅考虑植物群落生态数据。
它是植被数量分析的基础。
群落生态数据有两大类型。
一类是反映群落组成、结构关系的植物区系组成数据;另一类是群落的环境组成数据,包括各种环境因子的测量指标。
区系组成数据是反映群落成员特征的一些定量和定性的属性数据,即数量数据和二元数据。
1、数量数据数量生态数据是以描述群落及其成员数量特征为指标而测得的数据,比如多度数据,盖度数据、频度数据、生物量数据等等,这些数据的含义和测定请参考群落数量特征一章。
2、二元数据一个种是否存在于一个样方中,存在记为1,不存在记为0,就构成了二元生态数据,这种二元数据有着重要的生态意义,因为种出现与否与环境密切相关。
种存在与否的二元数据在数量分析中用的也非常广泛,有些分析方法只适合分析二元数据,比如关联分析。
另外,一些研究表明,对某些数量方法,使用二元数据可以获得与数量数据一致的结果,这样二元数据就显示出了优越性。
因为,二元数据的获得要比数量数据容易得多(阳含熙等1985, 张金屯 1995)。
3、环境数据环境因子数据有的可以在野外直接测得,比如海拔高度、坡度、坡向、土壤PH 值等。
有的则要在实验室通过分析获得,比如土壤水分、土壤营养成分、有机质含量等,这些数据的测量和分析可以从有关的书中找到,这里不再讲述。
4、数据矩阵生态数据一般是在N 个样方中调查P 个属性的定量或定性指标,因此,可以用一个P ×N 维的矩阵表示,矩阵的列代表N 个样方(实体)行代表P 个种或环境因子(属性),这样的矩阵叫做原始数据矩阵,简称数据矩阵(data matrix )。
如果用X 表示数据矩阵,它可表示为:Nj P i x x x x x x x x x x x x x X PN p p p N N ij ,2,1;21}{32122322211131211==⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧==,,, (2.1)其中x ij 表示第i 个种或环境因子在第j 个样方中的观测值,它可以是上面介绍的任何一种生态数据,矩阵每一行称为一个行向量(row vector )或属性向量(attribute vector );一列叫做一个列向量(column vector )或实体向量(entity vector ),共有P 个行向量,N 个列向量,如果在N 个样方中仅记录一个种的数量值,则数据矩阵就是一个行向量,可以认为是矩阵的特殊形式。
第二节 数据的处理数据处理是指进行数量分析之前对原始数据先进行简缩、转化和标准化的过程。
这些处理过程一般是从生态学意义出发。
数据简缩(data reduction )是在不损失生态信息或损失非常少的前提下,去掉一些数据,以简化计算分析过程;数据转化(data transformation )是通过某一运算规则将原始数据转化为新的数据值的过程,而其新值的大小只与被转换的原始数据本身和运算规则有关,而与原始数据集合中的其它值无关;数据标准化(data standardization )也是通过某一运算将原始数据转化成新值。
但其新值的大小除依赖于原始数据自身外,也与原始数据集合中的其它值有关。
一、数据简缩数据简缩的过程要考虑研究的目的和使用的方法,在多元分析中一般是减少种类,即删除两个极端的种。
一是极端多的种,比如二元数据中,如果一个种存在于所有的样方中,那么它对分类和排序不提供有用的信息,应该删去。
二是极端少的种。
比如有些种仅出现在一个样方中,即所谓的“孤种”(singleton),它对群落关系提供的信息非常少,可以淘汰。
也可以用概率来确定极端多和极端少的种,比如出现在95%以上样方中的种可以认为是极端多的种,出现在5%以下的样方中的种可以认为是极端少的种。
对于样方一般简缩处理较少,如果简缩有两种可能,一是代表性较差的样方,可以删去,二是在系统取样时,有时会出现两个样方所记录的种类及其观测值完全等同,可以淘汰其中之一。
在数据不太多的情况下,第二种情况也可以保留,这样分类的结果二样方在一组内,排序的结果二样方重合。
在格局分析中,一般不进行数据简缩,因为连续样方不能去掉任何一个。
而种类是我们所感兴趣的,一般是事先选定的,多为群落优势种。
二、数据转换数据转换的目的一是为了改变数据的结构,使其能更好地反映生态关系,或者更好地适合某些特殊分析方法。
比如非线性关系的数据通过平方根转换可以变成线性结构,这样对线性方法比如PCA就更为合适。
二是为了缩小属性间的差异性,由于属性的量纲不同,往往不同属性间的数据差异很大,比如不同的环境因子测量值,对数转换可使得数据值趋向一致。
三是从统计学上考虑。
如果抽取的样品偏离正态分布太远,可以进行适当转换。
数据转化是通过某一运算规则实现的,依运算规则的不同,有如下类型:1、对数转换即取原始数据的对数值,可以是自然对数Ln X,也可以是以10为底的对数log X,在有0值的情况下,可以先将原始数据全部加上1,对结果影响不大,即ln(X+1)或log(X+1)。
对数据转换是最常用的方法,它可以使不同属性间的差异缩小,在实验群落学中,对数转化可以使得实验结果的趋势更加明显。
2、平方根转换它也是最常用的转换方法之一,是将原始数据开平方,即X,它可以使具有二次关系的数据结构趋向于线性化。
3、立方根转换是将原始数据开立方,即3X,它可以将原始数据之间的差值缩小,趋向一致。
4、倒数转换取原始数据之倒数,即1/X 。
倒数转换同样可以使属性间的差异缩小。
另外,还有不少其它转换方法,研究者可自行选择。
需要不需要转换,用什么转换方法较好,不能一概而论,它决定于所研究的数据类型和变化幅度。
现在国际通用软件一般都将转换方法编入程序,使用者可以选不同的方法,以比较它们的结果。
三、数据标准化数据标准化是统计学上常用的方法,是为了消除不同属性或样方间的不齐性,或者使得同一样方内的不同属性间或同一属性在不同样方内的方差减小;有时是为了限制数据的取值范围,比如[0,1]闭区间等。
有些数量分析方法要求特殊的标准化过程,并将标准化作为其分析方法的一部分,比如主分量分析(PCA )一般要求中心化,对应分析(CA )则要求对排序坐标进行标准化等。
这些方法在应用前不必考虑标准化。
现在说的标准化是指一般不特殊要求标准化的方法,即要不要进行标准化是由使用者自己决择。
这样的的标准化必须在数量分析前完成。