第4章数据组织与排序

合集下载

第4章习题与解答

第4章数据库和数据仓库4.1本章知识框架与学习要求数据库技术是数据管理的最新技术，是计算机科学的重要分支。

它已经成为先进信息技术的重要组成部分，是现代计算机信息系统和计算机应用系统的基础和核心。

数据库已经成为人们存储数据、管理信息、共享资源的最先进最常用的技术。

认识和掌握有关的数据库技术对学好本课程具有重要作用。

本章主要介绍了数据库技术的相关概念包括数据的组织层次、数据模型、信息模型、关系规范化等，以及数据库的设计方法，数据库仓库和数据挖掘的概念。

4.1.1 知识框架与学习要求一、数据的描述与组织（掌握）（一）三个世界1．现实世界2．信息世界3．计算机世界（二）数据组织的层次1．数据项（字段）2．记录３．数据文件４．数据库二、数据库管理技术（一）数据管理的发展（了解）1.简单应用阶段2.文件系统阶段3.数据库系统阶段（二）数据库管理系统（掌握）1．数据库系统（DBS）2．数据库管理系统（DBMS）（1）数据库的定义功能（2）数据库的操作功能（3）数据库的保护功能（4）数据库的维护功能（5）数据的存储管理三、数据模型（掌握）（一）信息模型（概念模型）1．信息模型的要素2．两个实体集之间联系的分类３．实体联系模型（E-R模型）（二）数据模型1．数据模型的三要素2．数据模型与信息模型的关系3.三种主要的数据模型（１）层次模型（Hierarchical Model）（２）网状模型（Network Model）（３）关系模型（Relational Model）（三）概念模型向关系模型的转换（四）关系的规范化1．第一范式（1NF）2．第二范式（2NF）3．第三范式（3NF）五、数据库设计（掌握）（一）数据库设计方法简述（二）数据库设计步骤六、数据仓库和数据挖掘（了解）（一）数据仓库1.数据仓库的概念2.数据仓库和数据库的区别3.数据仓库的特性4.数据仓库的基本结构5.数据仓库工具的组成（二）数据挖掘1.数据挖掘的概念2.数据仓库与数据挖掘的关系4.1.2 学习重点本章重点掌握以下几方面的内容：１．三个世界即现实世界、信息世界、计算机世界的特点及区别与联系；2.人工管理阶段、文件系统阶段及数据库系统阶段应用程序与数据关系的区别；3．数据库管理系统功能4．信息（概念）模型的要素、E-R模型的绘制方法；5．数据模型的三要素、数据模型与信息模型的关系、关系模型；6．概念模型向关系模型的转换；7．数据库设计方法和步骤4.2 教材习题与解答4.2.1 习题一、名词解释1.数据库2.记录3.DBMS4.DBS5.概念模式6.数据模型7.概念模型8.键或码9.数据操作10.1NF 11. 2NF 12.3NF 13.关系14.关系模式15.数据仓库16.数据挖掘二、简答题1. 数据库系统组织数据的特点是什么?2. 数据库系统与文件系统的区别是什么?3. 数据管理经历了哪几个阶段?各个阶段的特点是什么?4. 数据模型的三要素是什么？5. 数据库管理系统的主要功能是什么？6. 信息模型的要素有哪些？7. 试述概念模式在数据库中的重要地位。

第4章办公数据的处理

返回
3．自定义条件筛选
（1）在“工资表(筛选)”工作表中，选定数据区域A3:K18。（2）选择“数据”菜单中的“筛选”命令的“自动筛选”子命令，则每个字段名右侧出现一个下拉按钮。（3）单击“应发工资”字段的下拉按钮，在弹出的下拉菜单中选择“自定义”选项，打开“自定义自动筛选方式”对话框，并作如下图所示的设臵。
办公软件篇
第四章办公数据的处理主要内容
2.1 Excel数据库及其数据计算 2.2 Excel数据库的数据管理和分析
问题的产生和解决办法
在日常办公事务中，经常有大量的数据需要处理。例如，职工工资表中数据的计算、汇总和分析；又如分期付款方案中的数据计算和分析等。 Excel具有数据库管理、计算和分析功能。使用 Excel的数据库功能能够对数据清单进行查询、排序、筛选和分类汇总等操作，从而实现对Excel工作表中的数据进行高效加工和分析利用，并预测其发展趋势。
1．执行分类汇总
（1）选定数据清单的数据区域A3:K18 。（2）选择“数据”菜单中的“分类汇总”命令，打开“分类汇总”对话框。（3）设臵分类的关键字、汇总方式和设臵汇总字段，如右图所示。
返回
（4）单击“确定”按钮，Excel为每一个部门增加一行，以存放分类汇总的值，并注明分类汇总的名称。在工作表左侧插入分级显示控制栏，如图下所示。
返回
4.2
Excel数据库的数据管理和分析
提出任务
【实例 4－2】将“工资表(计算)”工作表中的数据清单复制到 “工资表(分类汇总)”工作表中，然后要求完成以下操作：在“工资表(分类汇总)”工作表中，对数据清单进行排序。要求以“部门”作为主要关键字，排序方式升序；以“籍贯” 为次要关键字，排序方式降序；以“应发工资”为第三关键字，排序方式升序；求各部门实发工资的平均值。制作各部门实发工资的平均值的三维簇状柱形图。

第4章排序、索引、查询、关联10用2

功能：对当前表中满足条件的记录，按<索引表达式>的值建立一个索引文件，并打开此索引文件，其缺省的文件扩展名为.IDX。 <索引关键表达式>: 用以指定记录重新排序的字段或表达式。注意：单索引只能按表达式的值升序排
使用条件子句限制()
Use e:\data\Zg Index to sy1 on 性别 FOR 基本工资>200
建立“唯一索引”
Use e:\data\zg
Index to sy2 on 性别 UNIQUE
brows
建立“多个索引”
Use e:\data\zg Index to sy3 on 性别 Index to sy4 on 部门 additive
Brows
注意：哪个索引文件是主控索引文件？？
建立复合索引文件命令格式
N—索引文件顺序号；n—索引顺序号
索引文件的关闭
• SET INDEX TO
• 功能：关闭当前工作区中所有打开的单索引文件和非结构符合索引文件，但不关闭结构复合索引文件
• CLOSE INDEXES • 功能：关闭当前工作区内所有打开的单索引文件和非结构复合索引文件；但不关闭结构复合索引文件 • USE • 功能：关闭当前工作区内所有打开的索引文件和表文件
记录物理排序命令格式
SORT TO <新表文件名> ON <字段名1> [/A | /D] [/C] [,<字段名2> [/A | /D] [/C] ...]
[<范围>] [FOR <逻辑表达式>] [WHILE <逻辑表达式>] [FIELDS <字段名列表>]
• [/A | /D] 中/A表示升序，/D 表示降序；升降序只能择其一；系统默认为升序 • [/C] 针对字符型字段，表示排序时不区分大小写字母，/C选项与/A或/D选项组合使用（如/ac 或/dc） • 默认范围为 ALL

大学计算机基础电子教材-第4章

第4章数据结构与算法本章介绍数据结构与算法，内容包括算法和数据结构的基本概念、栈及线性链表、树与二叉树、排序技术、查找技术。

●了解数据结构与算法的基本概念。

●了解栈与线性链表的操作。

●了解树与二叉树。

●了解数据结构中的排序技术和查找技术。

4.1 算法的概念4.1.1 算法的基本概念程序是算法用某种程序设计语言的具体实现。

算法（Algorithm）是指解题方案的准确而完整的描述，是一系列解决问题的清晰指令，算法代表着用系统的方法描述解决问题的策略机制。

也就是说，能够对一定规范的输入，在有限时间内获得所要求的输出。

如果一个算法有缺陷，或不适合于某个问题，执行这个算法将不会解决这个问题。

不同的算法可能用不同的时间、空间或效率来完成同样的任务。

一个算法的优劣可以用空间复杂度和时间复杂度来衡量。

算法中的指令描述的是一个计算，当其运行时能从一个初始状态和（可能为空的）初始输入开始，经过一系列有限而清晰定义的状态，最终产生输出并停止于一个终态。

一个状态到另一个状态的转移不一定是确定的。

随机化算法在内的一些算法包含了一些随机输入。

算法具有的一些重要特性：（1）有限性。

算法在执行有限步之后必须终止。

（2）确定性。

算法的每一个步骤都是有精确的定义的。

执行的每一步都是清晰的、无二义的。

大学计算机基础84（3）输入。

一个算法具有任意个输入，它是由外部提供的，作为算法执行前的初始状态。

（4）输出。

算法一定有输出结果。

（5）可行性。

算法中的运算都必须是可以实现的。

4.1.2 算法的复杂度1．时间复杂度算法的时间复杂度采用算法执行过程中其基本操作的执行次数，即计算量来度量。

算法中基本操作的执行次数一般是与问题的规模有关的，对于节点个数为n的数据处理问题，用T(n)表示算法基本操作的执行次数。

当比较不同算法的时间性能时，主要标准是看不同算法时间复杂度所处的数量级如何。

例如：以上算法中，循环体中的代码执行了n次，因此算法的时间复杂度为O(n)。

大学课程管理信息系统复习重点

第一章信息系统和管理一、信息的概念：1.广义上：信息是物质和能量在时间、空间上定性或定量的模型或其符号的集合，信息通常是指商业信息、情报、数据、密码及知识等。

2.我们认为，信息是关于客观事实的可通讯的知识。

（1）首先，信息是客观世界各种食物的特征与反应；（2）其次，信息是可以通讯的；（3）最后，信息形成知识。

3.分类：（1）按管理的层次：战略信息、战术信息和作业信息；（2）按应用领域：管理信息、社会信息、科技信息；（3）按加工顺序：一次信息、二次信息和三次信息；（4）按反映形式：数字信息、图像信息和声音信息。

4.特征：（1）事实性；（2）时效性；（3）不完全性；（4）等级性（战略级、战术级、作业级）；（5）变换性；（6）价值性。

二、系统1.概念：系统是由处于一定的环境中相互联系和相互作用的若干组成部分结合而成，并为达到整体目的而存在的集合。

2.按组成分类：自然系统、人造系统、复合系统。

3.特征：整体性、目的性、相关性、环境适应性。

三、信息系统1.概念：信息系统是一个人造系统，它由人、硬件、软件和数据资源组成，目的是及时、正确地收集、加工、存储、传递和提供信息，实现组织中各项活动的管理、调节和控制。

2.信息系统的发展：（1）电子数据处理系统（EDPS）：单项数据处理阶段、综合数据处理阶段；（2）管理信息系统（MIS）：高度集中、快速处理、统一使用，利用定量化的科学管理方法，通过预测、计划优化、管理、调节和控制等等手段来支持决策；（3）决策支持系统（DSS）：在人和计算机交互的过程中帮助决策者探索可能的方案，为管理者提供决策所需的信息；（4）管理信息系统发展的重要趋势是网络化四、决策1.概念：人们为达到一定的目的而进行的有意识、有选择的活动。

在一定的人力、设备、材料、技术、资金和时间因素的制约下，人们为了实现特定目标，可从多种可供选择的策略中作出决断，以求得最优或较好的过程就是决策过程。

2.决策过程四阶段：情报活动阶段、设计活动阶段、选择活动阶段、实施活动阶段。

第四章空间数据结构

基本概念
• 弧段：构成多边形的线称为弧段，每个弧段可以有许多中间点。
• 节点：两条以上弧段相交的点称为节点 • 岛：由一条弧段组成的多边形称为岛或洞。 • 简单多边形：多边形图中不含岛的多边形称为简单多
边形。 • 复合多边形：含岛的多边形称为复合多边形，包括为
边界和内边界，岛可以看做复合多边形的内边界。
C1,C5,C4
P3
C6,C7,C8
P4
C5,C7,C10,C2
….
节点 N1 N2 N3 N4 ….
C4
N4 N1
C1 P2 C6
C8
P1 C3
P3 N2 C5 N5
C2
C7
N7
C9 P5 P4
N3
N6
C10
点拓扑
坐标
X1,y1
X2,y2
X3,y3
X4,y4
线
C1,C4,C3 C1,C5,C2 C2,C3,C10 C4,C6,C8
线与多边形之间的树状索引
点与多边形之间的树状索引
树状索引编码消除了相邻多边形边界的数据冗余和不一致的问题，在简化过于复杂的边界线或合并相邻多边形时可不必改造索引表，邻域信息和岛状信息可以通过对多边形文件的线索引处理得到，但是比较繁琐，因而给相邻函数运算，消除无用边，处理岛状信息以及检查拓扑关系带来一定的困难，而且两个编码表都需要以人工方式建立，工作量大且容易出错。
矢量数据结构
矢量数据结构是对矢量数据模型进行数据的组织，通过记录坐标的方式尽可能精确地表示点、线、多边形等地理实体，坐标空间设为连续，允许任意位置、长度和面积的精确定义。
其精度仅受数字化设备的精度和数值记录字长的限制。
矢量数据

地理国情监测复习资料

...wd...第0章绪论1、国情：是一个国家的社会性质、政治、经济、文化等方面的根本情况和特点。

2、地理国情：是空间化、可视化的国情信息，是从地理空间角度分析、研究、描述和反映一个国家自然、经济、人文的国情信息。

3、监测：是对事物动态变化的监管和检测。

4、地理国情监测：是对地理相关的国情进展动态测绘、统计和分析研究。

〔概念本质：是地理监测在国家尺度上的一种变化监测〕5、地理国情监测的数据特点：海量性、多维性、异构性、多源性〔位置、属性和时间〕6、监测的最终目的：获取事物的动态变化信息并分析变化信息的合理性7、地理国情监测的特点：系统集成性、动态变化性、主动服务性、准确可靠性、过程完整性。

8、地理国情监测技术开展趋势：随着数据获取技术、数据分析方法、数据表达方法等开展，向着更快、更好的方向开展。

技术集成开展、数据源的多样性、更科学的时效性监测、监测成果的共享服务、更先进的监测设备、多部门协同监测。

9、地理国情监测的内容及过程内容：土地资源调查与监测、环境调查与监测、农情监测、森林和湿地监测、灾害动态监测、水文监测、海洋监测、矿产资源调查与监测气象监测10、地理国情监测系统的功能：国情信息普查、地理国情动态监测信息系统、综合分析与决策建模。

11、地理国情监测活动涉及的关键核心技术：遥感技术〔偏重空间位置的现状、变化数据的获取〕；GIS技术〔时空数据管理、数据的分析、信息共享等〕；地理和社会经济调查与地理编码技术〔偏重属性数据的获取、属性数据的空间化技术等〕第1章地理国情普查1、地理国情普查：是一项重大的国情国力调查，是全面获取地理国情信息的重要手段，是掌握地表自然、生态以及人类活动根本情况的根基性工作。

2、地理国情普查的内容：地形地貌普查、地表覆盖普查、地理单元普查。

3、地理国情普查的对象〔范围〕：地表自然要素〔地形地貌、植被覆盖、水域、荒漠与裸露地等〕人文地理要素〔与人类活动密切相关的交通网络、居民地与设施、地理单元等〕4、地理国情普查的目标：查清我国地表自然和人文地理要素的现状和空间分布情况，为开展常态化地理国情监测奠定根基，满足经济社会开展和生态文明建设的需求，提高地理国情信息对政府、企业和公众的服务能力。

第四章空间数据库

4 点-线查询查询某点实体一定范围内的线实体。步骤
： (1)激活点图层，选择一个点
本次您浏览到是第三十二页，共四十三页。
(2)SQL查询激活线图层，输入查询条件
本次您浏览到是第三十三页，共四十三页。
5 线-线查询
查询与某个线实体相连的其他线实体。步骤：
(1)激活线图层，选择一条线
本次您浏览到是第三十四页，共四十三页。
本次您浏览到是第十三页，共四十三页。
本次您浏览到是第十四页，共四十三页。
网状模型用连接指令或指针来确定数据间的显式连接关系，是具有多对多类型的数据组织方式。网络模型将数据组织成有向图结构，结构中结点代表数据记录，连线描述不同结点数据间的关系。
存在以下问题：1）结构复杂，增加了用户查询和定位的困难。要求用户熟悉数据的逻辑结构，知道自身所处的位置。（2）网状数据操作命令具有过程式性质（3）不直接支持对于层次结构的表达。
(2)SQL查询
输入查条件
本次您浏览到是第三十五页，共四十三页。
6 面-线查询查询经过某个面实体的线实体。步骤：
(1)激活面图层，选择一个面
本次您浏览到是第三十六页，共四十三页。
(2)SQL查询激活线图层，输入查询条件
本次您浏览到是第三十七页，共四十三页。
7 点-面查询
查询某个点实体被包含在哪个面实体内部。步骤： (1)激活点图层，选择一个点
本次您浏览到是第二十四页，共四十三页。
点、线、面实体相互关系的9种查询： 1 点-点查询
查询某点实体给定距离范围内的其他点实体。如200km。步骤： (1)激活点图层，选择一个点
本次您浏览到是第二十五页，共四十三页。
(2)SQL查询（200km以内的其他点）

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数组(Array) && 排序(Sort )
Objectives
To understand the basic concepts and uses of arrays
To be able to define C arrays
To understand the classical approaches to sorting arrays:
对于二维数组的输入/输出采用二重循环实现
以引用数组中的元素注意：只能引用数组元素而不能一次整体调用整个数组全部元素的值数组元素的地址=数组首地址+sizeof(数组类型)*下标
访初始化数组
输入元素的值
数组之间不能通过整体赋值的方式相互赋值
给元素赋值
for (i=0;i<10;i++) scores[i]=a[i]; numbers[3] = numbers[4] + 15;
什么是数组
相同数据类型的元素集合。属于构造类型。
为什么需要数组？设想给定问题：要求读
取、处理并输出10个整数，定义10个整型变量？如下：
1、数组元素在内存中占用连续的存储单元 2、数组元素的个数固定 3、数组元素的类型相同
下标
为描述数组元素所需的下标个数则为该数组的维数
元素
数组名
数组(array)
什么是数组? 为什么要使用数组? 如何定义数组? 如何引用数组元素? 二维数组的元素在内存中按什么方式存放? 什么是字符串? 字符串结束符的作用是什么? 如何实现字符串的存储和操作，包括字符串的输
入和输出? 怎样理解C语言将字符串作为一个特殊的一维字符数组?
选择排序
基本思路：把数组中的数看成是两个部分：
一个已经排好序(Sorted)的，一个是未排好序(Unsorted)的；每一趟排序都在Unsorted 部分中找到一个最小的数放在Sorted部分的末尾。
选择排序过程示例
冒泡排序
基本思路：相邻数进行两两比较，较小的
数放前，较大的数放后
24
if (readNum > 50) readNum = 50; printf("\nEnter your numbers: \n"); for ( i = 0; i < readNum; i++) scanf("%d", &numbers[i]); printf("\nYour numbers reversed are: \n");
定义数组
定义格式：数据类型数组名[常量表达式]；
定长数组
变长数组（C99标准）
int a; scanf("%d",&a); int b[a];
DEV C++中正确 VC++6.0中不支持
访问数组元素----数组名［下标］
score[0]
下标从0开始
score[i]
在定义数组并对其中各元素赋值后，就可
selection(选择排序),bubble(冒泡排序),and insertion sorting (插入排序) To write programs that sort data using the three classical algorithms To understand the two classical search algorithms: sequential(顺序查找) and binary(折半查找) To write programs that search arrays
int a[10]; int i,j,t; printf("input 10 numbers :\n"); for (i=0;i<10;i++) scanf("%d",&a[i]); printf("\n"); for(j=0;j<9;j++) for(i=0;i<9-j;i++) if (a[i]>a[i+1]) {t=a[i];a[i]=a[i+1];a[i+1]=t;} printf("the sorted numbers :\n"); for(i=0;i<10;i++) printf("%d ",a[i]); printf("\n");
数组的应用
查找/排序统计频率
查找（Search）
在数组中找到给定的目标值
顺序查找（有序或无序的数组）, 二分查找
（针对有序的数组）
所要找的位置(3) a[0] a[1] a[2] a[3] a[4] a[5] a[6] a[7] a[8] a[9]
4
21
36
14
62
91
8
22
7
小结：在C语言中使用数组
注意：（五不能）即使两个数组的类型和大小相同，也不能检验其是否相等不能直接将一个数组赋给另一个数组不能为数组整体赋值，但在初始化时例外。在同一程序中,数组名与变量名不能相同。定义数组时[<长度>]不能是变量（VC6-C89）。
输入/输出每个数组元素一般采用循环
for(i=0;i<4;i++) if (a[i]>a[i+1]) { t=a[i];a[i]=a[i+1];a[i+1]=t; } a[0] 8 5 4 2 0 9 5 5 5 5
a[1]
a[2] a[3] a[4] a[5]
8
4 2 0 9
4
8 2 0 9
4
2 8 0 9
4
2 0 8 9
for(i=0;i<3;i++) if (a[i]>a[i+1]) { t=a[i];a[i]=a[i+1];a[i+1]=t; } a[0] a[1] a[2] a[3] a[4] a[5] 5 4 2 0 8 9 4 5 2 0 8 9 4 2 5 0 8 9 4 2 0 5 8 9
冒泡排序过程示例
25
for(i=0;i<5;i++) if (a[i]>a[i+1]) { t=a[i];a[i]=a[i+1];a[i+1]=t; }
a[0]
a[1]
a[2]
a[3]
a[4]
a[5]
9 8 5 4 2 0
8
8
5
8
8
8
9
5
5
4
5
4
5
4
9
4
4
2
9
2
2
9
2
0
2
0
0
0
0
9
大数沉淀，小数起泡
用户角度与存储角度看二维数组 int a[2][5];
二维数组定义与初始化
int int int int int table[5][4]; table[3][2] = {0, 1, 2, 3, 4, 5}; table[3][2] = {{0, 1}, {2, 3}, {4, 5} }; table[][2] = {{0, 1}, {2, 3}, {4, 5} }; table[3][2] = {0};
插入排序
基本思路：每趟排序均将Unsorted部分的
第一个元素提取出来，将它插入到Sorted部分适当的位置上。
33
插入排序过程示例
34
排序算法的比较
三种排序算法都有Sorted 和Unsorted部分，
Sorted部分的元素不断增多，而Unsorted部分不断减少。均采用两层的嵌套循环，外层循环是一样的，内层循环操作不同。选择排序的内层循环是在Unsorted部分找到最小元素，并将它与Unsorted部分的第一个元素交换，成为Sorted部分的最后一个元素。
81
要查找的值(14)
19
顺序查找
用于无序的数组中
Location wanted (3)
a[0] a[1] a[2] a[3] a[4] a[5] 4 21 36 14 62 91
a[0] a[1] a[2] a[3] a[4] a[5] 4 21 36 14 62 91
Target given (14)
输出元素值-例2:逆序打印输入数据
include <stdio.h> int main (void) { int readNum,i; int numbers[50]; printf("You may enter up to 50 integers:\n"); printf("How many would you like to enter? "); scanf ("%d", &readNum); for (i = readNum - 1, numPrinted = 0; i >= 0; i--) { printf("%3d", numbers[i]); if (numPrinted < 9) numPrinted++; else { printf("\n"); numPrinted = 0; } // else } // for return 0; // main
排序算法的比较（续）
冒泡排序（小数上冒）从数组末尾开始，
每一趟中要进行多次交换。插入排序不同于前两种，每一趟均是将Uns orted部分的第一个元素插入到Sorted部分，需多次移动元素。