数据通讯基本概念

数据通讯基本概念
数据通讯基本概念

数据通讯基本概念

一、数据及计算机通信术语

●数据(Data):传递(携带)信息的实体。

●信息(Information):是数据的内容或解释。

●信号(Signal):数据的物理量编码(通常为电编码),数据以信号的形式传播。

●模拟信号与数字信号

●基带(Base band)与宽带(Broad band)

●信道(Channel):传送信息的线路(或通路)

●比特(bit):信息量的单位。比特率为每秒传输的二进制位个数。

●码元(Code Cell):时间轴上的一个信号编码单元

●同步脉冲:用于码元的同步定时,识别码元的开始。同步脉冲也可位于码元的中部,一个码元也可有多个同步脉冲相对应。(如图1所示)

●波特(Baud):码元传输的速率单位。波特率为每秒传送的码元数(即信号传送速率)。

1 Baud = log2M (bit/s)

其中M是信号的编码级数。也可以写成:Rbit = Rbaud log2M

上式中:Rbit-比特率,Rbaud-波特率。

一个信号往往可以携带多个二进制位,所以在固定的信息传输速率下,比特率往往大于波特率。换句话说,一个码元中可以传送多个比特。

例如,M=16,波特率为9600时,数据传输率为38.4kbit/s

●误码率:信道传输可靠性指标,是概率值

信息编码:将信息用二进制数表示的方法。

数据编码:将数据用物理量表示的方法。

例如:字符‘A’的ASCII编码(是信息编码的一种)为01000001

●带宽:带宽是通信信道的宽度,是信道频率上界与下界之间之差,是介质传输能力的度量,在传统的通信工程中通常以赫兹(Hz)为单位计量。

在计算机网络中,一般使用每秒位数(b/s 或bps) 作为带宽的计量单位。主要单位:Kb/s,Mb/s,Gb/s,一个以太局域网理论上每秒可以传输1千万比特,它的带宽相应为10Mb/s。

●时延

△信息从网络的一端传送到另一端所需的时间

△时延之和=处理时延+排队时延 +发送时延+传播时延

△处理时延=分组首部和错误校验等处理(微秒)

△排队时延=数据在中间结点等待转发的延迟时间

△发送时延=数据位数/信道带宽

△传播时延=d/s(毫秒)d:距离 s:传播速度≈光速

●时延带宽乘积:某一链路所能容纳的比特数。

时延带宽乘积=带宽×传播时延。例如,某链路的时延带宽乘积为100万比特,这意味着第一个比特到达目的端时,源端已发送了100万比特。(如图2所示)

●往返时延 (Round-Trip Time ,RTT)

从信源发送数据开始,到信源收到信宿确认所经历的时间RTT≈2×传播时延,传输可靠性两个含义:

1、数据能正确送达

2、数据能有序送达(当采用分组交换时)

二、信息通信系统传输

1、把携带信息的数据用物理信号形式通过信道传送到目的地。信息和数据(0,1比特)一般不能直接在介质上传输。

●编码:数据?适合传输的数字信号——便于同步、识别、纠错

●调制:数字信号?适合传输的形式——按频率、幅度、相位

●解调:接收波形?数字信号

●解码:数字信号?原始数据

2、数据通信基本过程

包含两项内容:数据传输和通信控制

过程与打电话的对比

△建立物理连接拨号,拨通对方

△建立逻辑连接互相确认身份

△数据传送互相通话

△断开逻辑连接互相确认要结束通话

△断开物理连接双方挂机

3、信道及其主要特征:数字信道和模拟信道

●数字信道:以数字脉冲形式(离散信号)传输数据的信道。

●模拟信道:以连续模拟信号形式传输数据的信道。

模拟信号和数字信号

●模拟信号:时间上连续,包含无穷多个信号值

●数字信号:时间上离散,仅包含有限数目的信号值

周期信号和非周期信号

●周期信号:信号由不断重复的固定模式组成(如正弦波)

●非周期信号:信号没有固定的模式和波形循环(如语音的音波信号)。

3、数字数据的传输方式

●基带传输:不需调制,编码后的数字脉冲信号直接在信道上传送。例如:以太网

●宽带传输:数字信号需调制成频带模拟信号后再传送,接收方需要解调。例如:通过电话模拟信道传输。例如:闭路电视的信号传输。

4、数据同步方式:目的是使接收端与发送端在时间基准上一致 (包括开始时间、位边界、重复频率等)。

有三种同步方法:位同步、字符同步、帧同步。

●位同步:目的是使接收端接收的每一位信息都与发送端保持同步,有下面两种方式:

△外同步——发送端发送数据时同时发送同步时钟信号,接收方用同步信号来锁定自己的时钟脉冲频率。

△自同步——通过特殊编码(如曼彻斯特编码),这些数据编码信号包含了同步信号,接收方从中提取同步信号来锁定自己的时钟脉冲频率。

●字符同步:以字符为边界实现字符的同步接收,也称为起止式或异步制。每个字符的传输需要:1个起始位、5~8个数据位、1,1.5,2个停止位。(如图3所示)

●字符同步的性能评估:

△频率的漂移不会积累,每个字符开始时都会重新同步。

△每两个字符之间的间隔时间不固定。

△增加了辅助位,所以效率低。例如,采用1个起始位、 8个数据位、 2个停止位时,其效率为8/11<72%。

●帧同步:识别一个帧的起始和结束。

△帧(Frame)数据链路中的传输单位——包含数据和控制信息的数据块。

△面向字符的——以同步字符(SYN,16H)来标识一个帧的开始,适用于数据为字

符类型的帧。(如图4所示)

△面向比特的——以特殊位序列(7EH,即01111110)来标识一个帧的开始,适用于任意数据类型的帧。

5、信道最大数据传输率

●奈奎斯公式:用于理想低通信道

C = 2W×log2 M

C = 数据传输率,单位bit/s

W = 带宽,单位Hz

M = 信号编码级数

奈奎斯公式为估算已知带宽信道的最高数据传输速率提供了依据。

●非理想信道

实际的信道上存在损耗、延迟、噪声。损耗引起信号强度减弱,导致信噪比S/N 降低。延迟会使接收端的信号产生畸变。噪声会破坏信号,产生误码。持续时间0.01s的干扰会破坏约560个比特(56Kbit/s)

△香农公式:有限带宽高斯噪声干扰信道

C = W log2 (1+S/N) S/N: 信噪比

例:信道带宽W=3.1KHz,S/N=2000,则

C = 3100*log2(1+2000) ≈ 34Kbit/s

即该信道上的最大数据传输率不会大于34Kbit/s

●奈奎斯公式和香农公式的比较

△C = 2W log2M

数据传输率C随信号编码级数增加而增加。

△C = W log2(1+S/N)

无论采样频率多高,信号编码分多少级,此公式给出了信道能达到的最高传输速率。

原因:噪声的存在将使编码级数不可能无限增加。

6、数据编码

●编码与调制的区别

△用数字信号承载数字或模拟数据——编码

△用模拟信号承载数字或模拟数据——调制

模型如图5所示:

●数字数据的数字信号编码:把数字数据转换成某种数字脉冲信号常见的有两类:不归零码和曼彻斯特编码。

△不归零码(NRZ,Non-Return to Zero)二进制数字0、1分别用两种电平来表示,常常用-5V表示1,+5V表示0。缺点:存在直流分量,传输中不能使用变压器;不具备自同步机制,传输时必须使用外同步。

△曼彻斯特编码(Manchester Code)用电压的变化表示0和1,规定在每个码元的中间发生跳变:高→低的跳变代表0,低→高的跳变代表1。每个码元中间都要发生跳变,接收端可将此变化提取出来作为同步信号。这种编码也称为自同步码(Self-Synchronizing Code)。缺点:需要双倍的传输带宽(即信号速率是数据速率的2倍)。

△差分曼彻斯特编码(Differential ~)每个码元的中间仍要发生跳变,用码元开始处有无跳变来表示0和1 ,有跳变代表0,无跳变代表1。

●数字数据的调制编码,三种常用的调制技术:

△幅移键控ASK (Amplitude Shift Keying)

△频移键控FSK (Frequency Shift Keying)

△相移键控PSK (Phase Shift Keying)

基本原理:用数字信号对载波的不同参量进行调制。

载波 S(t) = Acos(ωt+ψ)

S(t)的参量包括:幅度A、频率ω、初相位ψ,调制就是要使A、ω或ψ随数字基带信号的变化而变化。

△ASK:用载波的两个不同振幅表示0和1。

△FSK:用载波的两个不同频率表示0和1。

△PSK:用载波的起始相位的变化表示0 和1。(如图6所示)

●模拟数据的数字信号编码

采样定理:如果模拟信号的最高频率为F,若以2F的采样频率对其采样,则采样得到的离散信号序列就能完整地恢复出原始信号。

要转换的模拟数据主要是电话语音信号,语音信号要在数字线路上传输,必须将语音信号转换成数字信号。这需要经过三个步骤:

△采样:按一定间隔对语音信号进行采样

△量化:对每个样本舍入到量化级别上

△编码:对每个舍入后的样本进行编码

编码后的信号称为PCM信号 (脉码调制, Pulse Coded Modulation,如图7所示)

7、多路复用技术

复用:多个信息源共享一个公共信道。为何要复用?——提高线路利用率。

适用场合:当信道的传输能力大于每个信源的平均传输需求时。

复用类型

△频分复用FDM (Frequency Division Multiplexing)

△波分复用WDM (Wave Division Multiplexing)

△时分复用TDM (Time Division Multiplexing)

●频分复用原理:整个传输频带被划分为若干个频率通道,每路信号占用一个频

率通道进行传输。频率通道之间留有防护频带以防相互干扰。(如图8所示)

●波分复用——光的频分复用。原理:整个波长频带被划分为若干个波长范围,每路信号占用一个波长范围来进行传输。(如图9所示)

●时分复用原理:把时间分割成小的时间片,每个时间片分为若干个时隙,每路

数据占用一个时隙进行传输。(如图10所示)

由于每路数据总是使用每个时间片的固定时隙,所以这种时分复用也称为同步时分复用。

时分复用的典型例子:PCM信号的传输,把多个话路的PCM话音数据用TDM的方法装成帧(帧中还包括了帧同步信息和信令信息),每帧在一个时间片内发送,每个时隙承载一路PCM信号。

●统计(异步)TDM——STDM

TDM的缺点:某用户无数据发送,其他用户也不能占用该时隙,将会造成带宽浪费。

改进:用户不固定占用某个时隙,有空时隙就将数据放入。(如图11所示)

8、差错控制

与语音、图像传输不同,计算机通信要求极低的差错率。产生差错的原因:

△信号衰减和热噪声

△信道的电气特性引起信号幅度、频率、相位的畸变;

△信号反射,串扰;

△冲击噪声,闪电、大功率电机的启停等。

差错控制的基本方法是:接收方进行差错检测,并向发送方应答,告知是否正确接收。差错检测主要有两种方法:

●奇偶校验(Parity Checking)

在原始数据字节的最高位增加一个奇偶校验位,使结果中1的个数为奇数(奇校验)或偶数(偶校验)。例如1100010增加偶校验位后为11100010,若接收方收到的字节奇偶校验结果不正确,就可以知道传输中发生了错误。此方法只能用于面向字符的通信协议中,只能检测出奇数个比特位错。

●循环冗余校验 (CRC, Cyclic Redundancy Check)

差错检测原理:将传输的位串看成系数为0或1的多项式。收发双方约定一个生成多项式G(x),发送方在帧的末尾加上校验和,使带校验和的帧的多项式能被G(x)整除。接收方收到后,用G(x)除多项式,若有余数,则传输有错。校验和是16位或32位的位串,CRC校验的关键是如何计算校验和。

●差错控制技术

△自动请求重传Automatic Repeat Request (ARQ)

△停等 ARQ

△Go-back-N ARQ

△选择重传 ARQ

信号带宽与信道带宽

信号带宽是信号频谱的宽度,也就是信号的最高频率分量与最低频率分量之差,譬如,一个由数个正弦波叠加成的方波信号,其最低频率分量是其基频,假定为f =2kHz,其最高频率分量是其7次谐波频率,即7f =7×2=14kHz,因此该信号带宽为7f - f =14-2=12kHz。

信道带宽则限定了允许通过该信道的信号下限频率和上限频率,也就是限定了一个频率通带。比如一个信道允许的通带为1.5kHz至15kHz,其带宽为13.5kHz,上面这个方波信号的所有频率成分当然能从该信道通过,如果不考虑衰减、时延以及噪声等因素,通过此信道的该信号会毫不失真。然而,如果一个基频为1kHz的方波,通过该信道肯定失真会很严重;方波信号若基频为2kHz,但最高谐波频率为18kHz,带宽超出了信道带宽,

其高次谐波会被信道滤除,通过该信道接收到的方波没有发送的质量好;那么,如果方波信号基频为500Hz,最高频率分量是11次谐波的频率为5.5kHz,其带宽只需要5kHz,远小于信道带宽,是否就能很好地通过该信道呢?其实,该信号在信道上传输时,基频被滤掉了,仅各次谐波能够通过,信号波形一定是不堪入目的。

通过上面的分析并进一步推论,可以得到这样一些结果:

(1)如果信号与信道带宽相同且频率范围一致,信号能不损失频率成分地通过信道;

(2)如果带宽相同但频率范围不一致时,该信号的频率分量肯定不能完全通过该信道(可以考虑通过频谱搬移也就是调制来实现);

(3)如果带宽不同而且是信号带宽小于信道带宽,但信号的所有频率分量包含在信道的通带范围内,信号能不损失频率成分地通过;

(4)如果带宽不同而且是信号带宽大于信道带宽,但包含信号大部分能量的主要频率分量包含在信道的通带范围内,通过信道的信号会损失部分频率成分,但仍可能被识别,正如数字信号的基带传输和语音信号在电话信道传输那样;

(5)如果带宽不同而且是信号带宽大于信道带宽,且包含信号相当多能量的频率分量不在信道的通带范围内,这些信号频率成分将被滤除,信号失真甚至严重畸变;

(6)不管带宽是否相同,如果信号的所有频率分量都不在信道的通带范围内,信号无法通过;

(7)不管带宽是否相同,如果信号频谱与信道通带交错,且只有部分频率分量通过,信号失真。

另外,我们在分析在信道上传输的信号时,不能总是认为其带宽一定占满整个信道,比如频带传输;即使信号占据整个信道,也不一定总是把它想像成一个方波,它也可能是其它的波形,比如在一个单频的正弦波上寄载其它模拟信号或数字信号而形成的复合波形。我们再举一些实例,进一步明晰信号与信道的带宽问题。

第一个例子仍是数字方波信号的基带传输(信号可能从零频率,也可

能不是从零开始,直至某个较高的频率分量占满整个信道带宽,该较高频率分量通常由信道上限频率决定),我们知道,数字方波信号带宽可以无限,但信道带宽总是有限的,因此信道带宽限定了通过信道的信号带宽。如果信号基频和部分谐波能通过该信道,一般说来,接收到信号是可以被识别出的;如果信道的下限频率高于信号的基频,则基频甚至部分谐波被滤除,由于基频包含了信号的大部分能量(在时域图上反映出是所有叠加的信号波形中振幅最大的波形),因此接收到的信号难以识别。所以传输方波的信道要求其下限频率要低于信号的基频。

第二个例子是电话信道,假定其频率范围从300~3300Hz,带宽为3kHz,而语音信号频谱则一般为100Hz~7kHz的范围。电话信道将语音信号频谱掐头去尾,因为语音信号的主要能量集中在中心的一些频率分量附近,所以通过电话信道传输的语音信号,虽有失真,但仍能分辨。

第三个例子是电话线数字载波,即把数字信号调制到音频载波信号上,该载波是正弦波。电话线数据传输并不占满整个带宽,而是取中间部分频带,即600~3000Hz,带宽2400Hz。假定采用幅度调制(最简单的做法是通过在每个信号单元保留载波或除去载波来表示二进制的两种取值),如果采用全双工通信方式,则需将电话线数据信道一分为二,每个子信道各占1200Hz带宽,一个600~1800Hz,另一个1800~3000Hz;两个子信道的载波频率是各子信道中的中心频率,即分别为1200Hz和2400Hz,换句话说,每个中心频率两边各有一个600Hz的边带。

数字调频术和调相技术更复杂些,在时域上看,它们的每个信号单元周期时间可以与调幅相同;但从频域上看,每个周期内使载波频率和相位随着所表示的数值变化而发生改变,信号相位的变化实际上在幅-频频域图上也表现为频率的变化。尤其是当每个信号单元包含多个比特的情况,会产生多个频率分量。对于每个信号单元包含1个比特的情况,数字调频的每个子信道需要两个不同的频率表示二进制数字,也就是说,在2400Hz 带宽的数据信道上有四个中心频率以及它们的边带。也就是说,分为了四段频带,600~1200Hz、1200~1800Hz、1800~2400Hz、2400~3000Hz;中心频率分别为900Hz、1500Hz、2100Hz和2700Hz。

第四个例子是无线调幅广播的模拟载波,即把语音、音乐等音频数据生成的原始电信号调制到具有某个广播频率的载波上(实际是频谱搬移,将相对较低的20Hz~20kHz频谱搬迁到较高300kHz~3MHz的频谱上)。无线信道利用的是自由空间,带宽似乎可以达到整个频谱,但实际上并非如此,首先,不同波段的频率需要不同的传播方式(地表导波、对流层散射、电离层反射、视线定向、空间转发)才能发挥最佳效率,不可能只采用一种传播方式使用如此广阔的频带;其次,频带跨度太大,不同频率分量传播的时延相差较远,不利于信号的正确识别和还原,数据率也因高低难以兼顾而受限;再则,无线信道是一种共享的公用广播信道,为了避免不同信源的相互干扰,在全球或者局部范围,必须进行信道分割与分配,分割出的每个信道根据不同的用途,其带宽相距很大,但不管多宽,都是很有限的;无论何种信号(即使理论上带宽无限的信号)在实际的传输中也不必一定要非常宽,也是允许损失一定频率成分的。无线调幅广播以载波频率为中心频率,将原始信号作为两个相同带宽的边带(上下边带)寄载到该载波上,调制后的该调幅信号总带宽为原始信号的2倍。

数据库基本概念

数据库基本概念 引言 本章的目标是讲解数据库研究人员常常要使用到的一些理论和术语。我所在的工作组集中了一批以开发性能优异的数据库系统为谋生手段的精英,数据库理论乍看起来与我们的具体工作相距甚远。 是否很有必要学习有关数据库理论方面的知识可能是留给你思考的一个问题。我们说,理解一种技术的基本原理是非常重要的。这就好比把你的汽车交给一个不懂火花塞工作原理的机械师,或是坐在一架由不懂飞行理论的驾驶员的飞机上。如果你不懂数据库设计的相关理论,又怎能指望用户登陆门请你设计系统呢? 研究人员所用的某些术语和概念令我们感到困惑,部分原因是数学基础的问题。有一些术语,大多数程序员理解为一种含义,而实际上是完全不同的另一种含义。为了能设计合理的系统,了解关系数据库理论是十分重要的。 为了搞清楚研究人员的专业术语,我们需要学习一些关系数据库理论中较浅显的内容,并且同我们所熟知的SQL概念进行比较。许多书中都讲解了这些内容,所以并不打算过于深入地探讨理论。我们只提供一些基本且实用的数据库概念。 本章将主要从面向SQL的角度介绍关系理论。我们将常常涉及相关理论的具体实现,尽管这超出了本书的范围,但却是难以避免的。然而我们不会陷入实现的细节,仅仅给出一个概述。更进一步的内容,参看第一章提到的参考书目。 在本章中,我们将会看到下列内容: ?关系模型——考察相关的技术术语:我们将在后面的章节中构造它们 ?其他数据库概念的定义 关系模型 正像第1章中提到的,E.F.Codd早在1970年就提出了关系模型的概念。在这一节中,我们将从SQL Server 的角度出发,考察一些在关系模型中比较重要的内容。 正像我们所看到的那样,SQL Server 与关系模型有很多共性的东西,但

数据库的4个基本概念

数据库的4个基本概念 1.数据(Data):描述事物的符号记录称为数据。 2.数据库(DataBase,DB):长期存储在计算机内、有组织的、可共享的大量数据的集合。 3.数据库管理系统(DataBase Management System,DBMS 4.数据库系统(DataBase System,DBS) 数据模型 数据模型(data model)也是一种模型,是对现实世界数据特征的抽象。用来抽象、表示和处理现实世界中的数据和信息。数据模型是数据库系统的核心和基础。 数据模型的分类 第一类:概念模型 按用户的观点来对数据和信息建模,完全不涉及信息在计算机中的表示,主要用于数据库设计现实世界到机器世界的一个中间层次 实体(Entity): 客观存在并可相互区分的事物。可以是具体的人事物,也可以使抽象的概念或联系 实体集(Entity Set): 同类型实体的集合。每个实体集必须命名。 属性(Attribute): 实体所具有的特征和性质。 属性值(Attribute Value): 为实体的属性取值。 域(Domain): 属性值的取值范围。 码(Key): 唯一标识实体集中一个实体的属性或属性集。学号是学生的码 实体型(Entity Type): 表示实体信息结构,由实体名及其属性名集合表示。如:实体名(属性1,属性2,…) 联系(Relationship): 在现实世界中,事物内部以及事物之间是有联系的,这些联系在信息世界中反映为实体型内部的联系(各属性)和实体型之间的联系(各实体集)。有一对一,一对多,多对多等。 第二类:逻辑模型和物理模型 逻辑模型是数据在计算机中的组织方式 物理模型是数据在计算机中的存储方式 数据模型的组成要素 数据模型通常由数据结构、数据操作和数据的完整性约束条件三部分组成 关系模型(数据模型的一种,最重要的一种) 从用户观点看关系模型由一组关系组成。每个关系的数据结构是一张规范化的二维表。 ?关系(Relation):一个关系对应通常说的一张表。 ?元组(Tuple):表中的一行即为一个元组。 ?属性(Attribute):表中的一列即为一个属性,给每一个属性起一个名称即属性名。 ?码(Key):表中的某个属性组,它可以唯一确定一个元组。 ?域(Domain):一组具有相同数据类型的值的集合。属性的取值范围来自某个域。

数据通讯基本概念

数据通讯基本概念 一、数据及计算机通信术语 ●数据(Data):传递(携带)信息的实体。 ●信息(Information):是数据的内容或解释。 ●信号(Signal):数据的物理量编码(通常为电编码),数据以信号的形式传播。 ●模拟信号与数字信号 ●基带(Base band)与宽带(Broad band) ●信道(Channel):传送信息的线路(或通路) ●比特(bit):信息量的单位。比特率为每秒传输的二进制位个数。 ●码元(Code Cell):时间轴上的一个信号编码单元 ●同步脉冲:用于码元的同步定时,识别码元的开始。同步脉冲也可位于码元的中部,一个码元也可有多个同步脉冲相对应。(如图1所示) ●波特(Baud):码元传输的速率单位。波特率为每秒传送的码元数(即信号传送速率)。 1 Baud = log2M (bit/s) 其中M是信号的编码级数。也可以写成:Rbit = Rbaud log2M 上式中:Rbit-比特率,Rbaud-波特率。 一个信号往往可以携带多个二进制位,所以在固定的信息传输速率下,比特率往往大于波特率。换句话说,一个码元中可以传送多个比特。 例如,M=16,波特率为9600时,数据传输率为38.4kbit/s ●误码率:信道传输可靠性指标,是概率值 信息编码:将信息用二进制数表示的方法。 数据编码:将数据用物理量表示的方法。 例如:字符‘A’的ASCII编码(是信息编码的一种)为01000001 ●带宽:带宽是通信信道的宽度,是信道频率上界与下界之间之差,是介质传输能力的度量,在传统的通信工程中通常以赫兹(Hz)为单位计量。 在计算机网络中,一般使用每秒位数(b/s 或bps) 作为带宽的计量单位。主要单位:Kb/s,Mb/s,Gb/s,一个以太局域网理论上每秒可以传输1千万比特,它的带宽相应为10Mb/s。 ●时延

关系数据库的基本概念应用

★事业单位考试专用★ 数据库 1.数据模型(Data Models):在数据库中用数据模型这个工具来抽象、表示和处理现实世界中的数据和信息。通俗地讲数据模型就是现实世界的模拟。 2.数据模型应满足三方面要求:能比较真实地模拟现实世界;容易为人所理解;便于在计算机上实现。 3.数据模型:按计算机的观点对数据建模,主要用于DBMS的实现。一般有层次,网状,关系三种。 4.矩形:表示实体集;菱形:表示联系集;线:连接实体集与联系集或属性与实体集;椭圆:表示属性;下划线:主码属性。 5.常用数据模型:层次模型、网状模型、关系模型、面向对象模型。 6.层次模型的存储结构:邻接法:前序穿线树;链接法:用指针表示层次关系(子女-兄弟链接法,层次序列链接法)。(众) 7.网状模型存储结构:链接法:用指针表示层次关系(单链,双链,环链等)。(S_XH,C_KCH) 8.关系模型中,关系的每一个分量必须是一个不可分的数据项。 9.SQL语言的REVOKE语句实现安全性数据控制功能。 10.数据仓库通常采用三层体系结构、底层的数据仓库服务器一般是一个关系型数据库系统、数据仓库前端分析工具中包括报表工具。 11.Linux是一套免费使用和自由传播的类Unix操作系统、Linux提供强大的应用程序开发环境,支持多种编程语言、Linux提供对TCP/IP协议的完全支持。 12.Solaris是SUN公司的高性能Unix,Solaris运行在许多RISC工作站和服务器

上,Solaris支持多处理、多线程。 13.Unix系统的特色:交互的分时系统、以全局变量为中心的模块结构、可以分成内核和外壳。Unix系统中进程由三部分组成:进程控制块,正文段和数据段。Unix系统中,输入/输出设备被看成是特殊文件。 14.属于企业级的大型数据库管理系统的主要有Oracle、DB2、Informix、Sybase 、SQL Server。 15.DBA是数据库系统的一个重要组成,有很多职责:定义数据库的存储结构和存取策略、定义数据库的结构、定期对数据库进行重组和重构。 16.对于数据量大的网站,应选用的数据库是DB2。 17.关系代数表达式的优化策略中,首先要做的是尽早执行选择运算。

数据挖掘及决策树

理工大学信息工程与自动化学院学生实验报告 ( 2016 — 2017 学年第学期) 信自楼444 一、上机目的及容 目的: 1.理解数据挖掘的基本概念及其过程; 2.理解数据挖掘与数据仓库、OLAP之间的关系 3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。 容: 给定AdventureWorksDW数据仓库,构建“Microsoft 决策树”模型,分析客户群中购买自行车的模式。 要求: 利用实验室和指导教师提供的实验软件,认真完成规定的实验容,真实地记录实验中遇到的 二、实验原理及基本技术路线图(方框原理图或程序流程图) 请描述数据挖掘及决策树的相关基本概念、模型等。 1.数据挖掘:从大量的、不完全的、有噪音的、模糊的、随机的数据中,提取隐含在其中的、 人们事先不知道的、但又潜在有用的信息和知识的过程。

项集的频繁模式 分类与预测分类:提出一个分类函数或者分类模型,该模型能把数据库中的数据项 映射到给定类别中的一个; 预测:利用历史数据建立模型,再运用最新数据作为输入值,获得未来 变化趋势或者评估给定样本可能具有的属性值或值的围 聚类分析根据数据的不同特征,将其划分为不同数据类 偏差分析对差异和极端特例的描述,揭示事物偏离常规的异常现象,其基本思想 是寻找观测结果与参照值之间有意义的差别 3.决策树:是一种预测模型,它代表的是对象属性与对象值之间的一种映射关系。树中每个 节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从 根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输 出,可以建立独立的决策树以处理不同输出。 算法概念 ID3 在实体世界中,每个实体用多个特征来描述。每个特征限于在一 个离散集中取互斥的值 C4.5 对ID3算法进行了改进: 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选 择取值多的属性的不足;在树构造过程中进行剪枝;能够完成对 连续属性的离散化处理;能够对不完整数据进行处理。 三、所用仪器、材料(设备名称、型号、规格等或使用软件) 1台PC及Microsoft SQL Server套件 四、实验方法、步骤(或:程序代码或操作过程) (一)准备 Analysis Services 数据库 1.Analysis Services 项目创建成功

计算机网络 数据通信基本概念

计算机网络数据通信基本概念 数据通信的目的是传递信息。对于一个完整的数据通信系统,我们不仅需要对产生和发送信息的信源和接收信息的信宿(通信过程中接收和处理信息的设备或计算机。)有一定的了解,还需要了解数据通信系统中信息、数据、信号、信道等一些基本概念。 1.信息 信息是人对客观物质的反映,既可以是对物质的形态、大小、结构、性能等部分或全部特性的描述,也可以是客观物质与外部事物的联系。信息有多种存在形式,如文字、声音、图像等。 2.数据 数据是对客观物质未经加工处理的原始素材,如图形符号、字母、数字等。数据是装载信息的实体,而信息是经过加工处理的数据。数据包括模拟数据和数字数据两种表现形式,其中模拟数据采用连续值,如声音的强度、光的强度都是连续变化;而数字数据采用离散值等。 3.信号 信号是指数据的电磁编码或电编码。它分为模拟信号和数字信号两种。模拟信号是连续变化的电磁波,数字信号则是一串电压脉冲序列。如图3-1所示。 数字信号波形模拟信号波形 图3-1 数字信号和模拟信号 4.信道 信道是信号传输的通道,由传输介质及相应的附属设备组成。信号只有通过信道传输,才能够从信源到达信宿。同一条传输介质上可以同时存在多条信号通道,即一条传输线路上可以有多个信道,实现数据传输。例如,一条光缆可以包含上千个电话信道,供几千人同时通话。 信道的性能决定了信号的传输质量和传输速率,而在数据通信系统中,影响信道性能的因素主要有以下几个: 信道带宽 信道带宽是指信道可传输的信号最高频率与最低频率之差,以Hz为单位。在通信系统中,不同的传输介质具有不同的带宽,并且只能够安全传输其带宽范围之内的信号。如图3-2所示,为不同传输介质的带宽对应关系。

数据库的基本概念

1.关系的基本操作:选择、投影、并、差、笛卡尔集。 2.声明变量的语句:declare @XXX (XXX为变量名称) 3.判断并发调度的正确性: (1)可串行性的调度:多个事务的并发执行是正确的,当且仅当其结果与某一次串行的执行这些实物的结果相同。 (2)可串行性:是并发事务调度的准则。按照这个准则,一个给定的并发调度,当且仅当他是可串行化的才认为是正确的调度。 4.事物的四个特性:原子性、一致性、隔离性和持续性。 5.定义视图: Create view <视图名称>[(列名)[,(列名)]] As <子查询> [with check option] 6.关系数据理论: 7.范式: (1)第二范式:若R∈1NF,且每一个非主属性完全依赖于码,则R∈2NF (2)第三范式:非主属性中不存在传递关系。 8.角色、权限 (1)创建角色:create role <角色名> (2)给角色授权:create <权限> on <对象类型> 对象名to 角色。 9.设计中概念模型描述什么:实体、属性、码、实体型、实体集、联系。 10.关系的完整性:实体完整性、参照完整性、用户定义的完整性。 11.读锁和写锁的定义: (1)写锁:又称“排它锁”,若事物T对数据对象A加上X锁,则只允许T读取和修改A,其他任何事物都不能对A加任何类型的锁,直到T释放A上的锁。 (2)读锁:又称“共享锁”,若事物T对数据对象A加上S锁,则事物T可以读A但不能修改A,其他事物只能对A加S锁,而不能加X锁,直到T释放A上的S锁。 简答: 1.关系模式:判断是第几范式,分析指出主键、外键P175 例题4 2.举例说明参照完整性(外键取值的几种情况)P49例题1,例题2,例题3 3.数据库的设计步骤、任务。 (1)需求分析(2)概念结构设计(3)逻辑结构设计(4)物理结构设计 (5)数据库实施(6)数据库运行和维护 4.描述并发调度中锁的概念、作用 (1)概念:事物T对某个数据对象操作之前,先向系统发出申请,对其加锁。加锁后的事物T就对该数据对象有了一定的控制,在事物T释放它的锁之前,其他的事物不能更新此数据对象。 (2)作用:解决了事物并发过程中可能出现的丢失修改、不可重复读、读“脏”数据。

数据库系统的基本概念

1.4 数据库设计基础 考点17 数据库系统的基本概念 1、数据、数据库、数据库管理系统和数据库系统 (1)数据 数据(Data)是描述事物的符号记录。 数据:在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据,数据经过加工后就成为信息。 在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。 (2)数据库 数据库(Database, DB)是指长期存储在计算机内的、有组织的、可共享的数据集合。 数据库是一个单位或是一个应用领域的通用数据处理系统,他存储的是属于企业和事业部门、团体和个人的有关数据的集合。数据库中的数据是从全局观点出发建立的,他按一定的数据模型进行组织、描述和存储。其结构基于数据间的自然联系,从而可提供一切必要的存取路径,且数据不再针对某一应用,而是面向全组织,具有整体的结构化特征。 数据库中的数据是为众多用户所共享其信息而建立的,已经摆脱了具体程序的限制和制约。不同的用户可以按各自的用法使用数据

库中的数据;多个用户可以同时共享数据库中的数据资源,即不同的用户可以同时存取数据库中的同一个数据。数据共享性不仅满足了各用户对信息内容的要求,同时也满足了各用户之间信息通信的要求。 (3)数据库管理系统 数据库管理系统(Database Management System, DBMS)是数据库的机构,它是一个系统软件,负责数据库中的数据组织、数据操纵、数据维护、控制及保护和数据服务等。 数据库管理系统的主要类型有4种:文件管理系统,层次数据库系统,网状数据库系统和关系数据库系统,其中关系数据库系统的应用最为广泛。 数据库管理系统是一种操纵和管理数据库的大型软件,用于建立、使用和维护数据库。它对数据库进行统一的管理和控制,以保证数据库的安全性和完整性。用户通过它访问数据库中的数据,数据库管理员也通过它进行数据库的维护工作。它可使多个应用程序和用户用不同的方法在同时或不同时刻去建立,修改和询问数据库。DBMS 提供数据定义语言DDL(Data Definition Language)与数据操作语言DML(Data Manipulation Language),供用户定义数据库的模式结构与权限约束,实现对数据的追加、删除等操作。 (4)数据库系统 数据库系统(Database System, DBS)是指引进数据库技术后的整个计算机系统,能够实现有组织地、动态地存储大量相关数据,

数据库系统的基本概念

数据库系统的基本概念

1.4 数据库设计基础 考点17 数据库系统的基本概念 1、数据、数据库、数据库管理系统和数据库系统 (1)数据 数据(Data)是描述事物的符号记录。 数据:在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据,数据经过加工后就成为信息。 在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。 (2)数据库 数据库(Database, DB)是指长期存储在计算机内的、有组织的、可共享的数据集合。 数据库是一个单位或是一个应用领域的通用数据处理系统,他存储的是属于企业和事业部门、团体和个人的有关数据的集合。数据库中的数据是从全局观点出发建立的,他按一定的数据模型进行组织、描述和存储。其结构基于数据间的自然联系,从而可提供一切必要的存取路径,且数据不再针对某一应用,而是面向全组织,具有整体的结构化特征。 数据库中的数据是为众多用户所共享其信息而建立的,已经摆脱了具体程序的限制和制约。不同的用户可以按各自的用法使用数据

硬件方面:拥有大容量磁盘,硬件价格下降; 软件方面:软件价格上升,为编制和维护系统软件及应用程序的成本相对增加; 数据处理方式:统一管理数据的专门软件系统,即数据库管理系统。 数据库系统的特点: (1)、数据结构化; 数据结构化是数据库与文件系统的根本区别。在文件系统中,尽管记录内部已经有了某些结构,但记录之间没有联系。 (2)、数据共享性高,冗余度低,易扩充; 数据库系统从整体角度描述数据,数据不再面向某个应用,而是面向整个系统,因此数据可以被多个用户、多个应用共享使用。数据共享可以大大减少数据冗余,节约存储空间。 (3)、数据独立性高 数据独立性包括物理独立性、逻辑独立性。 数据的物理存储改变,应用程序不需改变。数据与程序独立,把数据的定义从程序中分离,数据的存取由DBMS负责,简化应用程序的复杂程度,大大减少应用程序的维护和修改。 (4)、数据由DBMS统一管理和控制。 数据库的共享是并发的共享,即多个用户可以同时存取数据库中的数据,甚至可以同时存取数据库中的同一个数据。

习题1(第一章数据挖掘基础概念)

习题1(第一章数据挖掘基础概念) 1.什么是数据挖掘? 解答: 数据挖掘是指从大规模的数据中抽取或挖掘出感兴趣的知识或模式的过程或方法。 2.定义下列数据挖掘功能:特征化、区分、关联和相关分析、分类、预测、聚类和演变分 析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 解答: 特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括平均成绩(GPA :Grade point average) 的信息,还有所修的课程的最大数目。 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。 最终的描述可能是学生的一般可比较的轮廓,就像75%具有高GPA 的学生是四年级计算机科学专业的学生而65%具有低GPA 的学生不是。 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为: major(X, “ computing science ” ) ?owns(X, “ personal computer ” ) [support=12%, confidence=98%] 其中,X 是表示学生的变量。这个规则指出正在学习的学生中,12%(支持度)主修计算机科学并且拥有一台个人计算机,这些学生中一个学生拥有一台个人电脑的概率是98%(置信度或确定度)。 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。 聚类根据数据内部的相似性,最小化类之间的相似性的原则进行聚类或分组,形成的每一簇可以被看作一个对象类。聚类也用于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。 数据演变分析是描述和模型化随时间变化的对象的规律或趋势。尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类和预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析。 3.给出一个例子,其中数据挖掘对于商务的成功是至关重要的。并说明该商务需要什么数 据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗? 解答: 以一个百货公司为例,它可以应用数据挖掘来帮助其进行目标市场营销。运用数据挖掘功能例如关联规则挖掘,百货公司可以根据销售记录挖掘出强关联规则,来决定哪一类商品是消费者在购买某一类商品的同时,很有可能去购买的,从而促使百货公司进行目标市场营销。数据查询处理主要用于数据或信息检索,没有发现关联规则的方法。 同样地,简单的统计分析没有能力处理像百货公司销售记录这样的大规模数据。 4.数据仓库和数据库有什么不同?有哪些相似之处? 解答:

答案.数据库基础概念答案

数据库的基本概念 1、用二维表结构表达实体集的模型是( D )。 A、概念模型 B、层次模型 C、网状模型 D、关系模型 2、DB、DBMS和DBS三者之间的关系是( B )。 A、DB包括DBMS和DBS B、DBS包括DB和DBMS C、DBMS包括DB和DBS D、不能相互包括 3、模式的逻辑子集通常称为( C )。 A、存储模式 B、内模式 C、外模式 D、模式 4、DBMS的含义是( B )。 A、数据库系统 B、数据库管理系统 C、数据库管理员 D、数据库 5、在关系模型中,为了实现“关系中不允许出现相同元组”的约束应使用( B )。 A、临时关键字 B、主关键字 C、外部关键字 D、索引关键字 6、数据库中,实体是指( C )。 A、事物的某一特征 B、事物的具体描述 C、客观存在的事物 D、某一具体事件 7、数据库与数据库系统之间的关系是( A )。 A、后者包含前者 B、前者包含后者

C、互不相干 D、同一东西的不同称呼 8. 数据库系统实现数据独立性是因为采用了( A )。 A.三级模式结构 B.层次模型 C.网状模型 D.关系模型 9.一个关系只有一个(D )。 A. 候选码 B.外码 C. 新码 D.主码 10.设一个仓库存放多种商品,同一种商品只能存放在一个仓库中,仓库与商品是(B )。 A.一对一的联系 B.一对多的联系 C.多对一的联系D.多对多的联系 11. 在数据库系统中,下面关于层次模型的说法正确的是( D )。A.有多个根结点 B.有两个根结点C.根结点以外的其它结点有多个双亲 D.根结点以外的其它结点有且仅有一个双亲 12. 规范化的关系模式中,所有属性都必须是( C )。 A.相互关联的 B.互不相关的 C.不可分解的 D.长度可变的 13. 视图是从一个或多个基本表(视图)导出的表,它相当于三级模式结构中的()。 A.外模式B.模式C.内模式D.存储模式

数据挖掘基础知识

数据挖掘基础知识 一、数据挖掘技术的基本概念 随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数据量与日俱增。企业数据实际上是企业的经验积累,当其积累到一定程度时,必然会反映出规律性的东西;对企业来,堆积如山的数据无异于一个巨大的宝库。在这样的背景下,人们迫切需要新一代的计算技术和工具来开采数据库中蕴藏的宝藏,使其成为有用的知识,指导企业的技术决策和经营决策,使企业在竞争中立于不败之地。另一方面,近十余年来,计算机和信息技术也有了长足的进展,产生了许多新概念和新技术,如更高性能的计算机和操作系统、因特网(intemet)、数据仓库(datawarehouse)、神经网络等等。在市场需求和技术基础这两个因素都具备的环境下,数据挖掘技术或称KDD(KnowledgeDiscovery in Databases;数据库知识发现)的概念和技术就应运而生了。 数据挖掘(Data Mining)旨在从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。 二、数据挖掘的基本任务 数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。 1. 关联分析(association analysis) 关联规则挖掘由Rakesh Apwal等人首先提出。两个或两个以上变量的取值之间存在的规律性称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。 2. 聚类分析(clustering) 聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。 3. 分类(classification) 分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。 4. 预测(predication) 预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。 5. 时序模式(time-series pattern) 时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。 6. 偏差分析(deviation) 在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。

数据库原理基本概念英文解释

数据库原理基本概念 Basic concepts of database theory 一、数据---Data Data is everything. Data can exist in a variety of forms -- as digital numbers, text, image, sound, video and etc. 二、数据库---Database A database is a repository for a collection of computerized data files. A database is an organized collection of data for one or more purposes, usually in digital form. The data are typically organized to model relevant aspects of reality (for example, the availability of rooms in hotels), in a way that supports processes requiring this information (for example, finding a hotel with vacancies). The term "database" refers both to the way its users view it, and to the logical and physical materialization of its data, content, in files, computer memory, and computer data storage. 三、数据库系统---DBS(Database System) A database system is a term that is typically used to encapsulate the constructs of a data model, database Management system (DBMS) and database. 四、数据库管理系统---DBMS(Database Management System) A database management system (DBMS) is a software package with computer programs that control the creation, maintenance, and the use of a database. It allows organizations to conveniently develop databases for various applications by database administrators (DBAs) and other specialists. A collection of programs that enables you to store, modify, and extract information from a database.

互联网数据挖掘基本概念

【最新资料,Word版,可自由编辑!】 介绍邦弗朗尼原理(Bonferroni’sprinciple),该原理实际上对数据挖掘的过度使用提出了警告。本章还概述了一些非常有用的思想,它们未必都属于数据挖掘的范畴,但是却有利于理解数据挖掘中的某些重要概念。这些思想包括度量词语重要性的TF.IDF权重、哈希函数及索引结构的性质、包含自然对数底e 的恒等式等。最后,简要介绍了后续章节所要涉及的主题。 1.1数据挖掘的定义 最广为接受的定义是,数据挖掘(datamining)是数据“模型”的发现过程。而“模型”却可以有多种含义。下面介绍在建模方面最重要的几个方向。 1.1.1统计建模 最早使用“datamining”术语的人是统计学家。术语“datamining”或者“datadredging”最初是贬义词,意指试图抽取出数据本身不支持的信息的过程。1.2节给出了这种挖掘情况下可能犯的几类错误。当然,现在术语“datamining”的意义已经是正面的了。目前,统计学家认为数据挖掘就是统计模型(statisticalmodel)的构建过程,而这个统计模型指的就是可见数据所遵从的总体分布。 例1.1假定现有的数据是一系列数字。这种数据相对于常用的挖掘数据而言显得过于简单,但这只是为了说明问题而采用的例子。统计学家可能会判定这些数字来自一个高斯分布(即正态分布),并利用公式来计算该分布最有可能的参数值。该高斯分布的均值和标准差能够完整地刻画整个分布,因而成为上述数据的一个模型。 1.1.2机器学习 有些人将数据挖掘看成是机器学习的同义词。毫无疑问,一些数据挖掘方法中适当使用了机器学习算法。机器学习的实践者将数据当成训练集来训练某类算法,比如贝叶斯网络、支持向量机、决策树、隐马尔可夫模型等。 某些场景下上述的数据利用方式是合理的。机器学习擅长的典型场景是人们对数据中的寻找目标几乎一无所知。比如,我们并不清楚到底是影片的什么因素导致某些观众喜欢或者厌恶该影片。因此,在Netflix竞赛要求设计一个算法来预测观众对影片的评分时,基于已有评分样本的机器学习算法获得了巨大成功。在9.4节中,我们将讨论此类算法的一个简单形式。 另一方面,当挖掘的目标能够更直接地描述时,机器学习方法并不成功。一个有趣的例子是,WhizBang!实验室1曾试图使用机器学习方法在Web上定位人们的简历。但是不管使用什么机器学习算法,最后的效果都比不过人工设计的直接通过典型关键词和短语来查找简历的算法。由于看过或者写过简历的人都对简历包含哪些内容非常清楚,Web页面是否包含简历毫无秘密可言。因此,使用机器学习方法相对于直接设计的简历发现算法而言并无任何优势。 1.1.3建模的计算方法 1 该初创实验室试图使用机器学习方法来进行大规模数据挖掘,并且雇用了大批机器学习高手来实 现这一点。遗憾的是,该实验室并没有能够生存下来。

(完整版)数据库系统概念题目及答案

1.为什么要研究关系规范化理论? 答关系数据库的设计直接影响着应用系统的开发、维护及其运行效率。一个不好的关系模式会导致插入异常、删除异常、数据冗余(修改异常)等问题。为此,人们提出了关系数据库规范化理论。它依据函数依赖,采用模式分解的方法,将一个低一级范式的关系模式转换为若干个高一级范式的关系模式的集合,从而消除各种异常,把不好的关系数据库模式转化为好的关系数据库模式。 2.理解并写出下列术语的含义。 函数依赖,平凡函数依赖,非平凡函数依赖, 1NF范式,BCNF范式,3NF范式,规范化,无损连接性,依赖保持性。 答: .函数依赖:设关系模式R(A 1,A 2 ,…,A n ),X,Y是R的两个属性集合, X?R(A 1,A 2 ,…,A n )及Y?R(A 1 ,A 2 ,…,A n ),R[X,Y]是关系只在属性XUY上的 投影,当任何时刻R[X,Y]中任意两个元组中的X属性值相同时,则它们的Y属性值也相同.那么称X函数决定Y,或Y函数依赖于X,记作X→Y。 .平凡函数依赖与非平凡函数依赖:当属性集合Y是属性集合X的子集时,则存在函数依赖X→Y。这说明一组属性函数决定它的所有子集。这种类型的函数依赖称为平凡函数依赖。如果X→Y且Y?X,则称X→Y是非平凡的函数依赖。 .1NF范式:定义;如果关系模式的所有属性的值域中每一个值都是不可再分解的值,则称只属于第一范式(1NF)。 lNF是关系模式的最低要求。这一限制是在关系的基本性质中提出的,每个关系模式都必须遵守。 .BCNF范式:定义:若关系模式R∈lNF且每个非主属性都完全函数依赖于R 的每个键,关系模式及属于第二范式(只E2NF)。 .3NF范式:定义: .规范化:把一个低一级范式的关系模式转换为若干个高一级范式的关系模式的集合的过程叫做规范化。 .范式:规范化理论认为,一个关系数据库中所有的关系,都应满足一定的要求,它把关系应满足的规范要求分成几级,并为每一级定义了相应的约束条件集,称为范式。 .无损连接性:设有关系模R(U)中存在函数依赖集F,R被分解为R1(U 1 ), …,R k (U k ),如果这些关系模式的自然连接与原关系模式R完全相等,则称该分 解具有无损连接性。 .依赖保持性:设有关系模式R(U)中存在函数依赖集F,R被分解加R 1(U 1 ), …,R k (U k ),且R i (U i )(1≤i≤k)所包含的函数依赖集为F i ,如果∪ 1 k F i 与F等 价,则称该分解具有依赖保持性。 3.什么叫关系模式分解?为什么要有关系模式分解?关系模式分解要遵守什么规则? 答:关系模式分解指采用投影的方式将一个关系模式R(U)分解为R 1(U 1 ),…, R k (U k ),其中不存在U i ?U j (1≤i,j≤k),并且U 1 ∪U 2 ∪…∪U k =U。关系模式分 解是规范化的主要手段,通过关系模式分解可以把一个低一级范式的关系模式分解为若干个高一级范式的关系模式的集合。关系模式分解应当具有无损连接性和依赖保持性。

数据库复习基本知识

数据库复习基本知识 1、数据库的4个基本概念:数据(描述事物的符号记录)、数据库(长期存储在计算机内、有组织的、可共享的大量数据的集合。数据库中的数据按一定的数据模型组织、描述和存储,具有较小的冗余度、较高的数据独立性和易扩展性,并可为各种用户共享概括的讲,数据库数据具有永久存储、有组织和可共享三个基本特点)、数据管理系统(DBMS)和数据库系统(DBS) 2、数据库系统的特点:数据结构化(数据库系统实现整体数据的结构化,这是数据库的主要特征这一,也是数据库系统与文件系统的本质区别)、数据的共享性高、冗余度低且易扩充(数据共享可以大大减少数据冗余,节约存储空间,数据共享还能够避免数据之间的不相容性与不一致性)、数据的独立性高(物理独立性和逻辑独立性)、数据由数据库管理系统统一管理和控制(必须具备的4各控制功能1、数据的安全性保护2、数据的完整性检查 3、并发控制 4、数据库恢复) 3、数据库的定义:数据库是长期存储在计算机内有组织、大量、共享的数据集合。它可以提供各种用户共享,具有最小冗余度和较高的数据独立性。数据库管理系统在数据库建立、运用和维护时对数据库进行统一控制,以保证数据的完整性和安全性,并在多用户同时使用数据库时进行并发控制,在发生故障后对数据库进行恢复。 4、两大数据模型:1、概念模型(也称信息模型,主要用于数据库设计)2、数据模型(包括逻辑模型和物理模型逻辑模型主要用于数据库管理系统的实现)数据模型应满足三方面的要求:1、能比较真实的模拟现实世界2、容易为人所理解3、便于在计算机上实现 < 5、概念模型:它是按用户的观点来对数据和信息建模,主要用于数据库设计,从现实世界到概念模型的转换是由数据库设计人员完成的。 6、数据模型:它是对现实世界数据特征的抽象。是用来描述数据、组织数据和对数据进行操作的。数据模型是数据库系统的核心和基础。包括逻辑模型(主要包括层次模型、网状模型、关系模型等。它是按计算机系统的观点对数据建模,主要用于数据库管理系统的实现)和物理模型(对数据最底层的抽象,它描述数据在系统内部的表示方式和存取方方法是面向计算机系统的)从概念模型到逻辑模型的转换可以有数据可设计人员完成,也可以用数据可设计工具协助设计人员完成;从逻辑模型到物理模型的转换主要由数据库管理系统完成。 7、数据模型的组成三要素:1.数据结构(数据结构描述数据库的组成对象以及对象之间的联系,是对系统静态特性的描述,相对来说属稳定不变的)2.数据操作(对数据库中各种对象的值允许执行的操作及有关操作规则,主要有查询和更新两大类操作是对系统动态特性的描述)3.数据的完整性约束条件(数据的完整性约束条件是一组完整性规则在关系模型中,任何关系必须满足实体完整性和参照完整性两个条件) /

数据库基本概念

1第 1章 数据库基本概念 数据库是企业、组织或部门所涉及的存储在一起的相关数据的集合,它反映了数据本身 的内容及数据之间的联系。 Visual FoxPro 是目前优秀的数据库管理系统之一。掌握数据库及数据库管理系统的基本 概念,有助于在 Visual FoxPro的可视化环境下,使用面向对象的方法开发出功能良好的数据 库和应用程序。本章主要介绍数据库、数据库管理系统、关系及关系数据库的基本概念、关系 数据库设计的基本知识。 1.1 数据模型 说到模型我们并不陌生,例如,一张地图、一辆汽车模型都是具体的模型。模型是现实 世界特征的模拟和抽象。数据模型也是一种模型,它是现实世界数据特征的抽象。 1.1.1 现实世界的数据描述 数据库是某个实际问题中涉及的数据的综合,它不仅要反映数据本身的内容,而且要反 映数据之间的联系。 由于计算机不能直接描述现实世界中的具体事物, 所以人们必须事先把具 体事物转换成计算机能够处理的数据。 这个过程经历了从对现实生活中事物特性的认识、 概念 化到计算机数据库里的具体表示的逐级抽象过程。 1.实体的描述 现实世界中存在各种事物,事物之间存在着联系,这种联系是客观存在的,是由事物本 身的性质所决定的。 例如, 图书馆中有图书和读者, 读者借阅图书; 学校的教学系统中有教师、 学生和课程,教师为学生授课,学生选修课程并取得成绩。 (1)实体。 实体是指客观存在并且相互区别的事物。例如,某个教师、某个学生、某一本图书都是

Visual FoxPro 程序设计 2 1 C h a p t e r 实体。实体也可以是抽象的概念或联系,如学生的一次选课。 (2)实体的属性。 实体的属性是指描述实体的特性,即实体是通过属性来描述的。比如:学生实体的属性 有学号、姓名、性别等。属性由属性名、类型和属性值组成。比如, “姓名”是属性名,类型 为字符型,对于某个具体的学生而言,其属性值为“刘明” 。 (3)实体型。 属性的集合表示一种实体的类型,称为实体型。例如,图书实体的实体型表示为(书号, 书名,作者,单价) ;职工实体的实体型表示为(职工号,姓名,性别,出生日期,职称)。 (4)实体集。 同一类型的实体的集合,称为实体集。例如,某单位所有职工按照职工实体型的描述得 到的数据构成职工实体集。 在 Visual FoxPro 中,用“表”来存放同一类实体组成的实体集,如图 1-1 所示的学生档 案表。一个“表”中包含的若干个“字段”即为实体的属性,如表中的学号、姓名、性别等均 为字段;字段值的集合组成表中的一条记录,代表一个具体的实体,如表中的一行 (08010402001,李刚,男,03/12/90,F ,浙江杭州,01,0104)即为一条学生记录。 图1-1 学生档案表 2.实体间联系及联系的种类 现实世界中,事物内部以及事物之间是有联系的,这些联系在信息世界中反映为不同类 型的实体之间的联系。例如,一名教师可以同时教授多个学生,每个学生也可以有多个老师。 实体间的联系共分三种类型: (1)一对一联系(one-to-one relationship ) 。 一对一联系是双向的一对一。如果有两个实体集 A 和 B ,A 中的每个实体只与 B 中的一 个实体相关联,而 B 中的每个实体也只与 A 中的一个实体相关联,我们称 A 和 B 是一对一的 联系。例如,班级和班长之间就是一对一的联系。 属性 实体集 实体型 实体

相关文档
最新文档