数据挖掘作业答案(浙大远程)

数据挖掘作业答案(浙大远程)
数据挖掘作业答案(浙大远程)

《数据挖掘》作业答案

第一章引言

一、填空题

(1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示

(2)算法的效率、可扩展性和并行处理

(3)统计学、数据库技术和机器学习

(4)WEB挖掘

(5)一些与数据的一般行为或模型不一致的孤立数据

二、单选题

(1)B;(2)D;(3)D;(4)B;(5)A;(6)B;(7)C;(8)E;

三、简答题

(1)什么是数据挖掘?

答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。

(2)一个典型的数据挖掘系统应该包括哪些组成部分?

答:一个典型的数据挖掘系统应该包括以下部分:

数据库、数据仓库或其他信息库

数据库或数据仓库服务器

知识库

数据挖掘引擎

模式评估模块

图形用户界面

(3)请简述不同历史时代数据库技术的演化。

答:1960年代和以前:研究文件系统。

1970年代:出现层次数据库和网状数据库。

1980年代早期:关系数据模型, 关系数据库管理系统(RDBMS)的实现

1980年代后期:出现各种高级数据库系统(如:扩展的关系数据库、面向对象数据库等等)以及面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等。

1990年代:研究的重点转移到数据挖掘, 数据仓库, 多媒体数据库和网络数据库。

2000年代:人们专注于研究流数据管理和挖掘、基于各种应用的数据挖掘、XML 数据库和整合的信息系统。

(4)请列举数据挖掘应用常见的数据源。

(或者说,我们都在什么样的数据上进行数据挖掘)

答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。

(5)什么是模式兴趣度的客观度量和主观度量?

答:客观度量指的是基于所发现模式的结构和关于它们的统计来衡量模式的兴趣度,比如:支持度、置信度等等;主观度量基于用户对数据的判断来衡量模式的兴趣度,比如:出乎意料的、新颖的、可行动的等等。

(6)在哪些情况下,我们认为所挖掘出来的模式是有趣的?

答:一个模式是有趣的,如果(1) 它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。(7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?

答:根据挖掘的知识类型,数据挖掘系统可以分为特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析,多种方法的集成和多层级挖掘等类型。

第二章数据仓库和数据挖掘的OLAP技术

一、填空题

(1)星形模式、雪花模式和事实星座模式

(2)不物化、部分物化和全物化

(3)面向主题、数据集成、随时间而变化和数据不易丢失

(4)事务操作,只读查询

(5)分布的、代数的和整体的

(6)自顶向下视图、数据源视图、数据仓库视图、商务查询视图

(7)关系OLAP服务器(ROLAP)、多维OLAP服务器(MOLAP)和混合OLAP服务器(HOLAP) (8)分布的

(9)海量数据,有限的内存和时间

二、单选题

(1)B;(2)D;(3)C;(4)A;(5)B

三、多选题

(1)ABD;(2)ABC;(3)BCD;(4)ACD;

四、简答题

(1)为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。

答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:

(1)提高两个系统的性能

操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处

理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复

杂的OLAP查询, 多维视图,汇总等OLAP功能提供了优化。

(2)两者有着不同的功能

操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访

问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降

低OLAP的性能。

(3)两者有着不同的数据

数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。

(2)为什么说数据仓库具有随时间而变化的特征?

答:(1)数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统主要保存当前数据,而数据仓库从历史的角度提供信息(比如过去5-10 年)。

(2)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。

(3)试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(update-driven),而不愿使用查询驱动(query-driven)的方法?

答:因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需要聚集操作的查询,开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理。此外,数据仓库存储并集成历史信息,支持复杂的多维查询。

(4)请简述几种典型的多维数据的OLAP操作

答:典型的OLAP操作包括以下几种

上卷:通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集;

下钻:上卷的逆操作,由不太详细的数据得到更详细的数据;通常可以通过沿维的概念分层向下或引入新的维来实现;

切片:在给定的数据立方体的一个维上进行选择,导致一个子方;

切块:通过对两个或多个维执行选择,定义子方;

转轴:转动数据的视角,提供数据的替代表示;

钻过:执行涉及多个事实表的查询;

钻透:使用关系SQL机制,钻到数据立方体的底层,到后端关系表

(5)为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失?

答:(1)尽管数据仓库中的数据来自于操作数据库,但它们却是在物理上分离保存的,操作数据库的更新操作不会出现在数据仓库环境下。

(2)数据仓库不需要事务处理,恢复,和并发控制等机制。

(3)数据仓库只需要两种数据访问:数据的初始转载和数据访问(读操作)。

(6)假定Big_University的数据仓库包含如下4个维:student, course, semester和instructor;2个度量:count和avg_grade。在最低得到概念层(例如,对于给定的学生、课程、学期和教师的组合),度量avg_grade存放学生的实际成绩。在较高的概念层,avg_grade存放给定组合的平均成绩。

(a)为数据仓库画出雪花模式图。

(b)由基本方体[student, course, semester, instructor]开始,为列出Big_University每个学

生的CS课程的平均成绩,应当使用哪些OLAP操作(如,由学期上卷到学年)。

(c)如果每维有5层(包括all),如student < major < status < university < all,该数据

方包含多少方体(包含基本方体和顶点方体)?

(7)在数据仓库中,元数据的主要用途包括哪些?

答:在数据仓库中,元数据的主要用途包括:

(1)用作目录,帮助决策支持系统分析者对数据仓库的内容定义

(2)作为数据仓库和操作性数据库之间进行数据转换时的映射标准

(3)用于指导当前细节数据和稍加综合的数据之间的汇总算法,指导稍加综合的数据和高度综合的数据之间的汇总算法。

(8)数据仓库后端工具和程序包括哪些?

答:数据仓库后端工具主要指的是用来装入和刷新数据的工具,包括:

(1)数据提取:从多个外部的异构数据源收集数据

(2)数据清理:检测数据种的错误并作可能的订正

(3)数据变换:将数据由历史或主机的格式转化为数据仓库的格式

(4)装载:排序、汇总、合并、计算视图,检查完整性,并建立索引和分区

(5)刷新:将数据源的更新传播到数据仓库中

五、计算题

(1)答:a. 内存空间需求量最小的块计算次序和内存空间需求量最大的块计算次序分别如下图所示:

ABC

BC AC AB A

B

C all 内存空间需求最小的块计算次序ABC

BC AC

AB A

B

C

all

内存空间需求最大的块计算次序 b. 这两个次序下计算二维平面所需要的内存空间的大小:

内存空间需求最小的次序:10,000×1,000(用于整个BC 平面)+(100,000/10)×1,000(用于AC 平面的一行)+(100,000/10)×(10,000/10)(用于AB 平面的一格)=30,000,000 内存空间需求量最大的块计算次序:

100,000×10,000(用于整个AB 平面)+100,000×(1,000/10)(用于AC 平面的一行)+(10,000/10)×(1,000/10)=1,010,100,000

第三章数据预处理

一、填空题

(1)数据清理、数据集成、数据变换、数据规约

(2)分箱、聚类、计算机和人工检查结合、回归

(3)整合不同数据源中的元数据,实体识别问题

(4)沿概念分层向上概化

(5)有损压缩,无损压缩

(6)线性回归方法,多元回归,对数线性模型

(7)五数概括、中间四分位数区间、标准差

二、单选题

(1)C;(2)A;(3)D;(4)C;(5)C;(6)B

三、多选题

(1)ABC;(2)BD;(3)ABC;(4)BD;(5)ACD

四、简答题

(1)常用的数值属性概念分层的方法有哪些?

答:常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。

(2)典型的生成分类数据的概念分层的方法有哪些?

答:典型的生成分类数据的概念分层的方法包括:

(1)由用户或专家在模式级显示的说明属性的部分序;

(2)通过显示数据分组说明分层结构的一部分。

(3)说明属性集,但不说明它们的偏序,然后系统根据算法自动产生属性的序,构造有意义的概念分层。

(4)对只说明部分属性集的情况,则可根据数据库模式中的数据语义定义对属性的捆绑信息,来恢复相关的属性。

(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。

答:处理空缺值的方法有:

(1)忽略元组。当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。

(2)人工填写空缺值。这种方法工作量大,可行性低

(3)使用一个全局变量填充空缺值:比如使用unknown或-∞

(4)使用属性的平均值填充空缺值

(5)使用与给定元组属同一类的所有样本的平均值

(6)使用最可能的值填充空缺值。如使用像Bayesian公式或判定树这样的基于推断的方法

(4)常见的数据归约策略包括哪些?

答:数据归约策略包括:

(1)数据立方体聚集

(2)维归约

(3)数据压缩

(4)数值归约

(5)离散化和概念分层产生

第四章数据挖掘原语、语言和系统结构

一、填空题

(1)模式分层,集合分组分层,操作导出的分层,基于规则的分层

(2)简单性、确定性、实用性、新颖性

(3)最小置信度临界值、最小支持度临界值

二、单选题

(1)C;(2)D

三、多选题

(1)AC

四、简答题

(1)定义数据挖掘任务的原语,主要应该包括哪些部分?

答:一个定义数据挖掘任务的原语主要应该包括以下部分的说明:

说明数据库的部分或用户感兴趣的数据集;

要挖掘的知识类型;

用于指导挖掘的背景知识;

模式评估、兴趣度量;

如何显示发现的知识。

(2)为什么需要数据挖掘原语和语言来指导数据挖掘?

答:如果不使用数据挖掘原语和语言来指导数据挖掘

(1)会产生大量模式(重新把知识淹没)

(2)会涵盖所有数据,使得挖掘效率低下

(3)大部分有价值的模式集可能被忽略

(4)挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性——令人不感兴趣。

(3)描述如下将数据挖掘系统与数据库或数据仓库系统集成的结构之间的差别:不耦合、松散耦合、半紧密耦合和紧密耦合。

答:不耦合:DM系统不利用DB/DW系统的任何功能。这种集成结构简单,但是没有利用数据库的功能意味着信息分析处理借助第三方工具,这使得系统的构建和集成变得很困难。

松散耦合:DM系统将使用DB/DW系统的某些功能。这种集成结构简单地利用DB/DW提供的数据查询功能,没有使用DB/DW的后台优化,算法大部分是基于内存的,性能和可扩展性差。

半紧密耦合:除了将DM系统连接到一个DB/DW系统之外,一些基本数据挖掘原语(通过分析频繁遇到的数据挖掘功能确定)可以在DB/DW系统中实现。如此一来,一些中间的挖掘结果可以在DB/DW上实现计算或有效的即时计算,性能会有较大提高。

紧密耦合:DM系统平滑的集成到DB/DW系统中。数据挖掘子系统被视为信息挖掘子系统的一部分,数据挖掘查询和功能根据DB或DW系统的挖掘查询分析、数据结构、索引模式和查询处理方法优化。这种结构提供了一个统一的信息处理平台,功能、性能等方面都会达到一个高水平。

(4)数据挖掘的GUI可能包含哪些部分?

答:数据挖掘的GUI可能包含以下部分:

(1)数据收集和数据查询编辑(2)发现模式的表示

(3)分层结构说明和操纵(4)数据挖掘原语的操作(5)交互的多层挖掘

(6)其他各种信息

第五章概念描述:特征化与比较

一、填空题

(1)特征化、区分

(2)数据收集、维相关分析、同步概化、导出比较的表示

(3)描述性挖掘和预测性挖掘

(4)信息增益、Gini索引、不确定性和相关系数

(5)五数概括、中间四分位数区间、标准差

二、单选题

(1)C;(2)D;(3)C;(4)B;(5)B

三、多选题

(1)BD;(2)ABD;(3)AD

四、简答题

(1)简述类比较的过程。

答:类比较的过程一般包括以下四个步骤:

(1)数据收集

通过查询处理收集数据库中相关的数据,并将其划分为一个目标类和一个或多个对

比类;

(2)维相关分析

使用属性相关分析方法,使我们的任务中仅包含强相关的维;

(3)同步概化

同步的在目标类和对比类上进行概化,得到主目标类关系/方体和主对比类关系/

方体;

(4)导出比较的表示

用可视化技术表达类比较描述,通常会包含“对比”度量,反映目标类与对比类间

的比较。

(2)简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。

答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。聚集通过合并相等的广义元组,并累计他们相应的技术值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式,如图表或规则,提供用户。

使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是(1)在此属性上没有概化操作符,或(2)它的较高层概念用其他属性表示;

使用属性概化的情况:如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在着概化操作符。

(3)简述概念描述的属性相关分析的基本步骤。

答:(1)数据收集:通过查询处理,收集目标类和对比类的数据;

(2)使用保守的AOI进行预相关分析:这一步识别属性和维的集合,选择的相关性度量用于他们;

(3)使用选定的相关分析度量删除不相关和弱相关属性:使用选定的相关分析度量,评估候选关系中的每个属性;

(4)使用AOI产生概念描述:使用一组不太保守的属性概化临界值进行AOI。(4)简要叙述概念描述和OLAP之间的主要区别。

答:两者的主要区别有:

(1)概念描述可以处理复杂数据类型的属性及其聚集,而实际使用的OLAP系统中,维和度量的数据类型都非常有限(非数值型的维和数值型的数据),

表现为一种简单的数据分析模型。

(2)OLAP是一个由用户控制的过程,而概念描述是一个更加自动化的过程。(5)为什么进行属性相关分析?

答:数据仓库和OLAP系统中的多维数据分析缺乏一个自动概化过程,这使得这个过程中需要有很多用户干预。用户必须告诉系统哪些维或属性应当包含在类分析中。如果选择的属性太少,则造成挖掘的描述结果不正确;属性太多,浪费计算、淹没知识。通过属性相关分析,可以更容易地发现属性之间的相关性,滤掉统计上不相关或弱相关的属性,保留对手头数据挖掘任务最相关的属性。

(6)简述进行概念描述时,面向数据库的方法和机器学习的主要区别。

答:面向数据库的方法指的是面向大型数据库的概念描述的概化方法,使用基于数据立方体的方法或面向属性的归纳的方法。机器学习使用示例学习的范例,在概念集或标定训练样本集上进行,通过检验这些集合在学习中导出关于描述类的假定。

(7)什么是概念描述的增量挖掘?

答:增量挖掘根据数据库中新增的数据△DB来修正挖掘的结果,而不是重新从修正过的数据库中进行挖掘而得到结果。

第六章大型数据库中的关联规则挖掘

一、填空题

(1)支持度和置信度

(2)连接和剪枝

(3)包含项集的事务数

(4)找出所有频繁项集、由频繁项集产生强关联规则

(5)布尔关联规则、量化关联规则

(6)频繁项集的所有非空子集也必须是频繁的

(7)量化属性的静态离散化、量化关联规则、基于距离的关联规则

(8)反单调的、单调的、简洁的、可转变的、不可转变的

(9)频繁谓词集

二、单选题

(1)A;(2)A;(3)B;(4);(5)C

三、多选题

(1)BD;(2)BC;(3)ABD

四、简答题

(1)对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点?

答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括:

逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不管其父节点是否频繁。特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联;

层交叉k-项集过滤:一个第i层的k-项集被考察,当且仅当它在第(i-1)层的对应父节点的k-项集是频繁的。特点是限制太强,有些有价值的模式可能被该方法过滤掉;

层交叉单项过滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的。它是上述两个极端策略的折中。

(2)给出一个例子,表明强关联规则中的项可能实际上是负相关的。

答:例如教材《数据挖掘:概念与技术》中例6.6和表6.4。

(3)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。

答:对所有层都使用一致的最小支持度,优点在于:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索;缺点在于:最小支持度值设置困难,如果设置太高,将丢掉出现在较低抽象层中有意义的关联规则,如果设置太低,会在较高层产生太多的无兴趣的规则。

(4)什么是简洁性约束?

答:一个约束被称为简洁的,如果我们可以列出并仅仅列出所有确保满足该约束的集合。利用简洁性约束,我们可以在计数前进行剪枝,从而避免产生-测试方式的过大开销。

第七章分类和预测

一、填空题

(1)准确性、有效性和可伸缩性

(2)先剪枝、后剪枝

二、单选题

(1)C;(2)B;(3)C

三、简答题

(1)简述判定树分类的主要步骤。

答:首先是生成判定树。分为2个步骤:

(1)归纳生成判定树。开始时,所有的训练样本都在根节点,然后递归的通过选定的离散值属性,来划分样本,直至满足停止条件。

(2)树剪枝。许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝

接下来在判定树的使用中,对于某一未知样本,通过将样本的属性值与判定树相比

较来判断其类别归属。

(2)在判定树归纳中,为什么树剪枝是有用的?

答:当判定树创建时,由于数据中的噪声和孤立点,许多分枝反应的是训练数据中的异常。剪枝方法处理这种过分适应数据的问题。通常,这种方法使用统计度量,剪去最不可靠的分枝,这将导致较快的分类,提高树独立于测试数据正确分类的可靠性。

(3)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类的主要思想。

答:朴素贝叶斯分类被称为“朴素”的原因是计算元组的类条件出现概率时,做了类条件独立的朴素假定。贝叶斯分类的主要思想参考教材《数据挖掘:概念与技术》7.4.2小节。

(4)请简述判定树归纳算法的基本策略。

答:

1.树以代表训练样本的单个节点开始

2.如果样本都在同一个类,则该节点成为树叶,并用该类标记

3.否则,算法使用基于熵的度量——信息增益作为指导信息,选择能够最好的将

样本分类的属性;该属性成为节点的“测试”或“判定”属性。(使用分类属性)

4.对测试属性每个已知的值,创建一个分支,并以此划分样本

5.算法使用同样的过程,递归的形成每个划分上的样本判定树。一旦一个属性出

现在一个节点上,就不在该节点的任何子节点上出现

6.递归划分步骤停止的条件有:(1)给定节点的所有样本属于同一类(2)没有剩

余属性可以用来进一步划分样本——使用多数表决(3)没有剩余的样本

(5)对分类和预测方法进行比较和评估的标准都有哪些?

答:(1)导出分类法后,再使用训练数据评估分类法,这种方法可能错误的导致乐观的估计。

(2)保持方法:给定数据随机划分为两个集合:训练集(2/3)和测试集(1/3)。训练集导出分类法,测试集对其准确性进行评估。随机子选样是保持方法的一个变形,将保持方法重复k次,然后取准确率的平均值。

(3)k-折交叉确认:初始数据被划分为k个不相交的,大小大致相同的子集S1,S2…

Sk。进行k次训练和测试,第i次时,以Si做测试集,其他做训练集。准确率为k次

迭代正确分类数除以初始数据集样本总数。

(6)简述数据分类的两步过程。

答:第一步,建立一个模型,描述预定数据类集和概念集。训练数据集由为建立模型而被分析的数据元组形成,其中每个元组属于一个预定义的类,由一个类标号属性确定。学习模型可以用分类规则、判定树或数学公式的形式提供。

第二步,使用模型,对将来的或未知的对象进行分类。模型在使用之前,要先评估模型的预测准确率。对每个测试样本,将已知的类标号和该样本的学习模型类预测比较。模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比。测试集要独立于训练样本集,否则会出现“过分适应数据”的情况。

(7)简述后向传播分类的优缺点。

答:优点

(1)预测精度总的来说较高

(2)健壮性好,训练样本中包含错误时也可正常工作

(3)输出可能是离散值、连续值或者是离散或量化属性的向量值

(4)对目标进行分类较快

缺点

(1)训练(学习)时间长

(2)蕴涵在学习的权中的符号含义很难理解

(3)很难跟专业领域知识相整合

四、算法题

判定树buys_PCGame如下所示:

第八章聚类分析

一、填空题

(1)划分方法、层次的方法、基于密度的方法

(2)数据分布的情况

(3)高类内相似度、低类间相似度

(4)数据矩阵、相异度矩阵

(5)处理数度快

(6)度量或执行错误、数据变异的结果

(7)数据分布、分布参数、预期的孤立点数

二、单选题

(1)C;(2)C;(3)C

三、简答题

(1)数据挖掘对聚类分析有哪些要求?

答:(1)可扩展性:大多数来自于机器学习和统计学领域的聚类算法只在处理数百条数据时能表现出高效率

(2)能够处理不同的数据类型

(3)发现任意形状聚类的能力

(4)最小化用于决定输入参数的领域知识

(5)能够处理噪声数据

(6)对于输入数据的顺序不敏感:同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果

(7)能够高效地处理高维数据

(8)支持基于约束的聚类

(9)可解释性和可用性:聚类要和特定的语义解释和应用相联系

(2)简述基于划分的聚类方法。划分的准则是什么?

答:给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,并且k<=n。每个簇至少包含一个对象,每个对象或元组属于且仅属于一个簇。划分的准则是同一个聚类中的对象尽可能地接近或相关,不同聚类中的对象尽可能地远离或不同。

(3)列举孤立点挖掘的常见应用。

答:孤立点挖掘的常见应用有

(1)信用卡欺诈检测

(2)移动电话欺诈检测

(3)客户划分

(4)医疗分析(异常)

(4)简单地描述如何计算由如下类型的变量描述的对象间的相异度:

a)不对称的二元变量

b)标称变量

c)比例标度型(ratio-scaled)变量

d)数值型的变量

答:a)不对称的二元变量中,变量的两个状态的重要性是不同的。基于不对称的二元变量的相似度称为非恒定的相似度,可以使用Jaccard系数评估它们的相异度:

b) 有两种方法。

方法一:简单匹配方法。设m 为匹配的数目,即对象i 和j 取值相同的变量的数目 (也可加上权重),i ,j 之间的相异度可由下式计算:

方法二:对M 个标称状态中的每个状态创建一个新的二元变量,并用M 个非对称的二元变量来编码标称变量。对于每一个元组中的变量,只有相应值的二元变量取1,其他二元变量取0。这样一来,就可以使用不对称二元变量的计算方法计算对象间的相异度了。

c)

如果采用与区间标度变量同样的方法,标度可能被扭曲,效果往往不好。可以对比例标度型变量进行对数变化之后进行与区间标度变量的相似处理,或者将比例标度型变量看作连续的序数型数据,将其秩作为区间标度的值来对待。

d) 数值型变量在可选的标准化后直接使用Manhattan 距离或Euclidean 距离来计算相异度。

(5)给出一个特定的聚类方法如何被综合使用的例子,例如,什么情况下一个聚类算法被用作另一个算法的预处理步骤。

答:例如,在网页结构化信息抽取的应用中,首先根据页面结构对网页进行聚类,然后在不同的网页聚类分组中挖掘共性的模板。 c b a c b j i d +++=),(p m p j i d -=),(

第九章电子商务与数据挖掘

一、填空题

(1)内容挖掘、结构挖掘、使用挖掘

(2)Web 服务器日志、Error Logs、Cookies

二、简答题

(1)列举WEB日志的字段。

答:常用的WEB日志的字段包括以下:

1)远程主机的地址

2)浏览者的email地址或者其他唯一标识符

3)记录浏览者进行身份验证时提供的名字

4)请求的时间

5)服务器收到的请求类型

6)状态代码,显示请求是否成功

7)发送给客户端的总字节数

(2)跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势?

答:跟其他应用领域相比,在电子商务中进行数据挖掘的优势包括:

电子商务提供海量的数据:

“点击流”(Clickstreams)将会产生电子商务挖掘的大量数据;

丰富的记录信息:

良好的WEB站点设计将有助于获得丰富的关于商品、分类、访客等等信息;

干净的数据:

从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合;

研究成果容易转化:

在电子商务中,很多知识发现都可以进行直接应用;

投资收益容易衡量:

所有数据都是电子化的,可以非常方便的生成各种报表和计算各种收益。

(3)列举WEB使用挖掘(Web Usage Mining)的应用。

答:通过WEB使用挖掘,可以(1)提高站点质量(2)改善WEB缓存,缓解网络交通,提高性能(3)在电子商务中还可捕捉到大量的采购过程的细节,为更加深入的分析提供了可能。

(4)基于Web日志的用户访问模式挖掘有什么缺点?

答:基于Web日志的用户访问模式挖掘的缺点有:

(1)WEB日志提供的数据非常有限,即使使用的是扩展日志格式。

(2)WEB日志的设计目的是分析WEB服务器的运行状况,而不是挖掘电子商务的交易数据和点击流。虽然Web日志中给出了被访问页面的URL,但是这

并不等于知道了该URL所指向的网页内容。

(3)随着互联网上的动态内容越来越多,基于WEB日志的分析与挖掘越来越困难。

(4)重构session十分困难。由于HTTP是无状态的,因此通过Web日志重构session只能依赖于假设与推断,而且用于假设与推断的数据也少得可怜。

(5)一些对数据挖掘很重要的商业相关事件无法由Web日志来决定,例如,购物车中物品数量的增减,网页上的促销信息,失败的关键字检索等等。

(6)Web日志中的内容无法映射到业务逻辑数据库。(5)电子商务中进行数据挖掘有哪些难点?

答:电子商务中进行数据挖掘的难点有:

(1)爬虫/机器人访问的过滤。

(2)大量数据的处理

(3)分析前的数据变换

(4)提供市场级的决策支持

浙江大学数据挖掘在线作业答案

您的本次作业分数为:100分 1.【第001章】孤立点挖掘适用于下列哪种场合? A 目标市场分析 B 购物篮分析 C 模式识别 D 信用卡欺诈检测 正确答案:D 2.【第01章】根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是()。 A 关联分析 B 分类和预测 C 演变分析 D 概念描述 正确答案:B 3.【第01章】数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于()。 A 所涉及的算法的复杂性 B 所涉及的数据量 C 计算结果的表现形式 D 是否使用了人工智能技术 正确答案:B 4.【第01章】下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析。 A 关联分析 B 分类和预测

C 聚类分析 D 演变分析 正确答案:D 5.【第01章】下列几种数据挖掘功能中,()被广泛的用于购物篮分析。 A 关联分析 B 分类和预测 C 聚类分析 D 演变分析 正确答案:A 6.【第01章】帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()。 A 关联分析 B 分类和预测 C 聚类分析 D 孤立点分析 E 演变分析 正确答案:C 7.【第01章】下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能。 A 选择任务相关的数据 B 选择要挖掘的知识类型 C 模式的兴趣度度量 D 模式的可视化表示 正确答案:B

8.【第01章】假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()。 A 关联分析 B 分类和预测 C 孤立点分析 D 演变分析 E 概念描述 正确答案:E 9.【第02章】下列哪种可视化方法可用于发现多维数据中属性之间的两两相关性? A 空间填充曲线 B 散点图矩阵 C 平行坐标 D 圆弓分割 正确答案:B 10.【第02章】计算一个单位的平均工资,使用哪个中心趋势度量将得到最合理的结果? A 算术平均值 B 截尾均值 C 中位数 D 众数 正确答案:B 11.【第02章】字段Size = {small, medium, large}属于那种属性类型? A 标称属性

浙江大学CAD实验室简介

?简介 浙江大学计算机辅助设计与图形学国家重点实验室为国家“七五”计划建设项目,一九八九年开始建设,一九九○年对外开放。一九九二年建成并通过国家验收。 计算机辅助设计与图形学是多学科交叉的高技术研究领域。本实验室主要从事计算机辅助设计、计算机图形学的基础理论、算法及相关应用研究。实验室的基本定位是:紧密跟踪国际学术前沿,大力开展原始性创新研究及应用集成开发研究,使实验室成为具有国际影响的计算机辅助设计与图形学的研究基地、高层次人才培养的基地、学术交流的基地和高技术的辐射基地。 近二十年来,实验室依托浙江大学计算机、数学、机械等学科,作为项目负责单位先后承担了一批国家级科重大研项目和国际合作项目,在计算机辅助设计与图形学的基础研究和系统集成等方面取得了一批重要成果,其中多项成果获国家奖励,并形成了一支学风正派、勤奋踏实、勇于创新的学术队伍。实验室积极推进国际合作,与美国、德国、英国、法国、日本等国外相关研究机构展开了广泛的学术合作和交流,产生了较大的国际学术影响,曾被国际权威期刊SCIENCE列为中国TOP-LEVEL国家重点实验室。实验室曾两次获得由国家科技部颁发的先进集体及个人“金牛奖”。 实验室拥有一流的软硬件平台以及丰富的数字资源,热忱欢迎国内外研究人员来室工作和交流。 潘云鹤院士任实验室学术委员会主任,鲍虎军研究员任实验室主任。 ?实验室的主要研究方向 1.计算机辅助设计 研究计算机辅助设计与分析模拟的前沿技术,解决产品模型的高效构建、可信分析、设计知识的有效表示与处理等关键问题,实现复杂产品设计开发所需的高效性、可靠性、集成性和智能性。重点研究: 高性能产品建模技术、仿真驱动设计技术、虚拟样机、设计知识获取与重用、面向领域的专业CAD技术与系统等。 2.图形与视觉计算 研究几何、材质、运动数据的获取、处理和表示的基础理论与算法,解决复杂对象的高效构建和逼真呈现等关键问题,研发高清影视、立体电视、三维游戏创作的软件系统,实现产业应用。重点研究:几何计算与设计、真实感图形的高效绘制、图象与三维视觉计算、计算机动画与游戏等。 3.虚拟现实 探索虚拟环境的真实感知以及虚实环境融合的一致性理论与方法,研究虚拟环境构建、绘制、显示、人机交互、增强现实等虚拟现实关键技术,研发混

2020年国内十大土木工程专业大学排名

2020年国内十大土木工程专业大学排名 2017年国内十大土木工程专业大学排名第一、同济大学 2017年国内十大土木工程专业大学排名第二、哈尔滨工业大学 哈尔滨工业大学(HarbinInstituteofTechnology),简称哈工大,是中华人民共和国工业和信息化部直属理工类全国重点大学,首批“211工程”、“985工程”重点建设院校,“九校联盟”、“中俄 工科大学联盟”成员,入选国家首批“111计划”、“2011计划”、“卓越计划”,为中管副部级建制,由工信部、教育部、黑龙江省 人民政府三方重点共建。 学校溯源于1920年创办的哈尔滨中俄工业学校,建校初衷为培 养铁路工程技术人才;而后历经“中俄工业大学校”、“哈尔滨工业 大学校”、“哈尔滨高等工业学校”等多个阶段,学校在1938年1 月正式定名为哈尔滨工业大学,沿用至今。 2017年国内十大土木工程专业大学排名第三、清华大学 清华大学由中华人民共和国教育部直属,位列“211工程”、“985工程”,入选“珠峰计划”、“2011计划”、“111计划”、“卓越工程师教育培养计划”、“卓越法律人才教育培养计划”、“卓越医生教育培养计划”,是C9联盟、东亚研究型大学协会、环 太平洋大学联盟、清华—剑桥—麻省理工学院低碳能源大学联盟成员,中管副部级建制。 2017年国内十大土木工程专业大学排名第四、东南大学 东南大学(SoutheastUniversity),简称东大,坐落于南京市, 是中央直管、教育部直属的副部级全国重点大学,中国著名的建筑 老八校之一,国家“211工程”、“985工程”首批重点建设的大学,是“卓越工程师教育培养计划”、“卓越医生教育培养计划”、

浙大远程英语2在线作业

英语(2)第1次 您的本次作业分数为:100分题 1. In considering people for jobs, we give ________ to those with some experience. A conference B review C preference D apology 正确答案:C 2.They are preparing for war on a large ________. A bank B size C degree D scale 正确答案:D 3.There was nothing in the letter of ________ importance. A peculiar B necessary C basic D particular 正确答案:D 4.I’m surprised by the sense of ________ he has with children. A easiness B ease C rest D alarm 正确答案:B 5.Schools in the north tend to be better equipped, ________ schools in the south are relatively poor. A which B as C for D while 正确答案:D 6. I really hope to discuss and ________ the problems with you. A explain B explore C experience D export

中国最好的10所土木工程系

中国最好的10所土木工程系: 1.清华大学 2.同济大学 3.天津大学4.东南大学 5.浙江大学 6.哈尔滨工业大学(哈尔滨建筑工程大学并入)7.华南理工大学8.湖南大学9.重庆大学(重庆建筑大学并入)10.西安建筑工程大学英国建筑师协会承认上述十所大学的土木工程系本科毕业文凭,这些十所大学的土木工程系毕业生可在英国申请工程师职称。 1. 清华大学学校名气就不用说了。今年清华土木系的招生可能又是令人失望。2001年我知道土木系的结构工程和防震减灾工程的录取最低分只有310分。2002年的情况呢?据现在的情况来看估计录取分大约335左右。专业课没有同济的相关专业难。有北京钢铁学院、北方交大、石家庄铁道学院等等学校报,可能是名气大的缘故,很多牛的同学不敢报。建议有实力的同学不必观望,下定决心,上的机会极大,考上后留学机会多多,前途大好。 2. 同济大学专业名气好,学校名气不是很强。处于上海,全国顶尖高手报名的热点,特别是结构工程,报名人数极多,危险系数大。专业课出得为同类高校最难,总分却不低于他们,特别是同济的结构力学和钢结构、材料力学、混凝土难。复试为差额,淘汰多。建议没有绝对实力和足够复习时间和把握的同学慎报。很牛的同学例外。建议报者六级80以上,数学基础好,力学有天赋。总分380以上有机会公费(还要看复试表现)。机会多,前途大好。 3. 天津大学 4. 东南大学这两所学校也是建筑业一流的学府。名气很响。也是报名比较多的学校。专业课并不很难。名气与同济大学旗鼓相当。竟争较激烈。建议报者有一定的把握和实力。是报清华、同济大学没绝对把握的同学的最佳选择。考上后,机会多,前途大好。 5. 浙江大学 6. 哈尔滨工业大学这两所学校也是建筑业名气较好的学府。浙江大学好环境。他们是全国十大名校。学校名气好。竟争比较激烈。建议报者有一定的把握和实力。是土木同学的好选择。考上后,机会多,前途大好。 7.华南理工大学位置好,处于广州。学校名气不错,土木专业好。在广东一带好找工作,工资较高。有一定实力同学的好选择。公费多,自费好象3000元。考上后,机会多,前途好。8. 湖南大学专业可排前5,但位置相对不太好,报人相对少。9. 重庆大学10. 西安建筑工程大学不敢考名校的同学的选择。还有上海交通大学、西安交大、华中科大等名校难度不大。上海交通大学好象招不满。中国最好的建筑系: 1.清华大学2.天津大学 3.东南大学 4.同济大学这四所大学的建筑系被我国建筑称为"老四所",实力不相上下,为我国的建筑界培养了大批优秀的人才泥会惊诧故宫的宏伟、布达拉宫的雄壮、赵州桥的精致,你会为上海外滩的52 幢风格迥异的大厦而倾倒,也会为拥有10个“世界第一”的东方明珠广播电视塔而自豪。是的,建筑无处不在,建筑无奇不有。而要领略建筑的精髓,把握建筑学的真谛,就不得不探询土木工程专业。目前国内开设土木工程专业的高校很多,而英国建筑师协会承认的土木工程本科文凭的仅有10所,即清华大学、同济大学、天津大学、浙江大学、东南大学、哈尔滨建筑工程大学、西安建筑工程大学、重庆大学、华南理工大学、湖南大学。这10所大学的土木工程系毕业生才可在英国申请工程师职称。无疑,拥有这种身份的土木工程专业,不敢说是真的“全国十强”,但起码也是榜上有名了。即使这样,各个高校土木工程专业的倾向还是有所不同,在此点评一二,与大家共同管窥一斑。清华大学武林盟主君临天下清华在当今武林的地位,相信不用在下多说,大家都很清楚。除了这几年在江湖声名鹊起的后生华中理工大学偶尔在喝多酒后不满意“小华工”的称呼欲改清华为“小清华”而外,其他的如西安交通大学、南京大学、浙江大学等武林巨擎等都很 知趣地只去争“武林第二”位置。一举一动都倍引起武林注目的“武林盟主”下设的得意机

浙大远程管理信息系统在线作业

2017浙大远程管理信息系统在线作业 窗体顶端 您的本次作业分数为:97分 1.【第1章】对管理信息系统进行综合,我们可以了解到,管理信息系统是由多个功能子系统组成的,这些功能子系统又可以分为业务处理、运行控制、管理控制和()几个主要的信息处理部分。 A 财务管理 B 信息管理 C 人力资源管理 D 战略管理 正确答案:D 2.【第1章】DSS是以下哪个术语的简称? A 决策支持系统 B 群体决策支持系统 C 智能决策支持系统 D 管理决策系统 正确答案:A 3.【第1章】管理信息系统的应用离不开一定的环境和条件,这里所说的“环境”具体指的是()。 A 组织所处的自然环境 B 组织所处的社会环境 C 组织内外各种因素的综合 D 组织所处的自然环境和社会环境的综合

正确答案:C 4.【第1章】按照不同级别管理者对管理信息的需要,通常把管理信息分为以下三级()。 A 公司级、工厂级、车间级 B 工厂级、车间级、工段级 C 厂级、处级、科级 D 战略级、战术级、作业级 正确答案:D 5.【第1章】从管理决策问题的性质来看,在运行控制层上的决策大多属于()的问题。 A 结构化 B 半结构化 C 非结构化 D 以上都有 正确答案:A 6.【第1章】EDPS是以下哪个术语的简称? A 电子数据处理系统 B 单项数据处理阶段 C 综合数据处理阶段 D 管理信息系统 正确答案:A 7.【第1章】()反映了某个企业、组织或部门所涉及的数据本身的内容,同时也反映了数据之间的联系。 A 数据库 B 数据文件(表)

C 文件系统 D 数据结构 正确答案:A 8.【第1章】局域网与使用调制解调器进行计算机通信的远程网相比,它的信息传送速度要()。 A 高得多 B 低得多 C 差不多 D 无法比较 正确答案:A 9.【第1章】数据库是比文件系统更高级的一种数据组织方式。 正确错误 正确答案: 对 10.【第1章】DSS是在人和计算机交互的过程中帮助决策者探索可能的方案,为管理者提供决策所需的信息。 正确错误 正确答案: 对 11.【第1章】通常认为,管理信息系统主要解决结构化的决策问题,而决策支持系统则以支持半结构化和非结构化问题为目标。 正确错误 正确答案: 对 12.【第1章】组织内对管理信息系统的理解和认识程度,对管理信息系统的应用有着重要影响 正确错误

浙大远程运筹学作业

《运筹学》作业 第2章 1.某公司计划生产两种产品,已知生产单位产品所需的三种原材料的消耗及所获的利润, 产品利润=40X+50Y 约束条件: X+2Y<=30 3X+2Y<=60 2Y<=24 X,Y>=0 用图解法得出安排生产产品1为15件,产品2为7.5件时工厂的获利最多,最大利润为975。 2.某公司计划生产两种产品,已知生产单位产品所需的两种原材料的消耗和人员需要及所获的利润,如下表所示。问应如何安排生产使该工厂获利最多?(建立模型,并用图解 产品利润=300X+500Y 约束条件: X<=4 2Y<=12 3X+2Y<=24 X,Y>=0 用图解法得出,该公司安排生产产品1为4件,产品2为6件时该工厂获利最大,最大利润为4200。 3. 下表是一个线性规划模型的敏感性报告,根据其结果,回答下列问题: 1)是否愿意付出11元的加班费,让工人加班; 答:不愿意付出11元加班费让工人加班。 2)如果工人的劳动时间变为402小时,日利润怎样变化? 答:日利润增加2×8=16

3)如果第二种家具的单位利润增加5元,生产计划如何变化? 答:因为允许的增加量是10,所以生产计划不变 Microsoft Excel 9.0 敏感性报告 工作表 [ex2-6.xls]Sheet1 报告的建立: 2001-8-6 11:04:02 可变单元 格 终递减目标式允许的允许的单元格名字值成本系数增量减量 $B$15 日产量(件)100 20 60 1E+30 20 $C$15 日产量(件)80 0 20 10 2.5 $D$15 日产量(件)40 0 40 20 5.0 $E$15 日产量(件)0 -2.0 30 2.0 1E+30 约束 终阴影约束允许的允许的单元格名字值价格限制值增量减量 $G$6 劳动时间(小时/件)400 8 400 25 100 $G$7 木材(单位/件)600 4 600 200 50 $G$8 玻璃(单位/件)800 0 1000 1E+30 200 4某公司计划生产两种产品,已知生产单位产品所需的三种原材料的消耗及所获的利润,如 解:设生产产品1为X件,生产产品2为Y件时,工厂获利最多 产品利润=25X+10Y 约束条件: 0.6X+0.5Y<=12000 0.4X+0.1Y<=4000 0.4Y<=6000 X,Y>=0

全国土木工程专业学校排名

A+等级同济大学清华大学浙江大学哈尔滨工业大学重庆大学湖南大学东南大学西南交通大学河海大学 A等级:上海交通大学西安交通大学山东大学天津大学华中科技大学大连理工大学中南大学东北大学华南理工大学福州大学新疆大学贵州大学南昌大学武汉理工大学太原理工大学西南大学合肥工业大学北京交通大学郑州大学中国矿业大学广西大学中国矿业大学(北京) 南京农业大学北京工业大学华侨大学河南大学南京工业大学河北农业大学长沙理工大学石家庄铁道学院兰州理工大学安徽理工大学, 河南理工大学河南工业大学广东工业大学沈阳建筑大学西安建筑科技大学西南科技大学汕头大学华东交通大学华北水利水电学院深圳大学长安大学兰州交通大学广州大学山东建筑大学西安科技大学山东科技大学安徽建筑工业学院浙江科技学院河北工程大学重庆交通大学北京建筑工程学院广西工学院苏州科技学院天津城市建设学院长春工程学院青岛理工大学河北建筑工程学院 *B+等级:武汉大学四川大学吉林大学中山大学厦门大学北京航空航天大学兰州大学西北工业大学北京科技大学暨南大学哈尔滨工程大学南京理工大学燕山大学内蒙古大学河北大学浙江工业大学南京航空航天大学中国石油大学(华东) 中国石油大学(北京) 海南大学中国海洋大学黑龙江大学昆明理工大学西安电子科技大学中国地质大学(北京) 成都理工大学济南大学江苏大学北京林业大学中北大学湘潭大学内蒙古科技大学上海大学上海理工大学江南大学扬州大学河南科技大学哈尔滨工业大学(威海)南京林业大学宁波大学青海大学东北林业大学上海应用技术学院辽宁工程技术大学东北农业大学沈阳工业大学内蒙古农业大学华北电力大学(保定)浙江理工大学东北电力大学中国民航大学四川农业大学华南农业大学西安理工大学河北理工大学山东农业大学辽宁科技大学西南石油大学山东理工大学南昌航空大学中国地质大学(武汉) 西华大学河北工业大学集美大学中南林业科技大学长江大学福建工程学院四川理工学院烟台大学辽宁工业大学平顶山工学院武汉科技大学南华大学湖南工业大学安徽工业大学陕西科技大学湖北工业大学山东交通学院桂林理工大学内蒙古工业大学大连水产学院三峡大学江西理工大学大连大学大连交通大学南京工程学院大连民族学院北方工业大学攀枝花学院湖南理工学院黑龙江科技学院武汉工程大学安徽工程科技学院盐城工学院河北科技师范学院黑龙江工程学院吉林建筑工程学院徐州工程学院宁波工程学院浙江海洋学院华北科技学院黄石理工学院鲁东大学长沙学院常州工学院合肥学院宁波诺丁汉大学襄樊学院 B 等级:中国农业大学宁夏大学延边大学东华大学上海师范大学云南农业大学贵州师范大学河北科技大学湖南科技大学哈尔滨理工大学哈尔滨商业大学北华大学温州大学西北农林科技大学福建农林大学沈阳农业大学l西北民族大学湖南农业大学江西农业大学大庆石油学院东华理工大学贵州民族学院甘肃农业大学大连海事大学; 中原工学院郑州航空工业管理学院信阳师范学院安阳师范学院厦门理工学院黄淮学院南阳理工学院许昌学院安阳工学院西安工程大学五邑大学辽宁石油化工大学佳木斯大学佛山科学技术学院天水师范学院东莞理工学院成都大学绍兴文理学院嘉应学院仲恺农业工程学院榆林学院石家庄经济学院沈阳大学江苏科技大学湖南工程学院南通大学江苏工业学院西南林学院聊城大学孝感学院塔里木大学重庆三峡学院淮海工学院辽东学院淮阴工学院皖西学院, 黑龙江八一农垦大学江西科技师范学院浙江林学院重庆科技学院武汉工业学院湖南工学院井冈山大学西昌学院湖南科技学院青岛农业大学防灾科技学院湖南城市学院邵阳学院潍坊学院白城师范学院泰山学院同济大学浙江学院惠州学院华东交通大学理工学院长沙理工大学城南学院青岛理工大学琴岛学院哈尔滨学院重庆大学城市科技学院四川大学锦城学院中国矿业大学徐海学院华中科技大学武昌分校四川大学锦江学院武汉理工大学华夏学院浙江大学宁波理工学院武汉科技大学城市学院北京城市学院浙江大学城市学院茂名学院唐山学院福州大学至诚学院北京工业大学实验学院天津大学仁爱学院 C+等级:南阳师范学院商丘师范学院莆田学院三明学院武夷学院洛阳理工学院宜春学院九江学院台州学院南昌工程学院嘉兴学院黄山学院廊坊师范学院金陵科技学院新乡学院临沂师范学院辽宁科技学院山西大同大学江苏科技大学南徐学院呼伦贝尔学院东南大学成贤学院福州大学阳光学院江南大学太湖学院福建农林大学金山学院沈阳建筑大学城市建设学院河南大学民生学院南京理工大学紫金学院厦门大学嘉庚学院吉林建筑工程学院建筑装饰学院武汉科技大学中南分校苏州科技学院天平学院吉林建筑工程学院城建学院中国地质大学江城学院南京工业大学浦江学院黑龙江东方学院湖北工业大学商贸学院大庆石油学院华瑞学院三峡大学科技学院湘潭大学兴湘学院丽水学院江西蓝天学院华侨大学厦门工学院哈尔滨工业大学华德应用技术学院湖南科技大学潇湘学院浙江树人大学南昌大学科学技术学院河北理工大学轻工学院中南林业科技大学涉外学院宁波大学科学技术学院南昌航空大学科技学院华北电力大学科技学院湖南农业大学东方科技学院浙江理工大学科技与艺术学院铜陵学院南昌理工学院石家庄铁道学院四方学院广东技术师范学院天河学院浙江海洋学院东海科学技术学院北京科技大学天津学院中国地质大学长城学院广东工业大学华立学院山东科技大学泰山科技学院燕山大学里仁学院河北工业大学城市学院广西工学院鹿山学院安徽工业大学工商学院北华航天工业学院中国海洋大学青

浙大远程 普通语言学 在线作业答案

1.According to its________ A meaning B function C position D sound 正确答案:C 单选题 2.The sentence that has a NP and a VP can be shown in a _______ formula "S→NP VP". A hierarchical B linear C treediagram D vertical 正确答案:B 单选题 3.Which of the following is NOT included in the advantages of a constituent structure tree? A It reveals the linear word order of a sentence. B It shows the hierarchical structure of a sentence. C It illustrates the syntactic category of each structural constituent. D It emphasizes the main suprasegmental features of a sentence. 正确答案:D 单选题 4.Of the following items, which one does not belong to the same syntactic category? A the student B liked C anidea D the linguistic lecture 正确答案:B 单选题

浙江大学数据挖掘在线作业

您的本次作业分数为:100分单选题 1.【第001章】孤立点挖掘适用于下列哪种场合? A 目标市场分析 B 购物篮分析 C 模式识别 D 信用卡欺诈检测 正确答案:D 单选题 2.【第01章】根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是()。 A 关联分析 B 分类和预测 C 演变分析 D 概念描述 正确答案:B 单选题 3.【第01章】数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于()。 A 所涉及的算法的复杂性 B 所涉及的数据量 C 计算结果的表现形式 D 是否使用了人工智能技术 正确答案:B

4.【第01章】下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析。 A 关联分析 B 分类和预测 C 聚类分析 D 演变分析 正确答案:D 单选题 5.【第01章】下列几种数据挖掘功能中,()被广泛的用于购物篮分析。 A 关联分析 B 分类和预测 C 聚类分析 D 演变分析 正确答案:A 单选题 6.【第01章】帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()。 A 关联分析 B 分类和预测 C 聚类分析 D 孤立点分析 E 演变分析

单选题 7.【第01章】下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能。 A 选择任务相关的数据 B 选择要挖掘的知识类型 C 模式的兴趣度度量 D 模式的可视化表示 正确答案:B 单选题 8.【第01章】假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()。 A 关联分析 B 分类和预测 C 孤立点分析 D 演变分析 E 概念描述 正确答案:E 单选题 9.【第02章】下列哪种可视化方法可用于发现多维数据中属性之间的两两相关性? A 空间填充曲线 B 散点图矩阵 C 平行坐标

2013秋浙江大学数据挖掘作业必做在线要点

1.置信度(confidence)是衡量兴趣度度量()的指标。 A 简洁性 B 确定性 C 实用性 D 新颖性 正确答案:B 单选题 2.哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据? A 上卷 B 下钻 C 切块 D 转轴 正确答案:A 单选题 3.下列几种数据挖掘功能中,()被广泛的用于购物篮分析。 A 关联分析 B 分类和预测 C 聚类分析 D 演变分析 正确答案:A 单选题 4.下列哪个描述是正确的? A 分类和聚类都是有指导的学习 B 分类和聚类都是无指导的学习 C 分类是有指导的学习,聚类是无指导的学习 D 分类是无指导的学习,聚类是有指导的学习 正确答案:C

5.计算一个单位的平均工资,使用哪个中心趋势度量将得到最合理的结果? A 算术平均值 B 截尾均值 C 中位数 D 众数 正确答案:B 单选题 6.规则:age(X,”19-25”) ∧buys(X, “popcorn”) => buys(X, “coke”)是一个()。 A 单维关联规则 B 多维关联规则 C 混合维关联规则 D 不是一个关联规则 正确答案:B 单选题 7.假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()。 A 关联分析 B 分类和预测 C 孤立点分析 D 演变分析 E 概念描述 正确答案:E 单选题 8.下面哪种数据预处理技术可以用来平滑数据,消除数据噪声? A 数据清理 B 数据集成 C 数据变换

D 数据归约 正确答案:A 单选题 9.进行数据规范化的目的是()。 A 去掉数据中的噪声 B 对数据进行汇总和聚集 C 使用概念分层,用高层次概念替换低层次“原始”数据 D 将属性按比例缩放,使之落入一个小的特定区间 正确答案:D 单选题 10.平均值函数avg()属于哪种类型的度量? A 分布的 B 代数的 C 整体的 D 混合的 正确答案:B 单选题 11.下面哪种分类方法是属于统计学的分类方法? A 判定树归纳 B 贝叶斯分类 C 后向传播分类 D 基于案例的推理 正确答案:B 单选题 12.下列几种数据挖掘功能中,()被广泛的用于购物篮分析。 A 关联分析 B 分类和预测 C 聚类分析

2020浙大土木工程结构工程方向考研经验分享

2020浙大土木工程结构工程方向考研经验分享 知道拟录取结果有一段时间了,很开心可以成功上岸浙大,这是我一直以来的梦想。还深深记得当初高考查分后的失落,然后再想想四年后的现在我马上就要成为浙大研一的老学姐了,冥冥中这可能是最好的安排吧。现在想给学弟学妹们分享一下备考的经验,希望对你们有些帮助。 说下各科的学习情况吧,首先说政治。从自身经历以及结合周围许多人的情况来说,政治我觉得还是比较看运气和答题技巧。选择题50分,简答题50分,简答题大家的分其实都不会差太多,政治想要高分,主要还得看选择题,所以说政治是得选择题得天下。选择题16分单选,34分多选,多选很看答题技巧以及自己练习的情况,真题、模拟题练的多了,选择题正确率自然就上去了。然后资料主要就是大家经常说的精讲精练、一千题,肖四肖八,然后找找视频看看,加深自己对知识的理解,大题拉不开分,但也不能十分,好好背背大题,学会从材料中照答案,因为并不是每年的大题都能被押的那么准,所以掌握做题的技巧非常重要,加上书上的知识点背熟了,遇到各种新题问题都不大。 英语的话,我英语基础一般,整个复习下来英语提升还是比较明显的。首先可以多背背单词增加词汇量,这个对后面做阅读,翻译,写作文都是很有帮助的,然后一定要多看真题,注意词汇积累,新题型也要好好练练总结一下,阅读视频可以看看,我觉得其中介绍的一些答题技巧对提高正确率帮助还是蛮大的。作文多背范文积累句子以及常用词汇,考前写两篇练习一下。 数学就我个人感觉而言,我比较喜欢用张宇的高数配合李永乐数学复习全书的线代和概率论,然后用张宇的概率论做补充;高数视频我看的张宇的,视频可以看看,我感觉是作用不大,当然做下笔记也有利于后期复习,线代和概率论我觉得比较简单,所以我没看视频,然后练习我用的张宇的1000题再加八套卷,有时间精力的话也可以再刷下其他老师的题,真题多做多练多总结,题是一定要多刷的,刷题才能加深对知识点的理解,也不要抗拒做陌生题新题,这些有利于了解一些新题型,对考试是有帮助的。 我专业课考的结构力学,分数挺高的。结构力学只要方法对,弯路少走点,掌握起来很快的,我建议就不要自己瞎琢磨了,直接报个班或者找学长学姐探讨一下学习的方法,因为很多方法资源都是现成的,我们没有必要花费考研的宝贵时间去自己摸索出来。我当时就去报名了爱考宝典的专业课辅导班,老师对考点,重难点早就门清了,只是需要通过在线授课的方式让我弄明白,我学了几节课收获很大,很多知识点都能理解透。另外于玲玲的书是必备的,概念多看好好理解,例题先尝试自己做,然后再看答案,不会的问老师。我还看了陈水福的概念结构力学,做了下陈水福跟朱慈勉的结构力学的课后习题,因为会考习题的原题,难度有些大,大家最好能找人辅导一下,我就不多说了。 最后,希望大家都能考上心仪的学校。

浙大远程在线作业及答案

您得本次作业分数为:100分 单选题 1、【全部章节】增加会计科目次序必须由()。 A上级至下级逐级增加 B下级至上级逐级增加 C任意方式增加 D根据单位得具体情况增加 正确答案:A 单选题 2、【全部章节】帐务系统中,数据恢复功能可将软盘上备份得( )拷贝到机器内。 A 程序 B 凭证、科目、帐薄等 C DOS D系统 正确答案:B 单选题 3、【全部章节】如果就是往来业务,在输入会计凭证时,另外还必须输入业务发生( )。 A 金额 B 往来单位 C数量 D 地点 正确答案:B 单选题 4、【全部章节】已记帐得凭证,如果在结帐前发现有录入错误,可以用下列方法调整()。A下个月处理 B 编制调整凭证 C不作处理 D 直接修改凭证 正确答案:B 单选题 5、【全部章节】数据备份必须有两份,并()存放。 A分处 B 归档 C统一 D 加密 正确答案:A 单选题 6、【全部章节】一张报表得设计步骤为():1、编制报表2、报表输出3、新表登记4、格式设计5、公式定义6、项目定义 A 3→4→5→6→1→2 B 6→5→4→3→2→1 C1→2→3→4→5→6 D1→2→5→6→4→3 正确答案:A

7、【全部章节】记帐凭证审核不能由谁来完成()。 A 输入员 B审核员 C财务科长 D 财务主管 正确答案:A 单选题 8、【全部章节】开展会计电算化条件之一就就是要有良好得基础工作,这基础工作主要包括哪两个方面()。 A硬件基础与管理基础 B 人员基础与硬件基础 C 管理基础与会计基能 D 会计基础与硬件基础 正确答案:C 单选题 9、【全部章节】执行()以后,若发现输入得凭证有误,必须到下月做调整凭证,纠正帐目数据. A记帐 B审核 C 凭证汇总 D结帐 正确答案:D 单选题 10、【全部章节】会计电算化系统文档视同会计档案保管,保管期截止至该系统停止使用或有重大修改后()年。 A 一 B 二 C 三 D四 正确答案:C 单选题 11、【全部章节】会计电算化一词较正确得解释为( )。 A 计算机会计工作 B 财务软件加计算机设备 C财务软件 D 计算机设备 正确答案:A 单选题 12、【全部章节】如果就是外币业务,在凭证输入时,还必须输入外币金额与()。 A 汇率 B 日期 C 单价 D币种

浙大数据库资源-个人整理版

浙江大学图书馆数据库资源 https://www.360docs.net/doc/bf1700695.html,KI(中国知网) 下载《中国期刊全文数据库》(全文年限:1994年以后)、《中国优秀硕士学位论文全文数据库》(全文年限:1999年以后)、《中国博士论文全文数据库》的数据和全文(全文年限:1999年以后)。 此外还可以检索引文、会议论文、报纸、专利、成果、标准等数据库的摘要信息。 CNKI世纪期刊现已对我校读者开通使用,该数据库基于对近5年来,期刊、学位论文、会议论文、图书等文献引文数据的分析,遴选出4195种过刊引文数据较高的刊物,将其创刊以来的全文数据完整的进行回溯。累计回溯文献量达550多万篇,大部分收录年限为1979年-1993年,刊物最早回溯时间到1887年。 2.万方数据 中国学位论文数据库(CDDB):收录了我国自然科学和社会科学各领域的硕士、博士及博士后研究生论文的文摘信息。 的各种学术会议论文,每年涉及上千个重要的学术会议,是目前国内收集学科最全、数量最 其收录范围包括新技术、新产品、新工艺、新材料、新设计,涉及自然科学各个学科领域。 专利数据库(zl):收录从1985年至今授理的全部专利数据信息,包含专利公开(公告)日、公开(公告)号、主分类号、分类号、申请(专利)号、申请日、优先权等数据项。 中外标准数据库(BZ):收录了中国国家标准、中国行业标准、中国建材标准、中国建设标准、国际标准化组织标准、国际电工委员会标准、欧洲标准、英国标准学会标准、法国标准协会标准、德国标准化学会标准、日本工业标准调查会标准、美国国家标准、美国行业标准等国内外各种标准的题录信息。 科技文献类数据库:有冶金自动化文献、机械工程文摘、中国建材文献、农业科学文献、光纤通信文献、管理科学文献、煤炭科技文献、铁路航测遥感、船舶文献数据库、有色金属文献、水利期刊文献、人口科学文献、金属材料文献、磨料磨具文献、粮油食品文献、麻醉科学文献、环境科技文献、地震文献数据、采矿文献数据、计算机文献、西文期刊馆藏、科技声像目录等按专题收录的数据库,收录相关专题中的期刊、会议、专利等文献信息。 中国科技论文统计分析数据库(CSTPC): 该数据库主要功能有: 查找国内发表的重要科技论文;了解历年来中国科技论文统计分析与排序结果;了解各地区、部门、单位、作者以及各学科及基金资助论文发表的详细情况。 中国科技论文引文分析数据库(CSTPI):该数据库集文献检索与论文统计分析于一体,既

2017浙大《运筹学》模拟)

《运筹学》模拟卷 1.某公司计划生产两种产品,已知生产单位产品所需的三种原材料的消耗及所获的利润,如下表所示。问应如何安排生产使该工厂获利最多?(建立模型, 解:产品1和产品2分别生产15和7.5单位,最大利润是975. 2.医院护士24小时值班,每次值班8小时。不同时段需要的护士人数不等。据 解:设第1到第6班安排的护士人数分别是X1,X2,X3,X4,X5,X6。 Min X1+X2+X3+X4+X5+X6 X1+X2≥70 X2+X3≥60 X3+X4≥50 X4+X5≥20 X5+X6≥30 X6+X1≥60 3. 下表是一个线性规划模型的敏感性报告,根据其结果,回答下列问题: 1)是否愿意付出6元的加班费,让工人加班; 2)如果工人的劳动时间变为399小时,日利润怎样变化?

3)如果第二种家具的单位利润增加7元,生产计划如何变化?Microsoft Excel 9.0 敏感性报告 工作表 [ex2-6.xls]Sheet1 报告的建立: 2001-8-6 11:04:02 可变单元 格 终递减目标 式允许的允许的 单元格名字值成本系数增量减量$B$15 日产量(件)100 20 60 1E+30 20 $C$15 日产量(件)80 0 20 10 2.5 $D$15 日产量(件)40 0 40 20 5.0 $E$15 日产量(件)0 -2.0 30 2.0 1E+30 约束 终阴影约束允许的允许的 单元格名字值价格限制 值增量减量 $G$6 劳动时间(小时/件) 400 8 400 25 100 $G$7 木材(单位/件)600 4 600 200 50 $G$8 玻璃(单位/件)800 0 1000 1E+30 200 解:1)因为劳动时间的阴影价格是8,所以愿意付出6元的加班费,让工人加班(6分); 2)日利润减少1×8=16(8分) 3)因为允许的增加量是10,所以生产计划不变.(6分 4.某厂考虑生产甲、乙两种产品,根据过去市场需求统计如下:

2016浙大远程《经济法》在线作业

1.【第1章】经济管理主体主要为()。 A 国家权力机关 B 政府 C 特殊企业 D 经授权的其他组织 正确答案:B 单选题 2.【第1章】经济法的主体是指在国家协调经济运和地过程中依法()的当事人。 A 享有经济权利 B 承担经济义务 C 享有经济权利和承担经济义务 D 享有经济权利或承担经济义务 正确答案:C 单选题 3.【第1章】下列事项中,一般不作为经济法律关系主体的社会组织是()。 A 企业内部组织 B 私营企业 C 个体工商户 D 党团组织 正确答案:D 单选题 4.【第1章】公民个人依法缴纳个人所得税,此行为使公民成为()主体。 A 民法 B 民法和经济法 C 经济法 D 民法或经济法 正确答案:C 多选题 5.【第1章】下列属于经济法的主体制度内容的是()。 A 经济性行业组织法 B 中央银行法 C 特殊经济组织法 D 合作制及集体所有制组织法 正确答案:ABCD 多选题 6.【第1章】以下可以成为经济法主体的是()。 A 企业 B 供销合作社 C 国家机关 D 个体工商户 正确答案:ABCD 单选题 7.【第2、3章】下列关于有限合伙的说法,错误的是()。 A 有限合伙人不能以劳务出资 B 其合伙人一般不能是法人 C 有限责任合伙人不参与合伙的实际经营,只是单纯的出资者 D 两合公司就相当于英美法上的有限合伙 正确答案:B

单选题 8.【第2、3章】下列企业形态中,不属于传统典型企业的是()。 A 个人独资企业 B 合伙企业 C 公司企业 D 合作制企业 正确答案:D 单选题 9.【第2、3章】下列企业中,不一定要有承担无限责任的投资者的是()。 A 中外合作经营企业 B 普通合伙 C 有限合伙 D 个人独资企业 正确答案:A 单选题 10.【第2、3章】下列所作的关于公司的分类,哪一种是以公司的信用基础为标准的分类?() A 总公司与子公司 B 母公司与子公司 C 人合公司与资合公司 D 封闭式公司与开放式公司 正确答案:C 单选题 11.【第2、3章】下列关于企业法的说法,正确的是()。 A 企业法是一种企业行为法 B 企业法调整的企业活动是企业组织范畴内的活动 C 一般的企业法仅指普通企业法 D 企业法一般不调整投资者与企业的关系 正确答案:B 单选题 12.【第2、3章】有限责任公司是股东以()为限对公司承担责任,公司以()对公司债务承担责任的公司。 A 个人全部财产;其特定财产 B 其出资额;其全部财产 C 其出资额;其经营财产 D 其个全部财产;其全部资产 正确答案:B 多选题 13.【第2、3章】根据法律规定,下列关于个人独资企业设立条件的判断,哪些是正确的? A 投资人只能是自然人 B 投资人需具有完全民事行为能力 C 须有章程 D 有符合规定的法定最低注册资本 正确答案:AB 多选题 14.【第2、3章】下列关于企业经营性的说法,正确的是()。 A 企业的经营性是指它基于一定的经济目的进行筹划运作,考虑投入产出,重视经济核算,借以参与社会的经济、文化等活动 B 经营一般是为了营利,即在企业营运中,设法获取超出所投入的资金和财物的利润或经济利益

浙大远程数据挖掘离线作业答案

浙江大学远程教育学院 《数据挖掘》课程作业 姓名:学号: 年级:学习中心:————————————————————————————— 第一章引言 一、填空题 (1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习 (4)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据 二、简答题 (1)什么是数据挖掘? 答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。 (2)一个典型的数据挖掘系统应该包括哪些组成部分? 答:一个典型的数据挖掘系统应该包括以下部分:数据库、数据仓库或其他信息库、数据库或数据仓库服务器、知识库、数据挖掘引擎、模式评估模块、图形用户界面。 (3)Web挖掘包括哪些步骤? 答:数据清理:(这个可能要占全过程60%的工作量);数据集成(数据存入数据仓库建立数据立方体,选择用来进行数据挖掘的数据);数据挖掘(选择适当的算法来找到感兴趣的模式);展现挖掘结果(将模式或者知识应用或者存入知识库)。 (4)请列举数据挖掘应用常见的数据源。 (或者说,我们都在什么样的数据上进行数据挖掘) 答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。

浙大计算机学院导师详细资料

浙大计算机学院导师详细资料 研究所姓名职称学科专长及研究方向办公地点办公室电话 Email 备注 人工智能所陈德人教授电子商务与电子服务技术、信息系统集成,网络教育技术,计算机图形学与CAD 406 博导 人工智能所陈卫东副教授虚拟现实、脑机交互、移动计算、计算机网络、人工智能、商务智能112(东)硕导 人工智能所董金祥教授计算机图形学、计算机辅助设计、先进制造技术、计算机集成制造技术、人工智能、数据406 博导 人工智能所干红华副教授人工智能、因果模型、计算机在法律领域的应用205 9 硕导 人工智能所高济教授网络计算与普适计算、智能软件与Agent技术、软件工程与中间件技术、知识管理与决策支持408 博导 人工智能所耿卫东教授计算机图形图像技术、智能CAD、人工智能512 博导 人工智能所何利力副教授GIS、人机交互、数据库与数据分析310(东)硕导 人工智能所金小刚副教授复杂网络理论与应用研究、计算金融学、计算生态学、生物计算、脑机接口、智能传输系统及其仿真研究310 硕导 人工智能所孔繁胜教授人工智能应用,机器学习,数据挖掘,web-GIS 410 博导 人工智能所李际军副教授曲面造型、逆向工程、CAD/CAM,游戏引擎开发,三维服装及动画技术204(东) 硕导 人工智能所李善平教授金融信息学、分布式计算、信息集成技术、Linux 平台及应用414 博导 人工智能所林兰芬教授语义Web、网络化制造、知识管理、CAX、产品建模501 硕导 人工智能所鲁东明教授数字媒体网络系统,文化遗存数字化保护,下一代互联网络,虚拟现实与数字博物馆407(东)博导 人工智能所潘云鹤教授人工智能,形象思维,计算机图形学,智能CAD,计算机美术,工业设计博导(院士) 人工智能所唐敏副教授三维造型CAD 303 硕导 人工智能所童若锋教授计算机图形学,协同设计与制造,图像重建与处理303 博导 人工智能所王申康教授人工智能、计算机协同工作技术、生物认证、嵌入式GPS&GIS、智能建筑412 博导 人工智能所魏宝刚副教授人工智能、图像处理、数据库与知识库系统505 硕导 人工智能所吴春明教授人工智能,智能机器人技术,计算机网络407 硕导 人工智能所吴江琴副教授数据挖掘,数字化图书馆507 硕导 人工智能所肖国臻副教授可视化技术在医学中的应用、虚拟现实技术在医学中的应用、计算机控制技术505 硕导 人工智能所邢卫副教授计算机网络技术及应用、电子政务模型及应用516 硕导 人工智能所徐从富副教授人工智能、智能CAD、数据挖掘、知识发现、数据融合313 硕导 人工智能所杨建刚教授先进计算、多传感器数据融合、人工神经网络、嵌入式系

相关文档
最新文档