浙江大学数据挖掘在线作业答案

浙江大学数据挖掘在线作业答案
浙江大学数据挖掘在线作业答案

您的本次作业分数为:100分

1.【第001章】孤立点挖掘适用于下列哪种场合?

A 目标市场分析

B 购物篮分析

C 模式识别

D 信用卡欺诈检测

正确答案:D

2.【第01章】根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是()。

A 关联分析

B 分类和预测

C 演变分析

D 概念描述

正确答案:B

3.【第01章】数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于()。

A 所涉及的算法的复杂性

B 所涉及的数据量

C 计算结果的表现形式

D 是否使用了人工智能技术

正确答案:B

4.【第01章】下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析。

A 关联分析

B 分类和预测

C 聚类分析

D 演变分析

正确答案:D

5.【第01章】下列几种数据挖掘功能中,()被广泛的用于购物篮分析。

A 关联分析

B 分类和预测

C 聚类分析

D 演变分析

正确答案:A

6.【第01章】帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()。

A 关联分析

B 分类和预测

C 聚类分析

D 孤立点分析

E 演变分析

正确答案:C

7.【第01章】下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能。

A 选择任务相关的数据

B 选择要挖掘的知识类型

C 模式的兴趣度度量

D 模式的可视化表示

正确答案:B

8.【第01章】假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()。

A 关联分析

B 分类和预测

C 孤立点分析

D 演变分析

E 概念描述

正确答案:E

9.【第02章】下列哪种可视化方法可用于发现多维数据中属性之间的两两相关性?

A 空间填充曲线

B 散点图矩阵

C 平行坐标

D 圆弓分割

正确答案:B

10.【第02章】计算一个单位的平均工资,使用哪个中心趋势度量将得到最合理的结果?

A 算术平均值

B 截尾均值

C 中位数

D 众数

正确答案:B

11.【第02章】字段Size = {small, medium, large}属于那种属性类型?

A 标称属性

B 二元属性

C 序数属性

D 数值属性

正确答案:C

12.【第02章】字段Hair_color = {auburn, black, blond, brown, grey, red, white}属于那种属性类型?

A 标称属性

B 二元属性

C 序数属性

D 数值属性

正确答案:A

13.【第03章】哪种数据变换的方法将数据沿概念分层向上汇总?

A 平滑

B 聚集

C 数据概化

D 规范化

正确答案:C

14.【第03章】下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?

A 数据清理

B 数据集成

C 数据变换

D 数据归约

正确答案:A

15.【第03章】()通过将属性域划分为区间,从而减少给定连续值的个数。

A 概念分层

B 离散化

C 分箱

D 直方图

正确答案:B

16.【第03章】数据的噪声是指()。

A 孤立点

B 空缺值

C 测量变量中的随即错误或偏差

D 数据变换引起的错误

正确答案:C

17.【第03章】进行数据规范化的目的是()。

A 去掉数据中的噪声

B 对数据进行汇总和聚集

C 使用概念分层,用高层次概念替换低层次“原始”数据

D 将属性按比例缩放,使之落入一个小的特定区间

正确答案:D

18.【第03章】数据归约的目的是()。

A 填补数据种的空缺值

B 集成多个数据源的数据

C 得到数据集的压缩表示

D 规范化数据

正确答案:C

19.【第03章】下列哪些是数据变换可能涉及的内容?

A 数据压缩

B 数据概化

C 维归约

D 规范化

正确答案:BD

20.【第03章】数据清理的目的是处理数据中的()。

A 空缺值

B 噪声数据

C 不一致数据

D 敏感数据

正确答案:ABC

21.【第03章】下面哪些问题是我们进行数据预处理的原因?

A 数据中的空缺值

B 噪声数据

C 数据中的不一致性

D 数据中的概念分层

正确答案:ABC

22.【第03章】以下哪些原因可能引起空缺值?

A 设备异常

B 命名规则的不一致

C 与其他已有数据不一致而被删除

D 在输入时,有些数据因为得不到重视而没有被输入

正确答案:ACD

23.【第04章】以下哪个范围是数据仓库的数据库规模的一个合理范围?

A 1-100M

B 100M-10G

C 10-1000G

D 100GB-数TB

正确答案:D

24.【第04章】下面的数据操作中,哪些操作不是多维数据模型上的OLAP操作?

A 上卷(roll-up)

B 选择(select)

C 切片(slice)

D 转轴(pivot)

正确答案:B

25.【第04章】平均值函数avg()属于哪种类型的度量?

A 分布的

B 代数的

C 整体的

D 混合的

正确答案:B

26.【第04章】存放最低层汇总的方体称为()。

A 顶点方体

B 方体的格

C 基本方体

D 维

正确答案:C

27.【第04章】哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据?

A 上卷

B 下钻

C 切块

D 转轴

正确答案:A

28.【第04章】从结构的角度看,数据仓库模型包括以下几类()。

A 企业仓库

B 数据集市

C 虚拟仓库

D 信息仓库

正确答案:ABC

29.【第04章】以下哪些是数据仓库的主要应用?

A 信息处理

B 互联网搜索

C 分析处理

D 数据挖掘

正确答案:ACD

30.【第04章】OLAP系统和OLTP系统的主要区别包括()。

A OLTP系统主要用于管理当前数据,而OLAP系统主要存放的是历史数据

B 在数据的存取上,OLTP系统比OLAP系统有着更多的写操作

C 对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多

D OLAP系统中往往存放的是汇总的数据,而OLTP系统中往往存放详细的数据正确答案:ABD

31.【第04章】数据仓库的三层架构主要包括以下哪三部分?

A 数据源

B 数据仓库服务器

C OLAP服务器

D 前端工具

正确答案:BCD

32.【第08章】下列哪个描述是正确的?

A 分类和聚类都是有指导的学习

B 分类和聚类都是无指导的学习

C 分类是有指导的学习,聚类是无指导的学习

D 分类是无指导的学习,聚类是有指导的学习

正确答案:C

33.【第08章】下面哪种分类方法是属于神经网络学习算法?

A 判定树归纳

B 贝叶斯分类

C 后向传播分类

D 基于案例的推理

正确答案:C

34.【第08章】下面哪种分类方法是属于统计学的分类方法?

A 判定树归纳

B 贝叶斯分类

C 后向传播分类

D 基于案例的推理

正确答案:B

35.【第10章】以下哪种聚类方法可以发现任意形状的聚类?

A 划分的方法

B 基于模型的方法

C 基于密度的方法

D 层次的方法

正确答案:C

36.【第10章】下面那种数据挖掘方法可以用来检测孤立点?

A 概念描述

B 分类和预测

C 聚类分析

D 演变分析

正确答案:C

37.【第10章】以下哪个指标不是表示对象间的相似度和相异度?

A Euclidean距离

B Manhattan距离

C Eula距离

D Minkowski距离

正确答案:C

38.【第6 7章】根据关联分析中所处理的值类型,可以将关联规则分类为()。

A 布尔关联规则和量化关联规则

B 单维关联规则和多维关联规则

C 单层关联规则和多层关联规则

D 简答关联规则和复杂关联规则

正确答案:A

39.【第6 7章】支持度(support)是衡量兴趣度度量()的指标。

A 实用性

B 确定性

C 简洁性

D 新颖性

正确答案:A

40.【第6 7章】下列几种数据挖掘功能中,()被广泛的用于购物篮分析。

A 关联分析

B 分类和预测

C 聚类分析

D 演变分析

正确答案:A

41.【第6 7章】规则:age(X,”19-25”) ∧buys(X, “popcorn”) => buys(X, “coke”)是一个()。

A 单维关联规则

B 多维关联规则

C 混合维关联规则

D 不是一个关联规则

正确答案:B

42.【第6 7章】置信度(confidence)是衡量兴趣度度量()的指标。

A 简洁性

B 确定性

C 实用性

D 新颖性

正确答案:B

43.【第6 7章】根据关联分析中所涉及的抽象层,可以将关联规则分类为()。

A 布尔关联规则

B 单层关联规则

C 多维关联规则

D 多层关联规则

正确答案:BD

44.【第6 7章】根据关联分析中所涉及的数据维,可以将关联规则分类为()。

A 布尔关联规则

B 单维关联规则

C 多维关联规则

D 多层关联规则

正确答案:BC

45.【第6 7章】Apriori算法所面临的主要的挑战包括()。

A 会消耗大量的内存

B 会产生大量的候选项集

C 对候选项集的支持度计算非常繁琐

D 要对数据进行多次扫描

正确答案:BCD

加入错题集关闭

窗体底端

浙江大学数据挖掘在线作业答案

您的本次作业分数为:100分 1.【第001章】孤立点挖掘适用于下列哪种场合? A 目标市场分析 B 购物篮分析 C 模式识别 D 信用卡欺诈检测 正确答案:D 2.【第01章】根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是()。 A 关联分析 B 分类和预测 C 演变分析 D 概念描述 正确答案:B 3.【第01章】数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于()。 A 所涉及的算法的复杂性 B 所涉及的数据量 C 计算结果的表现形式 D 是否使用了人工智能技术 正确答案:B 4.【第01章】下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析。 A 关联分析 B 分类和预测

C 聚类分析 D 演变分析 正确答案:D 5.【第01章】下列几种数据挖掘功能中,()被广泛的用于购物篮分析。 A 关联分析 B 分类和预测 C 聚类分析 D 演变分析 正确答案:A 6.【第01章】帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()。 A 关联分析 B 分类和预测 C 聚类分析 D 孤立点分析 E 演变分析 正确答案:C 7.【第01章】下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能。 A 选择任务相关的数据 B 选择要挖掘的知识类型 C 模式的兴趣度度量 D 模式的可视化表示 正确答案:B

8.【第01章】假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()。 A 关联分析 B 分类和预测 C 孤立点分析 D 演变分析 E 概念描述 正确答案:E 9.【第02章】下列哪种可视化方法可用于发现多维数据中属性之间的两两相关性? A 空间填充曲线 B 散点图矩阵 C 平行坐标 D 圆弓分割 正确答案:B 10.【第02章】计算一个单位的平均工资,使用哪个中心趋势度量将得到最合理的结果? A 算术平均值 B 截尾均值 C 中位数 D 众数 正确答案:B 11.【第02章】字段Size = {small, medium, large}属于那种属性类型? A 标称属性

浙江大学CAD实验室简介

?简介 浙江大学计算机辅助设计与图形学国家重点实验室为国家“七五”计划建设项目,一九八九年开始建设,一九九○年对外开放。一九九二年建成并通过国家验收。 计算机辅助设计与图形学是多学科交叉的高技术研究领域。本实验室主要从事计算机辅助设计、计算机图形学的基础理论、算法及相关应用研究。实验室的基本定位是:紧密跟踪国际学术前沿,大力开展原始性创新研究及应用集成开发研究,使实验室成为具有国际影响的计算机辅助设计与图形学的研究基地、高层次人才培养的基地、学术交流的基地和高技术的辐射基地。 近二十年来,实验室依托浙江大学计算机、数学、机械等学科,作为项目负责单位先后承担了一批国家级科重大研项目和国际合作项目,在计算机辅助设计与图形学的基础研究和系统集成等方面取得了一批重要成果,其中多项成果获国家奖励,并形成了一支学风正派、勤奋踏实、勇于创新的学术队伍。实验室积极推进国际合作,与美国、德国、英国、法国、日本等国外相关研究机构展开了广泛的学术合作和交流,产生了较大的国际学术影响,曾被国际权威期刊SCIENCE列为中国TOP-LEVEL国家重点实验室。实验室曾两次获得由国家科技部颁发的先进集体及个人“金牛奖”。 实验室拥有一流的软硬件平台以及丰富的数字资源,热忱欢迎国内外研究人员来室工作和交流。 潘云鹤院士任实验室学术委员会主任,鲍虎军研究员任实验室主任。 ?实验室的主要研究方向 1.计算机辅助设计 研究计算机辅助设计与分析模拟的前沿技术,解决产品模型的高效构建、可信分析、设计知识的有效表示与处理等关键问题,实现复杂产品设计开发所需的高效性、可靠性、集成性和智能性。重点研究: 高性能产品建模技术、仿真驱动设计技术、虚拟样机、设计知识获取与重用、面向领域的专业CAD技术与系统等。 2.图形与视觉计算 研究几何、材质、运动数据的获取、处理和表示的基础理论与算法,解决复杂对象的高效构建和逼真呈现等关键问题,研发高清影视、立体电视、三维游戏创作的软件系统,实现产业应用。重点研究:几何计算与设计、真实感图形的高效绘制、图象与三维视觉计算、计算机动画与游戏等。 3.虚拟现实 探索虚拟环境的真实感知以及虚实环境融合的一致性理论与方法,研究虚拟环境构建、绘制、显示、人机交互、增强现实等虚拟现实关键技术,研发混

大数据时代下的数据挖掘试题和答案及解析

A. 变量代换 B. 离散化 海量数据挖掘技术及工程实践》题目 、单选题(共 80 题) 1) ( D ) 的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得 到 和原始数据相同的分析结果。 A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据归约 2) 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数 据挖 掘的哪类问题 (A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3) 以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a) 警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b) 描述有多少比例的小偷给警察抓了的标准。 据相分离 (B) 哪一类任务 (C) A. 根据内容检索 B. 建模描述 7) 下面哪种不属于数据预处理的方法 (D) A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4) 将原始数据进行集成、 变换、维度规约、数值规约是在以下哪个步骤的任务 (C) 5) A. 频繁模式挖掘 C. 数据预处理 B. D. 当不知道数据所带标签时, 分类和预测 数据流挖掘 可以使用哪种技术促使带同类标签的数据与带其他标签的数 6) A. 分类 C. 关联分析 建立一个模型, B. D. 聚类 隐马尔可夫链 通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 C. 预测建模 D. 寻找模式和规则

C.聚集 D. 估计遗漏值 8) 假设12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15 在第几个箱子内(B) A. 第一个 B. 第二个 C. 第三个 D. 第四个 9) 下面哪个不属于数据的属性类型:(D) A. 标称 B. 序数 C.区间 D. 相异 10) 只有非零值才重要的二元属性被称作:( C ) A. 计数属性 B. 离散属性 C.非对称的二元属性 D. 对称属性 11) 以下哪种方法不属于特征选择的标准方法:(D) A. 嵌入 B. 过滤 C.包装 D. 抽样 12) 下面不属于创建新属性的相关方法的是:(B) A. 特征提取 B. 特征修改 C. 映射数据到新的空间 D. 特征构造 13) 下面哪个属于映射数据到新的空间的方法(A) A. 傅立叶变换 B. 特征加权 C. 渐进抽样 D. 维归约 14) 假设属性income 的最大最小值分别是12000元和98000 元。利用最大最小规范化的方 法将属性的值映射到0 至 1 的范围内。对属性income 的73600 元将被转化为:(D) 15) 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130 人,四年 级110 人。则年级属性的众数是:(A) A. 一年级 B. 二年级 C. 三年级 D. 四年级 16) 下列哪个不是专门用于可视化时间空间数据的技术:(B) A. 等高线图 B. 饼图

数据挖掘习题题

数据挖掘复习题 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD? (A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法? (D) A变量代换 B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204,

数据挖掘-题库带答案

数据挖掘-题库带答案 1、最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡() 答案:正确 2、决策将日益基于数据和分析而作出,而并非基于经验和直觉() 答案:错误 解析:决策将日益基于数据和分析而作出,而并非基于经验和直觉 3、2011年被许多国外媒体和专家称为“大数据元年”() 答案:错误 解析:2013年被许多国外媒体和专家称为“大数据元年” 4、我国网民数量居世界之首,每天产生的数据量也位于世界前列() 答案:正确 5、商务智能的联机分析处理工具依赖于数据库和数据挖掘。() 答案:错误 解析:商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘。 6、数据整合、处理、校验在目前已经统称为 EL() 答案:错误 解析:数据整合、处理、校验在目前已经统称为 ETL 7、大数据时代的主要特征() A、数据量大 B、类型繁多 C、价值密度低 D、速度快时效高 答案: ABCD 8、下列哪项不是大数据时代的热门技术() A、数据整合 B、数据预处理 C、数据可视化 D、 SQL

答案: D 9、()是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。 A、预测 B、分析 C、预测分析 D、分析预测 答案: C 10、大数据发展的前提? 答案: 解析:硬件成本的降低,网络带宽的提升,云计算的兴起,网络技术的发展,智能终端的普及,电子商务、社交网络、电子地图等的全面应用,物联网的兴起 11、调研、分析大数据发展的现状与应用领域。? 答案: 解析:略 12、大数据时代的主要特征? 答案: 解析:数据量大(Volume) 第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。 类型繁多(Variety) 第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。 价值密度低(Value) 第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。 速度快、时效高(Velocity) 第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。 13、列举大数据时代的主要技术? 答案: 解析:预测分析: 预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署。随着现在硬件和软件解决方案的成熟,许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务

数据挖掘期末大作业任务

数据挖掘期末大作业 1.数据挖掘的发展趋势是什么?大数据环境下如何进行数据挖掘。 对于数据挖掘的发展趋势,可以从以下几个方面进行阐述: (1)数据挖掘语言的标准化描述:标准的数据 挖掘语言将有助于数据挖掘的系统化开发。改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。 (2)寻求数据挖掘过程中的可视化方法:可视 化要求已经成为数据挖掘系统中必不可少的技术。可以在发现知识的过程中进行很好的人机交互。数据的可视化起到了推动人们主动进行知识发现的作用。 (3)与特定数据存储类型的适应问题:根据不 同的数据存储类型的特点,进行针对性的研究是目前流行以及将来一段时间必须面对的问题。 (4)网络与分布式环境下的KDD问题:随着 Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的。因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。 (5)应用的探索:随着数据挖掘的日益普遍,其应用范围也日益扩大,如生物医学、电信业、零售业等 领域。由于数据挖掘在处理特定应用问题时存在局限性,因此,目前的研究趋势是开发针对于特定应用的数据挖掘系统。 (6)数据挖掘与数据库系统和Web数据库系统的集成:数据库系统和Web数据库已经成为信息处 理系统的主流。 2. 从一个3输入、2输出的系统中获取了10条历史数据,另外,最后条数据是系统的输 入,不知道其对应的输出。请使用SQL SERVER 2005的神经网络功能预测最后两条数据的输出。 首先,打开SQL SERVER 2005数据库软件,然后在界面上右键单击树形图中的“数据库”标签,在弹出的快捷菜单中选择“新建数据库”命令,并命名数据库的名称为YxqDatabase,单击确定,如下图所示。 然后,在新建的数据库YxqDatabas中,根据题目要求新建表,相应的表属性见下图所示。

数据挖掘作业

《数据挖掘》作业 第一章引言 一、填空题 (1)数据库中的知识挖掘(KDD)包括以下七个步骤:、、、、、和 (2)数据挖掘的性能问题主要包括:、和 (3)当前的数据挖掘研究中,最主要的三个研究方向是:、和 (4)在万维网(WWW)上应用的数据挖掘技术常被称为: (5)孤立点是指: 二、单选题 (1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于: A、所涉及的算法的复杂性; B、所涉及的数据量; C、计算结果的表现形式; D、是否使用了人工智能技术 (2)孤立点挖掘适用于下列哪种场合? A、目标市场分析 B、购物篮分析 C、模式识别 D、信用卡欺诈检测(3)下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析 A. 关联分析 B.分类和预测 C.聚类分析 D. 演变分析 (4)下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能 A、选择任务相关的数据 B、选择要挖掘的知识类型 C、模式的兴趣度度量 D、模式的可视化表示 (5)下列几种数据挖掘功能中,()被广泛的用于购物篮分析 A、关联分析 B、分类和预测 C、聚类分析 D、演变分析 (6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是() A.关联分析 B.分类和预测 C. 演变分析 D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是() A.关联分析 B.分类和预测 C.聚类分析 D. 孤立点分析 E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是() A.关联分析 B.分类和预测 C. 孤立点分析 D. 演变分析 E. 概念描述 三、简答题 (1)什么是数据挖掘? (2)一个典型的数据挖掘系统应该包括哪些组成部分? (3)请简述不同历史时代数据库技术的演化。 (4)请列举数据挖掘应用常见的数据源。(或者说,我们都在什么样的数据上进行数据挖掘)(5)什么是模式兴趣度的客观度量和主观度量? (6)在哪些情况下,我们认为所挖掘出来的模式是有趣的? (7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?

浙江大学数据挖掘在线作业

您的本次作业分数为:100分单选题 1.【第001章】孤立点挖掘适用于下列哪种场合? A 目标市场分析 B 购物篮分析 C 模式识别 D 信用卡欺诈检测 正确答案:D 单选题 2.【第01章】根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是()。 A 关联分析 B 分类和预测 C 演变分析 D 概念描述 正确答案:B 单选题 3.【第01章】数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于()。 A 所涉及的算法的复杂性 B 所涉及的数据量 C 计算结果的表现形式 D 是否使用了人工智能技术 正确答案:B

4.【第01章】下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析。 A 关联分析 B 分类和预测 C 聚类分析 D 演变分析 正确答案:D 单选题 5.【第01章】下列几种数据挖掘功能中,()被广泛的用于购物篮分析。 A 关联分析 B 分类和预测 C 聚类分析 D 演变分析 正确答案:A 单选题 6.【第01章】帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()。 A 关联分析 B 分类和预测 C 聚类分析 D 孤立点分析 E 演变分析

单选题 7.【第01章】下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能。 A 选择任务相关的数据 B 选择要挖掘的知识类型 C 模式的兴趣度度量 D 模式的可视化表示 正确答案:B 单选题 8.【第01章】假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()。 A 关联分析 B 分类和预测 C 孤立点分析 D 演变分析 E 概念描述 正确答案:E 单选题 9.【第02章】下列哪种可视化方法可用于发现多维数据中属性之间的两两相关性? A 空间填充曲线 B 散点图矩阵 C 平行坐标

2013秋浙江大学数据挖掘作业必做在线要点

1.置信度(confidence)是衡量兴趣度度量()的指标。 A 简洁性 B 确定性 C 实用性 D 新颖性 正确答案:B 单选题 2.哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据? A 上卷 B 下钻 C 切块 D 转轴 正确答案:A 单选题 3.下列几种数据挖掘功能中,()被广泛的用于购物篮分析。 A 关联分析 B 分类和预测 C 聚类分析 D 演变分析 正确答案:A 单选题 4.下列哪个描述是正确的? A 分类和聚类都是有指导的学习 B 分类和聚类都是无指导的学习 C 分类是有指导的学习,聚类是无指导的学习 D 分类是无指导的学习,聚类是有指导的学习 正确答案:C

5.计算一个单位的平均工资,使用哪个中心趋势度量将得到最合理的结果? A 算术平均值 B 截尾均值 C 中位数 D 众数 正确答案:B 单选题 6.规则:age(X,”19-25”) ∧buys(X, “popcorn”) => buys(X, “coke”)是一个()。 A 单维关联规则 B 多维关联规则 C 混合维关联规则 D 不是一个关联规则 正确答案:B 单选题 7.假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()。 A 关联分析 B 分类和预测 C 孤立点分析 D 演变分析 E 概念描述 正确答案:E 单选题 8.下面哪种数据预处理技术可以用来平滑数据,消除数据噪声? A 数据清理 B 数据集成 C 数据变换

D 数据归约 正确答案:A 单选题 9.进行数据规范化的目的是()。 A 去掉数据中的噪声 B 对数据进行汇总和聚集 C 使用概念分层,用高层次概念替换低层次“原始”数据 D 将属性按比例缩放,使之落入一个小的特定区间 正确答案:D 单选题 10.平均值函数avg()属于哪种类型的度量? A 分布的 B 代数的 C 整体的 D 混合的 正确答案:B 单选题 11.下面哪种分类方法是属于统计学的分类方法? A 判定树归纳 B 贝叶斯分类 C 后向传播分类 D 基于案例的推理 正确答案:B 单选题 12.下列几种数据挖掘功能中,()被广泛的用于购物篮分析。 A 关联分析 B 分类和预测 C 聚类分析

(完整word版)数据挖掘题目及答案

一、何为数据仓库?其主要特点是什么?数据仓库与KDD的联系是什么? 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 特点: 1、面向主题 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。 2、集成的 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 3、相对稳定的 数据仓库的数据主要供企业决策分析之用,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 4、反映历史变化 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。数据仓库为KDD提供了数据环境,KDD从数据仓库中提取有效的,可用的信息 二、 数据库有4笔交易。设minsup=60%,minconf=80%。 TID DATE ITEMS_BOUGHT T100 3/5/2009 {A, C, S, L} T200 3/5/2009 {D, A, C, E, B} T300 4/5/2010 {A, B, C} T400 4/5/2010 {C, A, B, E} 使用Apriori算法找出频繁项集,列出所有关联规则。 解:已知最小支持度为60%,最小置信度为80% 1)第一步,对事务数据库进行一次扫描,计算出D中所包含的每个项目出现的次数,生成候选1-项集的集合C1。

浙大数据库资源-个人整理版

浙江大学图书馆数据库资源 https://www.360docs.net/doc/1613242796.html,KI(中国知网) 下载《中国期刊全文数据库》(全文年限:1994年以后)、《中国优秀硕士学位论文全文数据库》(全文年限:1999年以后)、《中国博士论文全文数据库》的数据和全文(全文年限:1999年以后)。 此外还可以检索引文、会议论文、报纸、专利、成果、标准等数据库的摘要信息。 CNKI世纪期刊现已对我校读者开通使用,该数据库基于对近5年来,期刊、学位论文、会议论文、图书等文献引文数据的分析,遴选出4195种过刊引文数据较高的刊物,将其创刊以来的全文数据完整的进行回溯。累计回溯文献量达550多万篇,大部分收录年限为1979年-1993年,刊物最早回溯时间到1887年。 2.万方数据 中国学位论文数据库(CDDB):收录了我国自然科学和社会科学各领域的硕士、博士及博士后研究生论文的文摘信息。 的各种学术会议论文,每年涉及上千个重要的学术会议,是目前国内收集学科最全、数量最 其收录范围包括新技术、新产品、新工艺、新材料、新设计,涉及自然科学各个学科领域。 专利数据库(zl):收录从1985年至今授理的全部专利数据信息,包含专利公开(公告)日、公开(公告)号、主分类号、分类号、申请(专利)号、申请日、优先权等数据项。 中外标准数据库(BZ):收录了中国国家标准、中国行业标准、中国建材标准、中国建设标准、国际标准化组织标准、国际电工委员会标准、欧洲标准、英国标准学会标准、法国标准协会标准、德国标准化学会标准、日本工业标准调查会标准、美国国家标准、美国行业标准等国内外各种标准的题录信息。 科技文献类数据库:有冶金自动化文献、机械工程文摘、中国建材文献、农业科学文献、光纤通信文献、管理科学文献、煤炭科技文献、铁路航测遥感、船舶文献数据库、有色金属文献、水利期刊文献、人口科学文献、金属材料文献、磨料磨具文献、粮油食品文献、麻醉科学文献、环境科技文献、地震文献数据、采矿文献数据、计算机文献、西文期刊馆藏、科技声像目录等按专题收录的数据库,收录相关专题中的期刊、会议、专利等文献信息。 中国科技论文统计分析数据库(CSTPC): 该数据库主要功能有: 查找国内发表的重要科技论文;了解历年来中国科技论文统计分析与排序结果;了解各地区、部门、单位、作者以及各学科及基金资助论文发表的详细情况。 中国科技论文引文分析数据库(CSTPI):该数据库集文献检索与论文统计分析于一体,既

数据挖掘离线作业

浙江大学远程教育学院 《数据挖掘》课程作业 姓名:学号: 年级:学习中心:————————————————————————————— 第一章引言 一、填空题 (1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据交换、数据挖掘、模式评估和知识表示 (2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理 (3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习 (4)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据 二、简答题 (1)什么是数据挖掘? 答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。 (2)一个典型的数据挖掘系统应该包括哪些组成部分? 答:一个典型的数据挖掘系统应该包括以下部分:1、数据库、数据仓库或其他信息库,2、数据库或数据仓库服务器,3、知识库,4、数据挖掘引擎,5、模式评估魔磕,6图形用户界面。 (3)Web挖掘包括哪些步骤? 答:数据清理:(这个可能要占用过程60%的工作量)、数据集成、将数据存入数据仓库、建立数据立方体、选择用来进行数据挖掘的数据、数据挖掘(选择适当的算法来找到感兴趣的模式)、展现挖掘结果、将模式或者知识应用或者存入知识库。 (4)请列举数据挖掘应用常见的数据源。 (或者说,我们都在什么样的数据上进行数据挖掘) 答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象——关系数据库、异种数据库和遗产数据库、文本数据库和万维网等。

数据挖掘作业

一:用R语言编程实现P56页19题 以19(2)为例编写R语言程序,其他小题程序类似1.余弦相似度 > x=c(0,1,0,1) > y=c(1,0,1,0) > xy=sum(x*y) > x1=sqrt(sum(x^2)) > y1=sqrt(sum(y^2)) > c=xy/(x1*y1) > c [1] 0 2.相关性 > x=c(0,1,0,1) > y=c(1,0,1,0) > xbar=mean(x) > ybar=mean(y) > len=length(x) > sx=sqrt((1/(len-1))*sum((x-xbar)^2)) > sy=sqrt((1/(len-1))*sum((y-ybar)^2)) > sxy=(1/(len-1))*sum((x-xbar)*(y-ybar)) > corrxy=sxy/(sx*sy) > corrxy

3.欧几里得距离 > x=c(0,1,0,1) > y=c(1,0,1,0) > dxy=sqrt(sum((x-y)^2)) > dxy [1] 2 4.Jaccard系数 > x=c(0,1,0,1) > y=c(1,0,1,0) > f00=f01=f10=f11=0 > len=length(x) > j=1 > while(j

数据挖掘在线作业

数据挖掘 您的本次作业分数为:95分单选题 1.【第001章】孤立点挖掘适用于下列哪种场合? A 目标市场分析 B 购物篮分析 C 模式识别 D 信用卡欺诈检测 正确答案:D 单选题 2.【第01章】数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于()。 A 所涉及的算法的复杂性 B 所涉及的数据量 C 计算结果的表现形式 D 是否使用了人工智能技术 正确答案:B 单选题 3.【第01章】帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()。 A 关联分析 B 分类和预测 C 聚类分析 D 孤立点分析 E 演变分析 正确答案:C 单选题 4.【第01章】假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()。 A 关联分析 B 分类和预测

C 孤立点分析 D 演变分析 E 概念描述 正确答案:E 单选题 5.【第01章】下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能。 A 选择任务相关的数据 B 选择要挖掘的知识类型 C 模式的兴趣度度量 D 模式的可视化表示 正确答案:B 单选题 6.【第01章】根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是()。 A 关联分析 B 分类和预测 C 演变分析 D 概念描述 正确答案:B 单选题 7.【第01章】下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析。 A 关联分析 B 分类和预测 C 聚类分析 D 演变分析 正确答案:D 单选题 8.【第01章】下列几种数据挖掘功能中,()被广泛的用于购物篮分析。 A 关联分析

数据挖掘作业

数据挖掘作业The document was prepared on January 2, 2021

1、给出K D D的定义和处理过程。 KDD的定义是:从大量数据中提取出可信的、新颖的、有用的且可以被人理解的模式的高级处理过程。因此,KDD是一个高级的处理过程,它从数据集中识别出以模式形式表示的知识。这里的“模式”可以看成知识的雏形,经过验证、完善后形成知识:“高级的处理过程”是指一个多步骤的处理过程,多步骤之间相互影响反复调整,形成一种螺旋式上升的过程。 KDD的全过程有五个步骤:1、数据选择:确定发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据库中抽取的一组数据;2、数据预处理:一般可能包括消除噪声、推到技术却只数据、消除重复记录、完成数据类型转换等;3、数据转换:其主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数;4、数据挖掘:这一阶段包括确定挖掘任务/目的、选择挖掘方法、实施数据挖掘;5、模式解释/评价:数据挖掘阶段发现出来的模式,经过用户或机器的评价,可能存在冗余或无关的模式,需要剔除;也有可能模式不满足用户的要求,需要退回到整个发现阶段之前,重新进行KDD过程。 2、阐述数据挖掘产生的背景和意义。 数据挖掘产生的背景:随着信息科技的进步以及电子化时代的到来,人们以更快捷、更容易、更廉价的方式获取和存储数据,使得数据及信息量以指数方式增长。据粗略估计,一个中等规模企业每天要产生100MB以上的商业数据。而电信、银行、大型零售业每天产生的数据量以TB来计算。人们搜集的数据越来越多,剧增的数据背后隐藏着许多重要的信息,人们希望对其进行更高层次的分析,以便更好的利用这些数据。先前的数据库系统可以高效的实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系与规则,无法根据现有的数据来预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段。导致了“数据爆炸但知识贫乏”的现象。于是人们开始提出“要学会选择、提取、抛弃信息”,并且开始考虑:如何才能不被信息淹没如何从中及时发现有用的知识、提高信息利用率如何从浩瀚如烟海的资料中选择性的搜集他们认为有用的信息这给我们带来了另一些头头疼的问题:第一是信息过量,难以消

浙大计算机学院导师详细资料

浙大计算机学院导师详细资料 研究所姓名职称学科专长及研究方向办公地点办公室电话 Email 备注 人工智能所陈德人教授电子商务与电子服务技术、信息系统集成,网络教育技术,计算机图形学与CAD 406 博导 人工智能所陈卫东副教授虚拟现实、脑机交互、移动计算、计算机网络、人工智能、商务智能112(东)硕导 人工智能所董金祥教授计算机图形学、计算机辅助设计、先进制造技术、计算机集成制造技术、人工智能、数据406 博导 人工智能所干红华副教授人工智能、因果模型、计算机在法律领域的应用205 9 硕导 人工智能所高济教授网络计算与普适计算、智能软件与Agent技术、软件工程与中间件技术、知识管理与决策支持408 博导 人工智能所耿卫东教授计算机图形图像技术、智能CAD、人工智能512 博导 人工智能所何利力副教授GIS、人机交互、数据库与数据分析310(东)硕导 人工智能所金小刚副教授复杂网络理论与应用研究、计算金融学、计算生态学、生物计算、脑机接口、智能传输系统及其仿真研究310 硕导 人工智能所孔繁胜教授人工智能应用,机器学习,数据挖掘,web-GIS 410 博导 人工智能所李际军副教授曲面造型、逆向工程、CAD/CAM,游戏引擎开发,三维服装及动画技术204(东) 硕导 人工智能所李善平教授金融信息学、分布式计算、信息集成技术、Linux 平台及应用414 博导 人工智能所林兰芬教授语义Web、网络化制造、知识管理、CAX、产品建模501 硕导 人工智能所鲁东明教授数字媒体网络系统,文化遗存数字化保护,下一代互联网络,虚拟现实与数字博物馆407(东)博导 人工智能所潘云鹤教授人工智能,形象思维,计算机图形学,智能CAD,计算机美术,工业设计博导(院士) 人工智能所唐敏副教授三维造型CAD 303 硕导 人工智能所童若锋教授计算机图形学,协同设计与制造,图像重建与处理303 博导 人工智能所王申康教授人工智能、计算机协同工作技术、生物认证、嵌入式GPS&GIS、智能建筑412 博导 人工智能所魏宝刚副教授人工智能、图像处理、数据库与知识库系统505 硕导 人工智能所吴春明教授人工智能,智能机器人技术,计算机网络407 硕导 人工智能所吴江琴副教授数据挖掘,数字化图书馆507 硕导 人工智能所肖国臻副教授可视化技术在医学中的应用、虚拟现实技术在医学中的应用、计算机控制技术505 硕导 人工智能所邢卫副教授计算机网络技术及应用、电子政务模型及应用516 硕导 人工智能所徐从富副教授人工智能、智能CAD、数据挖掘、知识发现、数据融合313 硕导 人工智能所杨建刚教授先进计算、多传感器数据融合、人工神经网络、嵌入式系

数据挖掘习题及解答-完美版

Data Mining Take Home Exam 学号: xxxx 姓名: xxx (1)计算整个数据集的Gini指标值。 (2)计算属性性别的Gini指标值 (3)计算使用多路划分属性车型的Gini指标值 (4)计算使用多路划分属性衬衣尺码的Gini指标值 (5)下面哪个属性更好,性别、车型还是衬衣尺码为什么 (3)

/20+{1-(1/8)^2-(7/8)^2}*8/20=26/160 = /4)^2-(2/4)^2}*4/20]*2=8/2 5+6/35= (5) 比较上面各属性的Gini值大小可知,车型划分Gini值最小,即使用车型属性更好。 2. ( (1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。(3)将每个顾客ID作为一个购物篮,重复(1)。应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。答:(1)由上表计数可得{e}的支持度为8/10=;{b,d}的支持度为2/10=;{b,d,e} 的支持度为2/10=。 (2)c[{b,d}→{e}]=2/8=; c[{e}→{b,d}]=8/2=4。 (3)同理可得:{e}的支持度为4/5=,{b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=。

(4)c[{b,d}→{e}]=5/4=,c[{e}→{b,d}]=4/5=。 3. (20分)以下是多元回归分析的部分R输出结果。 > ls1=lm(y~x1+x2) > anova(ls1) Df Sum Sq Mean Sq F value Pr(>F) x1 1 *** x2 1 ** Residuals 7 > ls2<-lm(y~x2+x1) > anova(ls2) Df Sum Sq Mean Sq F value Pr(>F) x2 1 ** x1 1 *** Residuals 7 (1)用F检验来检验以下假设(α = H0: β1 = 0 H a: β1≠ 0 计算检验统计量;是否拒绝零假设,为什么 (2)用F检验来检验以下假设(α = H0: β2 = 0 H a: β2≠ 0 计算检验统计量;是否拒绝零假设,为什么 (3)用F检验来检验以下假设(α = H0: β1 = β2 = 0 H a: β1和β2 并不都等于零 计算检验统计量;是否拒绝零假设,为什么 解:(1)根据第一个输出结果F=>F(2,7)=,p<,所以可以拒绝原假设,即得到不等于0。 (2)同理,在α=的条件下,F=>F(2,7)=,p<,即拒绝原假设,得到不等于0。(3)F={(+)/2}/(7)=>F=(2,7)=,即拒绝原假设,得到和并不都等于0。 4. (20分)考虑下面20个观测值: [1] [6] [11] [16]

浙江大学个人简历

浙江省杭州市浙江大学(邮编:) xxx-xxx-6300 xxx@https://www.360docs.net/doc/1613242796.html, 求职意向 教育背景 浙江大学能源工程学系能源与环境系统工程专业(热能方向)本科2010/8/14~今 核心课程:工程热力学 4.6/5 传热学 4.6/5 锅炉原理 4.5/5 透平机械原理 4.6/5 实习经历 蓝天环保设备工程股份有限公司研发中心研发助理2013/5~2013/7 ●公司专业从事大气污染控制和能源高效利用的研究与工程应用 ●独立负责“SCR烟气脱硝工艺费用效益分析”的研究 ●根据SCR脱硝设计手册,选取容量、煤种类等影响因子为自变量,建立各个子系统的数学模型,并推导得到各项 成本效益的函数;完成对20多个电厂SCR反应系统的调研,收集分析各项参数数据,结果显示函数与影响因子相关性较高 ●整合得到SCR总成本效益与各影响因子的函数关系,用于工程招标前预估SCR脱硝项目的投资和运行费用 “全球模拟公司联合体中国中心——创业实训模拟公司”项目2012/11/24~2012/12/23 ●全球模拟公司联合体是著名NGO组织 ●该项目为浙江大学创新创业培训计划 杭州北高峰电力工程设计有限公司工程部项目制图员2013/7~2013/9 ●负责绘制电厂司令图分册,总计完成5个300MW以下机组汽轮机蒸汽管道分册图 科研经历 第十五期浙江大学大学生科研训练计划(SRTP)结题成绩:优秀(30%)2012/6~2013/5 ●研究开发“新型SCR喷氨混合装置”,是“十二五”国家节能减排规划重要课题,探究如何强化氮氧化物和还原 剂的混合,以提高脱硝效率,减少电厂NO X的排放 ●负责设计物模实验台,并完成14组数据的采集 ●自主开发完成V字型喷氨混合装置,物模和数模实验测试表明:相对于通用型分区控制式喷氨格栅和旋流混合装 置,混合效果更充分,系统压降更小,经济性更好 第六届浙江大学大学生节能减排社会实践与科技竞赛二等奖2012/12~2013/5 ●面向企业和环保局开发《大气污染物控制装备评估与决策支持软件》,用于评估脱硫脱硝除尘装备的经济性能 ●作为7人团队队长,整合导师资源、分配协调各位队员的工作,并承担软件的设计和数据挖掘工作 ●作为第一发明人,完成软件开发,并登记注册软件著作权 社会工作 第九届浙江大学学生精武协会会长2011/9/1~2012/6 ●浙江大学优秀社团,致力于武术培训、比赛、交流等活动 ●首创“会员/专业队双轨制”管理培训模式 ●与教育学院体育系合作,举办“阳光义工—传统武术进社区”志愿者活动;承办“激情武月民族传统武术节”, 观众近700人;作为优秀社团代表(8/120)在“第十三届学生社团文化节开幕式”上发言 能源工程学系学生会生活权益部副部长2012/10~2013/5 ●举办权服周系列活动;开展“寝室文化节”活动;参与编写《玉泉校区生活学习指南》 能源工程学系团委社会工作部副部长2013/4/11~2013/10 ●负责院系暑/寒期社会实践的总体策划、动员、征集、申报和评比工作;开发与组织社区志愿服务活动 ●与杭州公交集团合作,建立了“杭州公共自行车维修志愿者服务”长期合作项目 英语及IT技能 ●英语:通过CET-4、CET-6,TOEFL,有翻译美国环保署(EPA)文件的经历,英语口语良好 ●IT技能:掌握Office办公软件、AutoCAD、Origin、Matlab、Photoshop

最新《数据挖掘》试题与答案资料

一、解答题(满分30分,每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2. 时间序列数据挖掘的方法有哪些,请详细阐述之 时间序列数据挖掘的方法有: 1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。 2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

相关文档
最新文档