中科院数据挖掘hw1
数据挖掘与云计算——专访中国科学院计算技术研究所 何清 博士

DO :0 3 6 /.sn 10 —84 2 1 . 3 0 2 I 1 . 9 9 ji .0 1 2 .0 10 .0 s 3
数据挖掘与云计算
专访 中 国科 学 院计 算技 术研 究所 何 清 博 士
《 字通信》 数 记者 : 张 诚, 郭 毅
与 的计 算 模 式 , 计 算 资 源 ( 算 能 力 、 储 能力 、 其 计 存 交互 能 力 ) 动 态 、 是 可伸 缩 、 被 虚 拟 化 的 , 且 以 且 而 服务 的方式 提供 。 云计算 给软件 带 来 的变 革 主要 表 现在 Sa ( as 软 件 即服 务 ) 。软件 的单 机 安装 将 逐渐 被 云计 算 平 台 部署所 代替 , 用户 只需 通 过 网 络浏 览 器便 可 享 受快 速高质 的云 服务 , 中小 企 业 既可 以在公 共 云 计算 平 台上使用 云服 务软 件 , 可 以在 硬 件 开支 不 大 的情 也
C ue a 在 N P 2 0 h t l IS0 6上发 表 了一 篇文章 , 他们 采用 Ma/e ue编程完 成 了很 多机器 学 习方 法 , p rd c 这 是一项 有非常重 要 意义 的工作 , 过 他 们 的运 算 环 不 境是基 于多核 系统 的。 目前 , 基于 H d o a op的数据挖 掘开 源项 目有 Ma ot这个 项 目致力 于 数据挖 掘 并 hu , 行化 , 以云计 算方式 来做数 据挖 掘 的开 源项 目。 是 通过云计 算 的海 量数 据 存储 和 分 布计 算 , 云 为 计算 环境下 的海量 数 据挖 掘 提 供 了新 方 法 和手 段 ,
况 下部署 自己 的云 计 算 平 台 , 而实 现 高性 能 、 从 低
成 本 的计 算 。随着 云计 算 的发 展 , 多公 共需 求 的 很 服务 将会 日益满 足大众 需求 , 惠各个行业 。 普 数据 挖 掘 远 比信 息 搜 索 要 复 杂 。 过 去 对 海 量 数据 的处 理 主 要 是 通 过 高性 能机 或 者 更 大 规模 的
数据挖掘顶级期刊简介

顶级会议第一KDD 第二SIAM ICDM中国计算机学会推荐国际学术刊物(数据库、数据挖掘与内容检索)序号刊物简称刊物全称出版社网址1 TODS ACM Transactions on Database Systems ACM /tods/2 TOIS ACM Transactions on Information andSystems ACM /pubs/tois/3 TKDE IEEE Transactions on Knowledge and Data Engineering IEEE Computer Society /tkde/4 VLDBJ VLDB Journal S pringer-Verlag/dblp/db/journals/vldb/index.html二、B类序号刊物简称刊物全称出版社网址1 TKDD ACM Transactions on Knowledge Discovery from Data ACM/pubs/tkdd/2 AEI Advanced Engineering Informatics Elsevier/wps/find/journaldescription.cws_home/622240/3 DKE Data and Knowledge Engineering Elsevier/science/journal/0169023X4 DMKD Data Mining and Knowledge DiscoverySpringer/content/100254/5 EJIS European Journal of Information Systems The OR Society/ejis/6 GeoInformatica Springer /content/1573-7624/7 IPM Information Processing and Management Elsevier/locate/infoproman8 Information Sciences Elsevier /locate/issn/002002559 IS Information Systems Elsevier/information-systems/10 JASIST Journal of the American Society for Information Science and TechnologyAmerican Society for Information Science and Technology /Publications/JASIS/jasis.html11 JWS Journal of Web Semantics Elsevier /locate/inca/67132212 KIS Knowledge and Information Systems Springer /journal/1011513 TWEB ACM Transactions on the Web ACM /三、C类序号刊物简称刊物全称出版社网址1 DPD Distributed and Parallel Databases Springer/content/1573-7578/2 I&M Information and Management E lsevier /locate/im/3 IPL Information Processing Letters Elsevier /locate/ipl4 Information Retrieval Springer /issn/1386-45645 IJCIS International Journal of Cooperative Information Systems World Scientific/ijcis6 IJGIS International Journal of Geographical Information Science Taylor & Francis/journals/tf/13658816.html7 IJIS International Journal of Intelligent Systems Wiley/jpages/0884-8173/8 IJKM International Journal of Knowledge Management IGI/journals/details.asp?id=42889 IJSWIS International Journal on Semantic Web and Information Systems IGI/10 JCIS J ournal of Computer Information Systems IACIS/web/journal.htm11 JDM Journal of Database Management IGI-Global/journals/details.asp?id=19812 JGITM Journal of Global Information Technology Management Ivy League Publishing/bae/jgitm/13 JIIS Journal of Intelligent Information Systems Springer/content/1573-7675/14 JSIS Journal of Strategic Information Systems Elsevier/locate/jsis中国计算机学会推荐国际学术刊物(数据库、数据挖掘与内容检索)一、A类序号刊物简称刊物全称出版社网址1 TODS ACM Transactions on Database Systems ACM /tods/2 TOIS ACM Transactions on Information andSystems ACM /pubs/tois/3 TKDE IEEE Transactions on Knowledge and Data Engineering IEEE Computer Society /tkde/4 VLDBJ VLDB Journal S pringer-Verlag/dblp/db/journals/vldb/index.html二、B类序号刊物简称刊物全称出版社网址1 TKDD ACM Transactions on Knowledge Discovery from Data ACM/pubs/tkdd/2 AEI Advanced Engineering Informatics Elsevier/wps/find/journaldescription.cws_home/622240/3 DKE Data and Knowledge Engineering Elsevier/science/journal/0169023X4 DMKD Data Mining and Knowledge DiscoverySpringer/content/100254/5 EJIS European Journal of Information Systems The OR Society/ejis/6 GeoInformatica Springer /content/1573-7624/7 IPM Information Processing and Management Elsevier/locate/infoproman8 Information Sciences Elsevier /locate/issn/002002559 IS Information Systems Elsevier/information-systems/10 JASIST Journal of the American Society for Information Science and TechnologyAmerican Society for Information Science and Technology /Publications/JASIS/jasis.html11 JWS Journal of Web Semantics Elsevier /locate/inca/67132212 KIS Knowledge and Information Systems Springer /journal/1011513 TWEB ACM Transactions on the Web ACM /三、C类序号刊物简称刊物全称出版社网址1 DPD Distributed and Parallel Databases Springer/content/1573-7578/2 I&M Information and Management E lsevier /locate/im/3 IPL Information Processing Letters Elsevier /locate/ipl4 Information Retrieval Springer /issn/1386-45645 IJCIS International Journal of Cooperative Information Systems World Scientific/ijcis6 IJGIS International Journal of Geographical Information Science Taylor & Francis/journals/tf/13658816.html7 IJIS International Journal of Intelligent Systems Wiley/jpages/0884-8173/8 IJKM International Journal of Knowledge Management IGI/journals/details.asp?id=42889 IJSWIS International Journal on Semantic Web and Information Systems IGI/10 JCIS J ournal of Computer Information Systems IACIS/web/journal.htm11 JDM Journal of Database Management IGI-Global/journals/details.asp?id=19812 JGITM Journal of Global Information Technology Management Ivy League Publishing/bae/jgitm/13 JIIS Journal of Intelligent Information Systems Springer/content/1573-7675/14 JSIS Journal of Strategic Information Systems Elsevier/locate/jsis一、以下是一些数据挖掘领域专家牛人的网站,有很多精华,能开阔研究者的思路,在此共享:1.Rakesh Agrawal主页:/en-us/people/rakesha/ 数据挖掘领域唯一独有的关联规则研究的创始人,其主要的Apriori算法开启了这一伟大的领域。
空间数据挖掘技术在遥感数据处理中的应用研究

空间数据挖掘技术在遥感数据处理中的应用研究一、引言随着遥感技术的逐步发展和普及,遥感数据处理成为了一个热门的研究领域,而空间数据挖掘技术作为一种新兴的数据挖掘技术,在遥感数据处理中也得到了广泛的应用。
本文旨在探讨空间数据挖掘技术在遥感数据处理中的应用以及发展趋势。
二、空间数据挖掘技术概述空间数据挖掘技术是数据挖掘技术的一种,在空间数据的处理和分析方面具有很好的应用前景。
空间数据指的是涉及地理位置信息的数据,包括遥感数据、地理信息系统数据等。
空间数据挖掘技术主要是通过对数据进行分析和挖掘来发现其中的规律和有价值的信息,从而为后续的决策提供支持和保证。
目前,空间数据挖掘技术已经被广泛应用于城市规划、环境监测、农业生产等领域。
三、遥感数据处理中的应用研究1. 遥感图像分类遥感图像分类是遥感数据处理中的一个重要环节。
在遥感图像分类中,空间数据挖掘技术可以帮助分析和识别出图片中的各种地物与覆盖类型,并提供决策支持。
对于遥感图像分类中的数据特征提取过程中,空间数据挖掘技术可以帮助从多个精度尺度的空间数据中提取出具有较好分类性能的特征,从而提高分类精度。
2. 遥感影像分析随着遥感技术的不断进步,遥感影像分析也成为了遥感数据处理的一个重要环节。
在遥感影像分析中,空间数据挖掘技术可以帮助分析和处理影像中的时空数据,包括温度、变化、植被等信息,从而促进对影像的进一步理解和利用。
3. 空间数据挖掘中的地理信息系统地理信息系统是一种将软件技术和地理信息相结合的信息系统。
在地理信息系统中,空间数据挖掘技术可以帮助分析和挖掘出其中的地理信息,如交通路线、商业区域、人群热点等信息,为城市规划、交通设计等方面提供有效的决策数据支持。
四、空间数据挖掘技术在遥感数据处理中的发展趋势随着遥感技术和空间数据挖掘技术的不断发展和进步,这两种技术也不断拓展其应用范围。
未来,我们可以预见到以下几点发展趋势:1. 多源数据融合未来,会出现更多的遥感数据源,如卫星遥感和无人机遥感等,同时,各类遥感数据种类和所提供的信息也将更加丰富。
数据挖掘算法在天文数据分析领域中优化运用

数据挖掘算法在天文数据分析领域中优化运用数据挖掘算法在天文数据分析领域中的优化运用对于天文学的研究和发展具有重要意义。
天文学是研究宇宙各种现象和物质的科学,其数据量庞大且复杂,因此需要有效的数据处理和分析方法。
数据挖掘算法通过挖掘、整理和分析大量天文数据,能够帮助天文学家从中发现隐藏的模式和规律,提供更准确和深入的科学洞察力。
天文学研究中使用的数据主要包括天体观测数据、天文图像数据、光谱数据等不同类型的数据。
这些数据中蕴含了丰富的信息,但信息的提取和分析对于人类来说是一项庞大而复杂的任务。
数据挖掘算法的优化运用可以大大提高数据处理的效率,帮助天文学家更好地理解宇宙的本质。
其中,对于天体观测数据的处理,数据挖掘算法可以帮助识别和分类天体的类型和特征。
例如,通过聚类算法,可以将观测到的天体分为不同的类别,进而研究它们的相似性和差异性。
这有助于天文学家对星系、恒星等天体的形成和演化规律进行深入研究。
此外,数据挖掘算法在天文图像数据的分析中也发挥着重要作用。
天文学家通过观测和记录天体的图像,可以获得丰富的天文信息。
然而,这些图像数据往往庞大而复杂,需要有效的算法来识别和提取有用的信息。
数据挖掘算法中的图像识别和特征提取算法可以帮助天文学家在大量图像数据中发现特定的模式和结构,从而推断出天体的形态、性质和演化。
光谱数据是天文学研究中另一个重要的数据类型。
通过对天体的光谱进行分析,可以了解其组成、温度、速度等重要参数。
然而,光谱数据的处理和分析是一项复杂而繁琐的任务。
数据挖掘算法中的光谱特征提取和分类算法可以帮助天文学家分析和分类不同光谱数据,实现天体的自动分类和鉴定。
除了以上几种常见的数据类型外,天文学研究还涉及到其他形式的数据,例如时间序列数据、多维数据等。
数据挖掘算法的运用可以有效地处理和分析这些数据,为天文学的研究和发展提供更深入的洞察。
在天文学研究中,数据挖掘算法的优化应用还存在一些挑战和问题需要解决。
数据挖掘技术在科研机构情报分析工作中的应用研究

数据挖掘技术在科研机构情报分析工作中的应用研究随着信息时代的到来,大数据的出现极大的推动了信息化与数字化进程。
同时,科研机构情报分析也得到了重视,并开展了一系列研究与实践。
为了更好地应对信息化时代的挑战,科研机构情报分析工作中越来越多地应用了数据挖掘技术。
数据挖掘技术是指利用计算机自动化地从大量数据中发现有用的模式和规律,并进行数据分析和预测的一种方法。
在科研机构情报分析工作中,数据挖掘技术主要应用于以下方面:首先,数据挖掘技术可以帮助科研机构获取更加精准的信息。
科研机构需要从大量文献、专利以及各类数据库中获取有关研究领域的信息。
在传统的情报分析中,获取信息一般需要靠专业情报分析师手动进行筛选和分类,效率低且易出错。
而数据挖掘技术可以通过对数据进行关联规则挖掘、聚类、分类等方法,筛选出与研究领域相关的信息,并自动分类整理,大大提高了信息获取的效率和准确性。
其次,数据挖掘技术可以帮助科研机构发现新的研究方向和机会。
科研机构需要及时了解研究领域的最新动态和趋势,以寻找创新性的研究方向和机会。
在传统的分析方法中,这需要情报分析师具有综合分析能力和敏锐的洞察力,而数据挖掘技术可以通过对大数据进行挖掘和分析,自动发现研究领域的新趋势、新话题或新问题,进而引领科研机构的研究方向和重点。
最后,数据挖掘技术也可以帮助科研机构进行科学决策。
在实现科研机构研究目标的过程中,需要进行多维度的比较和评估,并依据分析结果进行科学决策。
数据挖掘技术可以通过对科研机构的历史数据和现有数据进行挖掘和分析,帮助科研机构轻松地进行大规模的数据对比和评估,并生成科学的决策建议。
综上所述,数据挖掘技术在科研机构情报分析工作中有着广泛应用,可以大大提高信息获取效率和准确性,发现新的研究方向和机会,以及帮助科研机构进行科学决策。
随着信息化时代的深入发展,数据挖掘技术在科研机构情报分析领域的应用前景将越来越广阔。
面向海洋领域的数据挖掘技术研究

面向海洋领域的数据挖掘技术研究在当今数字化时代,海洋领域数据的快速积累和海量信息的管理成为了一项迫切的需求。
通过数据挖掘技术,我们可以从海洋数据中发现隐藏的模式和规律,为海洋领域的科研、保护、开发以及管理提供有力的支持。
本文将探讨面向海洋领域的数据挖掘技术的研究内容和应用前景。
首先,海洋领域的数据挖掘技术需要处理大规模、多样性和复杂性的数据。
海洋数据包括海洋观测数据、卫星遥感数据、海洋气象数据、海洋地质数据等多种类型。
面对如此庞大而复杂的数据资源,研究者们致力于开发能够提取其中有用信息的数据挖掘算法和技术。
其中一个重要的研究方向是基于机器学习算法的海洋领域数据挖掘。
机器学习是一种通过学习数据模式来预测和分类的算法。
在海洋领域,利用机器学习算法可以对海洋气象数据进行天气预测,对海洋生物数据进行物种分类,对海洋地质数据进行地质特征提取等。
例如,通过训练模型,可以利用历史气象数据预测未来海洋气象情况,从而为海事、渔业等提供预警和指导。
另一个关键研究方向是基于文本挖掘的海洋领域数据分析。
海洋领域中有大量的文献、报告、专利等非结构化数据,这些数据中蕴含了丰富的知识和信息。
通过文本挖掘技术,可以从非结构化的文本数据中提取关键词、主题信息、实体关系等,为科研人员提供快速获取相关信息的工具。
例如,利用文本挖掘可以帮助科研人员快速获取某个海洋物种的相关文献,加速科研进程。
此外,还有一类重要的研究是基于空间数据挖掘的海洋领域数据分析。
海洋领域的数据往往具有时空特性,可以通过空间数据挖掘技术发现空间分布规律、热点区域等。
例如,通过分析卫星遥感数据,可以发现海洋污染的空间分布规律,为海洋环境保护提供科学依据。
空间数据挖掘技术还可以用于海洋资源开发的位置选址、海底地形分析等。
随着深度学习算法的快速发展,海洋领域数据挖掘技术也得到了进一步提升。
深度学习算法通过建立深层神经网络模型,可以处理更复杂、更高维度的数据。
在海洋领域,深度学习算法可以应用于图像识别、目标检测、海底地形重建等诸多任务。
数据挖掘在科学研究中的应用

数据挖掘在科学研究中的应用作为一种新兴的技术手段,数据挖掘在科学研究中的应用越来越受到重视。
通过帮助科学家挖掘和分析数据,数据挖掘能够为科学研究提供新的视角和思路,有助于推动科学进步,帮助我们更好地理解和探索自然世界。
一、数据挖掘在气候研究中的应用气候是人类关注的热点问题之一,而数据挖掘技术在气候研究中的应用也非常广泛。
比如,科学家们可以借助数据挖掘技术对海洋、大气和陆地的数据进行融合,进而研究全球气候变化的格局和趋势。
此外,数据挖掘还可以用来挖掘气候变化的原因和机制,例如研究大气成分变化、太阳辐射强度变化等。
二、数据挖掘在医学研究中的应用医学研究是一个数据密集型的领域,而数据挖掘技术可以帮助科学家们更好地发掘数据中隐藏的信息,从而有助于研究各种疾病的发病机理和潜在治疗方案。
比如,研究者可以通过分析大量的病例数据,发现某种疾病的风险因素和关联疾病,进而制定相应的预防措施和治疗方案,这对提高医学治疗的效果和质量有着重要的意义。
三、数据挖掘在环境管理中的应用环境管理是社会发展的重要方面,数据挖掘技术的应用也为环境治理和管理带来了新的思路和方法。
例如,数据挖掘技术可以用来分析大气、水质、土壤等环境因素的变化趋势和关联性,进而对环境状况进行预测和评估。
在生态恢复和环境监测领域,数据挖掘还可以帮助科学家们揭示环境变化的规律和趋势,发现环境保护的瓶颈和局限,从而为环境治理提供新的思路和方法。
四、数据挖掘在经济学研究中的应用经济学研究是一个复杂的领域,而数据挖掘技术的应用可以帮助经济学家更好地发掘数据中隐藏的信息,提高经济研究的准确性和可信度。
例如,数据挖掘技术可以通过分析社会经济变量之间的关系,发现经济增长的指标和潜在风险,进而制定相应的政策措施和应对方案。
此外,数据挖掘还可以用来预测金融市场的变化趋势,为投资者提供更准确的投资建议。
五、数据挖掘在教育研究中的应用教育研究是一个关注未来的领域,而数据挖掘技术的应用也为教育研究带来了新的方法和思路。
基于海洋环境的数据挖掘算法研究

基于海洋环境的数据挖掘算法研究近年来,利用数据挖掘技术开发复杂的新型算法,改变着海洋环境的数据检索和分析。
海洋环境的数据挖掘算法是建立在海洋学、地理信息学、机器学习和大数据处理等领域,可以从海洋环境数据中挖掘出有用信息的新型算法。
数据挖掘算法有助于科学的探索和环境的研究,可以为海洋环境保护和科学研究提供新的方法和思路。
海洋环境的数据挖掘算法主要分为两大类:基于模式识别的数据挖掘算法和基于统计学的数据挖掘算法。
基于模式识别的数据挖掘算法通过发现规律,从海洋环境数据中发现和提取出新信息。
它包括机器学习技术,深度学习技术,朴素贝叶斯分类和关联规则等,可以帮助研究人员发现更深层次的信息和规律,有助于对海洋环境的深入理解。
基于统计学的数据挖掘算法则可以根据海洋环境数据的特征和联系,从中确定和提取出重要信息。
它可以提供有关海洋环境变化的概率预测,为相关研究和地理管理提供决策依据。
除了上述两大类数据挖掘算法之外,还有一些特殊的数据挖掘算法,如空间分析、船舶跟踪、海洋生物识别等。
它们利用提取和处理数据的方法,融合了GIS、遥感、航空摄影等多种技术,为海洋环境的研究提供有效的数据分析手段。
随着海洋科学技术的发展,数据挖掘算法也将在海洋环境中发挥举足轻重的作用。
这项技术有助于改善海洋环境检测和研究,可以更加准确地检测污染物的来源、传播途径和变化规律,保护海洋环境的健康发展,并进一步提高海洋环境研究的水平。
目前,海洋环境的数据挖掘算法研究仍处于起步阶段,还有许多问题需要进一步探索。
在此背景下,未来应继续加强对海洋环境的数据挖掘技术的研究,以扩展海洋科学研究的空间,以保护海洋环境。
综上,基于海洋环境的数据挖掘算法正在发挥着重要作用,其可以有效地提取海洋环境数据中的有用信息,并为海洋环境的保护和科学研究提供全新的方法和思路。
未来,数据挖掘技术将继续为海洋环境的研究和保护做出重大贡献。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(b) Use the results in part (a) to compute the confidence for the association rules {a, b} {c} and {c}{a, b}. Is confidence a symmetric measure? {a, b}=> {c}, confidence=3/4=75% {c}=> {a, b}, confidence=3/3=100% 两个关联规则的置信度不相等,因此置信度不是对称规则。 (c) List all of the strong association rules (with support s and confidence c) matching the following metarule, where X is a variable representing customers, and itemi denotes variables representing items (e.g. “A”, “B”, etc.):
(g)
4.Consider the data set shown in Table 1(min_sup = 60%, min_conf=80%). Apriori:最小支持度计数值 4*60%=2.4,所以最小支持度计数为 3 A B C D E 4 4 3 2 2 A L1= B C 4 4 3 C2= AB AC BC
Table 1. Example of market basket transactions.
TID T1 T2 T3 T4
Items-bought {A, D, B, C} {D, A, C, E, B} {A, B, E} {A, B, C}
PAGE 4
11/20/16
由(a)中得出的频繁项集 L 可得所有的关联规则如下: 对{AB}有两个子集{A},{B}, 得到的关联规则为: A=>B, confidence=4/4=100% B=>A, confidence=4/4=100% 对{AC}有两个子集{A}, {C},得到的关联规则为: A=>C, confidence=3/4=75% C=>A, confidence=3/3=100% 对{BC}有两个子集{B}, {C},得到的关联规则为: B=>C, confidence=3/4=75% C=>B, confidence=3/3=100% 对{ABC}有 6 个子集{AB}, {BC},{AC}, {C},{A}, {B},得到的关联规则为: {AB}=>{C}, confidence=3/4=75% {C}=>{AB}, confidence=3/3=100% {BC}=>{A}, confidence=3/3=100% {A}=>{BC}, confidence=3/4=75% {AC}=>{B}, confidence=3/3=100% {B}=>{AC}, confidence=3/4=75% 因为 min_conf=80%,得出所有强关联规则为: buys(X, A)=>buys(X, B) [s=100%, c=100%] buys(X, B)=>buys(X, A) [s=100%, c=100%] buys(X,C)=>buys(X, A) [s=75%, c=100%] buys(X, C)=>buys(X, B) [s=75%, c=100%] buys(X, C)=>buys(X, A)^buys(X, B) [s=75%, c=100%] buys(X, B)^buys(X, C)=>buys(X, A) [s=75%, c=100%] buys(X, A)^buys(X, C)=>buys(X, B) [s=75%, c=100%]
PAGE 2
11/20/16
(c)
Five-number in summary of age: 23,39,51,57,61 Five-number in summary of %fat: 7.8,26.5,30.7,34.1,42.5 Boxplot 如图 3.(b)-(c)所示: Draw a scatter plot based on these two variables. Scatter plot 如图 3.(b)-(c)所示:
(d)
图 3.(b)-(c) Normalize the two variables based on min-max normalization. Suppose new_min=0,new_max=1 Normalized data:
0.11 0.000 0.11 0.288 0.42 0.680 0.47 0.522 0.63 0.565 0.68 0.559 0.71 0.647 0.76 0.772 0.82 1.000 0.82 0.605 0.87 0.738 0.89 0.646 0.92 0.758 0.92 0.723 0.97 0.963 1.00 0.804
25763.2 18 51 28.78 ( aibi ) n A B rA , B 0.3344 n 1 A B 17 12.846 8.994 rA , B <0,negatively correlated
PAGE 3
11/20/16
(f)
age %fat
0.00 0.049
0.00 0.539
(e)
Calculate the correlation coefficient (Pearson’s product moment coefficient). Are these two variables positively or negatively correlated?
(a)
Calculate the mean, median, and standard deviation of age and %fat. mean of age: (23+23+27+27+39+41+47+49+50+52+54+54+56+57+58+58+60+61)/18=46.4 median of age: (50+52)/2=51 standard deviation of age: Ó=12.846
age %fat 23 9.5 23 26.5 27 7.8 27 17.8 39 31.4 41 25.9 47 27.4 49 27.2 50 31.2 52 34.6 54 42.5 54 28.8 56 33.4 57 30.2 58 34.1 58 32.9 60 41.2 61 35.7
HW1
Due Date: Oct. 26 Submission requirements: Please submit your solutions to our class website. Part I: written part:
1. Suppose that a data warehouse consists of four dimensions, date, spectator, location, and game, and two measures, count and charge, where charge is the fare that a spectator pays when watching a game on a given date. Spectators may be students, adults, or seniors, with each category having its own charge rate.
Smooth the fat data by bin means, using a bin depth of 6. Bin 1: 19.1,19.1,19.1,19.1,19.1,19.1 Bin 2: 30.3,30.3,30.3,30.3,30.3,30.3 Bin 3: 36.9,36.9,36.9,36.9,36.9,36.9 Smooth the fat data by bin boundaries, using a bin depth of 6. Bin 1: 7.8,7.8,27.2,27.2,27.2,27.2 Bin 2: 27.4,27.4,32.9,32.9,32.9,32.9 Bin 3: 33.4,33.4,33.4,33.4,42.5,42.5
mean of %fat: (7.8+9.5+17.8+25.9+26.5+27.2+27.4+28.8+30.2+31.2+31.4+32.9+33.4+34.1+34.6+35.7+41.2+4 2.5)/18=28.78 median of %fat: (30.2+31.2)/2=30.7 standard deviation of %fat: Ó=8.994 (b) Draw the boxplots for age and %fat.
(a) Draw a star schema diagram for the data warehouse. star schema 如下图所示:
(b) Starting with the base cuboid [date, spectator, location, game] , what specific OLAP operations should one perform in order to list the total charge paid by student spectators in Los Angeles? Slice for Spectator=student Slice for Location=LosAngeles Roll-up on Game (total games) Roll-up on Date from day to year (c) Bitmap indexing is a very useful optimization technique. Please present the pros and cons of using bitmap indexing in this given data warehouse. 该立方体一共有四个维(或属性),只需要为这四个为分别维护一张位图索引表,当属性的域 基数较小时,因为比较、连接和聚集操作都变成了位运算,大大减少了处理时间。由于用来表示具体事 务的字符串可以用单个二进位表示,位图索引显著降低了空间和 I/O 开销。但是如果属性的域的基数很 大时,可能会浪费存储空间来存储大量的数据。