大数据挖掘作业
《第12课 走近大数据》作业设计方案-初中信息技术浙教版20七年级上册自编模拟

《走近大数据》作业设计方案(第一课时)一、作业目标本次作业旨在帮助学生了解大数据的基本概念和特点,熟悉大数据技术的应用领域,并掌握一些基本的数据处理和分析方法。
通过实践操作,培养学生的信息技术素养和解决问题的能力。
二、作业内容1. 阅读资料:学生需要阅读关于大数据的介绍性资料,了解大数据的基本概念、特点、应用领域等。
阅读资料可以通过在线阅读或纸质阅读的方式完成。
2. 小组讨论:学生以小组为单位,围绕大数据的应用领域展开讨论,每个小组选择一个具体的大数据应用案例进行分析。
讨论过程中,学生需要用PPT记录讨论过程和结果,PPT要求内容清晰、图文并茂。
3. 数据采集和处理:学生需要从网上收集一些数据,并使用Excel等工具进行数据采集、清洗和处理。
过程中需要学生了解数据的来源、格式和数据处理的方法。
4. 数据分析和可视化:学生需要对处理后的数据进行初步的分析,并使用图表等形式进行可视化展示。
分析过程中需要学生了解一些基本的数据分析方法,如描述性统计、相关性分析等。
三、作业要求1. 作业应在规定时间内完成,具体时间请参照课程安排;2. 作业应独立完成,如有小组合作,需明确分工并确保每位成员都有参与;3. 提交作业时需附上对所使用工具的介绍和使用方法,以便教师了解学生的操作过程和技能水平;4. 作业应按照要求进行规范整理和保存,以便教师查阅。
四、作业评价1. 评价标准:作业质量、完成时间、工具使用方法等;2. 评价方式:教师评价与学生互评相结合;3. 评价结果反馈:对于作业中存在的问题和不足,教师将在课程中给予指导和完善,对于优秀的作业,将给予表扬和鼓励。
五、作业反馈1. 学生应认真对待作业,积极寻求帮助和指导,对于作业中遇到的问题应及时解决;2. 教师将根据作业完成情况、学生反馈和评价结果,对课程内容和教学方法进行不断改进和完善,以提高教学质量;3. 针对学生在作业中反映较多的问题和难点,教师将在课程中加强讲解和示范,以帮助学生更好地理解和掌握相关知识。
东北财经大学《大数据——概念、方法与应用》在线作业1-0012

东财《大数据——概念、方法与应用》在线作业1-0012
( )可以帮助我们捕捉现在和预测未来。
A:因果分析
B:统计分析
C:随机抽样
D:相关关系分析
参考选项:D
对于大数据,其最大的风险就是( )。
A:隐私
B:非结构化
C:数据量大
D:成本
参考选项:A
建立在相关关系分析法基础上的预测是大数据的( )。
A:核心
B:前提
C:基础
D:条件
参考选项:A
相比依赖于小数据和精确性的时代,大数据因为更强调数据的( ),帮助我们进一步接近事实的真相。
A:完整性
B:完整性和混杂性
C:安全性
D:混杂性
参考选项:B
常用的挖掘算法都以( )为主。
A:单线程
B:多线程
C:以上都不是
D:死锁
参考选项:A
可视化是给人看的,( )是给机器看的。
A:数据挖掘
B:数据质量和管理
C:语音引擎
D:预测性分析
1。
东北财经大学《大数据——概念、方法与应用》在线作业2-0017

东财《大数据——概念、方法与应用》在线作业2-0017
大数据的核心是( )。
A:预测
B:匿名化
C:规模化
D:告知与许可
参考选项:A
采样分析的精确性随着采样随机性的增加而( ),但与样本数量的增加关系不大。
A:提高
B:降低
C:不变
D:无关
参考选项:A
( )一些基金公司开始借助社交媒体大数据,分析市场情绪变动。
A:美国
B:法国
C:英国
D:中国
参考选项:A
在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于( )为其行为承担责任。
A:数据分析者
B:数据提供者
C:数据使用者
D:个人许可
参考选项:C
对于大数据,其最大的风险就是( )。
A:隐私
B:非结构化
C:数据量大
D:成本
参考选项:A
小数据时代,( )成为现代社会、现代测量领域的主心骨。
A:统计分析
B:主观采样
C:随机采样
1。
东北财经大学《大数据——概念、方法与应用》在线作业3-0020

东财《大数据——概念、方法与应用》在线作业3-0020
两个或多个变量的( )之间存在某种规律性,就称为关联。
A:范围
B:特点
C:取值
D:字段
参考选项:C
银行建立第三方数据中介,专门挖掘金融数据的核心是对客户的( )进行分析。
A:选择数据
B:偏好数据
C:交易数据
D:消费数据
参考选项:C
( )可以帮助我们捕捉现在和预测未来。
A:因果分析
B:统计分析
C:随机抽样
D:相关关系分析
参考选项:D
对于大数据,其最大的风险就是( )。
A:隐私
B:非结构化
C:数据量大
D:成本
参考选项:A
( )央行已经开始运用大数据对房地产市场和劳动力市场趋势作出快速判断。
A:中国
B:法国
C:美国
D:英国
参考选项:D
促进隐私保护的一种创新途径是( ):故意将数据模糊处理,促使对大数据库
的查询不能显示精确的结果。
A:个人隐私保护
B:差别隐私
C:匿名化
D:信息模糊化
1。
东北财经大学《大数据——概念、方法与应用》在线作业2-0002

东财《大数据——概念、方法与应用》在线作业2-0002
根据国家数据公司(IDC)统计,2010年人类已经进入( )时代。
A:ZB
B:GB
C:MB
D:TB
参考选项:A
两个或多个变量的( )之间存在某种规律性,就称为关联。
A:范围
B:特点
C:取值
D:字段
参考选项:C
下列属于半结构化数据的是( )。
A:视频数据
B:网络日志
C:文本数据
D:音频数据
参考选项:B
关于数据创新,下列说法正确的是( )。
A:数据只有开放价值才能得到真正释放
B:由于数据的再利用,数据应该永久保存下去
C:多个数据集的总和价值等于单个数据集价值相加
D:相同数据多次用于相同或类似用途,其有效性会降低
参考选项:A
大数据的样本空间是数据的( )。
A:抽样
B:关键部分
C:总体
D:部分
参考选项:C
数据挖掘的分类方法是找出数据库中一组数据对象的( )并按照分类模式将其划分为不同的类。
A:属性
B:值
C:不同点
D:共同点
1。
东北财经大学《大数据——概念、方法与应用》在线作业2-0016

东财《大数据——概念、方法与应用》在线作业2-0016
回归分析方法反映的是将事务数据库中属性值在( )的特征。
A:以上都不是
B:空间上
C:地点上
D:时间上
参考选项:D
采样分析的精确性随着采样随机性的增加而( ),但与样本数量的增加关系不大。
A:提高
B:降低
C:不变
D:无关
参考选项:A
大数据公司的多样性表明了( )。
A:数据技术的发展
B:数据思维的创新
C:数据作用的体现
D:数据价值的转移
参考选项:D
只要得到了合理的利用,而不单纯只是为了“数据”而“数据”,大数据就会变成( )。
A:强大的威胁
B:分析工具
C:预测工具
D:强大的武器
参考选项:D
本质上,世界是由( )构成的。
A:数据
B:信息
C:数字
D:知识
参考选项:B
在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于( )为其行为承担责任。
A:数据分析者
B:数据提供者
1。
东北财经大学《大数据——概念、方法与应用》在线作业2-0006

东财《大数据——概念、方法与应用》在线作业2-0006
对于大数据,其最大的风险就是( )。
A:隐私
B:非结构化
C:数据量大
D:成本
参考选项:A
采样分析的精确性随着采样随机性的增加而( ),但与样本数量的增加关系不大。
A:提高
B:降低
C:不变
D:无关
参考选项:A
( )将在大数据价值链中获益最大。
A:拥有技术的人
B:拥有大数据库的人
C:拥有大数据思维的人
D:拥有大数据的人
参考选项:C
数据存储空间的收费方式是( )。
A:易于使用的API
B:按数据安全性要求
C:按存储数据的种类
D:按次收费
参考选项:A
当前,( )成为登录互联网的主要手段。
A:固定电话
B:手机
C:电视
D:电脑
参考选项:B
本质上,世界是由( )构成的。
A:数据
B:信息
C:数字
D:知识
1。
东北财经大学《大数据——概念、方法与应用》在线作业3-0023

东财《大数据——概念、方法与应用》在线作业3-0023
以下哪种说法是错误的?( )
A:预测与惩罚,不是因为所做,而是因为将做
B:随着数据量和种类的增多,大数据促进了数据内容的交叉检验,匿名化的数据不会威胁到任何人的隐私
C:采集个人数据的工具就隐藏在我们日常生活所必备的工具当中,比如网页和智能手机应用程序
D:将罪犯的定罪权放在数据手中,借以表达对数据和分析结果的崇尚,这实际上是一种滥用
参考选项:B
在企业危机管理及其预警中,管理者更感兴趣的是( )。
A:依赖规则
B:关联规则
C:相关规则
D:意外规则
参考选项:D
( )是一些管理方面的最佳实践。
A:数据质量和管理
B:数据挖掘
C:可视化分析
D:预测性分析
参考选项:A
大数据时代,我们是要让数据自己“发声”,没必要知道为什么,只需要知道( )。
A:是什么
B:关联物
C:预测的关键
D:原因
参考选项:A
采样分析的精确性随着采样随机性的增加而( ),但与样本数量的增加关系不大。
A:提高
B:降低
C:不变
D:无关
参考选项:A
从商业层面上看,数据挖掘是一类( )数据分析方法。
1。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实用标准文案
数据挖掘的第二次作业
1.下表由雇员数据库的训练数据组成,数据已泛化。例如,年龄“31…35”表示31到35的之间。
对于给定的行,count表示department, status, age和salary在该行上具有给定值的元组数。
status是类标号属性。
department status age salary count
sales senior 31...35 46K...50K 30
sales junior 26...30 26K...30K 40
sales junior 31...35 31K...35K 40
systems junior 21...25 46K...50K 20
systems senior 31...35 66K...70K 5
systems junior 26...30 46K...50K 3
systems senior 41...45 66K...70K 3
marketing senior 36...40 46K...50K 10
marketing junior 31...35 41K...45K 4
secretary senior 46...50 36K...40K 4
secretary junior 26...30 26K...30K 6
1)如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的count。
Status 分为2个部分: Department分为4个部分:
Senior 共计52 Sales 共计110
Junior 共计113 Systems 共计 31
Marketing 共计14
Secretary 共计10
Age分为6个部分: Salary分为6各部分:
21…25 共计20 26K…30K 共计46
26…30 共计49 31K…35K 共计40
31…35 共计79 36K…40K 共计4
36…40 共计10 41K…45K 共计4
41…45 共计3 46K…50K 共计63
46…50 共计4 66K…70K 共计8
位
精彩文档.
实用标准文案
位
位
位
位
位
位
,所以departmentagesalary由以上的计算知按信息增益从大到小对属性排列依次为:、、 作为
第一层,之后剩下的数据如下:定salary
department status age salary count
sales senior 31...35 46K...50K 30
systems junior 21...25 46K...50K 20
systems junior 26...30 46K...50K 3
marketing senior 36...40 46K...50K 10
由这个表可知department和age的信息增益将都为0。所以第二层可以为age也可以为
department。
2)构造给定数据的决策树。
由上一小问的计算所构造的决策树如下:
精彩文档.
实用标准文案
Salary
26K:30K 66K:70K
31K:35K Junior
Senior
36K:40K 41K:45K
46K:50K
Junior Junior
Senior
Age
21:25
26:30
36:40
31:35
Junior
Senior
Junior Senior
,systems”salary3)给定一个数据元组,它在属性department, age和上的值分别为“ 的朴素
贝叶斯分类结果是什么?46...50K”和“”。该元组status“26...30
P(status=senior)=52/165=0.3152
P(status=junior)=113/65=0.6848
P(department=systems|status=senior)=8/52=0.1538
P(department=systems|status=junior)=23/113=0.2035
30|status=senior)=1/52=0.0192 P(age=26…30|status=junior)=49/113=0.4336 P(age=26…
50K|status=senior)=40/52=0.7692 …P(salary=46K50K|status=junior)=23/113=0.2035 …
P(salary=46K 使用上面的概率,得到:…
P(X|status=senior)=P(department=systems|status=senior)*P(age=2650K|status=senior)=0
.0023
30|status=senior)* P(salary=46K…
精彩文档.
实用标准文案
P(X|status=junior)=P(department=systems|status=junior)*P(age=26…50K|status=
junior)=0.0180 30|status=junior)* P(salary=46K…P(X|status=senior)*
P(status=senior)= 7.2496e-004
P(X|status=junior)* P(status=junior)=0.0123
status=junior
的类为X因此,对于元组X,朴素贝叶斯分类预测元组 运用决策树或者贝叶斯算法,对鸢尾花
数据集进行分类,显示分类结果。2.
工具或者其他方法)(可以采用Weka
上运用决策树算法对鸢尾花数据集进行分类,分类结果如下图所示:在weka
上运用贝叶斯算法对鸢尾花数据进行分类,结果的具体情况如下:在weka
精彩文档.
实用标准文案
精彩文档.