《探索性数据分析》测验试卷参考答案
人工智能基础(试卷编号1291)

人工智能基础(试卷编号1291)1.[单选题]人工智能处在感知智能阶段的表现是什么?A)机器开始像人类一样能理解、思考与决策B)机器开始像人类一样会计算,传递信息C)机器开始看懂和听懂,做出判断,采取一些简单行动答案:C解析:2.[单选题]随机生成的卷积核,个别一些卷积核A特征提取几乎无贡献,但不影响运算。
A、正确A)错误B)正确C)错误答案:A解析:3.[单选题]长短时记忆神经网络被设计用来解决的问题是()。
A)传统RNN存在的梯度消失/爆炸问题B)传统RNN计算量大的问题C)传统RNN速度较,漫的问题D)传统RNN容易过过拟合的问题答案:A解析:长短时记忆神经网络增加一个用来保存长期状态的单元来解决梯度消失问题。
4.[单选题]( )是知识图谱的一种通用表示方法。
A)图B)树C)三元组D)栈答案:C解析:5.[单选题]'5'*2的结果是A)55B)10C)'5'*2D)ture答案:A解析:A)硬间隔,最大化非线性支持向量机B)软间隔,最大化线性支持向量机C)硬间隔,最大化线性支持向量机D)软间隔,最大化非线性支持向量机答案:B解析:7.[单选题]知识图谱的应用有哪些()A)企业查B)智能搜索C)电商推荐D)以上都是答案:D解析:8.[单选题]下列关于国网业务自动化场景的特征错误的是()。
A)业务规则明确B)业务量大、消耗人力多C)经常出现异常情况D)已稳定运行的规范化流程答案:C解析:9.[单选题]图的节点表示问题的( )。
A)状态B)操作C)目的D)结果答案:A解析:10.[单选题]人工智能通过输入的图片,解析出图片的内容,这种技术叫什么?( )A)图片识别B)语音识别C)自动驾驶D)消费金融答案:A解析:11.[单选题]语言模型的参数估计经常使用MLE(最大似然估计)。
面临的一个问题是没有出现的项C)随机插值D)增加白噪音答案:A解析:12.[单选题]为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?()A)探索性数据分析B)建模描述C)预测建模D)寻找模式和规则答案:B解析:13.[单选题]独热编码的缺点是:①.过于稀疏②.词与词的相关性比较小③.易于编码④.容易存储A)③④B)①②C)①③D)②④答案:B解析:独热编码的缺点是:①.过于稀疏②.词与词的相关性比较小14.[单选题]无监督的建模技术有()、关联分析、预报三类A)聚合B)离散C)相关性分析D)聚类答案:D解析:15.[单选题]下列代码执行结果是什么?x=1defchange(a): x+=1 printxchange(x)A)1B)2C)3D)报错答案:D解析:16.[单选题]C5.0和QUEST决策树只能处理()目标值的问题。
信息安全基础(习题卷21)

信息安全基础(习题卷21)第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]黑客的主要攻击手段包括( )A)社会工程攻击、蛮力攻击和技术攻击B)人类工程攻击、武力攻击及技术攻击C)社会工程攻击、系统攻击及技术攻击答案:A解析:2.[单选题]SSL协议广泛用于PKI系统中,对于SSL协议本身,它不能提供哪项功能?A)加密服务B)身份认证服务C)可靠的端到端安全连接D)完全采用对称密码,效率高答案:D解析:SSL协议被设计用来使用TCP连接提供一个可靠的端到端安全服务,为两个通信个体之间提供保密性和完整性。
3.[单选题]以下 不是包过滤防火墙主要过滤的信息? ( )A)源IPB)目的IPC)TCPD)时间答案:D解析:4.[单选题]黑客利用IP地址进行攻击的方法是( )。
A)IP欺骗B)解密C)盗取口令D)发送病毒答案:A解析:黑客利用IP地址进行攻击的方法主要用IP欺骗。
5.[单选题]数据解封装的过程是( )A)段-包-帧-流-数据B)流-帧-包-段-数据C)数据-包-段-帧-流D)数据-段-包-帧-流答案:B解析:6.[单选题]PKI管理对象不包括( )A)ID和口令解析:7.[单选题]关于最长可接受中断时间、最长可容忍中断时间、事件实际处理时间,正确的是( )A)最长可接受中断时间与最长可容忍中断时间相等B)最长可容忍中断时间与事件实际处理时间相等C)最长可接受中断时间小于事件实际处理时间D)最长可接受中断时间大于事件实际处理时间答案:D解析:8.[单选题]防止用户被冒名欺骗的方法是( )A)对信息源发方进行身份验证B)进行数据加密C)对访问网络的流量进行过滤和保护D)采用防火墙答案:A解析:9.[单选题]数据安全存在着多个层次,()能从根本上保证数据安全。
A)制度安全B)运算安全C)技术安全D)传输安全答案:C解析:10.[单选题]如果使用ln命令将生成了一个指向文件old的符号链接new,如果你将文件old删除,是否还能够访问文件中的数据( )?A)不可能再访问B)仍然可以访问C)能否访问取决于file2的所有者D)能否访问取决于file2的权限答案:A解析:11.[单选题]下列哪个攻击不在网络层()。
Python数据分析测试题(含答案)

自测试卷1一、选择题1.下面关于数据分析说法正确的是()。
A.数据分析是数学、统计学理论结合科学的统计分析方法B.数据分析是一种数学分析方法C.数据分析是统计学分析方法D.数据分析是大数据分析方法2.下面不是数据分析方法的是()。
A.同比分析B.环比分析C.大数据D.帕累托法则3. 下面哪个是同比分析公式()。
A.同比增长速度=(本期-同期)/同期×100%B.同比增长速度=(上期-下期)/上期×100%C.同比增长速度=上期-下期D.同比增长速度=本期-下期4.下面哪个是环比分析公式()。
A.环比增长速度=(本期-下期)/下期×100%B.环比增长速度=本期-上期C.环比增长速度=(本期-上期)/上期×100%D.环比增长速度=(本期-上期)/上期5.关于80/20分析说法不正确的是()。
A.二八法则B.帕累托法则C.帕累托定律D.不规则定律6.类比到头条的收益,头条投放广告预测收益,你选择用哪种方法预测()A.聚类B.一元线性回归C.时间序列D.多元线性回归7.分析客户价值一般使用哪种分析方法?()A.聚类B.一元线性回归C.时间序列D.多元线性回归8.分析股票你选择用哪种分析方法()A.聚类B.一元线性回归C.时间序列D.多元线性回归9.在现实世界的数据中,缺失值是常有的,一般的处理方法有(多选):A.忽略B.删除C.平均值填充D.最大值填充10.Pandas模块用于做什么?(多选)()A.数据挖掘B.数据处理C.数据分析D.数据可视化二、填空题1.数据分析方法一般分为_________、__________、__________。
2.聚类分析多用于_________、__________。
3.数据分析的一般流程是_________、__________、_________、___________、__________、__________、__________。
数据分析考试题目和答案

数据分析考试题目和答案一、单选题(每题2分,共20分)1. 数据分析中,用于描述数据集中趋势的统计量是()。
A. 方差B. 标准差C. 平均值D. 极差答案:C2. 在数据可视化中,用于展示数据分布的图表是()。
A. 饼图B. 柱状图C. 散点图D. 直方图答案:D3. 数据清洗中,处理缺失值的方法不包括()。
A. 删除B. 填充C. 插值D. 归一化答案:D4. 以下哪个算法不是监督学习算法?()A. 决策树B. 支持向量机C. K-meansD. 逻辑回归答案:C5. 在时间序列分析中,用于预测未来值的方法是()。
A. 描述性统计B. 趋势分析C. 季节性分解D. 预测模型答案:D6. 数据挖掘中的关联规则挖掘算法是()。
A. AprioriB. K-meansC. 神经网络D. 决策树答案:A7. 在机器学习中,用于评估分类模型性能的指标不包括()。
A. 准确率B. 召回率C. F1分数D. 均方误差答案:D8. 以下哪个不是数据预处理的步骤?()A. 数据清洗B. 特征选择C. 数据转换D. 模型训练答案:D9. 在数据分析中,用于衡量变量之间线性关系强度的统计量是()。
A. 相关系数B. 标准差C. 方差D. 协方差答案:A10. 数据分析中,用于识别异常值的方法是()。
A. IQR方法B. Z分数C. 箱线图D. 所有以上答案:D二、多选题(每题3分,共15分)11. 数据分析中,常用的数据可视化工具包括()。
A. ExcelB. TableauC. Power BID. Python的matplotlib库答案:ABCD12. 在数据挖掘中,聚类分析的目的包括()。
A. 市场细分B. 社交网络分析C. 异常检测D. 预测分析答案:ABC13. 以下哪些是数据清洗中可能需要处理的问题?()A. 重复数据B. 缺失值C. 异常值D. 数据类型不一致答案:ABCD14. 在机器学习中,特征工程包括哪些步骤?()A. 特征选择B. 特征提取C. 特征转换D. 数据清洗答案:ABC15. 时间序列分析中,常用的模型包括()。
信息安全中级试题库(附参考答案)

信息安全中级试题库(附参考答案)一、单选题(共40题,每题1分,共40分)1、运维团队须参与系统需求分析、设计、开发、测试、验收等成果的评审工作,并提出意见和建议。
对于不符合现行运维服务和安全相关规范、管理办法要求的成果,运维团队()。
A、参照执行B、不能有异议C、可以私下提出D、有权利否决正确答案:D2、数据运维管理包括数据生命周期的运维管理,日常运维,监控,事件和问题管理,统计分析和优化,()等内容。
A、数据规范 B.系统运行性能B、系统运行性能C、应急管理及预案D、以上都不是正确答案:C3、插入内存条时,需要()。
A、用大力按压B、两边均匀用力C、先一边用力D、用螺丝固定正确答案:B4、以下不属于数据生命周期运维管理的是()。
A、数据生命周期管理需求B、数据归档维护C、数据建模D、数据变更维护正确答案:C5、在信息安全事件的管理中,以下预警信息不正确的是?()A、对可能引发重大信息安全事件的情形发布黄色预警B、对可能引发特别重大信息安全事件的情形红色预警发布建议C、对可能引发较大信息安全事件的情形发布黄色预警D、对可能引发一般信息安全事件的情形发布蓝色预警正确答案:A6、考虑值集{12 24 33 24 55 68 26},其四分位数极差是()。
A、3B、31C、55D、24正确答案:B7、公钥加密体制中,没有公开的是()。
A、明文B、算法C、公钥D、密文正确答案:A8、A.B类计算机机房的空调设备应尽量采用()。
A、风冷式空调B、立式的C、分体的D、规定中没有要求正确答案:A9、AIX中出于安全考虑,需要使某些用户只能在控制台登录使用,而不允许远程使用,需要编辑/etc/security/user更改需要限制的用户属性rlogin=()。
A、yesB、no正确答案:B10、应实现设备特权用户的(),系统不支持的应部署日志服务器保证管理员的操作能够被审计,并且网络特权用户管理员无权对审计记录进行操作。
数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案数据分析师常见的7道笔试题目及答案导读:探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。
以下是由小编J.L为您整理推荐的实用的应聘笔试题目和经验,欢迎参考阅读。
1、海量日志数据,提取出某日访问百度次数最多的那个IP。
首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。
注意到IP是32位的,最多有个2^32个IP。
同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。
然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。
或者如下阐述:算法思想:分而治之+Hash1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日志分别存储到1024个小文件中。
这样,每个小文件最多包含4MB个IP地址;3.对于每一个小文件,可以构建一个IP为key,出现次数为value 的Hash map,同时记录当前出现次数最多的那个IP地址;4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP;2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。
假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。
一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。
),请你统计最热门的10个查询串,要求使用的内存不能超过1G。
典型的T op K算法,还是在这篇文章里头有所阐述,文中,给出的最终算法是:第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。
人工智能机器学习技术练习(习题卷19)

人工智能机器学习技术练习(习题卷19)第1部分:单项选择题,共58题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]最佳分类是曲线下区域面积最大者,而黄线在曲线下面积最大.2、假设你在测试逻辑回归分类器,设函数H为style="width: 211px;" class="fr-fic fr-fil fr-dib cursor-hover">下图中的哪一个代表上述分类器给出的决策边界?A)style="width: auto;" class="fr-fic fr-fil fr-dib">B)style="width: auto;" class="fr-fic fr-fil fr-dib">C)style="width: auto;" class="fr-fic fr-fil fr-dib">答案:B解析:选项B正确。
虽然我们的式子由选项A和选项B所示的y = g(-6 + x2)表示,但是选项B才是正确的答案,因为当将x2 = 6的值放在等式中时,要使y = g(0)就意味着y = 0.5将在线上,如果你将x2的值增加到大于6,你会得到负值,所以输出将是区域y = 0。
B)tanhC)relu答案:A解析:3.[单选题](__)是指对已有数据在尽量少的先验假设条件下进行探索,并通过作图,制表等手段探索数据结构和规律的一种方法。
A)统计分析B)验证性分析C)数据洞见D)探索性数据分析答案:D解析:4.[单选题]以下哪项关于决策树的说法是错误的()。
A)冗余属性不会对决策树的准确率造成不利的影响B)子树可能在决策树中重复多次C)决策树算法对于噪声的干扰非常敏感D)寻找最佳决策树是 NP完全问题答案:C解析:决策树算法对于噪声的干扰具有相当好的鲁棒性。
大数据开发基础(习题卷19)

大数据开发基础(习题卷19)第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]下列关于智能物流的描述错误的是()。
A)是利用智能化技术,使物流技术能模仿人的智能,具有思维、感知、学习、推理判断和自行解决物流中某些问题的能力B)实现物流资源优化配置和有效调度,并且提示物流系统效率C)智能物流概念源于2010年IBM发布的研究报告《智慧的未来供应链》D)提高了物流活动的一体化,增加了物流的复杂性答案:D解析:2.[单选题]业务中台方面,以业务为导向,优先建设( )。
A)电网资源业务中台和客户服务业务中台B)电网资源业务中台和账务结算业务中台C)统一数据业务中台和客户服务业务中台D)统一数据业务中台和账务结算业务中台答案:A解析:3.[单选题]机器学习中L1正则化和 L2正则化的区别是()。
A)使用L1可以得到稀疏的权值,使用 L2可以得到平滑的权值B)使用L1可以得到平滑的权值,使用L2可以得到平滑的权值C)使用L1 可以得到平滑的权值,使用L2可以得到稀疏的权值D)使用L1 可以得到稀疏的权值,使用L2可以得到稀疏的权值答案:A解析:使用 L1可以得到稀疏的权值,使用L2可以得到平滑的权值。
4.[单选题]数据恢复必须坚持审批登记制。
需要恢复数据时,报批准后方可进行;恢复数据必须坚持(),一人操作,一人监督,并详细登记;恢复过程中若有异常情况,应及时与有关技术人员联系,不得任意处理;若恢复异常对业务造成重大影响,必须向主管领导汇报,并组织实施补救。
A)双人制B)复核制C)AA制D)单人制答案:A解析:5.[单选题]关于GaussDB 200的数据导入导出下列说法正确的是()?A)GDs在数据导入时可以做预处理,比如非法字符詟换密错处理教据聚合等。
B)COPY方式使用简单,一般用在大量数据的导入导出中。
C)INSERT数据写入适合数据量不大,并发度不高的场景D)使用gsq元命令和cOPY命令在使用和用法上是样的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《探索性数据分析》测验试卷
班级: 姓名: 学号:
1.(15分)你所知道的数据类型有哪些?请至少举出四种,并说明这 些数据类型的特点。
2.(共15分)(1). 请叙述矩估计和极大似然估计的定义。
(2). 设总体X ~),(2σμN ,n X X ⋅⋅⋅,1为来总体的样本,求使
05.0)(=>t X P 的点t 的极大似然估计。
解: 假设)(⋅Φ为标准正态分布的分布函数,则,
)(1)(1)(σμ
-Φ-=≤-=>t t X P t X P 由已知可得,95.0)(
=-Φσμt . 令05.0t 为标准正态分布的上侧0.05分位数,则05.0t t =-σμ. 于是,由极大似然估计的不变性可知,t 的极大似然估计为,n S t X t ˆˆ05.0+=,其中∑==n i i X n X 11, ∑=-=n i i n X X n S 1
2)(1ˆ. (3). 矩估计唯一吗?是,请证明;否,请举反例。
答: 矩估计不唯一,例如泊松分布均值的估计。
具体的说,假设总体X 服从参数为λ的泊松(Poisson )分布,由于λ==)()(X Var X E ,故由
矩估计法知: X =1ˆλ,∑=-=n i i X X n 1
22)(1ˆλ都可作为参数λ的矩估计量, 然而样本均值是总体均值的无偏估计,且比样本二阶中心矩的阶数低,故优先选取样本均值作为参数的矩估计.
3. (10分)设X 和Y的方差都存在,证明 2|cov(,)|()()X Y Var X Var Y ≤⋅. 解:(该题是证明相关系数介于-1,1之间的理论依据,所以其实严格来讲由相关系数的取值范围来推得这个命题的做法是错误的)。
令X EX μ=,Y EY μ=,t 为任一实数,则0)]()[(2≥-+-Y X Y t X μμ,由积分
的性质可知
0)]()[(2≥-+-Y X Y t X E μμ,另一方面, VarY
t Y X tCov VarX Y E t Y X tE X E Y t X E Y Y X X Y X 22222),(2)()])([(2)()]()[(++=-+--+-=-+-μμμμμμ 上式为t 的二次函数,故
0)()(4)],([42≤-Y Var X Var Y X Cov ,得证.
4. (20分)已知T与C独立,且,X T C =∧()I T C δ=≤,设T 与C 的分布函数分别为F 和G ,已知{(,)}0E m T θ=,其中m(.)为已知函数,假设观察样本为11,,,,n n X X δδ⋅⋅⋅,⋅⋅⋅,试证明:
(1){(,)}01()E m T G T δ
θ=-
(2)请用观察样本给出θ的一个合适估计。
(1)证明: 利用条件期望的性质可得:
0)],([]|[)(1),(]|),()(1[)},()(1{==⎭
⎬⎫⎩⎨⎧-=⎭⎬⎫⎩⎨⎧-=-θδθθδθδT m E T E T G T m E T T m T G E E T m T G E (2)解: 由(1)可知
0),()(1=⎭
⎬⎫⎩⎨⎧-θδX m X G E <1> 于是,我们可以用估计方程方法给出θ的一个估计。
上式的样本类似为
∑=-n
i i i i X m X G n 1),()
(11θδ <2> 令0),()
(111=-∑=n i i i i X m X G n θδ,由该方程解出来的估计θˆ称为估计方程估
计,且在一些正则条件下,该估计是相合和渐近正态的.
5. (15分,请附程序,否则不予评分)某航空公司为了解旅客对公司服务态度的满意程度,对50名旅客作调查,要求他们写出对乘机服务、机上服务和到达机场服务的满意程度。
满意程度的评分从0到100,分数越大满意程度越高,收集到的数据如下表,要求:
(1)对50名旅客关于乘机服务的满意程度数据作描述性统计分析;(2)对50名旅客关于机上服务的满意程度数据作描述性统计分析;(3)对50名旅客关于到达机场服务的满意程度数据作描述性统计分析;
(4)对50名旅客关于这三方面服务的满意程度数据作一个综合比较的描述性统计分析。
表:50名旅客对乘机服务、机上服务和到达机场服务的满意程度的评分
乘机服务机上服务到达机场服务乘机服务机上服务达到机场服务
71 49 58 72 76 37
84 53 63 71 25 74
84 74 37 69 47 16
87 66 49 90 56 23
72 59 79 84 28 62
72 37 86 86 37 59
72 57 40 70 38 54
63 48 78 86 72 72
84 60 29 87 51 57
90 62 66 77 90 51
72 56 55 71 36 55
94 60 52 75 53 92
84 42 66 74 59 82
85 56 64 76 51 54
88 55 52 95 66 52
74 70 51 89 66 62
71 45 68 85 57 67
88 49 42 65 42 68
90 27 67 82 37 54
85 89 46 82 60 56
79 59 41 89 80 64
72 60 45 74 47 63
88 36 47 82 49 91
77 60 75 90 76 70
6443 61 78 52 72
解:所谓描述性统计分析是指:对有关数据做统计性描述,可以包括对数据的频数分析,数据的集中趋势分析(例如:均值,分位数,众数等),离散程度分析(例如:离差,方差等),数据的分布(例如:偏度,峰度,是否正态等),以及一些基本的统计图形(例如:直方图,茎叶图,箱线图等)。
具体R语句请参考相关书籍。
6.(15分,请附程序,否则不予评分)为检验两种燃料添加剂对客
车每加仑汽油行驶里程数的影响是否不同,随机挑选12辆车,让每一辆车都先后使用这两种添加剂,12辆车使用这两种添加剂每加仑汽油行驶里程数的检测结果如下:
车辆添加剂车辆添加剂
1 2 1 2
1 22.3
2 21.25 7 18.36 19.40
2 25.76 23.97 8 20.75 17.18
3 24.23 24.77 9 24.07 22.23
4 21.3
5 19.2
6 10 26.43 23.35
5 23.43 23.12 11 25.41 24.98 626.97 26.00 12 27.22 25.90
7.(10分,请附程序,否则不予评分)在一个24小时的试验中,以小时为单位记录实验室中的一群昆虫产卵的数量,要检验
H: 24个产卵数量组成24个同分布随机变量的观测值0
备择假设:
H:产卵数量在下午2:15达到最小,逐渐增加直到凌晨2:15 1
增大到最大值,再减少直到下午2:15.
每小时产卵数量的记录如下
时间卵的数量时间卵的数量时间卵的数量上午9点151 下午5点83 凌晨1点286
上午10点119 晚上6点166 凌晨2点235
上午11点146 晚上7点143 凌晨3点223
中午12点111 晚上8点116 凌晨4点176
下午1点63 晚上9点163 凌晨5点176
下午2点84 晚上10点208 早上6点174
下午3点60 晚上11点283 上午7点139
下午4点109 晚上12点296 上午8点137。