第一章 单元测试

1、多选题:
以下哪些情景可以使用大数据分析与预测建模技术?
选项:
A:保险公司的骗保分析
B:统计某零售超市一个月内哪类牛奶的销量最大
C:预测电商网站某商品未来的销售量
D:预测某移动运营商客户转移到竞争对手的可能性
答案: 【保险公司的骗保分析;
预测电商网站某商品未来的销售量;
预测某移动运营商客户转移到竞争对手的可能性

2、单选题:
有关大数据分析与预测的过程认识正确的是?
选项:
A:A零售企业的客户行为数据分析得到的规律也可以直接用于B零售企业。
B:大数据分析与预测得到的结果需要通过检验样本的测试,甚至需要在现实中实验才能投入使用。
C:大数据分析与预测的问题一般都是用户给定的,因此不需要与用户交流和调研。
D:大数据分析与预测一般需要人的参与,只要把数据输入合适的算法就可以得到有用的结果。
答案: 【大数据分析与预测得到的结果需要通过检验样本的测试,甚至需要在现实中实验才能投入使用。

3、单选题:
有关数据质量的认识正确的是?
选项:
A:有些机器学习算法具有比较强的抗噪型,因此不需要预处理也能得到有用的规律。
B:数据质量一般可以由机器自动完成,不需要数据分析人员参与。
C:各种数据质量问题对机器学习算法的影响很大,因此需要充分预处理才能进入建模阶段。
D:数据预处理就是删除有问题的数据。
答案: 【各种数据质量问题对机器学习算法的影响很大,因此需要充分预处理才能进入建模阶段。

4、多选题:
下面有关机器学习正确的说法是?
选项:
A:每种机器学习算法都有一定的使用范围,只能处理某类数据和问题。
B:机器学习就是简单的统计分析。
C:在机器学习过程中,需要人的经验指导数据的选择、噪声的消除、合适算法的选择以及调参等工作。
D:机器学习可以从有限的样本数据中得到有用的规律,并能对新样本进行一定的泛化预测。
答案: 【每种机器学习算法都有一定的使用范围,只能处理某类数据和问题。;
在机器学习过程中,需要人的经验指导数据的选择、噪声的消除、合适算法的选择以及调参等工作。;
机器学习可以从有限的样本数据中得到有用的规律,并能对新样本进行一定的泛化预测。

5、单选题:
组织通过销售数据或洞察以创造新的收入来源,这属于大数据应用成熟度的哪一个阶段?
选项:
A:业务优化
B:数据货币化
C:业务监控
D:业务转型
答案: 【数据货币化

6、单选题:
如果以药品B来代替药品A的使用,那么这个病人生存的几率有多大?这种分析属于
选项:
A:诊断性分析
B:描述性分析
C:预测性分析
D:规范性分析
答案: 【预测性分析

7、判断题:
NoSQL数据库作为非关系型数据库,只能够用来存储非结构数据。
选项:
A:错
B:对
答案: 【

8、单选题:
根据患者的视网膜图像等相关医疗信息,使用机器学习算法进行建模,预测患者患糖尿病的可能性。这个任务需要以下使用哪一类机器学习算法?
选项:
A:监督学习
B:诊断性分析
C:统计分析
D:无监督学习
答案: 【监督学习

9、多选题:
大数据分析的预测建模任务主要包括哪几大类问题?
选项:
A:分类
B:模式发现
C:关联分析
D:回归
答案: 【分类;
关联分析;
回归

10、多选题:
下列哪些分析需要机器学习?
选项:
A:比较不同移动运营商用户对漫游业务的使用量
B:统计移动运营商的用户在某段时间对短信的使用数量
C:预测移动运营商用户未来使用的网络流量
D:寻找移动运营商用户对某类套餐使用的潜在客户
答案: 【统计移动运营商的用户在某段时间对短信的使用数量;
预测移动运营商用户未来使用的网络流量;
寻找移动运营商用户对某类套餐使用的潜在客户

第二章 单元测试

1、单选题:
将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?
选项:
A:数据流挖掘
B:频繁模式挖掘
C:分类和预测
D:数据预处理
答案: 【数据预处理

2、单选题:
下面哪个步骤不属于数据预处理的过程?
选项:
A:数据转换
B:分类和预测
C:数据清洗
D:数据归约
答案: 【分类和预测

3、单选题:
下面哪种不属于数据预处理的方法?
选项:
A:变量代换
B:离散化
C:聚集
D:估计遗漏值
答案: 【估计遗漏值

4、单选题:
以下哪种方法不属于特征选择的标准方法
选项:
A:抽样
B:包装
C:过滤
D:嵌入
答案: 【抽样

5、单选题:
下面不属于创建新属性的相关方法的是
选项:
A:特征构造
B:映射数据到新的空间
C:特征提取
D:特征修改
答案: 【特征修改

6、多选题:
数据清洗包括以下哪几个方面?
选项:
A:缺失数据处理方法
B:时间相关数据的处理
C:按标准差进行的标准化
D:噪声数据平滑技术
答案: 【缺失数据处理方法;
时间相关数据的处理;
噪声数据平滑技术

7、多选题:
以下哪几个是数据归约的策略?
选项:
A:维度归约
B:数据立方体聚集
C:离散化和概念分层产生
D:数值归约
E:数据压缩
答案: 【维度归约;
数据立方体聚集;
离散化和概念分层产生;
数值归约;
数据压缩

8、多选题:
以下哪些是数据离散化技术?
选项:
A:分箱技术
B:ChiMerge技术
C:基于熵的离散化
D:饼图分析
答案: 【分箱技术;
ChiMerge技术;
基于熵的离散化

9、多选题:
特征选择的目标有哪些?
选项:
A:提供更快、性价比更高的学习过程
B:提高数据挖掘模型的性能
C:挖掘多个抽象层上的数据
D:更好地理解生成数据的基本过程
答案: 【提供更快、性价比更高的学习过程;
提高数据挖掘模型的性能;
更好地理解生成数据的基本过程

10、多选题:
特征选择算法一般分为那几类?
选项:
A:基于熵的离散化
B:子集选择算法
C:分箱技术
D:特征排列算法
答案: 【子集选择算法;
特征排列算法

发表评论

电子邮件地址不会被公开。 必填项已用*标注