第一章 单元测试

1、判断题:
数据和数值是同一个事物的不同提法
选项:
A:对
B:错
答案: 【

2、判断题:
大数据中的某个成员小数据可能“没什么用(无价值)”,但由这些“小数据”组成的大数据会“很有用(有价值)”。
选项:
A:错
B:对
答案: 【

3、判断题:
从理论体系看,数据科学主要研究内容包括数据科学基础理论、数据加工、数据计算、数据管理、数据分析和数据产品开发。
选项:
A:错
B:对
答案: 【

4、多选题:
数据产品开发是数据科学的重要研究任务之一,关于数据产品开发正确的叙述()。
选项:
A:数据产品开发能力也是数据科学家的核心竞争力。
B:数据产品开发具有以数据为中心、多样性、层次性和增值性等特征。
C:数据产品开发更加强调的是数据加工的增值活动。
D:数据科学的学习目的之一是提升自己的数据产品开发能力。
答案: 【数据产品开发能力也是数据科学家的核心竞争力。;
数据产品开发具有以数据为中心、多样性、层次性和增值性等特征。;
数据产品开发更加强调的是数据加工的增值活动。;
数据科学的学习目的之一是提升自己的数据产品开发能力。

5、多选题:
数据科学方法论是指( )
选项:
A:根据问题找“数据”,并直接用数据解决问题.
B:从“大量数据”中总结和提炼出一般性知识之后,用知识去解决问题。
C:基于知识解决问题.
D:基于数据解决问题.
答案: 【根据问题找“数据”,并直接用数据解决问题.;
基于数据解决问题.

6、多选题:
关于数据科学的叙述正确的是()
选项:
A:数据科学以揭示“大数据” 的内容、形态、规律为核心内容。
B:数据科学的研究和应用超出技术范畴,还涉及到发展战略、基础设施、人力资源、政策、法律与文化环境等诸多因素。
C:数据科学需要解决的终极问题是将大数据放在一个完整的生态系统之中去认识与利用,建设“数据生态系统”。
D:数据学科是一门实践性极强的学科。
答案: 【数据科学以揭示“大数据” 的内容、形态、规律为核心内容。;
数据科学的研究和应用超出技术范畴,还涉及到发展战略、基础设施、人力资源、政策、法律与文化环境等诸多因素。;
数据科学需要解决的终极问题是将大数据放在一个完整的生态系统之中去认识与利用,建设“数据生态系统”。;
数据学科是一门实践性极强的学科。

7、多选题:
数据加工的目的包括()。
选项:
A:提升数据计算量
B:降低数据计算的复杂度
C:提升数据质量
D:提升数据处理的准确性
答案: 【降低数据计算的复杂度;
提升数据质量;
提升数据处理的准确性

8、单选题:
在大数据时代,人们对数据的认识与研究视角是()。
选项:
A:如何降低计算复杂度
B:如何设计算法和模型
C:数据能为我做什么
D:我能为数据做什么
答案: 【数据能为我做什么

9、单选题:
“只要拥有足够多的数据,我们可以变得更聪明”是大数据时代的一个新认识。在大数据时代,原本复杂的“智能问题”变成简单的“数据问题”,描述了数据科学的()。
选项:
A:三要素原则
B:从简原则
C:数据复杂性原则
D:三世界原则
答案: 【从简原则

10、单选题:
数据科学强调的是“用数据直接解决问题”,当数据量足够大时,通过简单的“数据洞见( Data Insight)”操作,找出并评估历史数据中已存在的答案。这体现了数据科学中的()。
选项:
A:协同原则
B:知识范式原则
C:数据复杂性原则
D:数据范式原则
答案: 【数据范式原则

第二章 单元测试

1、多选题:
关于机器学习与统计学如下描述正确的是()
选项:
A:统计学需要事先对处理对象的概率分布做出假定(如正态分布等)
B:机器学习更关注的是“可解释性”,侧重“模型”。
C:统计学通过各种统计指标来评价统计模型的拟合优度
D:机器学习不需要对处理对象的概率分布做事先假定
答案: 【统计学需要事先对处理对象的概率分布做出假定(如正态分布等);
统计学通过各种统计指标来评价统计模型的拟合优度;
机器学习不需要对处理对象的概率分布做事先假定

2、判断题:
从学科定位看,数据科学处于数学与统计知识、黑客精神与技能和领域实务知识三大领域的重叠之处。
选项:
A:错
B:对
答案: 【

3、判断题:
大数据时代的分析数据的思维方式是探求难以捉摸的因果关系。
选项:
A:对
B:错
答案: 【

4、多选题:
关于机器学习正确的叙述是( )
选项:
A:机器学习是指计算机能模拟人的学习行为,通过学习获取知识和技能,不断改善性能,实现自我完善。
B:机器学习是一个系统自我改进的过程。
C:机器学习的主要议题是如何实现和优化机器的自我学习
D:机器学习是一种能够赋予机器学习的能力,以此让系统完成直接编程无法完成的功能的方法。
答案: 【机器学习是指计算机能模拟人的学习行为,通过学习获取知识和技能,不断改善性能,实现自我完善。;
机器学习是一个系统自我改进的过程。;
机器学习的主要议题是如何实现和优化机器的自我学习;
机器学习是一种能够赋予机器学习的能力,以此让系统完成直接编程无法完成的功能的方法。

5、判断题:
机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
选项:
A:对
B:错
答案: 【

6、判断题:
将训练集随机等分为若干份,并选择其中的一份为测试集,其余作为训练集进行训练,然后将目标函数在该测试集上进行测试,最后用结果来评价其参数设置的性能。这种方法用来解决维度灾难的问题。
选项:
A:错
B:对
答案: 【

7、多选题:
关于KNN算法的叙述正确的是()
选项:
A:算法的关键在于“计算新增数据特征与已有样本特征之间的相似度”。
B:K值是分类的类别值。
C:计算特征之间的相似度的方法有很多,最基本且最常用的方法就是距离法。
D:算法应用的前提条件是在训练集及其每个样本的分类标签信息为已知。
答案: 【算法的关键在于“计算新增数据特征与已有样本特征之间的相似度”。;
计算特征之间的相似度的方法有很多,最基本且最常用的方法就是距离法。;
算法应用的前提条件是在训练集及其每个样本的分类标签信息为已知。

8、单选题:
K-Means 算法聚类的原始数据集假如有150个对象,选择3个对象作为初始聚类中心对象,那么k值是
选项:
A:150
B:3
C:50
D:5
答案: 【3

9、判断题:
KNN算法是一种无监督机器学习算法。
选项:
A:错
B:对
答案: 【

10、判断题:
K-means算法是一种无监督机器学习算法。
选项:
A:对
B:错
答案: 【

发表评论

电子邮件地址不会被公开。 必填项已用*标注