第一章 单元测试

1、单选题:
以下哪项不属于大数据的 “4V” 特征?( )
选项:
A:数据量大(Volume)
B:处理速度快(Velocity)
C:数据价值密度高(Value)
D:数据类型多样(Variety)
答案: 【数据价值密度高(Value)

2、单选题:
在大数据分析流程中,数据采集之后的下一个步骤通常是?( )
选项:
A:数据清洗
B:数据存储
C:数据可视化
D:数据分析
答案: 【数据清洗

3、单选题:
下列哪种工具常用于大数据的分布式存储?( )
选项:
A:Excel
B:MySQL
C:SQLite
D:Hadoop HDFS
答案: 【Hadoop HDFS

4、单选题:
以下属于结构化数据的是?( )
选项:
A:数据库表中的数据
B:录制的音频文件
C:手机拍摄的照片
D:网页文本
答案: 【数据库表中的数据

5、单选题:
在数据可视化中,用于展示数据分布的常见图表类型是?( )
选项:
A:饼图
B:直方图
C:折线图
D:散点图
答案: 【直方图

第二章 单元测试

1、单选题:
Python 中用于数据处理和分析的核心库是?( )
选项:
A:PyTorch
B:Pandas
C:TensorFlow
D:Matplotlib
答案: 【Pandas

2、单选题:
以下哪个平台常用于大数据的分布式计算?( )
选项:
A:SQL Server
B:PostgreSQL
C:Oracle
D:Apache Spark
答案: 【Apache Spark

3、单选题:
数据清洗的主要目的是?( )
选项:
A:加密数据
B:增加数据量
C:压缩数据
D:去除噪声数据、填补缺失值
答案: 【去除噪声数据、填补缺失值

4、单选题:
在可视化工具 Tableau 中,用于将数据字段分配到不同可视化功能区的操作区域是?( )
选项:
A:工作表标签
B:状态栏
C:数据窗格
D:菜单栏
答案: 【数据窗格

5、单选题:
以下哪种算法属于大数据分析中的聚类算法?( )
选项:
A:决策树
B:线性回归
C:朴素贝叶斯
D:K - Means
答案: 【K - Means