第一章 单元测试

1、 问题:

2011年麦肯锡研究院提出的大数据定义是:大数据是指其大小超出了常规数据库工具获取、储存、管理和(  )能力的数据集。

选项:
A:分析
B:应用
C:计算
D:访问
答案: 【分析

2、 问题:

用4V来概括大数据的特点的话,一般是指:Value、Velocity、Volume和(  )。

选项:
A:Vainly
B:Variety
C:Valley
D:Vagary
答案: 【Variety

3、 问题:

大数据分析四个方面的工作主要是:数据分类、(  )、关联规则挖掘和时间序列预测。

选项:
A:数据清洗
B:数据计算
C:数据聚类
D:数据统计
答案: 【数据聚类

4、 问题:

新浪和京东联合推出的大数据商品推荐,是由京东盲目推送到当前浏览新浪网站的用户的页面上的。

选项:
A:对
B:错
答案: 【

5、 问题:

目前的大数据处理技术只能处理结构化数据。

选项:
A:错
B:对
答案: 【

第二章 单元测试

1、 问题:

我们常用的微软Office套件中的Access数据库软件的数据库文件格式后缀名是(  )。

选项:
A:dbf
B:mdb
C:mdf
D:xls
答案: 【mdb

2、 问题:

大多数日志文件的后缀名是(  )。

选项:
A:xml
B:txt
C:csv
D:log
答案: 【log

3、 问题:

本课程重点介绍的weka软件的专有文件格式是(  )。

选项:
A:value
B:key map
C:ARFF
D:MongoDB
答案: 【ARFF

4、 问题:

数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和(  )。

选项:
A:一致性
B:排他性
C:专业性
D:共享性
答案: 【一致性

5、 问题:

八爪鱼软件的“自定义采集”工作方式下,需要在软件里输入一个(  )来作为采集的目标。

选项:
A:网页地址
B:用户名
C:关键词
D:电话号码
答案: 【网页地址

6、 问题:

八爪鱼软件的采集规则可以通过文件的形式来导入或者导出,这种文件的后缀名是(  )。

选项:
A:jpg
B:gif
C:otd
D:png
答案: 【otd

7、 问题:

Excel可以通过“数据有效性”按钮操作来规范数据输入的范围。

选项:
A:错
B:对
答案: 【

8、 问题:

Excel不能导入txt或csv格式的文件。

选项:
A:对
B:错
答案: 【

9、 问题:

八爪鱼软件只能对软件内建了“简易采集”规则的网站采集数据。

选项:
A:对
B:错
答案: 【

10、 问题:八爪鱼软件进行自定义采集时,需要了解对网页的页面结构。
选项:
A:错
B:对
答案: 【

第三章 单元测试

1、 问题:

使用DBSCAN算法对鸢尾花数据集(Iris.arff)进行聚类,将epsilon参数设置为0.2, minPoints参数设置为5,忽略class属性,那么将形成(  )个簇。 

选项:
A: 4
B: 1
C: 2
D: 3
答案: 【 2

   

发表评论

电子邮件地址不会被公开。 必填项已用*标注