北语22秋《大数据技术与应用》作业3【标准答案】

王老师 · 发表于 2022-11-25 14:31:55

21秋《大数据技术与应用》作业3-00001
试卷总分:100 得分:100
一、单选题 (共 15 道试题,共 60 分)
1.项集 S ={尿布,啤酒,牛奶,可乐},则项集S称为
A.1项集
B.2项集
C.3项集
D.4项集

2.决议计划树生成过程中，以信息增益率作为特征挑选原则生成决议计划树的算法是
A.ID3
B.C4.5
C.CART
D.以上都不对

3.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为
A.2
B.4
C.6
D.8

4.从软件库中导入LOF反常检测算法类的句子是
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_

5.数据等级排序T的是
A.定距等级>定比等级>定类等级>定序等级
B.定比等级>定序等级>定距等级>定类等级
C.定比等级>定距等级>定序等级>定类等级
D.定比等级>定类等级>定序等级>定距等级

6.用练习好的LOF实例判别数据是不是反常，正常样本用1表明，反常样本用-1表明的句子
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_

7.不包括任何项的项集是指
A.项
B.空集
C.超项集
D.子项集

8.从软件库中导入含糊C均值聚类算法类的句子是
A.from fcmeans import FCM
B.fcm=FCM(n_clusters=3)
C.fcm.fit(X)
D.fcm_labels=fcm.u.argmax(axis=1)

9.假如一个项集包括K个项，则该项集称为
A.项
B.空集
C.超项集
D.K项集

10.使用pandas处理数据缺失值时，用于丢掉重复值的函数为
A.drop_duplicates
B.duplicated
C.fillna
D.dropna

11.常用于多变量噪声值(反常值)处理的方法是
A.等深分箱
B.聚类法
C.等宽分箱
D.盖帽法

12.数据集{1,2,3,5,7,9}的中位数是
A.3
B.5
C.7
D.4

13.使用pandas处理数据缺失值时，用于发现缺失值的函数为
A.isnull
B.head
C.tail
D.info

14.相关规矩 X→Y 表明中Y称为
A.前件
B.后件
C.中心件
D.以上都不对

15.数据集{1,2,2,2,3,4}的众数是
A.1
B.2
C.3
D.4

二、多选题 (共 5 道试题,共 20 分)
16.聚类剖析能够用于
A.顾客分组
B.分类
C.回归
D.找出明显影响

17.相关规矩反映的是
A.可分类性
B.可切割性
C.事物之间彼此依存性
D.事物之间彼此相关性

18.大数据搜集的路径包含（）
A.互联网
B.移动互联网
C.物联网传感器
D.手动

19.可用于完成数据one-hot编码的方法包含
A.Pandas的head
B.Pandas的get_dummies
C.sklearn.preprocessing.OneHotEncoder方法
D.Pandas的tail

20.决议计划树的要害点包含
A.选用Bagging结构
B.选用随机特征挑选生成每个决议计划树的练习数据特征子集
C.选用采样数据集的特征子集练习对应决议计划树
D.以上都不对

三、判别题 (共 5 道试题,共 20 分)
21.定类数据层次比定序数据高

22.数据发掘的过程都是有一致共同的过程的

23.定序数据层次比定距数据高

24.下四分位数是指数据从大到小摆放排在第25%方位的数字，即最小的四分位数(下四分位数)

25.上世纪 70 时代，跟着数据库管理系统趋于老练，存储和查询百万兆字节乃至千万亿字节变成能够。并且，数据库房答应用户从面向事物处理的思想方法向更重视数据剖析的方法进行改变。因而，获取杂乱深度系信息才能十分强啊