北语22秋《大数据技术与应用》作业4【标准答案】

王老师 · 发表于 2022-11-25 14:31:55

21秋《大数据技术与应用》作业4-00001
试卷总分:100 得分:100
一、单选题 (共 15 道试题,共 60 分)
1.用练习好的随机森林对样本进行种类预测的句子是
A.from sklearn.tree import DecisionTreetClassifier
B.clf=DecisionTreetClassifier()
C.clf.fit(Xtrain,Ytrain)
D.predictions=clf.predict(Xtest)

2.以下不是数据可视化东西库的是（）
A.pandas
B.matplotlib
C.matlab
D.seaborn

3.数据集{1,2,3,5,7,8,9}的中位数是
A.3
B.5
C.7
D.4

4.下面代码可以获取含糊C均值聚类算法类簇中间特征的句子是
A.from fcmeans import FCM
B.fcm=FCM(n_clusters=4)
C.fcm.fit(X)
D.fcm_centers=fcm.cednters

5.部分反常因子(LOF)算法归于
A.根据统计的反常值检测方法
B.根据密度的反常检测方法
C.根据聚类的反常值检测
D.根据决议计划树的反常检测

6.逻辑回归中的“逻辑”是指
A.规矩
B.Sigmoid函数
C.专家姓名
D.以上都不对

7.数据集{1,2,2,2,3,4}的众数是
A.1
B.2
C.3
D.4

8.使用pandas处理数据缺失值时，用于发现缺失值的函数为
A.isnull
B.head
C.tail
D.info

9.使用pandas处理数据缺失值时，用于填充缺失值的函数为
A.isnull
B.head
C.fillna
D.dropna

10.相关规矩最基础的元素是
A.项
B.项集
C.超项集
D.子项集

11.from sklearn.neighbors import KNeighborsClassifiernknn = KNeighborsClassifier(n_neighbors=3) n上面代码中能够看出，KNN分类器的k值设置为
A.1
B.2
C.3
D.4

12.决议计划树生成过程中，以信息增益率作为特征挑选原则生成决议计划树的算法是
A.ID3
B.C4.5
C.CART
D.以上都不对

13.决议计划树生成过程的中止条件
A.当时结点包括的样本全归于同一种类，无需区分
B.当时特点集为空，或是一切样本在一切特点上取值一样，无法区分
C.当时结点包括的样本调集为空，不能区分
D.以上都不对

14.用练习好的LOF实例判别数据是不是反常，正常样本用1表明，反常样本用-1表明的句子
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_

15.处理缺失值的方法有删去和（）
A.更换
B.仿制
C.修正
D.屏蔽

二、多选题 (共 5 道试题,共 20 分)
16.常用的分类方法包含
A.朴素贝叶斯分类器
B.决议计划树
C.KNN
D.以上都不对

17.定性数据包含
A.有序数据
B.无序数据
C.定类等级数据
D.定性等级数据

18.数据发掘（Data Mining）则是常识发现（KDD）的中心有些，它指的是从数据调集中自动抽取躲藏在数据中的那些有用信息的非普通过程，这些信息的体现方式为
A.规矩
B.概念
C.规律
D.形式

19.反常检测的难点
A.不能清晰界说何为正常，何为反常，在某些范畴正常和反常并没有清晰的边界
B.数据自身存在噪声，致使噪声和反常难以区别
C.正常行动并不是原封不动，也会跟着时刻演化，如正常用户被盗号之后，进行一系列的不合法操作
D.难以获取符号数据，没稀有据，再好的算法也是无用

20.分箱法包含
A.等深分箱
B.众数分箱
C.等宽分箱
D.以上都不对

三、判别题 (共 5 道试题,共 20 分)
21.众数在一组数据中只要一个

22.由于 Bayes 理论可以协助了解根据概率估量的杂乱现况，所以它变成了数据发掘和概率论的基础

23.下四分位数是指数据从大到小摆放排在第25%方位的数字，即最小的四分位数(下四分位数)

24.高层次数据无法向低层次转化，会呈现F

25.描绘性数据剖析归于对比高级杂乱的数据剖析手法