南开23春学期（高起本：1709-2103、专升本高起专：1909-2103）《数据科学导论》在线作业【标准答案】

吴老师 · 发表于 2023-8-27 15:13:04

23春学期（高起本：1709-2103、专升本/高起专：1909-2103）《数据科学导论》在线作业-00002
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.一元线性回归中,实在值与预测值的差称为样本的()。
A.差错
B.方差
C.测差
D.残差

2.在k近邻法中,挑选较小的k值时,学习的“近似差错”会(),“估量差错”会()。
A.减小，减小
B.减小，增大
C.增大，减小
D.增大，增大

3.具有误差和至少()个S型隐含层加上一个()输出层的网络可以迫临任何有理数。
A.1,线性
B.2,线性
C.1,非线性
D.2,非线性

4.单层感知机模型归于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
C.多分类的线性分类模型
D.多分类的非线性分类模型

5.多层感知机是由()层神经元构成。
A.二
B.三
C.大于等于二层
D.大于等于三层

6.依据映射关系的不一样能够分为线性回归和()。
A.对数回归
B.非线性回归
C.逻辑回归
D.多元回归

7.聚类的最简略最根本方法是()。
A.区分聚类
B.层次聚类
C.密度聚类
D.间隔聚类

8.以下哪一项不是特征挑选常见的方法()
A.过滤式
B.封装式
C.嵌入式
D.敞开式

9.实体辨认归于以下哪个过程()
A.数据清洁
B.数据集成
C.数据规约
D.数据变换

10.数据质量查验的首要使命即是检查初始数据中是不是存在“脏数据”,归纳性来说,脏数据不包含以下()
A.普通值
B.反常值
C.纷歧致的值
D.重复值

11.以部属于相关剖析的是( )
A.CPU功能预测
B.购物篮剖析
C.自动判别鸢尾花种类
D.股市趋势建模

12.在一元线性回归中,经过最小二乘法求得的直线叫做回归直线或()。
A.最优回归线
B.最优散布线
C.最优预测线
D.最好散布线

13.下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的薪酬与年纪
C.正方形的面积和边长
D.温度与湿度

14.经过结构新的目标-线损率,当超出线损率的正常规模, 则能够判别这条线路的用户能够存在窃漏电等反常行动归于数据变换中的()
A.简略函数变换
B.标准化
C.特点结构
D.接连特点离散化

15.层次聚类合适规划较()的数据集
A.大
B.中
C.小
D.一切

16.在有统计学含义的条件下,规范化偏回归系数的肯定值越大,阐明相应的自变量对y的效果()。
A.越小
B.越大
C.无关
D.不断定

17.以下哪一项不归于数据变换()
A.简略函数变换
B.标准化
C.特点兼并
D.接连特点离散化

18.K-means聚类适用的数据类型是()。
A.数值型数据
B.字符型数据
C.语音数据
D.一切数据

19.设X={1,2,3}是频频项集,则可由X发生()个相关规矩。
A.4
B.5
C.6
D.7

20.比方一张表,从事务上讲,一个用户大概只会有一笔记录, 那么假如某个用户呈现了超越一条的记载,这就发生了()
A.反常值
B.纷歧致的值
C.重复值
D.缺失值

二、多选题 (共 10 道试题,共 20 分)
21.系统日志搜集的根本特征有()
A.高可用性
B.高牢靠性
C.可拓展性
D.高功率

22.多层感知机的学习过程包括()。
A.信号的正向传达
B.信号的反向传达
C.差错的正向传达
D.差错的反向传达

23.聚类的首要方法有()。
A.区分聚类
B.层次聚类
C.密度聚类
D.间隔聚类

24.关于多层感知机,()层具有激活函数的功用神经元。
A.输入层
B.隐含层
C.输出层

25.相关规矩的评估衡量首要有:()。
A.撑持度
B.相信度
C.精确率
D.错误率

26.K-means聚类中K值选择的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选择

27.啥状况下结点不必区分()
A.当时结点所包括的样本全归于同一种类
B.当时特点集为空，或是一切样本在一切特点上取值一样
C.当时结点包括的样本集为空
D.还有子集不能被根本正确分类

28.数据科学具有哪些性质()
A.有用性
B.可用性
C.未意料
D.可了解

29.一元回归参数估量的参数求解方法有()。
A.最大似然法
B.距估量法
C.最小二乘法
D.欧式间隔法

30.Apriori算法的计算杂乱度受()影响。
A.撑持度阈值
B.项数
C.业务数
D.业务均匀宽度

三、判别题 (共 20 道试题,共 40 分)
31.假如一个候选集至罕见一个子集对错频频的,依据撑持度的反单调特点,这样的候选项集必定对错频频的。

32.穿插表能够协助大家发现变量之间的彼此效果。

33.K-means算法选用贪心战略,经过迭代优化来近似求解。

34.Jaccard系数只关怀个别间一起具有的特征是不是共同这个疑问。

35.关于项集来说,相信度没有含义。

36.在树的结构中,特征越重要,就越远离根节点。

37.决议计划树内部结点表明一个类,叶结点表明一个特征或特点

38.朴素贝叶斯分类器有简略、高效、强健的特色,但某些特点能够会下降分类器的功能

39.决议计划树学习的算法一般是一个递归地挑选最优特征,并依据该特征对练习数据进行切割,使得各个子数据集有一个最佳的分类的过程,这一过程对应着特征空间的区分,也对应着决议计划树的构建

40.相关规矩能够用枚举的方法发生。

41.获取数据为数据剖析供给了资料和根据,这儿的数据只包含直接获取的数据。

42.聚合方法是自底向上的方法。

43.多层感知机的学习才能有限,只能处理线性可分的二分类疑问。

44.撑持度是衡量相关规矩重要性的一个目标。

45.可信度是对相关规矩的精确度的衡量。

46.会集趋势可以标明在必定条件下数据的共同性质与区别

47.Apriori算法是一种典型的相关规矩发掘算法。

48.挑选较小的k值,适当于用较小的邻域中的练习实例进行预测,学习的“近似差错”会减小,“估量差错”会增大,预测成果会对近邻的点实例点十分灵敏。

49.当练习集较大的时分,规范BP算法一般会更快的取得非常好的解。

50.一般来说,信息增益越大,则意味着运用特点a来进行区分所取得的“纯度提高越大”,因而咱们可用信息增益来进行决议计划树的最优特征挑选。