南开23秋学期（仅限-高起专1909、专升本1909）《数据科学导论》在线作业【标准答案】

李老师 · 发表于 2023-11-14 21:09:51

23秋学期（仅限-高起专1909、专升本1909）《数据科学导论》在线作业-00003
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.Apriori算法的加快过程依靠于以下哪个战略( )
A.抽样
B.剪枝
C.缓冲
D.并行

2.实体辨认的常见方式()
A.同名异义
B.异名同义
C.单位不一致
D.特点不一样

3.以部属于相关剖析的是( )
A.CPU功能预测
B.购物篮剖析
C.自动判别鸢尾花种类
D.股市趋势建模

4.只要非零值才重要的二元特点被称作:( ),其间购物篮数据就归于这种特点。
A.计数特点
B.离散特点
C.非对称的二元特点#对称特点

5.以下哪些不是缺失值的影响()
A.数据建模将丢掉很多有用信息
B.数据建模的不断定性愈加明显
C.对全体老是不发生啥效果
D.包括空值的数据能够会使建模过程堕入紊乱，致使反常的输出

6.下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的薪酬与年纪
C.正方形的面积和边长
D.温度与湿度

7.例如将薪酬收入特点值映射到[-1,1]或许[0,1]内归于数据变换中的()
A.简略函数变换
B.标准化
C.特点结构
D.接连特点离散化

8.单层感知机是由()层神经元构成。
A.一
B.二
C.三
D.四

9.数据库中有关联的两张表都存储了用户的个人信息,但在用户的个人信息发作改动时只更新了一张表中的数据,这时两张表中就有了纷歧致的数据,这归于()
A.反常值
B.缺失值
C.纷歧致的值
D.重复值

10.咱们需求对已生成的树()进行剪枝,将树变得简略,然后使它具有非常好的泛化才能。
A.自上而下
B.自下而上
C.自左而右
D.自右而左

11.多层感知机是由()层神经元构成。
A.二
B.三
C.大于等于二层
D.大于等于三层

12.BFR聚类用于在()欧氏空间中对数据进行聚类
A.高维
B.中维
C.低维
D.中高维

13.手肘法的中心目标是()。
A.SES
B.SSE
C.RMSE
D.MSE

14.层次聚类对给定的数据进行()的分化。
A.聚合
B.层次
C.分拆
D.仿制

15.以下哪一项不是特征挑选常见的方法()
A.过滤式
B.封装式
C.嵌入式
D.敞开式

16.层次聚类合适规划较()的数据集
A.大
B.中
C.小
D.一切

17.在k近邻法中,挑选较小的k值时,学习的“近似差错”会(),“估量差错”会()。
A.减小，减小
B.减小，增大
C.增大，减小
D.增大，增大

18.比方一张表,从事务上讲,一个用户大概只会有一笔记录, 那么假如某个用户呈现了超越一条的记载,这就发生了()
A.反常值
B.纷歧致的值
C.重复值
D.缺失值

19.下面不是分类的常用方法的有()
A.K近邻法
B.朴素贝叶斯
C.决议计划树
D.条件随机场

20.聚类的最简略最根本方法是()。
A.区分聚类
B.层次聚类
C.密度聚类
D.间隔聚类

二、多选题 (共 10 道试题,共 20 分)
21.啥状况下结点不必区分()
A.当时结点所包括的样本全归于同一种类
B.当时特点集为空，或是一切样本在一切特点上取值一样
C.当时结点包括的样本集为空
D.还有子集不能被根本正确分类

22.有关性的分类,依照有关的方向能够分为()。
A.正有关
B.负有关
C.左有关
D.右有关

23.k近邻法的根本要素包含()。
A.间隔衡量
B.k值的挑选
C.样本巨细
D.分类决议计划规矩

24.数据科学具有哪些性质()
A.有用性
B.可用性
C.未意料
D.可了解

25.间隔衡量中的间隔能够是()
A.欧式间隔
B.曼哈顿间隔
C.Lp间隔
D.Minkowski间隔

26.下列选项是BFR的对象是()
A.抛弃集
B.暂时集
C.紧缩集
D.留存集

27.K-means聚类中K值选择的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选择

28.系统日志搜集的根本特征有()
A.高可用性
B.高牢靠性
C.可拓展性
D.高功率

29.关于多层感知机,()层具有激活函数的功用神经元。
A.输入层
B.隐含层
C.输出层

30.下面比如归于分类的是()
A.检测图画中是不是有人脸呈现
B.对客户依照借款危险巨细进行分类
C.辨认手写的数字
D.估量商场客流量

三、判别题 (共 20 道试题,共 40 分)
31.跟着特征维数的添加,特征空间呈指数倍增加,样本密度急剧减小,样本稀少。

32.啤酒与尿布的故事是聚类剖析的典型实例。

33.Apriori算法是一种典型的相关规矩发掘算法。

34.分拆方法是自底向上的方法。

35.穿插表被广泛用于查询研讨,商业智能,工程和科学研讨

36.k值增粗心味着全体模型变得杂乱。

37.使用K近邻法进行分类时,k值过小简单发作过拟合表象。

38.获取数据的方法有多种,能够从网页、丈量、数据库、传统媒体、监控等等方法

39.EDA能够最大化数据剖析者对数据集和数据集底层结构的洞悉力,而且为剖析者供给数据会集包括的各类信息。

40.子集发生实质上是一个查找过程,该过程能够从空集、随机发生的一个特征子集或许整个特搜集开端。

41.多元线性回归模型中,规范化偏回归系数没有单位。

42.由不一样的间隔衡量所断定的近来邻点是不一样的

43.决议计划树内部结点表明一个类,叶结点表明一个特征或特点

44.穿插表能够协助大家发现变量之间的彼此效果。

45.朴素贝叶斯分类器有简略、高效、强健的特色,但某些特点能够会下降分类器的功能

46.跟着特征维数的添加,样本间区别度进步。

47.K均值(K-Means)算法是密度聚类。

48.赤池信息原则是衡量统计模型拟合优秀性的一种规范。

49.贝叶斯定理是概率论中的一个成果,它与随机变量的条件概率以及联合概率散布有关。

50.规范BP算法是在读取悉数数据集后,对参数进行一致更新的算法。