熊猫题库

|设为首页 |收藏本站 |切换到宽版
注册
查看: 270|回复: 0

南开23春学期(高起本:1709-2103、专升本高起专:1909-2103)《网络爬虫与信息提取》在线作业【标准答案】

[复制链接]

2068

主题

2068

帖子

6588

积分

论坛元老

Rank: 8Rank: 8

积分
6588
发表于 2023-8-3 12:46:21 | 显示全部楼层 |阅读模式
23春学期(高起本:1709-2103、专升本/高起专:1909-2103)《网络爬虫与信息获取》在线作业-00002
        试卷总分:100 得分:100
        一、单选题 (共 20 道试题,共 40 分)
        1.在Mac OS下装置MongoDB运用指令() install mongodb
        A.brew
        B.apt-get
        C.sudo
        D.apt
       
        2.()是Scrapy官方开发的,用来布置、运转和管理Scrapy爬虫的东西
        A.Scrapyd
        B.ScrapyDeploy
        C.Deploy
        D.Scrapy_Deploy
       
        3.一般运用()东西来模仿阅读器进行爬虫恳求
        A.Selenium
        B.Chrome
        C.ChromeDriver
        D.WebDriver
       
        4.Python中专门用来处理图画的第三方库是
        A.lxml
        B.Pillow
        C.beautifulsoup
        D.pytesseract
       
        5.运用xpath方法的回来类型是()
        A.列表
        B.元组
        C.字典
        D.调集
       
        6.运用UI Automator获翻滚屏幕的操作是得到相应控件后运用指令()
        A.scroll
        B.scroll_up
        C.scroll_forword
        D.scroll_back
       
        7.一般来说在页面传输登录信息都用HTTP()恳求类型
        A.GET
        B.POST
        C.PUT
        D.SEND
       
        8.下列说法错误的是()
        A.Charles只能截获HTTP和HTTPS的数据包,假如网站运用的是websocket或许是flashsocket,那么Charles就力不从心。
        B.有一些App会自带证书,运用其他证书都无法正常拜访后台接口。在这种状况下,Charles自带的证书就不能正常运用,也就没有方法抓取这种App的数据
        C.有一些App的数据通过加密,App接纳到数据今后在其内部进行解密。Charles无法获取这种App的数据
        D.关于上述状况,Charles能抓取到通过加密的数据。可是假如无法晓得数据的详细加密方法,就没有方法解读Charles抓取到的数据。
       
        9.PyMongo中逻辑查询表明大于等于的符号是()
        A.$gt
        B.$lt
        C.$gte
        D.$lte
       
        10.Python正则表达式模块的findall方法假如没有匹配到成果,则回来成果为()
        A.空
        B.空列表
        C.空元组
        D.不回来
       
        11.Scrapy自带的待爬行列是()
        A.deque
        B.queue
        C.list
        D.lqueue
       
        12.以下哪个指令是使用URL语法在指令行下工作的文件传输东西()
        A.curl
        B.tar -zxvf
        C.mkdir
        D.cp
       
        13.以下哪个指令是仿制文件或许文件夹指令()
        A.curl
        B.tar -zxvf
        C.mkdir
        D.cp
       
        14.Redis中检查一个列表长度,运用关键词()
        A.len
        B.length
        C.llen
        D.count
       
        15.Python中若界说object=[1, 2, 3, 4, 5],则print(object[-4])输出()
        A.NULL
        B.2
        C.4
        D.程序报错
       
        16.chrome默许翻开开发者东西的方便是
        A.F5
        B.F11
        C.F12
        D.F2
       
        17.运用UI Automatorr依据坐标来滑动桌面的操作是得到相应控件后运用指令()
        A.swipe
        B.move
        C.scroll
        D.fly
       
        18.Python读CSV文件需求哪个方法()
        A.CSVReader
        B.CsvReader
        C.DictReader
        D.FileReader
       
        19.()是一个传递信息的通道。它担任将爬取博文列表页获取到的信息传递给担任爬取正文页的方法中。
        A.meta
        B.head
        C.header
        D.body
       
        20.Python正则表达式模块的findall方法获取内容包括多个,则回来成果的列表中会包括()
        A.列表
        B.元组
        C.字典
        D.调集
       
        二、多选题 (共 10 道试题,共 20 分)
        21.假如方针网站有反爬虫声明,那么对方在被爬虫爬取今后,能够依据()来申述运用爬虫的公司
        A.效劳器日志
        B.数据库日志记载
        C.程序日志记载
        D.效劳器监控
       
        22.最多见的HTTP恳求类型有()
        A.GET
        B.POST
        C.SEND
        D.RECEIVE
       
        23.下列说法错误的是()
        A.mitmproxy的强壮之处在于它还自带一个mitmdump指令。这个指令能够用来运转契合必定规矩的Python脚本,并在Python脚本里边直接操作HTTP和HTTPS的恳求,以及回来的数据包。
        B.指令行中履行mitmdump -s parse_request.py即可运转python 脚本
        C.运用python能够自界说回来的数据包,如 response.headers,即是回来的头部信息
        D.假如回来的是JSON类型的字符串,python无法进行解析。
       
        24.cookies的缺陷是
        A.完成自动登录
        B.盯梢用户状况
        C.http中明文传输
        D.添加http恳求的流量
       
        25.自动填充验证码的方法有
        A.手动辨认填写
        B.图画辨认
        C.打码网站
        D.阅读器自动辨认
       
        26.HTTP常用状况码标明标明效劳器自身发作错误的有()
        A.403
        B.404
        C.500
        D.503
       
        27.requests中post恳求方法的第二个参数能够为()
        A.字典
        B.列表
        C.json数据
        D.字符串
       
        28.一个可行的自动替换署理的爬虫系统,大概下列哪些功用?
        A.有一个小爬虫ProxySpider去各大署理网站爬取免费署理并验证,将能够运用的署理IP保留到数据库中
        B.在发现某个恳求现已被设置过署理后,啥也不做,直接回来
        C.在ProxyMiddlerware的process_request中,每次从数据库里边随机挑选一条署理IP地址运用
        D.周期性验证数据库中的无效署理,及时将其删去
       
        29.Python中()容器有推导式
        A.列表
        B.元组
        C.字典
        D.调集
       
        30.Python中有哪些完成多线程方法()
        A.multiprocess.dummy
        B.threading.Thread
        C.process
        D.PyMongoDB
       
        三、判别题 (共 20 道试题,共 40 分)
        31.Python中包括字典的列表页能够变换成JSON字符串
       
        32.Python中比较于findall方法,search方法关于从超级大的文本里边只找第1个数据尤其有用,能够大大进步程序的运转功率。
       
        33.假如经过爬虫抓取某公司网站的揭露数据,剖析今后发现这个公司成绩十分好,所以买入该公司股市并赚了一笔钱。这是合法的。
       
        34.MongoDB在频频读写方面优于Redis
       
        35.在Ubuntu下若要运转Redis能够运用CMD进入解压今后的文件夹并运转指令redis-server.exe redis.windows.conf发动Redis
       
        36.Redis是恪守BSD协议、撑持网络、可根据内存亦可耐久化的日志型、Key-Value数据库
       
        37.Charles和Chrome开发者东西比较,仅仅多了一个查找功用。
       
        38.Python中写CSV文件的writerows方法参数为字典类型
       
        39.”curl http://爬虫效劳器IP地址:6800/cancel.json -d project=工程名 -d job=爬虫JOBID“该指令的效果是发动爬虫
       
        40.署理中心件的可用署理列表必定要写在settings.py里边
       
        41.MongoDB撑持对查询到的成果进行排序。排序的方法为sort()。它的格局为: handler.find().sort('列名', 1或-1或0)
       
        42.Cookies一般包括在恳求头Headers中
       
        43.在运用多线程处理疑问时,线程池设置越大越好
       
        44.自己能检查的数据,答应私行拿给第三方检查
       
        45.在发送恳求时需求留意requests提交的恳求头不能与阅读器的恳求头共同,由于这样才干躲藏好自己到达获取数据的意图
       
        46.运用UI Automatorr让屏幕向右翻滚的操作是得到相应控件后运用指令scroll.horiz.forward()
       
        47.运用AJAX技术,能够在不改写网页的状况下更新网页数据
       
        48.运用UI Automator使屏幕向上翻滚一屏的操作是得到相应控件后运用指令scroll.vert.forward()
       
        49.假如经过爬虫抓取某公司网站的揭露数据,剖析今后发现这个公司成绩十分好。所以将数据或许剖析成果出售给某基金公司,然后取得销售收入。这是合法的。
       
        50.在MacOS下若要运转Redis能够运转解压今后的文件夹下面的src文件夹中的redis-server文件发动redis效劳 src/redis-server
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计 | 统计 | QQ | Archiver| 熊猫题库 |网站地图

Copyright © 2001-2013 Comsenz Inc.   All Rights Reserved. Powered by 熊猫题库