安庆大理运城常德铜陵江西
投稿投诉
江西南阳
嘉兴昆明
铜陵滨州
广东西昌
常德梅州
兰州阳江
运城金华
广西萍乡
大理重庆
诸暨泉州
安庆南充
武汉辽宁

一个使用Python编写的轻量级百度爬虫

5月9日 金钟寨投稿
  《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目,包括技术、学习、实用与各种有趣的内容。本期推荐的是一个使用Python编写的轻量级百度爬虫BaiduSpider。
  BaiduSpider是一个使用Python编写的轻量级百度爬虫。它基于Requests和BeautifulSoup构建,并提供了易用的API接口以及完善的类型注释,提升开发者的使用体验。
  功能特性节省提取数据的时间,对于类似深度学习项目的数据模型建立与训练起到了良好的帮助精准、快速地提取百度搜索结果,并删除广告搜索结果大而全,支持多种搜索类型,支持多种返回类型提供了简洁易用的API
  安装
  依赖环境:Python3。6
  使用pip安装:pipinstallbaiduspider
  从GitHub手动安装:gitclonegitgithub。com:BaiduSpiderBaiduSpider。git。。。pythonsetup。pyinstall
  示例
  百度网页搜索,也可以作为综合搜索使用。BaiduSpider。searchweb(self:BaiduSpider,query:str,pn:int1,exclude:list〔〕,proxies:Union〔dict,None〕None,)WebResult
  参数querystr:要查询网页搜索的字符串pnint:要爬取的页码,默认为1,可选excludedict:要屏蔽的子部件列表,可选timestrList〔datetime。datetime〕:搜索时间范围proxiesUnion〔dict,None〕:代理配置,默认为None,可选
  实例
  基本的调用:这是一个最基本的参数query。它用于传递搜索词(字符串类型)。导入BaiduSpiderfrombaiduspiderimportBaiduSpiderfrompprintimportpprint实例化BaiduSpiderspiderBaiduSpider()搜索网页pprint(spider。searchweb(query要搜索的关键词)。plain)
  指定页码:你可以通过设置pn参数来更改BaiduSpider所获取的页码。frombaiduspiderimportBaiduSpiderfrompprintimportpprintspiderBaiduSpider()搜索网页,并传入页码参数(此处为第二页)pprint(spider。searchweb(query要搜索的关键词,pn2)。plain)
  注意:传入页码参数的时候一定要小心,务必不要传入过大的页码,否则百度搜索会自动跳转回第一页。
  屏蔽特定的搜索结果:这个参数可以为你提供很大的便捷。通过设置exclude列表,你可以屏蔽某些特定的网页搜索子搜索结果来提高解析速度。frombaiduspiderimportBaiduSpiderfrompprintimportpprintspiderBaiduSpider()搜索网页,并传入要屏蔽的结果在本样例中,屏蔽了贴吧和博客pprint(spider。searchweb(query要搜索的关键词,exclude〔tieba,blog〕)。plain)
  exclude的值可以包含:〔news,video,baike,tieba,blog,gitee,related,calc〕,分别表示:资讯,视频,百科,贴吧,博客,Gitee代码仓库,相关搜索,计算。exclude的值也可以是〔all〕,表示屏蔽除了普通搜索结果外的所有搜索结果。实例:frombaiduspiderimportBaiduSpiderfrompprintimportpprintspiderBaiduSpider()搜索网页,并传入要屏蔽的结果在本样例中,屏蔽了所有非普通的搜索结果pprint(spider。searchweb(query要搜索的关键词,exclude〔all〕)。plain)
  如果exclude中包含all且还有其他参数,那么将按照只有all的方式过滤搜索结果。
  按时间筛选:time参数能够实现更精准的搜索。time的取值可以是一个字符串或者是一个由datetime。datetime组成的元组。比如,使用字符串形式:frombaiduspiderimportBaiduSpiderfrompprintimportpprintspiderBaiduSpider()搜索网页,仅显示时间段内的搜索结果在本样例中,筛选后仅显示一周内的搜索结果pprint(spider。searchweb(query要搜索的关键词,timeweek)。plain)
  此功能使用百度内置的搜索时间筛选器筛选结果,并非使用程序筛选。在这个样例中,time的值是week,代表筛选一周内的搜索结果。time的可选值如下:〔day,week,month,year〕。分别表示:一天内、一周内、一月内、一年内。除此以外,BaiduSpider还支持自定义时间段。例如:frombaiduspiderimportBaiduSpiderfrompprintimportpprintfromdatetimeimportdatetimespiderBaiduSpider()在本样例中,筛选后仅显示2020。1。52020。4。9的搜索结果pprint(spider。searchweb(query要搜索的关键词,time(datetime(2020,1,5),datetime(2020,4,9)))。plain)
  在这个样例中,time的值是一个元组(tuple)。元组的第一个值是起始时间,第二个值是结束时间。BaiduSpider会把他们都转化成time。time()形式的浮点数(然后仅保留整数),所以你也可以将datetime替换为一个整数。
  END
  此项目使用GPL3。0开源协议,更多功能大家可自行前往阅读。
  开源地址:https:github。comBaiduSpiderBaiduSpider
投诉 评论 转载

一个使用Python编写的轻量级百度爬虫《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目,包括技术、学习、实用与各种有趣的内容。本期推荐的是一个使用Python编写的轻量级百度爬虫BaiduS……小康股份年报研发投入超19亿元,营收占比11来源:环球网4月29日晚间,小康股份(601127。SH)发布2021年度业绩报告。公告显示,2021年小康股份全年实现营业收入167。18亿元,同比增长16。89,年度研发投……牛市什么时候到来据CNBC报道,Huobi联合创始人杜均预测,目前处于熊市的早期阶段,直到2024年底到2025年初,才能迎来比特币的下一个牛市。此外,他表示全面退出中国使得Huobi损……4000元竟能可以买到最新的iPhone13Pro,这是怎么距离苹果一年一度的科技春晚已经过去差不多半个月了,iPhone13系列带来的热度使很多用户都买不到首批iPhone13。那么今天就告诉大家如何以最划算的方式买到iPhone13……抬抬小手学Python列表推导式与字典推导式列表推导式与字典推导式在Python中推导式是一种非常Pythonic的知识,本篇博客将为你详细解答列表推导式与字典推导式相关的技术知识。列表推导式列表推导式可以利……一个今年50岁的老大爷名叫支付宝,你知道吗?,快来看看吧我们可以使用支付宝软件进行购物、消费、投资、转账等,这在一定程度上方便了我们的生活,但支付宝也因为它的名字造成了意外。有一个叫支付宝的大叔,直接把马云告上法庭,要阿里巴巴给他钱……GalaxyS22Ultra渲染图曝光,骁龙898加持,居中按照此前爆料,高通下一代旗舰芯片骁龙898将会在年底发布,且今年可能会比以往稍早一些,现在即将步入十月份,这就意味着这款全新的旗舰芯片很快就能和大家见面了。根据往年惯例,……沃尔沃在未来几周即将IPO,新能源版XC40续航里程400公受新冠状病毒的影响,消费者消费观念日益向健康和环保转变,沃尔沃品牌基因中的安全、健康、环保理念愈发凸显其内涵与价值。面对特斯拉、蔚来等新能源品牌的围追堵截,沃尔沃始终保持独立思……你们手机里有哪些值得添加的小程序?用过的微信小程序还是挺多的,常用的有以下这些,都非常实用,大家可以试试看:一、制作器几分钟就能制作出朋友圈各种高端截图,红包转账、聊天对话、时下流行装逼图都能生成,而且模……质感爆表!首款支持LDAC的海贝WH2TWS蓝牙耳机体验前阵子Lime在刷朋友圈,刚好看到一个耳机发烧友发了一张HiByWH2的海报,感觉质感很不错,于是我就赶着首发赶紧入手了一枚,来给大家分享下。WH2支持LDAC蓝牙编码同样价格……讯飞消费者业务品牌升级将拉近AI与大众距离过往,在技术力量不成熟的时代,确实让外国品牌吃到了科技的红利。尤其是沿海地区,甚至有一种外国品牌YYDS的错觉。一方面,当初国货竞争力偏弱,不少还是停留于卖货的水平;另外一方面……经典回顾!一文看尽iOS1到15大变迁随着WWDC21的结束,iOS15正式版也离我们越来越近了。虽然大家都爱调侃,最近这两年iOS的升级越来越安卓化了,但你有了解过,iOS的历史是怎样的,它是如何从一个青涩……
话刚落音,腾讯再拿500亿小米11T系列海外版价格曝光,最高超7000元,国行将推K4求1500左右台式组装电脑?多领域走在世界前列中国科研进步令人刮目相看阴谋?华为黑粉为什么突然变得这么多?高通与GoogleCloud宣布就智能网联边缘的神经网络架构15分钟充满电量三星120Hz屏,12GB256GB旗舰机跌一个朋友在网上借钱,逾期了没还,借贷公司老打电话给我叫我提醒你觉得联想柳杨的下场会是什么?电热水器电源线接长了半米通电时间长了接头处,热的烫手怎么办?223家企业参展!2021江西国际移动物联网博览会开幕现在头条上都推荐我们写字抄书,我想问问有多少人掉坑里了?耳朵进入异物的处理方法末雨悟道害怕买到假冒伪劣刀具?教你这七招,避免上。。。孙武孙膑(鬼谷子八个徒弟顺序)5岁孩子看西游记怎么孙悟空总是打不过妖怪?孕妇吃火龙果孕妇吃火龙果的好处汽车吸尘器品牌及价格介绍搞笑童年雷锋电影观后感怎么写如何预防儿童骑车发生车祸瑰宝八卦连环腿(下)夏季时节哪些皮肤病会找上宝宝

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找七猫云易事利