网络爬虫 作者:马育民 • 2019-01-16 11:00 • 阅读:10248 # 概述 网络爬虫(又被称为网页蜘蛛,网络机器人,英文一般为:spider,蜘蛛),是按照一定的规则,自动提取网页数据的程序 ### 一句话解释 使用代码模拟浏览器,向web服务器发请求,分析出想要的数据 [](https://www.malaoshi.top/upload/pic/python/QQ20201030-141524@2x.png) # 为什么要使用爬虫 1. 早期互联网迅速发展,信息量也迅速增大时,搜索引擎(百度、谷歌)应运而生,爬取网页数据,便于人们搜索 2. 大数据时代,很多公司根据自身业务需要,从互联网爬取数据 如: 1. 爬取社交平台(如微博、贴吧、知乎),做舆情分析 2. 猎头公司,从拉勾网、智联招聘爬取简历 3. 抓取企业执照、缴税、法人等信息,分析企业状况 4. 品牌舆情,大公司分析旗下品牌口碑,负面评论 5. 电商平台,分析当前热卖品类,预判下个热卖品 6. 根据业务需要,抓取资源,下载短视频、图片、搞笑段子、高质量文章等 # 通用爬虫和聚焦爬虫 ### 通用爬虫 捜索引擎用的爬虫系统(Baidu、Google、Yahoo等)。 主要目的是将互联网上的网页下载到本地,在对这些网页做相关处理(提取关键字、去掉广告) ### Robots协议 爬虫协议,全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面 **可以抓取**,哪些页面 **不能抓取** 例如: 淘宝网:https://www.taobao.com/robots.txt 腾讯网: http://www.qq.com/robots.txt ### 聚焦爬虫 聚焦爬虫,是针对某个网站,或者某类网站、或者某类主题内容,实现的爬虫 比如: 1. 抓取二手房出售信息,分析各个城区的平均价格,户型占比等 2. 抓取招聘信息,分析某行业的平均工资,什么学历需求量最大等 2. 抓取某些电商平台的打折商品 原文出处:http://www.malaoshi.top/show_1EF2cZ7If3Ao.html