精华干货 | 爬虫入门必练

2019-05-23 16:02 浏览 3570人

随着后互联网时代行业分工越来越细化,用户数据的海量涌向,数据的采集、分析成为了解产品趋势、判断竞争对手与个性化推荐的重要一环,爬虫因此成为了许多用人单位招聘要求的必备技能!那么爬虫是什么?学习来简单吗?相信刚接触或准备学习爬虫的小伙伴有不少疑虑,今天小编就来介绍一下爬虫入门的精华。


 

1.什么是爬虫?

 

网络爬虫又被称为网页蜘蛛网络机器人,是一种按照一定规则,自动地抓取万维网信息的程序或者脚本。简单来说,网络爬虫就是一段程序,模拟人类访问互联网的形式,不停地从网络上抓取我们需要的数据。我们可以定制各种各样的爬虫,来满足不同的需求,如果法律允许,你可以采集在网页上看到的、任何你想要获得的数据。


 

2.爬虫开发需要什么?

 

编程语言

 

因为python有大量的第三方类库,使用起来非常方便。利用python可以非常方便地实现爬虫功能当然也可以使用其他语言进行编写

 

开发平台和环境

 

爬虫开发环境可以用Linuxwindows,当然Mac环境也可以

 

开发工具我们可以选择使用PyCharmwindowslinuxmacos多平台支持,非常好用。

 

3.爬虫开发过程

 

 用Python请求一个网页? 

 

① 安装requests

 

打开cmd,在命令行中输入指令pip install requests并回车

 

② 检测是否安装成功

 

在命令行中输入python,敲击回车,进入python环境。

 

再输入指令import requests并回车:如果不报错,则说明已安装。

 

③ 尝试使用requests请求网页

 

打开PyCharm,创建一个项目

在该项目下创建一个PY文件,输入以下代码

 

        import requests

        url='http://www.baidu.com'

        respone=requests.get(url)#请求百度首页

        print(respone.status_code)#打印请求结果的状态码

        print(respone.content)#打印请求到的网页源码

 

运行得到结果:

 

 

蓝框圈出来的是状态码,200说明请求正常。红框里的便是网页源码。

 

 如何用Python解析网页源码?

 

① 安装BeautifulSoup

 

命令行中输入指令pip install beautifulsoup4并回车,安装bs4

 

② 检测是否安装成功

 

  

 

4.编写一个简单的爬虫程序

 

在安装好环境插件后,们来编写一个简单的爬虫小程序:抓取简书首页推荐的文章名称还有链接

 

 先打开简书首页 

 



 按F12打开开发者工具 

 

 

 

可以看到,红框里的正是我们想要的东西:一个a标签,它的class是title,还有文章的链接href,以及文章的标题,一个string。

 


 运行,生成一个test的txt文件爬取成功 



结语:爬虫相比后面的Python学习,相当简单且容易入手,但随着网页数据的不规则性强,爬取的难度也越来越大,因此,爬虫的规则简单,但经验还是得我们经过大量的项目去训练、去积累。