精华干货 | 爬虫入门必练

2019-05-23 16:02 浏览 3570人

随着后互联网时代行业分工越来越细化，用户数据的海量涌向，数据的采集、分析成为了解产品趋势、判断竞争对手与个性化推荐的重要一环，爬虫因此成为了许多用人单位招聘要求的必备技能!那么爬虫是什么？学习来简单吗？相信刚接触或准备学习爬虫的小伙伴有不少疑虑，今天小编就来介绍一下爬虫入门的精华。

网络爬虫，又被称为网页蜘蛛、网络机器人，是一种按照一定规则，自动地抓取万维网信息的程序或者脚本。简单来说，网络爬虫就是一段程序，模拟人类访问互联网的形式，不停地从网络上抓取我们需要的数据。我们可以定制各种各样的爬虫，来满足不同的需求，如果法律允许，你可以采集在网页上看到的、任何你想要获得的数据。

编程语言

因为python有大量的第三方类库，使用起来非常方便。利用python可以非常方便地实现爬虫功能，当然也可以使用其他语言进行编写。

开发平台和环境

爬虫开发环境可以用Linux、windows，当然Mac环境也可以。

开发工具我们可以选择使用PyCharm，windows、linux、macos多平台支持，非常好用。

用Python请求一个网页？

① 安装requests

打开cmd,在命令行中输入指令【pip install requests】并回车

② 检测是否安装成功

在命令行中输入【python】，敲击回车，进入python环境。

再输入指令【import requests】并回车：如果不报错，则说明已安装。

③ 尝试使用requests请求网页

打开PyCharm，创建一个项目

在该项目下创建一个PY文件，输入以下代码

【

import requests

url='http://www.baidu.com'

respone=requests.get(url)#请求百度首页

print(respone.status_code)#打印请求结果的状态码

print(respone.content)#打印请求到的网页源码

】

运行得到结果：

蓝框圈出来的是状态码，200说明请求正常。红框里的便是网页源码。

如何用Python解析网页源码？

① 安装BeautifulSoup

命令行中输入指令【pip install beautifulsoup4】并回车，安装bs4：

② 检测是否安装成功

4.编写一个简单的爬虫程序

在安装好环境插件后，我们来编写一个简单的爬虫小程序：抓取简书首页推荐的文章名称还、有链接。

先打开简书首页

按F12打开开发者工具

可以看到，红框里的正是我们想要的东西：一个a标签，它的class是title，还有文章的链接href，以及文章的标题，一个string。

运行，生成一个test的txt文件，爬取成功

结语：爬虫相比后面的Python学习，相当简单且容易入手，但随着网页数据的不规则性强，爬取的难度也越来越大，因此，爬虫的规则简单，但经验还是得我们经过大量的项目去训练、去积累。