基于selenium和requests的爬虫项目环境配置

1.python环境安装

首先,在python的网站上下载对应的python环境

https://www.python.org/downloads

建议选择python3.8-3.9版本即可,版本过低或过高可能存在不兼容问题,适当选择合适的python环境,注意,同一台设备可以拥有多个python环境,在IDE中可进一步选择具体的python环境用于项目编写。

建议下载“executable installer”版本的安装文件,安装起来比较方便。

运行安装文件,此时注意勾选下方“Add python 3.x to PATH”的选项,勾选这一选项可不再自行设置环境变量,选择“Customize installation”可以自行设置安装路径,否则将设置在系统硬盘内。

接下来的选项可以都勾选,运行结束即可,之后打开命令提示符界面(WIN+R,cmd),输入python,显示python版本说明安装成功,如果没有显示,说明设置环境变量失败,把python安装路径添加到环境变量里即可。

2.PyCharm安装

下载PyCharm的安装包,社区版Community或者个人版Professional均可。

https://www.jetbrains.com/pycharm/download/#section=windows

全部勾选,一路next即可,新建一个Projects。

项目路径是项目文件保存的路径,环境使用虚拟环境Virtualenv,然后interpreter使用之前安装的python环境。

3.python第三方库的安装

方法一:找到下方或者左下角的terminal面板,在里面输入“pip install 库名”即可安装。

方法二:点击左上角file→Settings→Projects:你的项目→Python Interpreter→加号

检索你需要的第三方库,并且右方可以勾选你需要的版本。当然,pip中也可以制定你需要的版本,比如pip install requests==2.28.0

4.selenium的驱动安装

selenium是基于浏览器的原理,所以需要安装对应的浏览器驱动,

查看自己的Google浏览器版本,并下载对应版本的ChromeDriver,下载完成后,解压压缩包,将chromedriver.exe文件放置在python的项目文件目录下。

下载地址1:https://chromedriver.com/

下载地址2:https://npmmirror.com/mirrors/chromedriver/

尝试使用如下代码,测试是否能够打开网页,如果不能,将驱动设置到环境变量中。

from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.baidu.com/')
driver.quit()

5.Google Chrome插件webscraper安装

在谷歌浏览器中的扩展程序管理页直接搜索并下载安装chrome://extensions/

或在谷歌应用商店中下载,https://chromewebstore.google.com/?pli=1

如果不能访问谷歌商店,可以网上搜索下载离线插件安装包