无头浏览器Selenium的使用要点

1、无头浏览器(headless browser)是什么

无头浏览器是指可以在图形界面情况下运行的，可以模拟多种浏览器的运行框架。研发可以通过编程来控制该框架执行各种任务，模拟真实的浏览器操作和各种任务，例如登录、js解析、ajax动态生成、获取cookie等。

无头浏览器的框架需要真实运行浏览器，因此系统开销大，采集运行速度慢，相对与一般的爬虫程序，其运行环境要求搭建的工具和库较多，因此如果目标网站反爬不是很难，可以直接通过简单的http请求进行采集，不适合使用无头浏览器方案。

当目标网站有多种验证机制，例如需要验证登录、ajax动生成、js反爬策略，如果研发不能进行网站行为分析的情况下，建议使用无头浏览器伪装正常用户，同时配合使用爬虫代理加强版进行数据采集。

无头浏览器有很多，我们推荐如下：

“无头”这个词来源于最初的“无头计算机(Headless computer)”。维基百科关于的“无头计算机”词条：

无头系统（headless system）是指已配置为无须显示器（即“头”）、键盘和鼠标操作的计算机系统或设备。无头系统通常通过网络连接控制，但也有部分无头系统的设备需要通过RS-232串行连接进行设备的管理。服务器通常采用无头模式以降低运作成本。

我们日常使用浏览器的步骤为：启动浏览器、打开一个网页、进行交互。而无头浏览器指的是我们使用脚本来执行以上过程的浏览器，能模拟真实的浏览器使用场景。

有了无头浏览器，我们就能做包括但不限于以下事情：

无头浏览器很多，包括但不限于:

本文主要介绍 Google 提供的无头浏览器(headless Chrome), 他基于 Chrome DevTools protocol 提供了不少高度封装的接口方便我们控制浏览器。