Python 自动化浏览器实践

993 字

5 分钟

Python 自动化浏览器实践

2025-03-20

Python

自动化

/

Selenium

/

Playwright

为什么要让浏览器自动跑#

日常测试、数据采集、批量操作后台系统时，手点页面既低效又容易出错。Python 生态提供了多种浏览器自动化方案，可以在保留真实渲染环境的情况下完成登录、数据抓取、导出报告等任务。

常用框架对比：

工具	特点	适合场景
Selenium	历史悠久，生态丰富，与各大浏览器兼容	UI 自动化测试、旧系统兼容
Playwright	现代、API 简洁，自带浏览器管理	多语言支持、高并发采集
Requests + browsercookie	无头访问，绕过浏览器成本	已有 Cookie/Token、接口稳定

以下内容以 Selenium 与 Playwright 为主线，补充一些工程化实践。

环境准备#

1
python -m venv .venv
2
source .venv/bin/activate  # Windows 使用 .venv\Scripts\activate
3
pip install --upgrade pip
4
pip install selenium~=4.21 webdriver-manager~=4.0 playwright~=1.44
5
playwright install chromium

webdriver-manager 可自动下载匹配版本的浏览器驱动；若内网环境，请预下载并配置 PATH。
Playwright 自带浏览器二进制，执行 playwright install 即可。
建议把这些安装写进 requirements.txt 或 pyproject.toml，方便 CI/CD 复现。

Selenium 抓取接口 Token#

部分前端只在浏览器里发请求，需要我们在网络日志里捕获 Token。下方示例基于 Chrome DevTools Protocol：

1
import json
2
import time
3
import urllib.parse
4

5
from selenium import webdriver
6
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
7
from selenium.webdriver.support.wait import WebDriverWait
8
from selenium.webdriver.support import expected_conditions as EC
9
from selenium.webdriver.common.by import By
10

11

12
def get_token(timeout: int = 15) -> str | None:
13
    caps = DesiredCapabilities.CHROME
14
    caps["goog:loggingPrefs"] = {"performance": "ALL"}
15

16
    options = webdriver.ChromeOptions()
17
    options.add_argument("--headless=new")
18
    options.add_argument("--disable-gpu")
19
    options.add_argument("--window-size=1280,720")
20

21
    driver = webdriver.Chrome(options=options, desired_capabilities=caps)
22
    target_url = "https://vp.fact.qq.com/home"
23
    api_pattern = "/api/config/initial"
24

25
    try:
26
        driver.get(target_url)
27
        WebDriverWait(driver, 10).until(
28
            EC.presence_of_element_located((By.CSS_SELECTOR, "[data-page-ready]"))
29
        )
30

31
        start_time = time.time()
32
        token = None
33

34
        while time.time() - start_time < timeout and not token:
35
            for log_item in driver.get_log("performance"):
36
                message = json.loads(log_item["message"])["message"]
37
                if message.get("method") != "Network.requestWillBeSent":
38
                    continue
39

40
                request = message["params"]["request"]
41
                url = request.get("url", "")
42
                if api_pattern in url:
43
                    parsed = urllib.parse.urlparse(url)
44
                    qs = urllib.parse.parse_qs(parsed.query)
45
                    token = qs.get("token", [None])[0]
46
                    break
47

48
        if token:
49
            print("捕获 Token:", token)
50
        else:
51
            print("未在超时时间内发现 Token")
52
        return token
53
    finally:
54
        driver.quit()

要点归纳：

新版 Chrome 建议启用 --headless=new，兼容性更好。
加 WebDriverWait 确保页面加载完再监听日志。
尝试控制循环超时时间，避免长时间阻塞或 CPU 飙升。

Playwright 的替代写法#

Playwright 同样能抓取网络请求，并且 API 更直接：

1
from playwright.sync_api import sync_playwright
2

3

4
def fetch_token(target: str) -> str | None:
5
    with sync_playwright() as p:
6
        browser = p.chromium.launch(headless=True)
7
        page = browser.new_page()
8
        token_holder = {"value": None}
9

10
        def handle_request(route):
11
            url = route.request.url
12
            if "/api/config/initial" in url:
13
                token_holder["value"] = route.request.url.split("token=")[-1]
14
            route.continue_()
15

16
        page.route("**/api/config/initial*", handle_request)
17
        page.goto(target, wait_until="networkidle")
18
        browser.close()
19
        return token_holder["value"]

Playwright 能直接对特定请求做 route 拦截，减少日志解析。
wait_until="networkidle" 避免页面仍在加载时就关闭浏览器。

自动化常见任务清单#

UI 回归测试：搭配 pytest，为关键流程编写断言，用 pytest-xdist 并发执行。
数据采集：与 pandas、openpyxl 结合，把页面数据写出 Excel。
批量操作：后台管理系统重复操作（如批量审批、导入），可以沿用录制脚本。
截图/录屏：Selenium 可通过 driver.save_screenshot 捕获截图；Playwright 原生支持录像 page.video.
下载管理：Playwright 提供 page.expect_download()；Selenium 需通过 Chrome 配置 download.default_directory。

工程化细节#

结构化项目：把页面元素封装为 Page Object，可读性和复用度更高。
依赖管理：CI 中将浏览器二进制缓存到镜像或制品仓库，缩短冷启动时间。
日志与报告：结合 pytest-html 或 allure 生成测试报告，失败时附带截图。
定时调度：在 Airflow/Prefect 下运行脚本，统一重试策略与告警。
Docker 化：使用 selenium/standalone-chrome、mcr.microsoft.com/playwright/python 等镜像可避免宿主机缺依赖。