Python 代理配置

Python 爬虫如何配置代理 IP

Python 采集任务接入代理时,需要同时处理代理地址、认证、协议、超时、失败重试和密钥安全。这个页面给出通用接入思路,帮助开发者把 IPHTML 代理接入脚本和后端任务。

3 分钟接入思路

在 Python 中配置代理通常需要提供协议、用户名、密码、主机和端口。生产环境不要把密码写死在代码里,应通过环境变量或密钥管理系统注入。

  • 使用 HTTPS 代理地址配置 HTTP 客户端。
  • 把账号和密码放在服务端环境变量。
  • 先用低并发验证目标站可达性。

稳定性配置

代理接入不是只填一个 proxy 参数。真实任务还需要超时、重试、状态码判断、异常分类和日志记录,才能区分代理失败、目标站限流和解析错误。

  • 设置连接和读取超时。
  • 对 429、403、超时分别记录。
  • 使用指数退避避免连续重试。

地区和会话参数

如果任务需要指定国家、城市或保持会话,应按 IPHTML 控制台和 API 文档配置认证参数。连续流程不要频繁切换 IP,列表采集可以使用轮换策略。

  • 地区参数用于本地化页面检查。
  • 会话保持适合登录前后的连续流程。
  • 轮换策略适合批量公开页面采集。

你可能还想了解

Python requests 如何使用代理?

通常通过 proxies 参数配置 HTTP 和 HTTPS 代理地址,并为请求设置 timeout。生产环境应从环境变量读取认证信息。

代理密码可以写在脚本里吗?

不建议。密码、token 和账号信息不要提交到公开仓库,应使用环境变量、密钥管理或服务器配置。

Python 爬虫使用代理后仍然失败怎么办?

应检查状态码、超时、目标地区、并发、请求头、重试策略和目标网站规则,逐项定位失败原因。