proxy-pool

command module
v0.0.0-...-fa848ac Latest Latest
Warning

This package is not in the latest version of its module.

Go to latest
Published: Apr 12, 2020 License: Apache-2.0 Imports: 7 Imported by: 0

README

proxy-pool

虽然网上各类网站提供了一堆的免费代理地址,但是其可用性比较差,更新不及时,过多不可用的地址,以及延时较大等问题都干扰实际使用的效果。对于代理地址,期望是越多越好,但是对于代理质量有着更高的要求,宁缺勿滥,因此proxy-pool不再将抓取到的代理地址保存至数据库,而调整为定期从免费代理网站下抓取代理地址,使用该地址去测试其可用性(默认配置为访问baidu),测试可用则添加至可用代理地址列表中,如此循环一直抓取新的地址,一直校验。对于已校验可用的代理地址,也定期重新校验是否可用,默认校验间隔为30分钟。

注意:网页部分有增加百度统计,部署时可先删除。

常用配置

对于有特别需求,可以调整默认的配置,主要的配置如下:

抓取代理网站列表配置(暂时只实现了三个网站的抓取):

crawler:
- xici
- ip66
- kuai

由于各网站对访问IP频率限制的不同,可根据实际使用中调整各网站的抓取间隔,如设置xici的抓取延时为10分钟(如果不配置则为默认值2分钟):

xici:
  interval: 10m

默认的检测方式是通过代理地址去访问baidu,可根据应用场景调整相应的配置:

detect:
  # 检测时间(定时对现可用的代理地址重新检测)
  interval: 30m
  # 检测地址
  url: https://www.baidu.com/
  # 检测超时
  timeout: 3s
  # 最大次数
  maxTimes: 3

程序设计

Documentation

The Go Gopher

There is no documentation for this package.

Directories

Path Synopsis

Jump to

Keyboard shortcuts

? : This menu
/ : Search site
f or F : Jump to
y or Y : Canonical URL