GitHub上有哪些优秀的爬虫项目

0

1

写在前面的话

今天JAP君给大家安利一波福利!GitHub上优秀的爬虫项目大集合!!!大家赶快收藏一波!

2

福利开始喽!

1. Anti-Anti-Spider

地址:https://github.com/luyishisi/Anti-Anti-Spider

很全面的反爬虫项目大全:

1:验证码 {亚马逊验证码破解,knn,svm,Tensorflow自动生成验证码并大量训练从而破解–98%成功率}

2:代理 {抓取西刺代理,以及一个高可用的国外代理网站,并存入数据库,从而随时调用}

3:代码模板 {多线程优化,百度地图可视化采集,聚焦爬虫,selenium模拟登陆,域名爬虫}

5:爬虫项目源码 {优酷网,腾讯视频,推特,拉钩网,百度地图,妹子图网,百家号,百度百科,csdn,新浪微博, 淘宝采集}

6:ip更换技术 {代理,tor,adsl}

7:请求伪造 {phantomjs,requests,selenium}

8:phantomjs {伪造请求头,获取页面截图,获取页面源码,设置超时}

9:selenium {伪造请求头,支付宝模拟登陆}

10:UrlSpider {项目中常用的采集代码样本,经过多线程数据库操作优化,最高速度6kw/d}

2. awesome-spider

网址:https://github.com/facert/awesome-spide

这是一个id为facert的知乎工程师开源的项目,目前见过最详细最多的爬虫案例大全了,真的值得大家去学习一波!

Brigtdata,旧名Luminati 目前是海外最牛的全球真人住宅IP代理。除了有点儿小贵,没毛病,成功率99%。 现在在搞优惠活动,需要高质量的稳定代理的可以考虑一下,使用任何套餐的客户都可以送150-250美金. 具体点击链接注册后根据邮件联系中文客服哦。


收集各种爬虫 (默认爬虫语言为 python), 欢迎大家 提 pr 或 issue, 收集脚本见此项目 github-search

warning: 爬虫有时效性,如没法直接运行,请适当更改逻辑。

3. Nyspider

网址:https://github.com/Nyloner/Nyspider

这是ID为Nyloner的一个今日头条的工程师弄的,star1000+,风格与上面的项目大有不同。

可以看出,都是各类网址,和本人的工作有关。

4. awesome-python-login-model

网址:https://github.com/CriseLYJ/awesome-python-login-model

这是ID为CriseLYJ(职业不详)的用户,这个项目用于模拟各种网址登陆,也包含一些简单的爬虫,star6000+。

5. python-spider

网址:https://github.com/Jack-Cherish/python-spider

这是ID为Jack-Cherish的东北大学的一个学生整理的学习python爬虫的资料,star6000+,包含不少的实战项目,非常适合想学习的朋友。

6. Google,Baidu,Bing三大搜素引擎图片爬虫

网址:https://github.com/sczhengyabin/Image-Downloader

这个爬虫足够满足小型项目初始数据集的积累,结果命名也非常整齐规范,最大的优点是稳定。

3

END