阅读 2.5K0
写在前面的话
今天JAP君给大家安利一波福利!GitHub上优秀的爬虫项目大集合!!!大家赶快收藏一波!
2
福利开始喽!
1. Anti-Anti-Spider
地址:https://github.com/luyishisi/Anti-Anti-Spider
很全面的反爬虫项目大全:
1:验证码 {亚马逊验证码破解,knn,svm,Tensorflow自动生成验证码并大量训练从而破解–98%成功率}
2:代理 {抓取西刺代理,以及一个高可用的国外代理网站,并存入数据库,从而随时调用}
3:代码模板 {多线程优化,百度地图可视化采集,聚焦爬虫,selenium模拟登陆,域名爬虫}
5:爬虫项目源码 {优酷网,腾讯视频,推特,拉钩网,百度地图,妹子图网,百家号,百度百科,csdn,新浪微博, 淘宝采集}
6:ip更换技术 {代理,tor,adsl}
7:请求伪造 {phantomjs,requests,selenium}
8:phantomjs {伪造请求头,获取页面截图,获取页面源码,设置超时}
9:selenium {伪造请求头,支付宝模拟登陆}
10:UrlSpider {项目中常用的采集代码样本,经过多线程数据库操作优化,最高速度6kw/d}
2. awesome-spider
网址:https://github.com/facert/awesome-spide
这是一个id为facert的知乎工程师开源的项目,目前见过最详细最多的爬虫案例大全了,真的值得大家去学习一波!
Brigtdata,旧名Luminati 目前是海外最牛的全球真人住宅IP代理。除了有点儿小贵,没毛病,成功率99%。 现在在搞优惠活动,需要高质量的稳定代理的可以考虑一下,使用任何套餐的客户都可以送150-250美金. 具体点击链接注册后根据邮件联系中文客服哦。
收集各种爬虫 (默认爬虫语言为 python), 欢迎大家 提 pr 或 issue, 收集脚本见此项目 github-search
warning: 爬虫有时效性,如没法直接运行,请适当更改逻辑。
3. Nyspider
网址:https://github.com/Nyloner/Nyspider
这是ID为Nyloner的一个今日头条的工程师弄的,star1000+,风格与上面的项目大有不同。
可以看出,都是各类网址,和本人的工作有关。
4. awesome-python-login-model
网址:https://github.com/CriseLYJ/awesome-python-login-model
这是ID为CriseLYJ(职业不详)的用户,这个项目用于模拟各种网址登陆,也包含一些简单的爬虫,star6000+。
5. python-spider
网址:https://github.com/Jack-Cherish/python-spider
这是ID为Jack-Cherish的东北大学的一个学生整理的学习python爬虫的资料,star6000+,包含不少的实战项目,非常适合想学习的朋友。
6. Google,Baidu,Bing三大搜素引擎图片爬虫
网址:https://github.com/sczhengyabin/Image-Downloader
这个爬虫足够满足小型项目初始数据集的积累,结果命名也非常整齐规范,最大的优点是稳定。
3
END