GitHub上有哪些优秀的爬虫项目

0

1

写在前面的话

今天JAP君给大家安利一波福利!GitHub上优秀的爬虫项目大集合!!!大家赶快收藏一波!

2

福利开始喽!

1. Anti-Anti-Spider

地址:https://github.com/luyishisi/Anti-Anti-Spider

很全面的反爬虫项目大全:

1:验证码 {亚马逊验证码破解,knn,svm,Tensorflow自动生成验证码并大量训练从而破解–98%成功率}

2:代理 {抓取西刺代理,以及一个高可用的国外代理网站,并存入数据库,从而随时调用}

3:代码模板 {多线程优化,百度地图可视化采集,聚焦爬虫,selenium模拟登陆,域名爬虫}

5:爬虫项目源码 {优酷网,腾讯视频,推特,拉钩网,百度地图,妹子图网,百家号,百度百科,csdn,新浪微博, 淘宝采集}

6:ip更换技术 {代理,tor,adsl}

7:请求伪造 {phantomjs,requests,selenium}

8:phantomjs {伪造请求头,获取页面截图,获取页面源码,设置超时}

9:selenium {伪造请求头,支付宝模拟登陆}

10:UrlSpider {项目中常用的采集代码样本,经过多线程数据库操作优化,最高速度6kw/d}

2. awesome-spider

网址:https://github.com/facert/awesome-spide

这是一个id为facert的知乎工程师开源的项目,目前见过最详细最多的爬虫案例大全了,真的值得大家去学习一波!

Brigtdata,旧名Luminati 目前是海外最牛的全球真人住宅IP代理。除了有点儿小贵,没毛病,成功率99%。 现在在搞优惠活动,需要高质量的稳定代理的可以考虑一下,使用任何套餐的客户都可以送150-250美金. 具体点击链接注册后根据邮件联系中文客服哦。


收集各种爬虫 (默认爬虫语言为 python), 欢迎大家 提 pr 或 issue, 收集脚本见此项目 github-search

warning: 爬虫有时效性,如没法直接运行,请适当更改逻辑。

3. Nyspider

网址:https://github.com/Nyloner/Nyspider

这是ID为Nyloner的一个今日头条的工程师弄的,star1000+,风格与上面的项目大有不同。

可以看出,都是各类网址,和本人的工作有关。

4. awesome-python-login-model

网址:https://github.com/CriseLYJ/awesome-python-login-model

这是ID为CriseLYJ(职业不详)的用户,这个项目用于模拟各种网址登陆,也包含一些简单的爬虫,star6000+。

5. python-spider

网址:https://github.com/Jack-Cherish/python-spider

这是ID为Jack-Cherish的东北大学的一个学生整理的学习python爬虫的资料,star6000+,包含不少的实战项目,非常适合想学习的朋友。

6. Google,Baidu,Bing三大搜素引擎图片爬虫

网址:https://github.com/sczhengyabin/Image-Downloader

这个爬虫足够满足小型项目初始数据集的积累,结果命名也非常整齐规范,最大的优点是稳定。

3

END

github访问加速

  1. 使用镜像网站
  2. 使用代理网站下载
  3. cdn加速
  4. 转入gitee加速

概括:

如果是下载比较大的项目,比如耗时5min往上,大小30mb往上,十分推荐使用代理网站下载,或者转入gitee的方式下载.

如果仅仅是下载比较小的项目,类似代码性质,文档性质的项目,使用cdn加速,提升到100多KB/s也就够用了

一.使用镜像网站

一共有三种加速的方式

  1. 使用github的镜像网站cnpmjs.org

原地址:

github.com/xxx.git

替换为:

github.com.cnpmjs.org/x

示例:

git clone github.com.cnpmjs.org/x

说白了,就在github.com后面加个cnpmjs.org即可

2. 使用github的镜像网站 hub.fastgit.org/ 进行搜索

上面两种的缺点: 每次访问页面都需要手动添加一次cnpmjs.org,如果访问的时候出现了Whoa there!字样,一般刷新10几次页面就可以了.

二. 使用代理网站下载

对于github release中下载的大文件

使用toolwa.com/github/来下载,速度起飞,无需注册,亲测有效


三. cdn加速

通过修改系统hosts文件的办法,绕过国内dns解析,直接访问GitHub的CDN节点,从而达到github访问加速的目的。不需要海外的服务器辅助。

GitHub在国内访问速度慢的问题原因有很多,但最直接和最主要的原因是GitHub的分发加速网络的域名遭到dns污染,下载网站上任何东西的时候会下半天,有时还会失败需要从头再来,多失败了几次又因访问次数过多被做了ip限制,让人恼火

做到以上需要三步

  1. 获取GitHub官方CDN地址
  2. 修改系统Hosts文件
  3. 刷新系统DNS缓存

1. 获取GitHub官方CDN地址

首先,打开

查询以下三个链接的DNS解析地址

  1. github.com
  2. assets-cdn.github.com
  3. github.global.ssl.fastly.net

2. 修改系统Hosts文件

接着,打开系统hosts文件(需管理员权限)。
路径:C:\Windows\System32\drivers\etc

mac或者其他linux系统的话,是/etc下的hosts文件,需要切入到root用户修改

# Copyright (c) 1993-2009 Microsoft Corp. 
# 
# This is a sample HOSTS file used by Microsoft TCP/IP for Windows. 
# 
# This file contains the mappings of IP addresses to host names. Each 
# entry should be kept on an individual line. The IP address should 
# be placed in the first column followed by the corresponding host name. 
# The IP address and the host name should be separated by at least one 
# space. 
# 
# Additionally, comments (such as these) may be inserted on individual 
# lines or following the machine name denoted by a '#' symbol. 
# 
# For example: 
# 
#      102.54.94.97     rhino.acme.com          # source server 
#       38.25.63.10     x.acme.com              # x client host 




# localhost name resolution is handled within DNS itself. 
#   127.0.0.1       localhost 
#   ::1             localhost 


140.82.113.3    github.com
185.199.108.153 assets-cdn.github.com
199.232.69.194  github.global.ssl.fastly.net

并在末尾添加三行记录并保存。(需管理员权限,注意IP地址与域名间需留有空格)

感谢评论区

的分享, 对于ubuntu系统,修改完hosts文件执行如下命令: sudo /etc/init.d/network-manager restart

3. 刷新系统DNS缓存

最后,Windows+X 打开系统命令行(管理员身份)或powershell

运行 ipconfig /flushdns 手动刷新系统DNS缓存。

mac系统修改完hosts文件,保存并退出就可以了.不要要多一步刷新操作.
centos系统执行/etc/init.d/network restart命令 使得hosts生效


四. 转入gitee加速

最终下载速度对比

github 42KB/s (加了github访问cdn)

github下载速度

gitee 1034KB/s 大约25倍与github的速度

gitee下载速度

例:我们要下载github.com/DoubleLabyri

先访问要下载的仓库的地址(在chrome中打

点击fork (fork会把这个仓库复制一份到你的github账号的名下,所以你需要有个githu账号,没有的注册一下,有了的记得登陆)

点完之后

注意到这个仓库已经到了我们的名下

好了 github这边的事我们暂时做完了

现在登陆gitee (没有账号的注册一个账号)

然后点击

gitee

接着会出现一个授权

然后可能会出现第一输入密码的地方

这儿输入mac的登陆密码 并点击始终允许

然后出现

输入 github账号的密码 之后出现

选择我们刚刚的项目 navicat-keygen -> 导入

gitee正在帮我们从github下载(gitee从github下载的速度一定是很快的,毕竟大网站)

一般来说30s内就处理好自动刷新了

然后我们复制这个网址

然后我们下载这个地址

可以看到速度

 

9种方法让你访问Github提速到2MB/s!

经常有不少粉丝问我,github 访问超级慢,有没有办法加快,我当初推荐的第 9 种方法。这种方法太过麻烦,直到最近我在网上看到有牛人总结的 GitHub 的 9 种加速方式,感觉还不错,小伙伴们可以试试!

1. GitHub 镜像访问

这里提供两个最常用的镜像地址:

  • https://github.com.cnpmjs.org
  • https://hub.fastgit.org

也就是说上面的镜像就是一个克隆版的 GitHub,你可以访问上面的镜像网站,网站的内容跟 GitHub 是完整同步的镜像,然后在这个网站里面进行下载克隆等操作。

2. GitHub 文件加速

利用 Cloudflare Workers 对 github release 、archive 以及项目文件进行加速,部署无需服务器且自带CDN.

  • https://gh.api.99988866.xyz
  • https://g.ioiox.com

以上网站为演示站点,如无法打开可以查看开源项目:gh-proxy-GitHub(https://hunsh.net/archives/23/) 文件加速自行部署。

3. Github 加速下载

只需要复制当前 GitHub 地址粘贴到输入框中就可以代理加速下载!

地址:http://toolwa.com/github/

4. 加速你的 Github

https://github.zhlh6.cn

输入 Github 仓库地址,使用生成的地址进行 git ssh 等操作

5. 谷歌浏览器 GitHub 加速插件(推荐)

如果小伙伴在线安装不便,可以加我微信号:codedq 我免费发给大家!

6. GitHub raw 加速

GitHub raw 域名并非 github.com 而是 raw.githubusercontent.com,上方的 GitHub 加速如果不能加速这个域名,那么可以使用 Static CDN 提供的反代服务。

将 raw.githubusercontent.com 替换为 raw.staticdn.net 即可加速。

7. GitHub + Jsdelivr

jsdelivr 唯一美中不足的就是它不能获取 exe 文件以及 Release 处附加的 exe 和 dmg 文件。

也就是说如果 exe 文件是附加在 Release 处但是没有在 code 里面的话是无法获取的。所以只能当作静态文件 cdn 用途,而不能作为 Release 加速下载的用途。

8. 通过 Gitee 中转 fork 仓库下载

网上有很多相关的教程,这里简要的说明下操作。

访问 gitee 网站:https://gitee.com/ 并登录,在顶部选择“从 GitHub/GitLab 导入仓库” 如下:

在导入页面中粘贴你的Github仓库地址,点击导入即可:

等待导入操作完成,然后在导入的仓库中下载浏览对应的该 GitHub 仓库代码,你也可以点击仓库顶部的“刷新”按钮进行 Github 代码仓库的同步。

9. 通过修改 HOSTS 文件进行加速

手动把cdn和ip地址绑定。

第一步:获取 github 的 global.ssl.fastly 地址 访问:http://github.global.ssl.fastly.net.ipaddress.com/#ipinfo 获取cdn和ip域名:

得到:199.232.69.194 https://github.global.ssl.fastly.net

第二步:获取github.com地址

访问:https://github.com.ipaddress.com/#ipinfo 获取cdn和ip:

得到:140.82.114.4 http://github.com

第三步:修改 host 文件映射上面查找到的 IP

windows系统:

1、修改C:\Windows\System32\drivers\etc\hosts文件的权限,指定可写入:右击->hosts->属性->安全->编辑->点击Users->在Users的权限“写入”后面打勾。如下:

然后点击确定。

2、右击->hosts->打开方式->选定记事本(或者你喜欢的编辑器)->在末尾处添加以下内容:

  1. 199.232.69.194 github.global.ssl.fastly.net
  2. 140.82.114.4 github.com

来源:http://39sd.cn/D8F48