Project Name | Stars | Downloads | Repos Using This | Packages Using This | Most Recent Commit | Total Releases | Latest Release | Open Issues | License | Language |
---|---|---|---|---|---|---|---|---|---|---|
Spider Flow | 8,075 | 6 months ago | 20 | mit | Java | |||||
新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。 | ||||||||||
Ferret | 5,509 | 5 | 19 days ago | 56 | March 28, 2023 | 52 | apache-2.0 | Go | ||
Declarative web scraping | ||||||||||
Ecommercecrawlers | 3,724 | 10 months ago | 43 | mit | Python | |||||
实战🐍多种网站、电商数据爬虫🕷。包含🕸:淘宝商品、微信公众号、大众点评、企查查、招聘网站、闲鱼、阿里任务、博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评、携程、小米应用商店、安居客、途家民宿❤️❤️❤️。微信爬虫展示项目: | ||||||||||
Weibo Crawler | 2,727 | 9 days ago | 266 | Python | ||||||
新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频 | ||||||||||
Python3 Spider | 2,582 | a month ago | 6 | Python | ||||||
Python爬虫实战 - 模拟登陆各大网站 包含但不限于:滑块验证、拼多多、美团、百度、bilibili、大众点评、淘宝,如果喜欢请start ❤️ | ||||||||||
Weibo_terminater | 2,265 | 4 years ago | 9 | Python | ||||||
Final Weibo Crawler Scrap Anything From Weibo, comments, weibo contents, followers, anything. The Terminator | ||||||||||
Python Crawler | 1,576 | 2 years ago | 2 | HTML | ||||||
从头开始 系统化的 学习如何写Python爬虫。 Python版本 3.6 | ||||||||||
Xsscrapy | 1,398 | 2 years ago | 27 | Python | ||||||
XSS spider - 66/66 wavsep XSS detected | ||||||||||
Comicbook | 420 | 3 years ago | Python | |||||||
本项目不再维护,详情可加群了解 https://t.me/onecomicbook | ||||||||||
Zhihu Login | 350 | a year ago | mit | Python | ||||||
知乎模拟登录,支持提取验证码和保存 Cookies |
多种电商商品数据 🐍 爬虫,整理收集爬虫练习。每个项目都是成员写的。通过实战项目练习解决一般爬虫中遇到的问题。
通过每个项目的 readme,了解爬取过程分析。
对于精通爬虫的 pyer,这将是一个很好的例子减少重复收集轮子的过程。项目经常更新维护,确保即下即用,减少爬取的时间。
对于小白通过 ✍️ 实战项目,了解爬虫的从无到有。爬虫知识构建可以移步项目 wiki。爬虫可能是一件非常复杂、技术门槛很高的事情,但掌握正确的方法,在短时间内做到能够爬取主流网站的数据,其实非常容易实现,但建议从一开始就要有一个具体的目标。
在目标的驱动下,你的学习才会更加精准和高效。那些所有你认为必须的前置知识,都是可以在完成目标的过程中学到的 😁😁😁。
需要进阶学习爬虫技巧,推荐王平大师傅的猿人学·爬虫逆向高阶课,报AJay13推荐,可享受内部优惠价格。
欢迎大家对本项目的不足加以指正,⭕️Issues 或者 🔔Pr
在之前上传的大文件贯穿了 3/4 的 commits,发现每次 clone 达到 100M,这与我们最初的想法违背,我们不能很有效的删除每一个文件(太懒),将重新进行初始化仓库的 commit。并在今后不上传爬虫数据,优化仓库结构。
几乎 80%的项目都是帮客户写的爬虫,在添加到仓库之前已经经过客户同意可开源原则。
joseph31 | Joynice | liangweiyang | Hatcat123 | jihu9 | ctycode | sparkyuyuanyuan |
wait for you
本项目使用了哪些有用的技术
链接标识官方文档或推荐例子
爬虫
爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
爬虫作用
网页介绍
Roobots 协议
无规矩不成方圆,Robots 协议就是爬虫中的规矩,它告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取。 通常是一个叫作 robots.txt 的文本文件,放在网站的根目录下。
获取数据
模拟获取数据
re
beautifulsoup
xpath
pyquery
css
小规模数据存储(文本)
大规模数据存储(数据库)
反爬
反反爬
多线程
多进程
异步协程
scrapy 框架
flask Web
django Web
tkinter
echarts
electron
…………