Heritrix3 Alternatives

Name: internetarchive/heritrix3
Brand: internetarchive/heritrix3
SKU: project/internetarchive/heritrix3
Rating: 4.94 (2579 reviews)

Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.

Categories > Data Processing > Archive

Suggest Alternative

Stars

2,579

Alternatives

License

other

Open Issues

Most Recent Commit

over 2 years ago

Programming Language

Java

Dependent Repos

Dependent Packages

Total Releases

Latest Release

July 27, 2022

Categories

Programming Languages > Java

Data Storage > Archive

Site

Repo

Alternatives To internetarchive/heritrix3

Project Name	Stars	Repos Using This	Packages Using This	Most Recent Commit	Total Releases	Latest Release	Open Issues	License	Language
internetarchive/heritrix3	2,579	0	2	over 2 years ago	9	July 27, 2022	48	other	Java
Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.
iipc/awesome-web-archiving	1,669	0	0	over 2 years ago	0		3	cc0-1.0
An Awesome List for getting started with web archiving
ArchiveTeam/grab-site	1,121	0	0	over 2 years ago	0		92	other	Python
The archivist's web crawler: WARC output, dashboard for all crawls, dynamic ignore patterns
simon987/awesome-datahoarding	892	0	0	almost 3 years ago	0		4
List of data-hoarding related tools
internetarchive/brozzler	613	2	0	over 2 years ago	23	January 02, 2020	40	apache-2.0	Python
brozzler - distributed browser-based web crawler
ArchiveTeam/ArchiveBot	328	0	0	over 2 years ago	0		169	mit	Python
ArchiveBot, an IRC bot for archiving websites
sparrow629/Tumblr_Crawler	258	0	0	almost 8 years ago	0		2	gpl-3.0	Python
This is a Multi-thread crawler for Tumblr.
icy/google-group-crawler	213	0	0	over 4 years ago	0		6		Shell
[Deprecated] Get (almost) original messages from google group archives. Your data is yours.
commoncrawl/cc-crawl-statistics	97	0	0	over 2 years ago	0		0	apache-2.0	Python
Statistics of Common Crawl monthly archives mined from URL index files
ArchiveTeam/wget-lua	72	0	0	over 2 years ago	0		10	gpl-3.0	C
Wget-AT is a modern Wget with Lua hooks, Zstandard (+dictionary) WARC compression and URL-agnostic deduplication.

Alternatives To internetarchive/heritrix3

Select To Compare

internetarchive/heritrix3 ⭐ 2,579

Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.

dependent packages 2 total releases 9 most recent commit over 2 years ago

iipc/awesome-web-archiving ⭐ 1,669

An Awesome List for getting started with web archiving

dependent packages 0 total releases 0 most recent commit over 2 years ago

ArchiveTeam/grab-site ⭐ 1,121

The archivist's web crawler: WARC output, dashboard for all crawls, dynamic ignore patterns

dependent packages 0 total releases 0 most recent commit over 2 years ago

simon987/awesome-datahoarding ⭐ 892

List of data-hoarding related tools

dependent packages 0 total releases 0 most recent commit almost 3 years ago

internetarchive/brozzler ⭐ 613

brozzler - distributed browser-based web crawler

dependent packages 0 total releases 23 most recent commit over 2 years ago downloads badge

ArchiveTeam/ArchiveBot ⭐ 328

ArchiveBot, an IRC bot for archiving websites

dependent packages 0 total releases 0 most recent commit over 2 years ago

sparrow629/Tumblr_Crawler ⭐ 258

This is a Multi-thread crawler for Tumblr.

dependent packages 0 total releases 0 most recent commit almost 8 years ago

icy/google-group-crawler ⭐ 213

[Deprecated] Get (almost) original messages from google group archives. Your data is yours.

dependent packages 0 total releases 0 most recent commit over 4 years ago

commoncrawl/cc-crawl-statistics ⭐ 97

Statistics of Common Crawl monthly archives mined from URL index files

dependent packages 0 total releases 0 most recent commit over 2 years ago

ArchiveTeam/wget-lua ⭐ 72

Wget-AT is a modern Wget with Lua hooks, Zstandard (+dictionary) WARC compression and URL-agnostic deduplication.

dependent packages 0 total releases 0 most recent commit over 2 years ago

Suggest An Alternative To heritrix3

Alternative Project Comparisons

internetarchive/heritrix3 vs Heritrix3

internetarchive/heritrix3 vs Awesome Web Archiving

internetarchive/heritrix3 vs Grab Site

internetarchive/heritrix3 vs Awesome Datahoarding

internetarchive/heritrix3 vs Brozzler

internetarchive/heritrix3 vs Archivebot

internetarchive/heritrix3 vs Tumblr_crawler

internetarchive/heritrix3 vs Google Group Crawler

internetarchive/heritrix3 vs Cc Crawl Statistics

internetarchive/heritrix3 vs Wget Lua

Popular Crawler Projects

scrapy/scrapy⭐ 49,918

Scrapy, a fast high-level web crawling & scraping framework for Python.

NaiboWang/EasySpider⭐ 43,770

A visual no-code/code-free web crawler/spider易采集：一个可视化浏览器自动化测试/数据采集/爬虫软件，可以无代码图形化的设计和执行爬虫任务。别名：ServiceWrapper面向Web应用的智能化服务封装系统。

iawia002/lux⭐ 31,501

👾 Fast and simple video download library and CLI tool written in Go

gocolly/colly⭐ 21,443

Elegant Scraper and Crawler Framework for Golang

jhao104/proxy_pool⭐ 19,442

Python ProxyPool for web spider

Popular Archive Projects

awesome-selfhosted/awesome-selfhosted⭐ 166,327

A list of Free Software network services and web applications which can be hosted on your own servers

vim/vim⭐ 34,054

The official Vim repository

ArchiveBox/ArchiveBox⭐ 18,734

🗃 Open source self-hosted web archiving. Takes URLs/browser history/bookmarks/Pocket/Pinboard/etc., saves HTML, JS, PDFs, media, and more...

gildas-lormeau/SingleFile⭐ 12,865

Web Extension for saving a faithful copy of a complete web page in a single HTML file

claudiodangelis/qrcp⭐ 9,614

:zap: Transfer files over wifi from your computer to your mobile device by scanning a QR code without leaving the terminal.

Popular Data Processing Categories

Jupyter Notebook

Dataset

Sql

Validation

Pipeline

Translation

Data Science

Classification

Transaction

Scraper