Awesome Open Source
Awesome Open Source

知乎社交网络分析

简介

项目包含基于zhihu-python的多线程爬虫,数据I/O(SQLite,csv),以及基于用户关注网络的分析(使用networkx作为图算法库)。

注:本项目所使用的zhihu-python已与原版存在差异

详细内容

文件说明

  • crawler文件夹:爬虫部分,以广度优先策略爬取知乎数据,并以csv格式储存(这一部分代码目前版本有误,爬到的数据文件与zhihu_database.py无法衔接,此外存在topic爬漏的问题,待修复)
  • zhihu_schema.sql:SQLite数据库的schema
  • zhihu_database.py:将csv中的数据导入至数据库中
  • zhihu_analysis.py:从数据库中提取数据并进行分析

爬虫部分已知问题及(可能)原因

爬虫部分已年久失修,由于这个project的重点不在于爬虫,所以不打算更新了,还请谨慎入坑:)

  • zhihu-python InsecureRequestWarning | urlib
  • topic.py 会爬漏话题标签 | 原因未知

未来计划

之后考虑利用已有数据集再做一些分析,比如用户聚类、用户-话题-问题网络之类。



Alternative Project Comparisons
Related Awesome Lists
Top Programming Languages

Get A Weekly Email With Trending Projects For These Topics
No Spam. Unsubscribe easily at any time.
Python (861,969
Network (37,508
Csv (15,146
Social (11,435
English (6,797
Data Mining (2,128
Network Analysis (1,111
Zhihu (527
Social Network Analysis (227