Awesome Open Source
Awesome Open Source

Recruit

2017-07-07 更新

似乎我的IP已经被拉勾网彻底封了,代理的IP也无法请求,在此望大家引以为戒,小心使用爬虫,真的会给对方带来负担。

一. 功能

  1. 根据提示输入关键字搜索相关职位信息,并将信息部分呈现出来。
  2. 程序根据搜索得到的信息绘制成图像,供用户观看或使用
  3. 提供每个职位招聘信息的URL,用户可点击URL进入网页,查看招聘的详细信息。
  4. 程序根据得到的数据自动的进行一定的分析,并展现给用户(难度较大,目前不知道如何做)
  5. 导出EXCEL文件(如果不满意程序中的图形,可直接使用EXCEL强大的绘图功能绘制漂亮的图形)

Ps: 程序应该是一个图形用户界面,使用pyQt5

二. 特性

  1. 使用多线程爬虫(可能有问题,正在想办法解决),多态的方式组织爬虫类,可以按需更改爬虫网站,只需重写少数几个方法即可
  2. 使用python数据分析库实现简单的数据分析
  3. 文件存储成CSV格式或者数据库,用户可自行提取(文件在/resource 里)并导入到文档处理软件(例如excel)
  4. 图片也采用直接存储到文件里的方式,同样,用户可以使用
  5. 使用代理IP的方式爬取拉勾网的数据(拉勾网的反爬比较厉害,会暂时封掉频繁操作的IP)

Ps: 拉勾网的反爬虫机制是有原因的,这也是在提醒我们这些有事没事就写爬虫拿他们做测试的“玩家”不要太“过分了”。所以各位在爬取拉勾网的时候不要太‘快’了(服务器压力大,他们的程序员也不好过哈,大家不用互相为难最好)

三. 使用的技术(或框架)

语言:

  • python

类库:

  • requests (用于爬虫)
  • BeautifulSoup (用于提取数据)
  • threading (用于支持多线程爬虫)
  • matplotlib (用于绘制并生成图像)
  • pandas (用于数据处理,使matplotlib方便绘图)
  • sqlite3 (速度较快的的小型数据库)
  • xlwt (支持导出EXCEL文件)

框架:

  • pyQt5 (著名的C++框架Qt 的python版本吧,用于GUI部分)

四. 操作演示

上图是初始界面,在位置输入框输入要搜索的位置,如果不输入,则默认是北京,关键值就是需要搜索的职位关键字,比如C++,爬取界面数目大小可以自定义,最大100,最小1。左下方的两张分析图用于分析刚刚搜索到的数据,右侧是职位名称,双击可打开链接,通过浏览器进入详细介绍的界面

从图中可以看到一个进度条,显示爬取的进度,用户切勿点击多次

这就是双击职位名称后跳转到的界面,现版本使用的是智联招聘和拉勾,但是分开搜索,因为存在相同职位在不同网站发布招聘信息的情况。

五. 未来展望

这是第一个版本,目前功能较少,界面比较难看(哎。。。UI麻烦啊),但是核心部分已经基本完成(爬虫,基本界面,生成数据分析图),且项目结构应该问题不大,未来应该只需要往上增加功能就行了。

连续写了4天,快40个小时,肝不行了,先暂停吧,以后再写。

Ps : 寻求同学共同完成,有兴趣的同学随时联系,在此谢过。


Get A Weekly Email With Trending Projects For These Topics
No Spam. Unsubscribe easily at any time.
python (51,035
analysis (212
pyqt5 (78
crawl (20

Find Open Source By Browsing 7,000 Topics Across 59 Categories