用Python爬取前程无忧网大数据岗位信息并分析!找到最合适你的
近期秋招进入高峰期,28号学校有一个秋招大型招聘会,本来想在网上爬一下自己专业的招聘岗位,结果检索结果寥寥无几(摊手),于是我就无奈的爬取并分析了一波我准备转行的大数据行业的就业行情。 爬虫的基本思路
前程无忧爬虫具体代码 直接贴代码容易破坏我的排版,具体代码见:https://github.com/cugwhzenith/SpiderOf51job.git,其中SpiderOf51job.py就是爬虫代码,关键点的操作见注释。其他的代码是对爬虫代码的处理。 爬虫结果 爬虫结果我是以csv的格式存储的,看起来不太直观,所以我打算用wordcloud和直方图来可视化爬虫的结果。 ![]() 爬虫结果处理 一般来说,应聘者对一个工作的地点、工作名称、薪资和需要的技术最为关心,刚好上述爬虫的结果包含了这四个字段。 1、薪资结果的处理。在爬虫结果中,薪资在第二列,一般是诸如“1-2万/月”、“20万/年”和“500/天”的结果,先判断每个结果的最后一个字符是“年”、“月”和“天”的哪一个,确定处理的逻辑之后,再用re.sub函数将除了数字之外的字符替换为空格,最后对结果求均值就到了了每个结果的均值。具体处理见wordcloudPlotSalary.py ![]() 2、需要的技术的处理。考虑到大数据要使用的技术绝大多数由外国人开发,如实我把大数据要使用的技术这一字段的中文全部替换为空格,然后用jieba提出掉一些无意义的助词,就得到了大数据要使用的技术的词云图。具体代码见wordcloudPlotJobinfo.py ![]() 3、工作地点和职位名称的处理和上述2类似参见wordcloudPlotPlace.py和wordcloudPlotName.py,此处不再赘余,直接放结果。 工作地点词云: ![]() 职位名称词云: ![]() 总结
【编辑推荐】
点赞 0 (编辑:好传媒网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |