最近,公司网站上发了关于各种技术培训的帖子(包括 IT 架构、 Hadoop 数据分析...),每个帖子对应一种技术培训,如果想参加某类技术培训,公司员工只需在对应帖子下留言“报名”即可(当然跟帖是要求实名制的,所以自然会留下小马甲)。由于帖子众多,报名人数也很多,因此,人工统计汇总会变得很繁杂,而且会存在遗漏的风险。
-----重点来了-----
那么,我在想能不能通过爬虫的形式,每天爬取帖子中留言“报名”的员工姓名及其对应的培训技术类别,然后入库,以便于查询和汇总
-----重点来了-----
那么,我在想能不能通过爬虫的形式,每天爬取帖子中留言“报名”的员工姓名及其对应的培训技术类别,然后入库,以便于查询和汇总
