职位描述:
1. 负责多平台、大规模信息爬取和爬取内容的提取、清洗、落地、分析;
2. 参与爬虫系统的架构设计和研发,以及性能优化;
3. 抓取策略算法的更新维护,以及确保数据抽取准确、高效。
职位要求:
1. 理解 HTTP 协议,熟悉 HTML、DOM、XPath、熟悉浏览器内核、渲染机制;
2. 熟悉 Linux 开发环境,至少熟悉 Python/Go/Java/Node.js 中的一种编程语言;
3. 有爬虫、信息抽取、文本分类、大数据处理相关经验优先;
4. 有自然语言处理、机器学习经验优先。
薪资范围 15-30K 简历接收邮件:
[email protected]