25-35K·13薪

高级爬虫工程师

北京5-10年本科

爬虫 Python 数据抓取/挖掘
立即沟通
刘女士
感兴趣

图森未来 ·HRD

职位描述

岗位职责:
1. 负责搭建爬虫系统平台的架构设计与开发,如抓取调度、多样化抓取、页面解析和结构化抽取、海量数据存储和读取等,调研并进行技术选型,优化框架及流程;
2. 研究并制定爬虫策略和防屏蔽规则,提升抓取效率和质量;
3. 负责公司爬虫核心技术开发,维护和优化程序,监控警报反馈,深度挖掘数据,满足公司对多源数据海量、实时、高质量采集要求;
4. 利用主流大数据相关技术,对抓取后的数据进行清晰、存储等,持续优化;
5. 把握爬虫核心技术研究方向,研究优化算法,提升数据抓取解析开发运营效率,解决规模增长带来的技术和业务问题。
岗位要求:
1. 本科及以上学历,计算机相关专业,5年以上网页及APP数据采集经验;
2. 熟悉爬虫原理,分布式架构,精通一种开源爬虫框架及原理,熟悉主流爬虫技术,如协议破解、脱壳、模拟点击、AST解混淆等,能够解决封账号、封IP、验证码等问题;
3. 精通Go/Python任意语言,熟悉MySQL,Redis等;
4. 熟悉Selenium/Puppeteer/PhantomJS至少一种工具的使用。
5. 熟悉xpath/正则表达式/代理池等爬虫相关技术;
6. 具有良好的沟通和团队协作能力,具备良好的数据基础,工作条理清晰,善于学习;
7. 有管理经验,带过团队优先。

公司介绍

图森未来成立于2015年,是一家全球化的人工智能科技公司。早期致力于开发全球先进前沿的L4级重卡自动驾驶技术,已在自动驾驶领域开展大模型技术和生成式AI应用的研发与实践。图森未来与上海三体动漫有限公司携手合作,共同打造基于雨果奖获奖科幻小说《三体》系列的首部动画长篇电影及视频游戏,新业务将充分利用图森在自动驾驶领域的技术积累,专注媒体和游戏领域的生成式AI应用。

工商信息

北京图森智途科技有限公司

法定代表人:郝佳男 注册资本:40000万美元
成立日期:2017-03-02 经营状态:存续

工作地址

北京朝阳区北京图森未来科技有限公司亮马桥56-1
图森未来

北京图森智途科技有限公司

互联网D轮及以上 100-499人

更新于:2024-10-06
下载APP确定

已安装?在APP中 直接打开