100-150K

Infra模型训练开发专家/负责人(京/沪/鲁) 猎头职位

代招公司:某知名计算机服务公司 D轮及以上

北京5-10年硕士

Infra AI基础设施 分布式大规模训练/ 推理提速降本 大模型预训练 微调和 RLHF
立即沟通
郭女士
感兴趣

锐仕方达(北京)...·猎头顾问

职位描述

岗位职责:
1、建设高效、稳定的 AI基础设施,为大规模的分布式大模型训练/推理提速、降本;
2、负责资源稳定高效利用,支持混合云、异构 GPU 资源的混部和最优编排;
3、负责大模型训练加速、模型量化、推理加速、模型服务化等研发。
职位要求:
1、有扎实的工程算法基础,精通数据结构和常用算法,熟练掌握各种编译、调试、性能分析工具;
2、有深厚的编程功底,熟悉 C++/ava/Python 等主流编程语言;
3、熟悉 Pytorch/Tensorfow 等机器学习框架,熟悉 Deepspeed/Megatron/ColossalAI/Ray 等分布式训练/推理引擎者优先;
4、了解并行计算、CUDA、网络通信、系统优化、集群硬件架构等 HPC相关的知识,有 AI分布式系统研发相关经验者优先;
5.有百亿量级大模型的预训练、微调和 RLHF 等领域和方向技术优先。
更新于:2025-02-06
下载APP确定

已安装?在APP中 直接打开