30-60K·15薪

大模型训练异构系统工程师

北京3-5年本科

CUDA C/C++ 分布式训练 深度学习 算法工程化经验 pytorch 异构 算子开发 模型加速/性能优化 Python
立即沟通
赵女士
感兴趣

美团服务体验中心 ·招聘经理

职位描述

岗位职责:
1. 围绕大模型异构训练集群,尤其是非NV GPU大规模异构硬件集群,面向大模型预训练、Finetune等场景进行新模型使能,系统分析/优化,业务支撑等工作,包括分布式优化框架,AI框架,网络集合通信,算子等方面内容
2. 参与美团机器学习平台建设,构建非NV GPU大规模训练场景软件栈和算法迭代Pipeline
3. 负责NLP类大模型的训练端到端流程,包括训练使能,系统调优,关键指标分析和统计,问题定位等工作,支持常见生成式NLP类大模型,包括但不限于LlaMa 1/2, GPT, BLOOM等
4. 负责视觉类,多模态大模型的训练端到端流程,包括模型使能,系统调优,关键指标分析和统计,问题定位等工作,支持常见的视觉类,多模态大模型,包括但不限于ViT,Swin Transformer,Stable Diffusion, MoE等
5. 负责大模型分布式优化框架的系统分析,性能调优,特性开发,问题定位等工作,支持常见的大模型分布式优化框架,包括但不限于Megatron, DeepSpeed, FSDP等
6. 负责PyTorch在非NV GPU场景下系统分析,性能调优,问题定位等工作
7. 负责常见的大模型训练场景下高性能Kernel算子的关键指标分析和统计,融合开发,性能优化等工作
8. 负责大模型不同规模卡数训练场景下集合通信/NCCL关键指标分析和统计,系统定位/调优等工作
9. 负责与NV GPU相同场景进行Benchmark评测,对比验证,性能分析等工作
岗位基本要求:
1. 有扎实的计算机理论基础,熟练掌握C++或Python语言
2. 具备良好的问题分析和一定的解决能力,具有较好的学习能力和好奇心驱动
3. 熟悉NLP类模型训练场景,有GPT,LlaMa 1/2等相关知识和经验者优先
4. 熟悉视觉类,多模态大模型训练场景,有ViT, Swin Transformer, Stable Diffusion, MoE相关知识和经验者优先
5. 熟悉Megatron, Deepspeed, Colossal AI, FSDP等分布式框架,有相关知识、使用和调优经验者优先
6. 熟悉PyTorch分布式场景,有二次开发经验,系统调优知识和经验者优先
7. 熟悉集合通信原理和基本知识,对NCCL有大规模使用,调优经验者优先
8. 熟悉算子开发流程,有CUDA编程知识和相关经验者优先
9. 熟悉NV GPU架构,对其他类型AI芯片有使用经验者优先
岗位亮点:
业界前列的NV GPU和非GPU算力规模,协同算法,AI框架,网络,计算,芯片等多个团队共同建设大模型软、硬件技术底座,接触最前沿的AI Infra基础设施,结合最前沿的AI平台软件栈,支撑最前沿的大模型不同领域的算法探索,从算法到算子,从芯片架构到互联集群,从POC到大规模场景,充满机遇与挑战,兼顾学习和成长,在垂直,水平等多个领域和维度,全面感受大模型带来的技术变革!

公司介绍

美团的使命是“用科技和服务帮助餐饮企业持续成功”。作为中国领先的生活服务电子商务平台,公司拥有美团、大众点评、美团外卖等消费者熟知的App,服务涵盖餐饮、外卖、打车、共享单车、酒店旅游、电影、休闲娱乐等200多个品类,业务覆盖全国2800个县区市。截至2019年9月30日止十二个月,美团年度交易用户总数达4.4亿,平台活跃商户总数达590万,用户平均交易笔数为26.5笔。

2018年9月20日,美团点评(股票代码:3690.HK)正式在港交所挂牌上市。 截至2020年3月2日,市值超过700亿美元,位列中国上市互联网公司第3名,全球第8名。

当前,美团战略聚焦 Food +Platform,正以“吃”为核心,建设生活服务业从需求侧到供给侧的多层次科技服务平台。与此同时,美团正着力将自己建设成为一家社会企业,希望通过和党政部门、高校及研究院所、主流媒体、公益组织、生态伙伴等的深入合作,构建智慧城市,共创美好生活。

工商信息

北京三快科技有限公司

法定代表人:钟永健 注册资本:548000万人民币
成立日期:2007-04-10 经营状态:存续

工作地址

北京朝阳区望京恒电大厦7层
美团服务体验中心

北京三快科技有限公司

即时配送已上市 10000人以上

更新于:2025-01-20
下载APP确定

已安装?在APP中 直接打开