职位描述
岗位职责:
1. 围绕大模型异构训练集群,尤其是非NV GPU大规模异构硬件集群,面向大模型预训练、Finetune等场景进行新模型使能,系统分析/优化,业务支撑等工作,包括分布式优化框架,AI框架,网络集合通信,算子等方面内容
2. 参与美团机器学习平台建设,构建非NV GPU大规模训练场景软件栈和算法迭代Pipeline
3. 负责NLP类大模型的训练端到端流程,包括训练使能,系统调优,关键指标分析和统计,问题定位等工作,支持常见生成式NLP类大模型,包括但不限于LlaMa 1/2, GPT, BLOOM等
4. 负责视觉类,多模态大模型的训练端到端流程,包括模型使能,系统调优,关键指标分析和统计,问题定位等工作,支持常见的视觉类,多模态大模型,包括但不限于ViT,Swin Transformer,Stable Diffusion, MoE等
5. 负责大模型分布式优化框架的系统分析,性能调优,特性开发,问题定位等工作,支持常见的大模型分布式优化框架,包括但不限于Megatron, DeepSpeed, FSDP等
6. 负责PyTorch在非NV GPU场景下系统分析,性能调优,问题定位等工作
7. 负责常见的大模型训练场景下高性能Kernel算子的关键指标分析和统计,融合开发,性能优化等工作
8. 负责大模型不同规模卡数训练场景下集合通信/NCCL关键指标分析和统计,系统定位/调优等工作
9. 负责与NV GPU相同场景进行Benchmark评测,对比验证,性能分析等工作
岗位基本要求:
1. 有扎实的计算机理论基础,熟练掌握C++或Python语言
2. 具备良好的问题分析和一定的解决能力,具有较好的学习能力和好奇心驱动
3. 熟悉NLP类模型训练场景,有GPT,LlaMa 1/2等相关知识和经验者优先
4. 熟悉视觉类,多模态大模型训练场景,有ViT, Swin Transformer, Stable Diffusion, MoE相关知识和经验者优先
5. 熟悉Megatron, Deepspeed, Colossal AI, FSDP等分布式框架,有相关知识、使用和调优经验者优先
6. 熟悉PyTorch分布式场景,有二次开发经验,系统调优知识和经验者优先
7. 熟悉集合通信原理和基本知识,对NCCL有大规模使用,调优经验者优先
8. 熟悉算子开发流程,有CUDA编程知识和相关经验者优先
9. 熟悉NV GPU架构,对其他类型AI芯片有使用经验者优先
岗位亮点:
业界前列的NV GPU和非GPU算力规模,协同算法,AI框架,网络,计算,芯片等多个团队共同建设大模型软、硬件技术底座,接触最前沿的AI Infra基础设施,结合最前沿的AI平台软件栈,支撑最前沿的大模型不同领域的算法探索,从算法到算子,从芯片架构到互联集群,从POC到大规模场景,充满机遇与挑战,兼顾学习和成长,在垂直,水平等多个领域和维度,全面感受大模型带来的技术变革!
1. 围绕大模型异构训练集群,尤其是非NV GPU大规模异构硬件集群,面向大模型预训练、Finetune等场景进行新模型使能,系统分析/优化,业务支撑等工作,包括分布式优化框架,AI框架,网络集合通信,算子等方面内容
2. 参与美团机器学习平台建设,构建非NV GPU大规模训练场景软件栈和算法迭代Pipeline
3. 负责NLP类大模型的训练端到端流程,包括训练使能,系统调优,关键指标分析和统计,问题定位等工作,支持常见生成式NLP类大模型,包括但不限于LlaMa 1/2, GPT, BLOOM等
4. 负责视觉类,多模态大模型的训练端到端流程,包括模型使能,系统调优,关键指标分析和统计,问题定位等工作,支持常见的视觉类,多模态大模型,包括但不限于ViT,Swin Transformer,Stable Diffusion, MoE等
5. 负责大模型分布式优化框架的系统分析,性能调优,特性开发,问题定位等工作,支持常见的大模型分布式优化框架,包括但不限于Megatron, DeepSpeed, FSDP等
6. 负责PyTorch在非NV GPU场景下系统分析,性能调优,问题定位等工作
7. 负责常见的大模型训练场景下高性能Kernel算子的关键指标分析和统计,融合开发,性能优化等工作
8. 负责大模型不同规模卡数训练场景下集合通信/NCCL关键指标分析和统计,系统定位/调优等工作
9. 负责与NV GPU相同场景进行Benchmark评测,对比验证,性能分析等工作
岗位基本要求:
1. 有扎实的计算机理论基础,熟练掌握C++或Python语言
2. 具备良好的问题分析和一定的解决能力,具有较好的学习能力和好奇心驱动
3. 熟悉NLP类模型训练场景,有GPT,LlaMa 1/2等相关知识和经验者优先
4. 熟悉视觉类,多模态大模型训练场景,有ViT, Swin Transformer, Stable Diffusion, MoE相关知识和经验者优先
5. 熟悉Megatron, Deepspeed, Colossal AI, FSDP等分布式框架,有相关知识、使用和调优经验者优先
6. 熟悉PyTorch分布式场景,有二次开发经验,系统调优知识和经验者优先
7. 熟悉集合通信原理和基本知识,对NCCL有大规模使用,调优经验者优先
8. 熟悉算子开发流程,有CUDA编程知识和相关经验者优先
9. 熟悉NV GPU架构,对其他类型AI芯片有使用经验者优先
岗位亮点:
业界前列的NV GPU和非GPU算力规模,协同算法,AI框架,网络,计算,芯片等多个团队共同建设大模型软、硬件技术底座,接触最前沿的AI Infra基础设施,结合最前沿的AI平台软件栈,支撑最前沿的大模型不同领域的算法探索,从算法到算子,从芯片架构到互联集群,从POC到大规模场景,充满机遇与挑战,兼顾学习和成长,在垂直,水平等多个领域和维度,全面感受大模型带来的技术变革!
公司介绍
美团的使命是“用科技和服务帮助餐饮企业持续成功”。作为中国领先的生活服务电子商务平台,公司拥有美团、大众点评、美团外卖等消费者熟知的App,服务涵盖餐饮、外卖、打车、共享单车、酒店旅游、电影、休闲娱乐等200多个品类,业务覆盖全国2800个县区市。截至2019年9月30日止十二个月,美团年度交易用户总数达4.4亿,平台活跃商户总数达590万,用户平均交易笔数为26.5笔。
2018年9月20日,美团点评(股票代码:3690.HK)正式在港交所挂牌上市。 截至2020年3月2日,市值超过700亿美元,位列中国上市互联网公司第3名,全球第8名。
当前,美团战略聚焦 Food +Platform,正以“吃”为核心,建设生活服务业从需求侧到供给侧的多层次科技服务平台。与此同时,美团正着力将自己建设成为一家社会企业,希望通过和党政部门、高校及研究院所、主流媒体、公益组织、生态伙伴等的深入合作,构建智慧城市,共创美好生活。
工作地址
北京朝阳区望京恒电大厦7层
美团服务体验中心
关注该公司
北京三快科技有限公司
即时配送已上市 10000人以上
- 热门职位:
- 项目专员招聘 FAE招聘 集成电路IC设计招聘 数字后端工程师招聘 其他后端开发招聘 数据仓库招聘 数据通信工程师招聘 DSP开发招聘 CTO/CIO招聘 数据分析师招聘 鸿蒙开发工程师招聘 项目助理招聘 规控算法招聘 C#招聘 游戏测试招聘 Cocos招聘 数据开发招聘 芯片测试工程师招聘 硬件项目经理招聘 网络工程师招聘 .NET招聘 通信项目专员招聘 售前技术支持招聘 通信项目经理招聘 系统管理员招聘 通信研发工程师招聘 需求分析工程师招聘 功能测试招聘 GIS工程师招聘 Python招聘
- 推荐公司:
- 陆商所 Casa systems 伊格尔 华纳中天 开源证券 珀尔美食文化传播实习生招聘 宿迁行政主管经理招聘 哈尔滨华凯运输有限公司 福建亮家家居有限公司 南昌宇驰广告传媒有限公司 南京珏康英电子商务有限公司 大连泰成土石方工程有限公司 包头私密老师招聘 律渡科技(上海)有限公司 泰和县英籽食品有限公司 西宁公共设备工程师招聘 智慧猫商业管理网络推广招聘 北京鑫源鸿利商贸有限公司 锦绣前程学校教师招聘 石家庄儿童摄影选片师招聘 漳州市昱恒乐器有限公司 深圳市地通天科技有限公司 深圳饭堂采购蔬菜员招聘 无锡市风帆钢管有限公司 上海喜又来装饰设计有限公司 江苏开天膨润土有限公司 市建建筑工程(北京)有限公司 温州市万企物资有限公司 北京美元泽科技有限公司 济南慕凡装饰工程有限公司
更新于:2025-01-20