28-55K

阿里云智能-深度学习训练系统研发专家

北京3-5年本科

发表算法相关优秀论文 C/C++ 分布式训练 深度学习 大模型算法 自然语言处理算法 多模态算法 算法工程化经验 参加算法相关竞赛/获奖 Python
立即沟通
关女士
感兴趣

阿里云 ·HR

职位描述

岗位职责:
● 负责PAI平台深度学习框架的研发,包括但不局限于MoE模型大规模训练框架、多模态训练框架、RLHF训练框架等,支持包括通义实验室、阿里集团等不同领域方向;参与包括基模型Pretrain、SFT等多个阶段的训练任务优化;
● 致力于提升不同阶段模型训练负载的极限吞吐,能够针对不同模型负载系统化的分析不同阶段耗时并提供相应的优化手段,优化手段包括但不局限于算子优化、通信优化、分布式策略优化等;
● 负责超大规模训练任务的稳定性的设计,通过各种手段来提升训练任务的有效吞吐,构建更可靠的故障检测系统和自愈系统,提供超大规模训练任务的丝滑体验。
● 参与训练框架对于不同硬件的支持和优化。
任职要求:
● 扎实的工程能力,优良的编程风格,熟悉Python/C++语言和常用设计模式,具备复杂系统的设计开发调试能力;
● 熟悉深度学习的基础理论概念,熟悉Transformer架构,熟悉主流大语言模型、多模态模型等模型特点;
● 熟练PyTorch等领域常用框架,掌握Megatron、DeepSpeed、JAX等不同训练框架的各自特点和细节;
● 优良的沟通表达能力、团队合作意识和经验;具备快速学习的能力,以及深入钻研技术问题的耐心;
● 熟悉计算机体系结构基础知识,有扎实异构计算优化(GPGPU/x86/ARM等)、高性能网络架构通信优化、分布式训练策略优化等方面的经验;

公司介绍

阿里云——为了无法计算的价值

阿里云计算有限公司成立于2009年9月10日,在杭州、北京和硅谷等地设有研发中心和运营机构。阿里云的目标是打造全球领先的云计算服务平台。在未来的互联网中,云计算将会成为一种随时、随地,并根据需要而提供的公共服务。高效的绿色数据中心以及能支持不同互联网应用的大规模分布式存储和计算是营造下一代互联网服务平台最基本的核心技术。

阿里云致力于打造公共、开放的云计算服务平台。阿里云将借助技术的创新,不断提升计算能力与规模效益,将云计算变成真正意义上的公共服务。与此同时,将通过 alibabacloud.com,用互联网的方式使得大家可以便捷的按需获取阿里云的云计算产品与服务。 阿里云希望更多的合作伙伴、中小企业、开发者能够受益于云计算带来的便利和价值,从而促进云生态系统的健康发展。

至2017年,阿里云付费用户数651,000+,用户总数2,300,000+。

关于云栖大会:由阿里巴巴集团主办,已经成为全球云计算TOP级峰会,汇聚DT时代最强大脑,描绘云计算发展趋势和蓝图,展现云计算、大数据、人工智能蓬勃发展的技术生态全景。2017云栖大会城市峰会将继续在深圳、南京、成都、上海、广州、苏州、北京举办。杭州云栖大会将于10月继续在中国杭州云栖小镇举办,打造年度最精彩的云计算盛会。

工商信息

阿里云计算有限公司

法定代表人:郑俊芳 注册资本:101010.10101万人民币
成立日期:2008-04-08 经营状态:存续

工作地址

北京朝阳区阿里巴巴·北京朝阳科技园C区
阿里云

阿里云计算有限公司

互联网不需要融资 10000人以上

更新于:2025-01-27
下载APP确定

已安装?在APP中 直接打开