40-70K·15薪

linux软件研发工程师-北京-00006

北京5-10年本科

C C++ Python Boost Linux开发/部署经验
立即沟通
吴女士
感兴趣

比特智路 ·HR

职位描述

比特智路致力于解决当前和未来人工智能与云计算基础设施所面临的可扩展性和通信效率问题。加入我们,你将和我们一起通过技术创新使能未来的人工智能集群扩展到百万张GPU卡或AI加速器规模,重新定义面向人工智能的高速网络标准和市场。
工作地点:北京/上海/深圳/南京均可
岗位职责:
1、参与下一代AI网卡软件架构、API设计和研发
2、与硬件和应用团队合作,制定各类软硬件编程接口
3、负责RDMA和TCP/IP网络协议栈研发
4、负责AI网卡网络通信库及Runtime的开发
任职要求:
1、精通C/C++、Python编程,
2、精通Linux下高性能网络程序原理及开发
3、熟悉网络协议如RDMA,TCP/IP,以太网
4、熟悉Linux内核及网络协议栈研发
以下为加分项:
5、有网络或者系统方向研究背景和研究能力
6、有网络协议研发经验者优先

公司介绍

愿景:我们致力于将人工智能基础设施从目前数千张GPU的规模扩展到未来一百万张GPU或AI芯片的规模。

使命:解决当前和未来人工智能与云计算基础设施所面临的可扩展性和通信效率问题。

在过去的十年里,人工智能取得了突飞猛进的发展,在计算机视觉、机器翻译、自然语言理解以及基于生成式预训练模型的通用人工智能等领域取得了历史性的突破。这些突破离不开人工智能基础设施在算力和通信网络等方面的支持,同时也推动了人工智能基础设施的进一步发展。例如,机器学习训练系统从单机单卡、单机多卡训练视频模型发展到目前需要数百台GPU服务器、数千张GPU卡联合进行大规模分布式训练,以训练GPT等生成式人工智能模型。训练一个大模型需要数千张GPU卡并花费数月的时间。
在可预见的未来,人工智能模型和训练数据的规模将进一步增大,因此大规模分布式机器学习系统的规模也将进一步增加。然而,当前制约大规模机器学习系统进一步扩展的最重要因素是网络通信能力。目前在分布式机器学习基础设施中广泛应用的网络通信技术RDMA(Remote Direct Memory Access)由于初始设计的限制,无法支持机器学习基础设施从数千张GPU或AI芯片扩展到数万张甚至更大规模。
比特智路将基于第一性原理,并结合我们在数据中心网络、机器学习系统以及芯片和硬件设计方面的专业知识,致力于通过端到端的方式解决人工智能基础设施所面临的可扩展性问题。我们的方案还可以解决云计算基础设施中TCP协议的通信效率问题。

工商信息

北京比特智路信息技术有限公司

法定代表人:郭传雄 注册资本:100万人民币
成立日期:2023-06-29 经营状态:存续

工作地址

北京海淀区中关村中关村
比特智路

北京比特智路信息技术有限公司

半导体/芯片天使轮 20-99人

更新于:2024-06-28
下载APP确定

已安装?在APP中 直接打开