-
团队介绍:飞书是 AI 时代先进生产力平台,提供一站式工作协同、组织管理、业务提效工具和深入企业场景的 AI 能力,助力企业能增长,有巧降。从互联网、高科技、消
-
(一)岗位核心定位
专注运维系统开发与自动化、智能化能力建设,通过开发工具、平台及 AI 运维技术,提升运维效率、降低人工成本,保障运维体系的稳定性、可扩展性
-
1.负责Boss直聘核心业务线的稳定性建设与技术保障工作。
2.参与完善公司的MTTR/MTBF体系及SLO工程的建设,对线上环境的稳定性与可用性负责。
3.负
-
岗位职责:
1.通过系统设计咨询和上线评审等活动,为服务上线提供支持。
2.提出架构改进建议,推动提升可靠性的变更。
3.增强基础设施能力,优化成本、简易性和可
-
TapNow 是 AI 原生的商业视觉创作平台。TapNow 通过高效产品赋能的无限创作、资产沉淀、自定义一键执行的Agentic工作流、团队协作,实现创意全流
-
职位描述:
1. Alerting System Optimization: Collaborate with front-end and back-end t
-
岗位职责
1. 系统可靠性与性能
负责核心在线服务的稳定性和性能,确保满足 SLO 要求
设计和实施架构改进,识别风险保障服务具备容错、降级与快
-
工作职责
1. 业务上线评审、上线交付、配置变更、状态监控、容量规划、故障应急响应工作。
2. 监控与故障处理:实时监控节点、业务指标,参与值班(7*24 on
-
“做你热爱的事情,成为伟大事业的一部分”
职位描述:
1.参与影刀SRE体系建设,负责关键业务系统的高可用、可扩展、可恢复架构设计和优化,提高系统稳定性;
2
-
工作职责:
保障公司交易所业务的稳定性,和研发一起对事故进行快速响应,并建立机制提升处理效率;
参与建设运维工具和平台及系统风险识别(包含DB/中间件), 推
-
岗位职责
1、负责公司云上云下服务器稳定性保障服务,规划和建设稳定性流程规范、平台系统、保障机制和能力,负责现网运营稳定性监控、稳定性风险识别、问题响应处理和保
-
职责
● 负责超算集群装机、运维及生命周期管理
● 固件 / 驱动调优(H20/H200 GPU + mlx5_core NIC)
● 并行文件系统运维与优化
-
岗位职责:
- 优化算力资源调度策略,提升GPU集群利用率,支持大模型训练/推理任务。
- 负责追踪或解决平台或业务遇到的技术问题,驱动并优化业务、运维服务等,
-
值班需求 (On-call):
1. 需北京时间 早上9:00 到 晚上9点 值班处理紧急事件。
2. 需要在紧急事件发生的15分钟内响应。
3. 值班每周轮换
-
岗位职责
1. 基础设施与平台运维
• 负责公司核心系统(量化平台、数据中台、风控系统等)的部署、运维与优化。
• 管理和维护云服务器、容器平台(Kuberne
-
职位概览
我们正在寻找一位经验丰富的站点可靠性工程师,加入 GMI Cloud基础设施团队。这是一个注重实践操作的关键岗位,负责确保我们数据中心内大规模、高性能
-
岗位职责:
1、负责公司核心业务系统的部署、运维、监控和优化,保障系统的高可用性与稳定性;
2、设计并实现自动化运维工具和平台,提高运维效率,降低人为操作风险;
-
工作职责
使用 Python 开发和维护自动化运维工具,提高系统运维效率。
参与生产环境系统的监控、优化和故障排查,保障业务稳定运行。
支持部署流程和日常运维任
-
一、岗位工作职责与内容
1、混合云/多云平台管理与运维
(1)负责华为云、天翼云、阿里云等主流云平台的日常运维,包括资源调度、服务部署、监控告警、性能优化及故障
-
职位描述
我们正在寻找一位充满激情、技术精湛的运维工程师加入我们的团队。您将负责构建、维护和优化公司核心业务的高可用、可扩展的云平台基础设施。您需要具备扎实的技
-
我们正在寻找一位资深的运维工程师加入我们的技术团队。作为数据和分析领域的领军企业,我们正处于高速发展期,核心业务平台需要一位能够应对高可用、高并发、多云环境挑战
-
岗位职责:
• 支持并维护基于Kubernetes的基础架构,主要部署在AWS EKS上
• 构建并优化自动化流程,用于云原生环境的资源配置、系统配置、监控以及
-
岗位职责
1.负责腾讯云网络控制面的日常运维、需求沟通及架构设计等工作;
2.负责腾讯云网络控制面自动化运维体系的建设,依托运维经验提供有效的建议及支撑;
3.
-
系统稳定性保障:
负责资讯系统、应用和服务的高可用性、可靠性和性能优化,确保 7x24 小时稳定运行。
设计、实施和维护监控系统,利用 Prometheus、G
-
【岗位职责】
1- 负责产品在 AWS 上的基础设施架构设计、部署、监控和维护,保障系统的高可用性。
2- 深入实践 Infrastructure as Cod
-
职位描述:
背景:
SGB 是一家新成立的数字银行,将提供一个安全且统一的平台,方便用户访问和管理传统与数字资产及金融解决方案,运营在新加坡,SGB 已获得巴林
-
岗位职责:
1、负责业务稳定性建设,深入了解业务,资源治理,推进架构体系优化
2、负责技术运维工作,保障服务稳定运行,包括日常问题处理,服务监控、告警处理,故障
-
职位描述
1、基于不同的云环境(私有云&公有云), 将满足业务需求的基础设施部署在云环境;
2、和客户沟通确认私有云&公有云需求, 确保业务对基础设施的依赖可
-
职位描述
1、保障百川在线服务、分布式训练及其他系统可靠、稳定、高效运行;
2、制定和优化运维解决方案,包括但不限于容灾、弹性扩容与防攻击;
3、参与在线系统和
-
要求具备一定的开发能力
工作职责
1、解决业务规模及业务不断增长后带来的服务器资源的高并发、可用性、可扩展性、可维护性等问题。
2、推进基于Docker/K8S