超大型运维平台的面向终态设计
智能运维/自动化运维
乔斌
阿里云智能基础产品事业部应用运维平台技术专家
   阿里云智能基础产品事业部应用运维平台技术专家,百年技术讲师,技术大学2017年度人气讲师之一。应用运维团队混合云业务负责人,应用运维平台新一代架构的主要设计者,该架构目前正承载着海量的吞吐量。他曾参与过DevOps、运维、基础设施、监控等众多系统的建设,在运维领域有着丰富经验。十年以上海内外工作经历,曾为中美多家财富500强企业提供服务,业务涵盖了金融、供应链、云计算、公共事务等众多领域。国内敏捷领域的先行者,国内早期CSP之一,积极参与了社区建设,作为组织者交付了2016年Regional Scrum Gathering。并多次受邀在Global Scrum Gathering,Regional Scrum Gathering,Agile Tour上发表主题演讲。

  • 分享简介
           主观判断的不确定性随之放大,这给我们运维平台的稳定性保障带来了极大的挑战,同时也让我们认识到,面向过程与操作的的运维模式将难以为续。
    面对这样的处境,业界巨头其实早已开始了这方面的探索。典型系统有微软的AutoPilot、Google的brog(K8S),阿里的Apsara Infrastructure。这些系统的背后,都具有一个共同的基本原理 - 面向终态。虽然一百个人会有一百种走法,但每个人要到的目的地都是罗马。如果我们直接告诉系统,最后想要的结果,而让系统自主决定操作方式的话,就能很好规避操作不确定性的问题。这意味着用户不必再心惊胆战的规划执行路径,而是简单告诉系统,你的最终目的。而至于系统怎么规划执行路径,则根据线上实时状况以及知识库来决定,动态调整,使命必达。
  • 分享提纲
    1、 业务背景
    ¡ 业务背景
    ¡ 上一代运维系统所面临的挑战
    ¡ 业界巨头再解决类似问题上的尝试
    2、架构详解
    ¡ 任务型系统和终态系统的对比
    ¡ 控制论基本原理和终态系统原理
    ¡ 系统组成
    ¡ 系统架构详解
    3、典型业务难题(案例)
    ¡ 如何支持诸多业务形态
    ¡ 如何兼容多种基础架构
    ¡ 如何处理有状态与无状态
    4、 眺望未来
    ¡ 架构演进
    ¡ 与生态的关系

  • 分享收益

    架构背后的逻辑,非常简单。告诉系统最终结果,系统自己做,边做边调整。但真正实现起来,复杂程度远远超出了之前的预估。Normandy作为阿里的应用运维平台,是阿里集团最大的运维入口。往上承载了天猫、淘宝、等诸多BU的业务,这引入了业务的多样化,需求的多样化。往下,Normandy对接多种基础设施,包括阿里云、物理机、Sigma/K8S等诸多设施,这意味着基础架构的多样化。运维形态上,应用运维适合无状态,但中间件的运维,又是有状态。诸多问题一股脑的摆在了我们的面前。

    目标:用一套架构,以一种抽象形式一揽子解决运维的关键难点

    收益:阿里巴巴在这个背后对运维的思考,交付中核心的重要要点。

    启示:了解终态架构建设的过程,以及建设过程中所面临的现实业务挑战,妥协和调整。

热门推荐