未来已来|人工智能与数据库融合发展分论坛议程初探
写点什么

对话阿里云田涛涛:企业如何用好云、管好云?-金马国际

  • 2021-12-13
  • 本文字数:3180 字

    阅读完需:约 10 分钟

对话阿里云田涛涛:企业如何用好云、管好云?

6 月 17 日,极客时间正式上线,10 周掌握企业级 agents 从设计、开发到部署全流程。

近几年,数字化转型带来了更加复杂的 it 基础设施和大量的业务系统,对企业自身的运维能力来说,是一场前所未有的大考。devops 出现以后,极大程度地提升了企业的研发效率,缩短了业务从研发到上线的周期。在相近时间诞生的云计算,其所拥有的“软件定义一切”的特性,更是与 devops、智能运维和基础设施即代码(iac) 等自动化运维趋势相互促进。


然而,将传统的 devops 直接搬到云上,是否真正地释放了云的优势?企业到底应该如何“用好云、管好云”?


带着这些问题,infoq 在 2021 云上架构与运维峰会举办之际,采访了阿里云弹性计算管控平台技术负责人田涛涛。


云时代,运维不重要了?


云时代到来以后,运维的门槛被大幅降低。传统运维需要处理服务器、网络等硬件设备,而在云时代,运维工程师不再需要直接操作实体资源,负载均衡、动态伸缩、数据迁移等服务全部可以交由云平台厂商来提供。


因此,与“去运维”相关的言论甚嚣尘上,不少人认为运维岗位会逐渐走向消亡,但事实是否真的如此?

“云时代的运维,变得比以前更加迫切、更加重要。”田涛涛认为,运维不是消亡,而是需要进化,因为云原生趋势的到来,给运维提出了更多挑战。


第一,敏捷快速的交付方式给运维和交付带来了巨大的挑战。早前,研发团队交付一款 app 是按照半年时间进行规划的。如今,app 从研发、交付再到上线,整个过程仅需要 7 天。这样一来,高效地进行运维管理成为了云上运维必须思考的问题。


第二,排查问题的难度持续飙升。无论是传统设备还是智能化设备,服务化都是大家关注的焦点,但做到服务化之后,系统之间的耦合会使调用关系变得复杂,一旦出现问题,它的影响面非常不可控。如何能快速做好可靠性、可用性观测、问题排查以及问题诊断,同样成为了云上运维的重大挑战。


第三,在线系统数量变多,宕机影响变大。由于在线系统的数量越来越多,出现问题之后影响面是非常大的,甚至可能影响民生的工程。


不仅如此,云上运维的范畴也比以往更加广泛,运维人员需要关注蓝图规划、上云交付以及云上管理整个过程。我们能够清晰地感知到,身处新技术革命浪潮下,企业想要抢占市场,做好云上运维是非常重要的一环。

多数企业未发挥出云端 devops 潜力


几乎所有企业都十分认可公有云带来的产品和服务能力,并且大部分企业已经在公有云中使用了 devops,打通了开发与运维之间的壁垒,让团队从业务需求出发,向一个共同的目标前进。但将传统的 devops 直接搬到云上,又能否获得 1 1 等于或者大于 2 的收益呢?


答案是否定的。虽然云厂商屏蔽了底层的基础设施,让开发人员无需关注底层资源,使得很多企业认为上云其实是一件容易的事情。但实际上,云本身是一个非常复杂的操作系统,很多企业在传统线下没有自动化的基础设施工具。因此在田涛涛看来,企业没有转变观念、没有把云原生运维工具用好,是阻碍其充分发挥云端 devops 优势的一个重要原因。


根据 puppt2021 年度运维报告显示,只有 20% 的企业认为自己充分发挥了云端 devops 的潜力。云上自动化运维的模式和思维与传统 devops 相比,仍然有着不小差异。这也是部分企业上云之后,建立一套云原生自动化运维体系的挑战。


首先,传统企业上云之后需要意识到,操作的主体会从操作资产变成了对可编程的资源,这个转变是非常重要的过程:传统运维模式操作的都是企业的资产,需要充分压榨提升单机的利用率和使用率,并需要提前很久规划资源;而云端运维天然就有弹性的属性,除了提升单机利用率,还可以 on-demand 地获取资源和释放,同时云平台把一切都变成了可编程的资源,通过开放 openapi 和应用分组来让用户管控资源。


其次,云上运维对安全可审计的要求更高。云端操作会高频切换很多自动化的任务,操作来源和对象相对复杂,对操作审计和操作来源和报警的时效性要求比较高;云端提供的服务可以将服务通过一条命令直接暴露在公网之中,需要更多的设计和思考安全和网络规划能力来降低系统风险;高频的可编程自动化运维需要有比较好的审计和问题追踪能力,避免越权和不容易被追踪的问题。


此外,这几年自助服务已经成为很多企业的追求目标。在云上,很多企业都把自己的产品,通过服务的形式暴露给更多的客户,所以对于系统的可靠性有着更高的要求。

cloudops 应运而生


“企业想要寻找到一名优秀的 devops 工程师,其成本是非常高的。”田涛涛说。


为此,阿里云为企业带来的破局思路是:帮助企业理解云上运维,并为处于不同阶段的企业推荐不同的功能,进而简化他们的学习门槛,提高使用云原生运维工具的便捷度。


在 2021 云上架构与运维峰会中,阿里云在业界首发了,定义并系统性阐释了一个新的词汇——cloudops,着重强调如何在云平台上更好地践行 devops。同时,田涛涛也在会上发表了《cloudops :自动化运维的新思路》的主题演讲。



据他介绍,cloudops 作为传统 it 运维和 devops 的延展,可以通过云原生架构实现运维的再进化,充分帮助企业降低 it 运维成本、提升交付速度和系统灵活敏捷度、增强系统可靠性,构建更加安全可信开放的业务平台。在 cloudops 白皮书中还强调了一点,cloudops 不等于单纯的 cloud devops 或者 devopsoncloud,而需要将 devops 和云有机结合,才能收获更大价值。


此外,田涛涛在演讲时提到:“云上运维是一个从简单到复杂、从成长到成熟的管理过程。”企业根据不同的上云状态以及使用规模,其云上运维的思路都不尽相同,并且随着业务不断发展,运维的思路也日益复杂。创业公司从第一天开始就可以在云上部署其生产环境服务客户,而对于已经存在 it 投入的公司来说,则需要花费更长的时间逐步上云。


但可以肯定的是,无论企业身处哪种场景,其运维需求都会持续存在:降低成本、提高效率是企业追求的核心目标。因此,有效地规划和制定运维策略和方法非常重要。阿里云在 cloudops 白皮书中提出了成熟度模型——cares,分为自动化能力、弹性能力、高可用能力、安全和合规能力以及成本资源量化管理五个维度进行衡量,帮助企业判断自己所处的阶段,也为处于不同阶段的企业提供运维策略参考与优化方向。


简化路径,让云上运维更简单


对于企业来说,如何能够高效地交付应用已成为了业界的共识,这就要求企业需要通过自动化、自主化的策略高效工作。对于一名研发人员来说,他们最头痛的问题就是在基础设施和应用之间来回切换、适配。

为了让企业在运维阶段更省心,田涛涛还在峰会中同步了 ecs 自动化运维套件的全新升级,包括服务器迁移中心、资源编排、运维编排等 15 个工具,可以帮助企业实现从 it 架构的规划、迁移、部署、弹性扩缩容到日常管理,覆盖云基础设施全生命周期的自动化运维。


本次 ecs 自动化运维套件推出了新产品——应用管理 application manager,不同于从前的资源视角,应用管理支持从应用视角监控、管理和运维基础资源,实现更精细化的管理,并与阿里云 devops 平台云效集成,支持一键完成从代码编译构建到部署的全生命周期。



在接受 infoq 采访时,田涛涛表示:“基于用户在使用 ecs 过程中反馈的常见工单,我们建了一个集群模型来帮助用户快速定义、诊断错误的链路,这就是我们的智能诊断服务。之前系统出现问题时,企业需要花几个小时拉人、拉群去解决,但通过自助化服务的工具,可以做到秒级或者分钟级就把问题解决掉。”


和智能问答、智能机器人一样,ecs 的升级思路也是优先帮助用户解决问题。正如田涛涛在演讲结束时提到的那样:未来,传统的运维需要进化到新的思路,企业应该更少地关注基础设施和基础资源,更多地回归到应用本身,让企业运维视角与云平台的运维视角紧紧贴合。

写在最后


谈及对于云上运维的未来展望,田涛涛认为,在巨石应用改造和企业服务化适配的过程中,只有依靠团队的组织和更强大的自动化能力才能帮助业务提效,帮助客户构建更加坚实的基础设施,让企业更专注于产品的研发。这不仅仅是阿里云作为云平台的责任与使命,同样也是行业共同努力的方向。

2021-12-13 17:436181

评论 1 条评论

发布
绑死云,焊死云,离云活不了
2021-12-20 08:59
回复
没有更多了
  • 2022-09-21

  • 新年新打算,很多小伙伴都打算在2022年从事运维工作。但他们不清楚运维工程师的工作内容主要有哪些?希望有朋友可以详细列举一下,可以详细介绍一下。这里我们就一起来聊聊吧!

    2022-02-14

  • 从hadoop,到spark,到flink,为什么大数据会有这三代的演进?是因为它们都解决了用户对这玩意儿的核心诉求,那用户对这几个大数据软件的核心诉求是什么?

    2022-09-28

  • 2016年12月1日-2日,velocity china 2016在京举行。会上阿里巴巴平台架构部研究员林昊(花名毕玄)发表了题为《阿里应用运维体系演变》主题演讲。主要介绍了阿里应用运维体系经历的几个不同阶段的演变。毕玄作为亲历者,分享了阿里在这个过程中随着业务发展、

    2021-11-29

  • 写在前面: 大家好,我是强哥,一个热爱分享的技术狂。目前已有 12 年大数据与ai相关项目经验, 10 年推荐系统研究及实践经验。平时喜欢读书、暴走和写作。

    2021-08-19

  • 上云已成为行业共识,但是,随着上云进程的加快及用云程度的加深,以及近两年增效降本成为很多公司的主要诉求,如何提升技术投入性价比?如何通过云助力核心竞争力建设?如何用云才能更好地实现业务增长?这些问题成为了行业关注的焦点。

  • 今天,我从技术演进的维度介绍了应用生命周期管理技术,这些技术可以提高应用的研发效率和质量。

    2021-06-12

  • 容器云是什么意思?与堡垒机有什么区别?对于这两个问题,有很多运维小伙伴都不是很了解,因此我们小编就来给大家详细科普一下啦!让更多运维小伙伴知道啦!

    2022-06-21

  • 日,2021云上架构与运维峰会上,阿里云发布业界首部《云上自动化运维白皮书》(简称cloudops白皮书),并在其中提出了cloudops成熟度模型。

  • 云主机是什么?可以用来干嘛?很多运维小白不是很清楚,因此我们小编就给大家简单讲解一下。

    2021-10-27

  • 2022 年,云原生领域有哪些值得关注的趋势?

    真正呈现出爆发形态、真正被所有的云厂商、用户广泛使用的是在2021年。

  • 传统架构不再适用

  • 为什么企业数字化转型需要 platform ops(平台运维)?

    在全球范围内形成这样的趋势,其背后不只是技术因素,还有it组织利益的共同演绎。驱动各团队更准确地抓住新技术优势和思考未来发展的终局之战,这对于cio等各类技术决策者来说至关重要,否则会冒与业务无关的风险。

  • 云先行,智未来。互联网保险行业的新一代运维平台建设。

  • 今天,云和云计算技术已经被企业广泛所接受,关于云、云计算、云原生都有非常多的话题,但是我比较想讨论的是在所有云当中真正的主角,就是我们的应用。

  • 建立可观测性,是应该自己搭建,还是直接购买商业产品呢?这节课,我们就来聊聊这个问题。

    2022-09-23

  • 企业业务发展越来越迅速,对 it 的要求也愈发严苛且复杂。这不仅仅体现在运维团队架构与工作流程上,也体现在工具选型与平台搭建上。今天我们好好聊一下工具选型与平台搭建思路与实践关键点。来看看阿里云会给出如何的最佳实践!

    2021-11-02

  • 这节课,我们会重点讨论可观测与云原生、devops 和 sre 之间的关系,然后聊聊如果想要建立和实施系统的可观测性,开发、测试和运维团队应该从哪些方面着手。

    2022-09-26

  • serverless思维的建立一定不是一蹴而就的,在后面的课程中,我希望你能够通过“学习-实践-总结-表达”的过程去探索这门不断延伸的技术。

    2022-08-29

  • 很多运维朋友们,不清楚运维工程师主要是做什么的?和网络工程师有啥区别?今天我们大家就一起来聊聊。

    2021-09-08

发现更多内容
金马国际
网站地图