前言
伴随着产业升级,我国制造业也将逐步由“中国制造”转向“中国智造”。毋庸置疑,“智能制造”将成为未来制造业发展的必然趋势。处在中国高端制造业“走出去”的第四次浪潮中,面对世界级的竞争,全面的技术升级对制造业的意义不言自明,这其中就包含制造业对网络前沿技术的探索,例如对AIOps技术的运用。
本次记者采访了智维数据技术总监何仰文,请他通过一个制造业智能运维探索的实例,分享这家国际化企业是如何通过流量分析,实现故障高效处理,保障网络平稳、畅通,支撑生产及业务高速运转,并实现带宽容量精细化管理,合理控制网络费用的。
1.快速故障定位,保障网络24小时持续平稳是国际化制造企业运行的基础
记者:能不能介绍下案例的背景以及客户遇到的问题?
何仰文:智维数据最早是在2020年收到来自OPPO网络运维部的项目需求,该部门需要保障数据中心与分支机构、生产工厂间的网络平稳运行,包含数千条链路以及几个大型的数据中心,因此运维团队日常的工作负荷较大。另外,OPPO拥有数量众多的业务系统,但尚未建立统一的可视化管理平台,因此运维人员对业务系统运行状态难以清晰掌握。而故障分析依赖人工下包分析,效率较低。为解决以上问题,OPPO运维团队开始考虑建设流量监控平台,希望能实现链路管理和应用性能的可视化分析。
记者:对于OPPO来说,或者是新一代的智能制造业来说,网络运维为什么重要?
何仰文:对于一家超大型智能制造国际企业,生产管理流程是全自动的,整个流程包含很多套复杂程序,比如制造核心Mes系统等。OPPO有数量庞大的生产线,一旦系统出错或者参数出错,以贴片机为例,中断半个小时整个生产流水线的损失会达到百万级别。
OPPO的主板生产设备贴片机
而作为IT基础设施,网络在其中起着连接其他各个系统及应用的作用,特别对于做全球市场的企业来说,现在受疫情影响以及国际局势的变化,业务端敏感度是空前的,各分支机构与总部之间需要时刻保持互联互通,一个网络节点的故障对整体业务的影响有时可能也是很大的,因此保障网络24小时稳定持续非常重要。
2.不止是“能用”而是“好用”提升人效的基础是人人都用得起来的工具
记者:对于OPPO来说,之前在网络运维方面有哪些难点?
何仰文:当业务用户遇到系统打不开或者进度慢,第一反应都是网络问题。使用传统网络监控只能知道A点到B点是通的,具体通讯质量如何,链路上运行的业务应用质量如何是无法感知的,指标不能量化,难以形成判断。另外是故障定位问题,网络问题还是应用问题,以前只能通过人工抓包来分析,效率较低。
记者:OPPO之前抓包分析的流程和问题是怎样的?
何仰文:因为使用抓包工具很难进行统计分析,一次只能分析一个会话,确定当前这个会话是否有问题。对于多个会话的指标统计,是做不到的。另外即使单独看每个数据包的交互,这对工程师的技术要求也很高。而网络通讯过程中经常会出现一些网络重传之类,所以具体由于哪些错误导致的,利用抓包工具无法直观找到问题所在。因此,无论在分析效率还是准确性层面,网络工程师们都在考虑用新的技术工具,最后是采用了我们的产品——智维数据nCompass流量分析平台来解决这些问题。
记者:为何OPPO选了nCompass,nCompass是如何解决以上运维问题的?
使用nCompass流量监控平台查看应用性能情况快速定位故障所在
何仰文:可以整合多源数据快速定位问题、分析灵活,不需要复杂培训能快速上手,可视化程度高,这可能是客户会选择我们的原因。
比如刚才提到应用慢的问题,就需要对一些重点应用做持续监控,之前网络部经常遇到业务端用户投诉应用很慢,现在遇到类似问题,可以用nCompass查看,如果是应用自身响应慢,可以很快协助应用组去定位。因为网络和应用的中间环节太多了,所以故障快速定位对他们是非常最重要的。以前他们人工抓包,可能一天大概摸到个头绪,现在通过nCompass,花个十多分钟,就可以确定故障的方向。
3.用流量+可视化搞定两大核心问题为运维团队实现降本增效
记者:nCompass帮助OPPO运维团队解决了哪些常见的故障,请介绍具体场景?
场景1 提效:快速故障定位,故障处置效率数十倍提升
何仰文:比如广域网链路监控,当链路满了,nCompass系统会发出告警,运维人员可以分析链路的组成是否合理,是不是存在一些大流量,流量的占用是否正常。另外出现应用故障,比如业务用户反映应用卡或者慢,也可以通过流量指标分析到底是应用的问题还是网络的问题,为运维人员后续排障找到明确方向。
Flow链路分析视图当出现链路带宽占满,可以快速识别并告警(demo展示)
比如,前几天我们去拜访客户的时候,正好有业务部门向运维团队反馈说有一个应用从上周开始就比较慢了。此时通过nCompass看到应用侧的响应时间都比较长,有的都到了五六秒,那么这种就是有问题,可能的原因是服务器响应问题,应用占用的IO,或者CPU、内存比较高。运维工程师于是反馈给应用组去查,发现确实是由于应用占用的内存高导致应用响应不过来,那么就可以快速地将这个问题解决。
对重点应用进行实时监测 呈现各细分应用的性能与流量情况(demo展示)
同样的故障客户之前可能要排查很多方向,因为他们不敢确定到底是网络问题,或者交换机有问题之类的。现在就可以第一时间把一些无关方向给排除掉。
还有就是应用之间的调用问题也会影响应用的性能。比如存在一些跨区域的异常调用,可以通过南北向流量数据去看应用跟应用之间的调用是否合理,是否存在同一个应用跨机房的调用,就像前端的IP去访问后端的存储,或者使用后端数据库的时候跨机了等等这些影响应用的性能的问题。
场景2 节流:链路精细化管理与容量规划
记者:还有帮OPPO梳理其他场景吗?
何仰文:还有一个很重要的场景是广域网链路的精细化管理以及容量规划。OPPO因为其国际化业务的特性,因此对Netflow的功能很看重,因为他们全球的分支节点特别多,国际广域网链路又比较贵,一条国际链路一年就上百万了。当然这个链路还只是存储的链路。为了避免这些带宽浪费,运维人员需要知道它具体的流量构成,才能做适当的优化。
Flow链路-应用的流量分析视图展示每条链路中各应用的流量占比(demo展示)
比如广域网负责人发现某条链路满了,通过nCompass查看发现有一条异常的流量特别大,再下钻发现是某个应用从A城市节点往B城市节点获取版本,而正常情况下应该是在A点本地获取的,这种异常就会导致整条链路都被占满了。现在他们发现了这个问题,就可以让A点停止版本的异地拉取,改成在本地操作。
再比如一些分支机构或部门表示应用升级或应用上线要做带宽扩容,那么他们可以去实际查看这条链路的利用率,看它组成的数据细节,处理掉不合理的流量,那么在预算这块就能有更好的控制,而对于真正需要扩容的需求,他们也能提供实际的数据支持。
4.深入挖掘数据价值,赋能网络与业务多部门
记者:未来对于运维数据的精细化管理,或者数据挖掘这个方向,nCompass还可以为OPPO做些什么?
何仰文:前面我们帮客户梳理了几个场景,在我们最近去回访的时候,客户表示效果还是不错的,不过也提出了新的需求:首先是计费。未来广域网链路流量客户希望根据这些部门的使用比例来做链路分配,将流量与预算结合起来做更好的费用管控。以后各个部门按使用情况会定期收到费用账单,增强大家的成本意识。
基于Flow链路-区域流量分析视图可清晰掌握Flow链路中各区域的流量占比情况(demo展示)
另外OPPO的出口链路有一个普遍的问题,就是IP互联互认的流量占用特别大。如果用现有的方式把服务流量全部拿来分析,费用较高,未来希望通过nCompass的Flow分析模块,合理选择需要分析的流量,降低数据使用的成本。
还有就是希望在智能告警之外,流量分析的数据精度能更高,因为OPPO的业务,特别是对于这种IT类的应用,常常缺乏固定的模型,那么对于变化场景如何利用nCompass在智能化上的能力,实现对异常的感知和预测能力,是他们未来想探索的方向。
现在nCompass的产品线更加丰富了,以上这些需求其实都可以通过我们现有的产品组合去实现。在充分挖掘数据的基础上,结合我们的产品,未来希望能为制造业的网络及业务用户都带来明确的价值。