专访云智慧COO潘涛:移动互联时代 云监控如何助力IT运维管理
、移动互联网的快速发展正在引发一场新的变革。随着IT系统、业务环境的复杂性增加,传统的IT运维方式已经不能适应企业快速发
专访云智慧COO潘涛:移动互联时代 云监控如何助力IT运维管理原创 、移动互联网的快速发展正在引发一场新的变革。随着IT系统、业务环境的复杂性增加,传统的IT运维方式已经不能适应企业快速发展的业务需求。企业不再只着眼于硬件开发,而是对应用技术、运营维护的需求越来越高,这给企业的应用性能管理带来新的挑战和机遇。 不久前,云智慧(北京)科技有限公司COO潘涛与记者谈到,目前国内很多公司IT架构与业务是割裂的,往往是根据常规运行经验来制定业务计划。但这种方式效率极低、误差很大,可能导致网络和服务器闲置或过载。下面让我们一起看看潘老师和他的团队,在为企业提供这些问题的应对方案的过程中,有着怎样独到的见解。 方向:移动互联时代的应用性能管理应该转向立体化 随着移动互联网的发展,传统的PC用户逐渐转向APP。潘涛告诉记者,虽然现在的APP平台已经开始提供一体化的APP开发环境,但传统企业在这个过程中仍然前进的比较艰难。 支撑移动互联网产品和服务的是软件和数据,其背后是所构成的代码。代码的实现很复杂,那么交付和持续优化就变得非常重要。在此之外,传统行业的客服跟踪在移动互联网会涉及问题反馈、问题定位,***确认具体错误和负责人解决问题。在这种冗长复杂的问题定位和处理流程下,即使问题得以解决,用户也很难得到好的体验。 要解决这个问题,只有确保自身IT支撑系统稳定高效的运行,这就需要强有力的IT运维管理体系,来时刻监控和管理IT环境各组件的性能质量。目前很多时候,我们都将网站监控、服务性能监控、服务器监控、网页性能管理等割裂开来,但实际这些组件相互间对性能影响的是存在关联的。如果对它们独立进行监控管理,不仅使运维人员工作繁多,也很难快速、准确地对问题发生的环节定位。 为解决这个问题,云智慧的做法是,提供端到端的性能和可用性监控的立体化APM方案,来将这些独立的监控项目整合在一起并建立关系,做到实时监控并快速定位问题。这也开创了国内市场的先河。 潘涛告诉我们,IT应用的最终实现就是从用户端发起到服务器最终执行的过程,也就是我们常说的end to end。云智慧APM将IT各组件性能的监控分为六段,覆盖从用户、内容传输、防火墙、服务器、服务商内网数据库和存储的每个环节,能够实现代码级问题定位和实时数据监测分析,对外部容区性能的RS并发率、吞吐率等关键性指标,提供准确的监控数据。不论是移动APP还是Web应用,都可通过自身功能构建起立体化的企业风险预警、解决、优化方案。 根源:后端接口问题才是改善用户体验的关键 越来越多的应用服务封装成一系列的API开放出去供第三方使用,很多在线服务应用都可以通过API数据接口调用的方式快速获取。因此,应用接口数据服务性能的差异会直接关系到业务运营质量。前端的性能问题可能影响到某个平台或是部分用户高性能云计算,而如果服务端的接口调用出现问题,则会影响到所有用户的服务质量。这是最容易被忽略掉的问题,却也是非常关键的问题。 因此,整个应用交付数据接口的一致性、完整性和正确性,才是问题的根源,只有识别、区分、解决和控制了这些问题,才能从根本上消除和改善最终用户体验质量。在解决手机这一端应用问题的时候,云智慧更多的是采用API的方式,基于目前通用的移动端和服务器端的数据通讯的标准接进API性能的监控,快速定位和解决问题根源。 首先通过收集和诊断数据信息,来测量应用接口性能是否可用。再针对响应时间和可用时长统计分析来进行可用率的统计,辨别数据请求和返回是否正确,实现从API和数据支撑层来保障用户的数据通信运行逻辑始终符合预期结果。具有强大的数据验证引擎,可以支持JSON、XML甚至Text、Response Status验证,实现跨多平台的应用。 判断:基于数据流间的逻辑找准问题节点 现在,运营人员在监管过程中常常陷入这样的痛苦:虽然不断收到告警,但是究竟该处理什么问题,运营人员却很难准确和迅速定位。 如果通过对数据流的逻辑关系加以分析判断,来给系统架构中的交换机、路由器、防火墙等贴上不同层级的标签,采用分级的告警机制,就可以大大减少运营人员的痛苦了。如果从一级到十级划分,***级是最前面的防火墙。***级发生故障,后面的指标肯定都不通了,如果都报警,运营人员肯定吃不消。当重要级别高的部分发出告警了之后,底下的告警我们就不用去看了,只要去做它的维护就行了。分层的告警机制可以解决现在大家收到的警告太多,却对怎么解决问题,解决哪里的问题无从下手。 潘涛告诉我们,云智慧在做到分级的故障分发之外,还可以通过对高凝指标数据之间流逻辑关系的分析,来提供更加智通的监控和告警方案。用户可以根据自己的情况和需求去编制告警策略,根据它的逻辑去编制,这样一旦出现故障和紧急情况这种方式很容易帮他去找到问题的节点,而不是像现在一堆告警却不知道到底处理哪个。而且,根据故障的紧迫和重要程度,也可以选择通知不同的对象,是先通知我们的运维人员,还是先通知网站的CTO。都可以在定制策略中通过设置告警阈值,来进行灵活的自定义告警设置,来帮助用户更加及时的捕捉突发变化,进行性能调优。
(编辑:好传媒网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |