
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
随着互联网的不断发展,越来越多的人都通过自学或者参加达内培训来实现互联网行业的转型发展,今天我们就通过案例分析来简单了解一下,数据量化分析需要关注哪些问题。
1、稳定性风险度量
一直以来服务当前的稳定性现状,不太好衡量和判断。为了掌握稳定性建设的真实情况,同时引导和规范业务人员在稳定性建设时的做法,针对稳定性的一些重要环节,需要制订一定的度量标准,对业务人员日常的稳定性建设进行度量,明确告诉大家当前的稳定性工作处于什么水准,具体哪些地方需要改进。
比如可以结合变更规范制定一个量化标准——变更信用分标准。按照变更信用分标准,对每周的上线单进行系统分析,并按团队汇总、量化和排名,让大家能从全局的角度看到问题的总体情况和各自的严重程度,并能够从上往下索引到各个团队具体的变更单、变更人和变更参数,甚至直到具体的变更模块配置界面,以此促进各个团队有针对性地发现变更风险并清晰地知道如何进行完善。
对于稳定性度量来说,主要是确定具体的度量指标,以及每个度量指标的标准评分。其实具体评分并不是那么重要,关键是大家对度量标准能够达成一致,能够对稳定性日常工作有实际的量化指导效果。
2、基于多维度监控的故障定位
线上服务出现问题时,当有足够多的监控信息时,才能直观地定位问题。但随着业务规模变大,微服务的个数越来越多,链路、拓扑、网络越来越复杂,相应的监控事件越来越多。当出现故障,可能瞬间出现大量的报警信息,从众多告警中快速找到故障原因,确定相应的止损预案,是一个非常重要且有挑战性的事情。
为了从纷繁复杂的众多事件中定位具体的原因,可以将各维度的监控报警、各种变更事件以事件的方式,按照时间轴整合成一个时间线,有了事件时间线,我们就可以将关注焦点放到故障时间前一段时间内的监控告警事件以及变更事件上,从而根据具体的事件类型确定相应的预案和止损措施。
3、风险分析
基于线上实时的可观测数据,以及研发全流程的变更和操作数据,我们可以得出很多维度的报表和趋势数据。这些维度可以涵盖服务治理的各个环节,比如链路SLA、超时重试、容量管理、强弱依赖关系等,这些数据可以作为接下来分析的基础。
同时,根据之前的风险分析以及一些静态的服务元数据信息,会形成一个和当前实时治理数据对应的历史基准库,将当前数据和历史基准库进行比较,从中找到趋势和规律,进而发现潜在的风险。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请加danei0707学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。