必威2017双双11海量数据下EagleEye的沉重及挑战。2017对11海量数据下EagleEye的使命及挑战。

摘要:
EagleEye作为阿里集团著名的链路跟踪网,其本身工作便无以贸易链路上,但可监控在都集团的链路状态,特别是在中间件的远距离调用上,覆盖了集团绝大部分之场面,在问题排查和永恒及表达在巨大的意,保障了各个系统的安澜,为全体技术集团由赢就会战役保驾护航。

摘要:
EagleEye作为阿里集团有名的链路跟踪网,其本身工作便非以贸易链路上,但可监控在都集团的链路状态,特别是在中间件的远程调用上,覆盖了集团绝大部分底状况,在问题排查和稳定及表达在巨大的意,保障了各个系统的康乐,为周技术集团由赢就会战役保驾护航。

背景 
双十一直接是阿里巴巴集团每年使自之同一庙大战役。要由赢就会战役,技术达到,不仅仅是几乎单以、几只网的从事,也无是略个出+多少只测试就能做到的行,而是欲各国大体系同步作战、每个应用各司其职、技术人员通力合作才能够赢得最后之制胜。

背景 
双十一直是阿里巴巴集团每年要从之等同摆大战役。要由赢就会战役,技术达到,不仅仅是几乎独使用、几个网的转业,也不是有点个出+多少个测试就会成就的行,而是用各大系统一同作战、每个应用各司其职、技术人员通力合作才能够获最后之胜利。

EagleEye作为阿里集团资深的链路跟踪系统,其自身业务就非在市链路上,但却监控正都集团的链路状态,特别是在中间件的长途调用上,覆盖了集团绝大部分的现象,在题目排查和固定上发挥着伟大的意,保障了各个系统的稳定性,为全技术团队从赢就会战役保驾护航。

EagleEye作为阿里集团资深的链路跟踪系统,其自己业务就未以市链路上,但也监控正都集团的链路状态,特别是在中间件的长距离调用上,覆盖了集团绝大部分的场面,在题目排查和一定上发挥在伟大的作用,保障了各个系统的稳定性,为一切技术集团于赢就会战役保驾护航。

必威 1

必威 2

图1 EagleEye系统整体情况

祈求1 EagleEye系统整体状况

将近两年集团业务与局面一直维持着快的增强,纵深上,交易量屡攀新大,双十一零点的贸易峰值为更同不行刷新了史;横向上,集团涉及的正业与领域啊不绝于耳的拓展,各行各业在不停在阿里(高德、优酷、友盟及大麦等等),共同前进。

近两年集团事务与规模一直维持正快的提高,纵深上,交易量屡攀新大,双十一零点的贸易峰值为又同赖刷新了史;横向上,集团涉及的正业与天地啊不止的开展,各行各业在频频在阿里(高德、优酷、友盟及大麦等等),共同前进。

迎数规模持续增多,如何应对在作业高速发展的背景下系采集的数据量级的不断增强,如何在更为老之数规模面前保障EagleEye自身工作的安澜,成为EagleEye今年双十一面临的赫赫挑战。

给数规模持续增多,如何应对在作业高速发展的背景下系采集的数码量级的不断增强,如何在进一步大之多少规模面前保障EagleEye自身工作的平安,成为EagleEye今年双十一面临的宏伟挑战。

必威 3

必威 4

希冀2 EagleEye支持之业务情况

图2 EagleEye支持之事务情况

全链路压测一直是阿里巴巴集团维持双十一之百般杀器之一,通过在线上环境全真模拟双十一当天的流量来检验各个应用体系的负载能力。EagleEye在都链路压测中荷了要之责任,透传压测标记实现流量之分,压测数据的搜集与表现用以帮助业务方的开发同学发现与定位系统的题目。所以,保障全链路压测也是EagleEye的显要使命之一。 
今年的EagleEye 
任常态、全链路压测或者是双十一当天,EagleEye面临的要问题是哪些保障我系统以海量数据冲击下之平安,以及如何重新快的表现各个系统的状态和重新好的援助开发同学发现及定位问题。今年,EagleEye通过了同等密密麻麻改造升级提高了网的风平浪静,实现了重好更快的声援业务方定位以及排查问题。

全链路压测一直是阿里巴巴集团维持双十一之挺杀器之一,通过在线上环境全真模拟双十一当天之流量来查看各个应用系统的负载能力。EagleEye在都链路压测中负责了严重性之权责,透传压测标记实现流量的区分,压测数据的收集及表现用以帮助业务方的开发同学发现与定位系统的题目。所以,保障全链路压测也是EagleEye的首要使命之一。 
今年的EagleEye 
凭常态、全链路压测或者是双十一当天,EagleEye面临的要问题是怎么样保持我系统在海量数据冲击下的安澜,以及如何重新快的呈现各个系统的状态与重新好之提携开发同学发现跟定位问题。今年,EagleEye通过了千篇一律密密麻麻改造提升提高了网的安定团结,实现了重复好更快之帮带业务方定位及排查问题。

必威 5

必威 6

图3 系统架构图

祈求3 系统架构图

算算能力下沉 
最初的EagleEye在链路跟以及数据统计还是冲明细日志完成,实时收集全量的细致日志并当流计算受到做聚合,随着业务量的增长,日志的数据量也于强烈上升,计算量也随之线性增长,资源消耗比较高。而且当备链路压测或者大促期间,日志量会出举世瞩目的峰值,极有或造成计算集群系统过载或者数额延迟还发生或致数据的丢失。

算能力下沉 
初期的EagleEye在链路跟和数统计还是依据明细日志完成,实时收集全量的仔细日志并在流计算吃召开聚合,随着业务量的滋长,日志的数据量也以剧上升,计算量也随之线性增长,资源消耗比较高。而且每当全链路压测或者大促期间,日志量会出显而易见的峰值,极有或致计算集群系统过载或者数额延迟还产生或导致数据的散失。

啊化解就类似题目,最初的做法是采样,通过采样降低收集之日志量,从而稳定计算集群的载荷和水位,保障EagleEye自身工作的安澜,尽量减少业务峰值对咱的震慑。但是带来的题材啊是鲜明的,统计数据在计算时得考虑采样率估算有实际的数目,在搜集数据量较小且采样率较高的景象下导致聚合后的多寡不规范,无法见业务真实的状态,从而为便失去了那个价值。

啊缓解这类似问题,最初的做法是采样,通过采样降低收集的日志量,从而稳定计算集群的负荷和水位,保障EagleEye自身业务的安定团结,尽量减少业务峰值对咱们的影响。但是带来的题目为是显眼的,统计数据在盘算时要考虑采样率估算出真正的数码,在征集数据量较小且采样率较高之状况下致聚合后底数据未准确,无法表现业务真实的状态,从而为不怕失去了那价。

呢彻底解决业务峰值对EagleEye计算集群的拍,将片实时计算逻辑下没到业务方的机械中,使得业务量和所要采集的日志量解耦,保证计算集群的安澜。具体实现是在业务方的机上先行用数据据指定维度做聚合(一般是以时维度),计算集群采集该统计数据后还集结,极大的长治久安了算集群的载重。

呢彻底解决业务峰值对EagleEye计算集群的冲击,将一些实时计算逻辑下没到业务方的机中,使得业务量和所欲采集的日志量解耦,保证计算集群的风平浪静。具体落实是以业务方的机械上先以数据论指定维度做聚合(一般是为时维度),计算集群采集该统计数据后再度聚集,极大的安居了算集群的载荷。

必威 7

必威 8

图4 计算能力下沉

祈求4 计算能力下沉

计能力下沉,也得领略成用计分布式化,消耗了作业方极小之一律片段资源,保证了EagleEye集群的平稳。而且,集群的计算量不再随着业务量的提高而提高,只以应用范围(应用数量、机器数量)和统计维度的滋长而提高,不见面又起是因为业务量的一刹那峰值导致计算机群的负荷过高之问题,最终使EagleEye在都链路压测和大促期间都能保持平静水位,并且出现精准的多少。

计能力下沉,也得领略成用计分布式化,消耗了工作方极小之同片段资源,保证了EagleEye集群的稳定。而且,集群的计算量不再随着业务量的增长而提高,只以应用范围(应用数量、机器数量)和统计维度的加强而提高,不会见更起是因为业务量的刹那峰值导致计算机群的负荷过高的问题,最终使EagleEye在都链路压测和大促期间都能保障平稳水位,并且出现精准的多少。

场景化链路 
EagleEye一直留心于中件层面的调用,而阿里巴巴的业务量巨大,系统吧比较复杂,所以各有的功力区划比较清晰,中间件层面的一些数据较麻烦和工作数据交互关联,对于链路跟踪、问题一定及对指定业务场景的容量规划相当都产生有难度。

场景化链路 
EagleEye一直专注让中件层面的调用,而阿里巴巴之业务量巨大,系统吧比较复杂,所以每有的功力分比较明晰,中间件层面的局部数目比麻烦和作业数据交互关联,对于链路跟踪、问题一定以及对指定业务场景的容量规划相当都发一些难度。

现年,EagleEye推出场景化链路的职能,开放了增补加业务场景标的力量,类似于压测流量打压测标,对点名的事务于上相应的事情场景标签,并波及该标签下所有的高中级件调用(包括服务、缓存、数据库和信等),一凡是可帮业务方开发同学还好地有别于某个RPC流量中的事体语义,二凡好清楚的梳理出某业务场景标下对应之RPC流量,对分析部分着重指标,如缓存命中率,数据库RT等发较充分的鼎力相助。

今年,EagleEye推出场景化链路的效应,开放了添加业务场景标的力,类似于压测流量打压测标,对点名的工作自及相应之作业场景标签,并涉嫌该标签下所有的中游件调用(包括劳动、缓存、数据库与消息等),一凡可帮业务方开发同学再次好地分别某个RPC流量中之业务语义,二是好清晰的梳理出有业务场景标下对应的RPC流量,对分析有重大指标,如缓存命中率,数据库RT等产生于生之帮带。

必威 9

必威 10

祈求5 流量场景标

希冀5 流量场景标

依据这数,也足以重好的复盘全链路压测数据。在压测之前(也堪在常态下)对第一业务由上点名的竹签,压测后透过各个工作场景的流量得出相应之属性基线,更好的定势核心链路中之题材和性能拼劲,提高压测的效率与价值。 
精细化监控 
EagleEye的链路数据对问题之意识和定点有所显要的图,更加助长的数量形式以及呈现对增高意识的效率有举世瞩目的晋升。

基于此数额,也得再好的复盘全链路压测数据。在压测之前(也可当常态下)对关键业务于及点名的签,压测后经过各业务场景的流量得出相应之性基线,更好的固定核心链路中之题目同性拼劲,提高压测的频率及价值。 
精细化监控 
EagleEye的链路数据对于问题的觉察同定位有所显要的来意,更加长的数形式和表现对增进发现的效率来拨云见日的升官。

于普双十一备战过程被,遇到并解决了广大疑难杂症。其中,单机问题占了生非常之比重。在分布式系统中,单机问题是于常见的平近似题材,
由于此类问题往往与业务代码不直接有关,与容器或者机器来得的关联性,且出现的票房价值比小,有必然之随机性,导致拖欠问题反复比麻烦破除查。实际业务的见可能是RT的震动,也说不定是小概率的错误等等。

在任何双十一备战过程被,遇到并缓解了诸多疑难杂症。其中,单机问题占了杀十分的比例。在分布式系统中,单机问题是于广泛的一致近似题目,
由于此类问题往往和业务代码不直有关,与容器或者机器来得之关联性,且出现的概率比小,有自然之随机性,导致该问题屡屡比较为难排除查。实际工作的见可能是RT的震动,也或是小概率的荒唐等等。

EagleEye的调用链虽然可快捷定位此类问题,但是调用链是立在单次请求的见识上,在稳定到某某IP之后非常可能还得再行分析更多之多少才能够开决定,针对此类的题目,EagleEye提供了错误TopN分布及系统热点图等功效,帮助业务方开发同学快速定位问题。针对单机故障,往往对于整体的指标影响不要命,通过采取级别的监察数据比难定位,EagleEye在流计算吃统计了动用各个机器的不当情况,汇总并排序有Top10之机,一旦出现单机故障,可以很扎眼的定位到现实的IP,并且根据拖欠IP对应的错误数量得以快速做出裁定,缩短了付出同学排查问题之工夫。系统热点图在压测和大促期间对网健康度的呈现格外清楚,一凡得清楚看到是否是去群点的机器,二凡是可证明流量的去向是否科学。

EagleEye的调用链虽然可以长足定位此类问题,但是调用链是立在单次请求的视角上,在稳到某IP之后好可能还欲还分析还多之数码才能够举行定夺,针对此类的问题,EagleEye提供了左TopN分布与系统热点图等作用,帮助业务方开发同学快速定位问题。针对单机故障,往往对整体的指标影响不慌,通过应用级别的监督数据比较为难定位,EagleEye在流计算着统计了采用各个机器的错误情况,汇总并排序有Top10底机器,一旦出现单机故障,可以挺引人注目的固化到具体的IP,并且根据该IP对应的谬误数量好快捷做出决定,缩短了支付同学排查问题之日子。系统热点图在压测和大促期间对系统健康度的见十分清晰,一是好清楚看出是否留存去群点的机,二凡足以证实流量的去向是否对。

必威 11

必威 12

贪图6 系统热点图

图6 系统热点图

再增长的生态 
于阿里巴巴,EagleEye是平等慢性问题排查的利器,一直服务为业务方的同桌帮其迅速发现并定位问题,降低故障的持续时间,提升开发和运维效率。其实,EagleEye底层还隐含着同份海量的数目,在靠近平年遭受,我们不断地使同打这卖数据的意思,希望表达其再怪之值,同时为欲基于这些数量建立平等模拟生态系统,帮助用户还好发展事务,期间为孕育发生多闹价之产品,为集团的技能进步下了根基。

还增长的生态 
每当阿里巴巴,EagleEye是平慢性问题排查的利器,一直服务被业务方的同桌帮该高速发现并定位问题,降低故障的持续时间,提升开发及运维效率。其实,EagleEye底层还富含着一样客海量的多寡,在邻近平年被,我们不断地使用同打这卖数据的意思,希望发挥其再不行的价值,同时为要基于这些多少建立平等模仿生态系统,帮助用户还好发展业务,期间为孕育出广大产生价的活,为集团的技术提高下了基础。

天秤项目:天秤基于EagleEye的观数据和中间间件、系统指标等监督数据,结合其他多款监控产品构建一个网稳定解决方案,意在缓解问题很快发现同精准定位、大促常态化、压测常态化等问题。

龙秤项目:天秤基于EagleEye的观数据以及中间件、系统指标等监督数据,结合其他多款监控产品构建一个体系稳定解决方案,意在化解问题迅速发现与精准定位、大促常态化、压测常态化等题材。

侦察员计划 –
更轻量化的全链路压测:尖兵计划基于EagleEye的中级件、系统指标与压测数据,实现常态化全链路压测和问题意识,是涵养双十一以及全链路压测顺利的很杀器之一,相比去年八不良均链路压测,今年条件加倍复杂,但是就需要三糟糕净链路压测就好目标,为集团节省上千个人工,大幅提升交付上线质量与大促效率。

便衣计划 –
更轻量化的全链路压测:尖兵计划基于EagleEye的中等件、系统指标及压测数据,实现常态化全链路压测和题材必威发现,是保障双十一暨全链路压测顺利的特别杀器之一,相比去年八不良全链路压测,今年条件加倍复杂,但是单需要三糟糕都链路压测就成功目标,为集团节省上千独人工,大幅升级交付上线质量和大促效率。

精准回归:依托EagleEye调用链采集与计量的力,实现了测试用例精准推荐的效力,并于一部分采用的精准测试着节省了50%~70%底测试时间。精准测试通过EagleEye采集,数据回流的方案的出口,在大面积使用及(千万链路)做到了测试用例与使用代码链路的准实时别。

精准回归:依托EagleEye调用链采集与计算的能力,实现了测试用例精准推荐的功效,并于片以之精准测试中节省了50%~70%底测试时。精准测试通过EagleEye采集,数据回流的方案的出口,在普遍利用达到(千万链路)做到了测试用例与运代码链路的准实时别。

圣图项目:天图依赖了一部分EagleEye的链路数据,为用户提供面向复杂工作链路、高度分布式架构下之Application
Performance Management
(APM)方案,以全面、实时、可视化、智能的章程叫您速了解下及事务链路的全貌。

圣图项目:天图依赖了有EagleEye的链路数据,为用户提供面向复杂工作链路、高度分布式架构下的Application
Performance Management
(APM)方案,以健全、实时、可视化、智能的点子于您速了解下及工作链路的全貌。

结语 
本年的双十一凡平坏到的双十一,可以说凡是技巧集团的那个取全胜,EagleEye在这次大考中也交出了相同客像样完美的答卷,无论是以备链路压测中还是双十一当天,系统的平静与数据的实时性都达到了预想,为业务方的提供了有力的支撑,提高了问题排查的效率。

结语 
当年之双十一凡均等坏全面的双十一,可以说凡是技巧集团的坏收获全胜,EagleEye在这次大考中为交出了同等客像样完美的答卷,无论是以备链路压测中尚是双十一当天,系统的安静与数码的实时性都上了预想,为业务方的提供了精的支撑,提高了问题排查的效率。

然而,未来之行程还大丰富,智能化的上扬步伐越来越快,业务方对EagleEye的数目质量的渴求吗更大,今后EagleEye会专注让架构的朝三暮四和智能化的促进,进一步提高问题一定的效率,更好之支持起基于链路数据的均等切开生态。

而,未来底路途还好丰富,智能化的开拓进取步伐越来越快,业务方对EagleEye的数据质量的要求为更高,今后EagleEye会专注让架构的多变和智能化的促进,进一步提高问题一定的频率,更好之支撑起基于链路数据的均等片生态。

相关文章

Leave a Comment.