更新时间： 2023-03-08 01:47:51

#服务器观测指标 TP90 P90

最常用的主要有P50(中位数)、P95、P99。平均值一般不具有参考价值

TP=Top Percentile，Top百分位数，是一个统计学里的术语，与平均数、中位数都是一类。

P50: 即中位数值。100个请求按照响应时间从小到大排列，位置为50的值，即为P50值。如果响应时间的P50值为200ms，代表我们有半数的用户响应耗时在200ms之内，有半数的用户响应耗时大于200ms。如果你觉得中位数值不够精确，那么可以使用P95和P99.9

P95：响应耗时从小到大排列，顺序处于95%位置的值即为P95值。

P99.9：许多大型的互联网公司会采用P99.9值，也就是99.9%用户耗时作为指标，意思就是1000个用户里面，999个用户的耗时上限，通过测量与优化该值，就可保证绝大多数用户的使用体验。至于P99.99值，优化成本过高，而且服务响应由于网络波动、系统抖动等不能解决之情况，因此大多数时候都不考虑该指标。

#如何计算百分位数

平均值之所以会成为大多数人使用衡量指标，其原因主要在于他的计算非常简单。请求的总耗时/请求总数量就可以得到平均值。而P值的计算则相对麻烦一些。

按照传统的方式，计算P值需要将响应耗时从小到大排序，然后取得对应百分位之值。

如果服务qps较低，例如：100/秒，我们计算这1s内的P值，就记录这100请求的耗时数据，然后排序，然后取得P分位值，并非难事。但如果我们要计算1h内的p值呢，就是要对360000的数据进行排序然后取得P分位值。而如果对于一些用户量更大的系统，例如：QPS 30万/秒，那么1h内的p值如果还是采用记录+排序的方式，就是要对十个多亿的数据进行排序，可想而知需要消耗多么大的内存与计算资源。

#那么有没有简单的计算方式呢？

可以采用分桶计算的方式，即一个耗时范围一个桶，该计算方式虽不是完全准确值，但精度非常高，误差较小。

首先需要界定每个桶的跨度，可以采用等分形式，例如对于耗时统计需求，我们可以假定一个耗时上界，然后等分成N个区间，如下图，如果响应耗时在30ms则落在0-50ms的桶内，如果响应时间在80ms则落在50-100ms的桶内，以此类推。

这样就避免了对全部数据进行排序，只需要根据各个桶中的数据数量，即可计算出95%位置位于哪个桶，例如需要计算95线时，就从最大的桶开始剔除，当数量超过5%的时候，那个桶的值就是95线。然后在桶的内部采用插值方法，也可以通过桶内平均的方式来计算出一个相对精确的P95值。

此外，考虑到数据分布特点，服务耗时异常数据应该只是少数，但是异常值跨度可能很大，大部分耗时数据均靠近正常值，如果采用桶等分的形式，可能会导致大量数据堆积在一个桶内中，又如何解决这个问题？

其实可以采用非等分的跨度划分方式，例如采用指数形式划分，耗时越低的区间，跨度越小，精度约高。

此外也可以采用美团点评的实时监控系统cat的桶跨度划分方式，代码如下：

public static int computeDuration(int duration) {
        if (duration < 1) {
            return 1;
        } else if (duration < 20) {
            return duration;
        } else if (duration < 200) {
            return duration - duration % 5;
        } else if (duration < 500) {
            return duration - duration % 20;
        } else if (duration < 2000) {
            return duration - duration % 50;
        } else if (duration < 20000) {
            return duration - duration % 500;
        } else if (duration < 1000000) {
            return duration - duration % 10000;
        } else {
            int dk = 524288;

            if (duration > 3600 * 1000) {
                dk = 3600 * 1000;
            } else {
                while (dk < duration) {
                    dk <<= 1;
                }
            }
            return dk;
        }
}

即：小于20ms的时候1ms一个桶，大于20ms小于200ms的时候5ms一个桶，大于200ms小于500ms的时候20ms一个桶，以此类推！而桶的值也可以作为百分位数的近似值，而无需进行排序计算，这个时候约耗时越小的时候，精度越准确！

作者：随心所于出处：https://www.cnblogs.com/hunternet/p/14354983.html