Linux内核进程调度器-CPU负载

背景

Read the fucking source code! --By 鲁迅
A picture is worth a thousand words. --By 高尔基

说明：

Kernel版本：4.14
ARM64处理器，Contex-A53，双核
使用工具：Source Insight 3.5， Visio

1. 概述

CPU负载（cpu load）指的是某个时间点进程对系统产生的压力。来张图来类比下（参考Understanding Linux CPU Load）

CPU的运行能力，就如大桥的通行能力，分别有满负荷，非满负荷，超负荷 等状态，这几种状态对应不同的cpu load值；
单CPU满负荷运行时cpu_load为1，当多个CPU或多核时，相当于大桥有多个车道，满负荷运行时cpu_load值为CPU数或多核数；
CPU负载的计算（以单CPU为例），假设一分钟内执行10个任务代表满负荷，当一分钟给出30个任务时，CPU只能处理10个，剩余20个不能处理，cpu_load=3；

在实际系统中查看：

cat /proc/cpuinfo：查看CPU信息；
cat /proc/loadavg：查看cpu最近1/5/15分钟的平均负载：

计算CPU负载 ，可以让调度器更好的进行负载均衡处理，以便提高系统的运行效率。

此外，内核中的其他子系统也可以参考这些CPU负载值来进行相应的调整，比如DVFS等。

目前内核中，有以下几种方式来跟踪CPU负载：

全局CPU平均负载；
运行队列CPU负载；
PELT（per entity load tracking）;

这也是本文需要探讨的内容，开始吧。

需要的小伙伴私信回复内核免费领取

2. 全局CPU平均负载

2.1 基础概念

先来明确两个与CPU负载计算相关的概念

（1）active task（活动任务）：只有知道活动任务数量，才能计算CPU负载，而活动任务包括了TASK_RUNNING和TASK_UNINTERRUPTIBLE两类任务。包含TASK_UNINTERRUPTIBLE任务的原因是，这类任务经常是在等待I/O请求，将其包含在内也合理；

（2）NO_HZ ：我们都知道Linux内核每隔固定时间发出timer interrupt，而HZ是用来定义1秒中的timer interrupts次数，HZ的倒数是***tick*** ，是系统的节拍器，每个tick会处理包括调度器、时间管理、定时器等事务。周期性的时钟中断带来的问题是，不管CPU空闲或繁忙都会触发，会带来额外的系统损耗 ，因此引入了NO_HZ模式，可以在CPU空闲时将周期性时钟关掉。在NO_HZ期间，活动任务数量的改变也需要考虑，而它的计算不如周期性时钟模式下直观。

2.2 流程

Linux内核中定义了三个全局变量值avenrun[3]，用于存放最近1/5/15分钟的平均CPU负载。

看一下计算流程：

计算活动任务数，这个包括两部分：1）周期性调度中新增加的活动任务；2）在NO_HZ期间增加的活动任务数；
根据活动任务数值，再结合全局变量值avenrun[]中的old value，来计算新的CPU负载值，并最终替换掉avenrun[]中的值；
系统默认每隔5秒钟会计算一次负载，如果由于NO_HZ空闲而错过了下一个CPU负载的计算周期，则需要再次进行更新。比如NO_HZ空闲20秒而无法更新CPU负载，前5秒负载已经更新，需要计算剩余的3个计算周期的负载来继续更新；

2.3 计算方法

Linux内核中，采用11位精度的定点化计算，CPU负载1.0由整数2048表示，宏定义如下：

#define FSHIFT          11		             /* nr of bits of precision */
#define FIXED_1         (1<

计算公式如下：


load值为旧的CPU负载值avenrun[]，整个计算完成后得到新的负载值，再更新avenrun[]；
EXP_1/EXP_5/EXP_15，分别代表最近1/5/15分钟的定点化值的指数因子；
active值，根据读取calc_load_tasks的值来判断，大于0则乘以FIXED_1(2048)传入；
根据active和load值的大小关系来决定是否需要加1，类似于四舍五入的机制；
关键代码如下：
active = atomic_long_read(&calc_load_tasks);
	active = active > 0 ? active * FIXED_1 : 0;
 
	avenrun[0] = calc_load(avenrun[0], EXP_1, active);
	avenrun[1] = calc_load(avenrun[1], EXP_5, active);
	avenrun[2] = calc_load(avenrun[2], EXP_15, active);
NO_HZ模式下活动任务数量更改的计算 由于NO_HZ空闲效应而更改的CPU活动任务数量，存放在全局变量calc_load_nohz[2]中，并且每5秒计算周期交替更换一次存储位置(calc_load_read_idx/calc_load_write_idx)，其他程序可以去读取最近5秒内的活动任务变化的增量值。
计算示例 假设在某个CPU上，开始计算时load=0.5，根据calc_load_tasks值获取不同的active，中间进入NO_HZ模式空闲了20秒，整个计算的值如下图：
3. 运行队列CPU负载
Linux系统会计算每个tick的平均CPU负载，并将其存储在运行队列中rq->cpu_load[5]，用于负载均衡 ；
下图显示了计算运行队列的CPU负载的处理流程：
最终通过cpu_load_update来计算，逻辑如下：
其中传入的this_load值，为运行队列现有的平均负载值。
上图中的衰减因子，是在NO_HZ模式下去进行计算的。在没有使用tick时，从预先计算的表中计算负载值。Linux内核中定义了两个全局变量：
#define DEGRADE_SHIFT		7
 
static const u8 degrade_zero_ticks[CPU_LOAD_IDX_MAX] = {0, 8, 32, 64, 128};
static const u8 degrade_factor[CPU_LOAD_IDX_MAX][DEGRADE_SHIFT + 1] = {
	{   0,   0,  0,  0,  0,  0, 0, 0 },
	{  64,  32,  8,  0,  0,  0, 0, 0 },
	{  96,  72, 40, 12,  1,  0, 0, 0 },
	{ 112,  98, 75, 43, 15,  1, 0, 0 },
	{ 120, 112, 98, 76, 45, 16, 2, 0 }
};
衰减因子的计算主要是在delay_load_missed()函数中完成，该函数会返回 load * 衰减因子 的值，作为上图中的old_load。计算方式如下：
4. PELT
PELT, Per-entity load tracking 。在Linux引入PELT之前，CFS调度器在计算CPU负载时，通过跟踪每个运行队列上的负载来计算；在引入PELT之后，通过跟踪每个调度实体的负载贡献来计算。（其中，调度实体：指task或task_group）
4.1 PELT计算方法
总体的计算思路：将调度实体的可运行状态时间（正在运行+等待CPU调度运行），按1024us划分成不同的周期，计算每个周期内该调度实体对系统负载的贡献，最后完成累加。其中，每个计算周期，随着时间的推移，需要乘以衰减因子y进行一次衰减操作。
先来看一下每个调度实体的负载贡献计算公式：
当前时间点的负载贡献 = 当前时间点负载 + 上个周期负载贡献 * 衰减因子；
假设一个调度实体被调度运行，运行时间段可以分成三个段d1/d2/d3，这三个段是被1024us的计算周期分割而成，period_contrib是调度实体last_update_time时在计算周期间的贡献值，；
总体的贡献值，也是根据d1/d2/d3来分段计算，最终相加即可；
y为衰减因子，每隔1024us就乘以y来衰减一次；
计算的调用流程如下图：
函数主要是计算时间差，再分成d1/d2/d3来分段计算处理，最终更新相应的字段；
decay_load函数要计算val * y^n，内核提供了一张表来避免浮点运算，值存储在runnable_avg_yN_inv数组中；
static const u32 runnable_avg_yN_inv[] = {
	0xffffffff, 0xfa83b2da, 0xf5257d14, 0xefe4b99a, 0xeac0c6e6, 0xe5b906e6,
	0xe0ccdeeb, 0xdbfbb796, 0xd744fcc9, 0xd2a81d91, 0xce248c14, 0xc9b9bd85,
	0xc5672a10, 0xc12c4cc9, 0xbd08a39e, 0xb8fbaf46, 0xb504f333, 0xb123f581,
	0xad583ee9, 0xa9a15ab4, 0xa5fed6a9, 0xa2704302, 0x9ef5325f, 0x9b8d39b9,
	0x9837f050, 0x94f4efa8, 0x91c3d373, 0x8ea4398a, 0x8b95c1e3, 0x88980e80,
	0x85aac367, 0x82cd8698,
};
Linux中使用struct sched_avg来记录调度实体和CFS运行队列的负载信息，因此struct sched_entity和struct cfs_rq结构体中，都包含了struct sched_avg，字段介绍如下：
struct sched_avg {
	u64				last_update_time;       //上一次负载更新的时间，主要用于计算时间差；
	u64				load_sum;                   //可运行时间带来的负载贡献总和，包括等待调度时间和正在运行时间；
	u32				util_sum;                     //正在运行时间带来的负载贡献总和；
	u32				period_contrib;           //上一次负载更新时，对1024求余的值；
	unsigned long			load_avg;           //可运行时间的平均负载贡献；
	unsigned long			util_avg;           //正在运行时间的平均负载贡献；
};
4.2 PELT计算调用
PELT计算的发生时机如下图所示：
调度实体的相关操作，包括入列出列操作，都会进行负载贡献的计算；
PELT的算法还在持续的改进中，各个内核版本也存在差异，大体的思路已经在上文中介绍到了，细节就不再深入分析了。




展开阅读全文

更新时间：2024-09-14

标签：负载   内核   队列   因子   实体   周期   进程   平均   贡献   时间   系统


1
2
3
4
5




	
		
		
		
		
			
			普通人如何高效使用微信来赚钱？
			
			
			最近阅读了一本书，《微信互联网平民创业》，作者李笑来。 一、作者简介李笑来，著名天使投资人，原新东方名师，得到 App 专栏《通往财富自由之路》作者，畅销书作家。著有《把时间当作朋友》、《新生——七年就是一辈子》、《TO
			
		
	
	
		
		
		
		
			
			告诉你如何不到一秒完成离线人脸识别，还有防欺骗功能
			
			
			原创：Stephen Evanczuk＠DigiKey得捷电子人脸识别在验证智能手机访问权方面已经得到了广泛认可，但在其他领域还没有得到更广泛地应用，尽管这项技术极具效率且易于使用。在实现可靠的低成本机器学习解决方案方面，除了存在技
			
		
	
	
		
		
		
		
			
			新能源汽车的中场战事：充电桩剩者为王
			
			
			人生若只如初见，何事秋风悲画扇。8月31日，港交所文件显示，巴菲特旗下伯克希尔哈撒韦公司在8月24日出售了133万股比亚迪H股，涉资近3.7亿港元，并打响了狙击新能源汽车的第一枪。同时，我也写了一篇《巴菲特减持比亚迪，打响狙击
			
		
	
	
		
		
		
		
			
			新型海水电解催化剂可同时完成氢气生产与海水淡化 - 科技导报
			
			
			电化学重建是生成高活性OER催化剂的强大工具，利用电化学重建在HER催化剂基础上制备OER活性催化剂，可以开发出同时具有最先进的HER和OER活性的双功能催化剂。美国休斯顿大学任志锋团队在泡沫镍上合成了用于HER反应的Fe掺
			
		
	
	
		
		
		
		
			
			瞭望元宇宙｜沉浮不定的VR产业，能否打开元宇宙大门？
			
			
			21世纪经济报道记者 孙煜 南方财经全媒体记者 吴立洋 北京报道编者按元宇宙（Metaverse），这个来源于科幻小说的概念，已成为真实世界中的流行语。围绕这一新兴概念，一场产、学、研的实践正在展开。数字化转型中，元宇宙能否担
			
		
	
	
		
		
		
		
			
			全方位解读Web3加密钱包：发展演变、市场现状、细分赛道
			
			
			如果说互联网的普及和发展造就了移动支付，那么 Web3 的到来则书写了加密支付的新篇章，并将加密钱包的发展推向新高潮。传统电子钱包的功能是储存资产与移动支付。加密钱包在储存资产与移动支付的基础上，增加了身份标识的
			
		
	
	
		
		
		
		
			
			歌尔股份业绩大修，苹果砍单影响显现，员工持股计划下调考核目标
			
			
			21世纪经济报道记者 张赛男 上海报道受砍单影响，歌尔股份(002241.SZ)下修2022年业绩预告。其前次业绩预告显示，预计2022年公司实现净利润区间为盈利40.6亿元–47亿元，比上年同期增长-5%–10%；扣除非经常性损益后的净利润
			
		
	
	
		
		
		
		
			
			海马汽车：前11月累计销量22263台，同比下降18.37%
			
			
			海马汽车12月6日披露2022年11月份产销数据，当月合计产量为2542台，同比增长26.22%；销量为2591台，同比增长23.97%。2022年1-11月，累计产量为21680台，同比下降19.29%；累计销量为22263台，同比下降18.37%。
			
		
	
	
		
		
		
		
			
			广州、上海、郑州等多地银行可延期还房贷，延长期最多1年
			
			
			（文/观察者网 张志峰）近日，多家媒体报道广州市落实“金融16条”政策，多银行推出个人房贷延期还款服务引发公众关注。因个人受疫情影响程度不同，还款延长期限最长可达12个月。 观察者网了解到，除广州之外，目前上海、郑州等多
			
		
	
	
		
		
		
		
			
			金融、科技业“大裁员”，折射美国经济正面临衰退风险
			
			
			孙立鹏 中国现代国际关系研究院美国所副研究员近几个月，美国推特、Meta、亚马逊等科技互联网企业纷纷裁员，且这种趋势已经蔓延到金融、房地产等行业，加剧了市场对美国经济衰退的预期。但也要看到，美国劳工部发布的最新就
			
		
	
	
		
		
		
		
			
			全国快递日均业务量复苏提速 重回3亿件以上
			
			
			新华社北京12月5日电（记者戴小河）国家邮政局监测数据显示，11月27日以来，全国快递日均业务量连续稳步上涨，特别是12月2日至4日，连续三天日均超3亿件，实现迅速反弹。国家邮政局有关负责人介绍，从部分快递网点暂停运营、快件积压
			
		
	
	
		
		
		
		
			
			盛新锂能定增结果：比亚迪20亿元认购本次定增，其董秘为公司董事
			
			
			12月6日晚间，盛新锂能披露定增情况报告书，本次发行的募集资金总额为20亿元，扣除本次发行费用1091.87万元（不含增值税）后，募集资金净额为19.89亿元。公告显示，本次非公开发行股票发行对象为比亚迪股份有限公司。发行价格为 42
			
		
	
	
		
		
		
		
			
			以岭药业放大招，千亿巨头回应分拆上市，明天有利好发布
			
			
			今天大A尾盘拉红了，资金还是很讲政治的！但个股有点稀烂，只有三分之一是涨的，高位票更是炸板潮，一度炸板率接近60%，说明资金开始恐高了。最惨的股民，昨天打板深振业，今天地板割，反手打板永顺泰，直接60%没了！还有来伊份20cm的面，很
			
		
	
	
		
		
		
		
			
			华夏银行：一场与不良资产的4年苦战
			
			
			 作为一家地处首善之都的福地，占尽天时地利，上市已经长达近20年之久的老牌股份制银行 —— 华夏银行，在很长一段时间，一直在不良资产的 “ 泥潭 ”中苦苦挣扎，背后有着怎样的艰辛？先从华夏银行近期的一则重大人事变动说起。
			
		
	
	
		
		
		
		
			
			中国中铁，时隔8年，正在重演历史
			
			
			中国中铁，像一只沉睡的大象，躺在资本市场里面，多年来很少有人问津，并有80万股民黯然离场。然而，细心的人们会发现一个有趣的现象。在2020年春节之后，中国中铁的股价已经停止了下跌，但股东户数反而继续下降，这说明，有些聪明钱正
			
		
	
上滑加载更多 ↓
所有内容加载完毕

Linux内核进程调度器-CPU负载

目录

背景

1. 概述

2. 全局CPU平均负载

2.1 基础概念

2.2 流程

2.3 计算方法

3. 运行队列CPU负载

4. PELT

4.1 PELT计算方法

4.2 PELT计算调用

普通人如何高效使用微信来赚钱？

告诉你如何不到一秒完成离线人脸识别，还有防欺骗功能

新能源汽车的中场战事：充电桩剩者为王

新型海水电解催化剂可同时完成氢气生产与海水淡化 - 科技导报

瞭望元宇宙｜沉浮不定的VR产业，能否打开元宇宙大门？

全方位解读Web3加密钱包：发展演变、市场现状、细分赛道

歌尔股份业绩大修，苹果砍单影响显现，员工持股计划下调考核目标

海马汽车：前11月累计销量22263台，同比下降18.37%

广州、上海、郑州等多地银行可延期还房贷，延长期最多1年

金融、科技业“大裁员”，折射美国经济正面临衰退风险

全国快递日均业务量复苏提速重回3亿件以上

盛新锂能定增结果：比亚迪20亿元认购本次定增，其董秘为公司董事

以岭药业放大招，千亿巨头回应分拆上市，明天有利好发布

华夏银行：一场与不良资产的4年苦战

中国中铁，时隔8年，正在重演历史

航空发动机控制系统龙头，航发控制：产业地位突出，成长潜力

金融持续发力支持实体经济

韩国主帅不要脸了！质疑巴西队末轮轮换，比韩国队休息时间

央行年内第二次降准落地新增5000亿元支持实体经济

航天新征程｜对接时间不断缩短见证中国航天新跨越

篮球世界杯抽签时间确定！中国男篮是被日菲算计还是涅槃

保罗-本托抱怨赛程：备战巴西的时间只有72小时，这显然不

基于SpringBoot+bootstrap的自动化运维系统

留给华为的时间不多了！年底将有10亿人连接到5G，如何破局

新型实体企业力促数实整合