基于改进深度确定性梯度算法的AGC发电功率指令分配方法

admin 2023年2月21日12:59:41评论61 views字数 3932阅读13分6秒阅读模式

原文作者:李嘉文,余涛,张孝顺,朱翰鑫

原文标题:基于改进深度确定性梯度算法的AGC发电功率指令分配方法

原文链接:

https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDLAST2021&filename=ZGDC202121002&uniplatform=NZKPT&v=3UDY-INjhgrMKJAtav2tDn0-0WGBEtLE012BSLH9gOqQEQ8U8EG_X814s4gTxF7f

原文来源:知网、《中国电机工程学报》,2021,41(21)

笔记作者:阿男学长


1.  What

本文发表于2020年,是将自动发电控制(AGC)与深度强化学习算法相结合的一篇论文。

原文作者以传统AGC调频单元(火电机组和水电机组)AGC指令响应延迟大、发电率低、跟踪不够迅速做为发起点,结合当下调频服务市场环境建立了综合能源系统的自动发电控制的发电功率指令分配算法优化模型,采用改进的深度确定性梯度算法,对两个存在矛盾性的目标函数进行优化求解,最终得出AGC指令分配最优解。


2.  Why

包括以下几方面原因:

1)电力系统可再生能源渗透率逐渐升高,仍沿用传统机组调频方式,难以应对调频资源不足问题,导致控制效果不佳、CPS指标差等问题。

2)传统AGC发电功率指令动态分配方式无法同时满足调频性能和经济性要求,针对此方面的研究尚少。

3)AGC调频是高度非线性过程,常规优化算法求解该问题容易陷入局部最优。


3.  How

3.1基于调频辅助服务市场的综合能源系统AGC发电功率指令动态分配的数学模型

3.1.1基于调频市场的综合能源系统AGC框架

原文作者在频率辅助服务市场环境下,建立综合能源系统的自动发电控制的AGC发电功率指令分配算法优化模型,其中AGC调节单元包括煤电机组、燃气机组、水电机组、风电机组、光伏机组、P2G等,属于大型的综合能源AGC系统。

基于改进深度确定性梯度算法的AGC发电功率指令分配方法

图1 综合能源系统构成

首先,通过控制器如PI控制器(proportion integration controller),以区域控制偏差(area control errorACE) 作为控制器的输入,跟踪实时负荷扰动,输出总AGC发电功率指令。然后,电网调度中心将根据发电功率指令的动态分配算法,将AGC总发电功率指令分配给所有的AGC调频单元。

基于改进深度确定性梯度算法的AGC发电功率指令分配方法

图2 基于调频市场的综合能源系统AGC框架

3.1.2调频里程及补偿费用计算

调频里程是根据电网调度中心实时分配的AGC 发电功率指令来判断各AGC调频单元实际调节量的一种新的量化指标(为方便大家阅读和理解,我将部分公式转义为中文表达式),调频里程表达式为:

调频里程=|指令结束时出力-指令开始时出力|

单个机组调频里程费用=调频里程价格 × 综合调频性能指标分值 × 调频里程

其中,综合调频性能指标分值反映调频性能的参数,与调节速率、响应时间、调节精度有关。

综合调频性能指标分值=调节速率分值×ω1 + 响应时间分值×ω2 + 调节精度分值×ω3

其中,ω1、ω2、ω3表示各分值构成部分所占权重。

3.1.3目标函数

为实现实现AG发电功率指令分配的动态性能与经济性综合效益最优,作者将目标函数分解为两部分:总AGC发电功率指令与所有机组的总机组出力之间的总功率偏差最小和总调频里程补偿费用最小,表达式为:

基于改进深度确定性梯度算法的AGC发电功率指令分配方法     (1)

该模型涉及的各项约束条件均参考传统AGC调频过程。

4.2基于多经验池概率回放的双延迟深度确定性策略梯度算法的AGC发电功率指令分配动态优化方法

4.2.1强化学习

为便于通俗理解强化学习的基本概念,有关强化学习的定义及解释引自《知乎》/强化学习 (Reinforcement Learning)话题/百科。

根据维基百科对强化学习的定义:Reinforcement learning (RL) is an area of machine learning inspired by behaviorist psychology, concerned with how software agents ought to take actions in an environment so as to maximize some notion of cumulative reward. (强化学习是机器学习领域之一,受到行为心理学的启发,主要关注智能体如何在环境中采取不同的行动,以最大限度地提高累积奖励。)

基于改进深度确定性梯度算法的AGC发电功率指令分配方法

图3 强化学习交互方式

强化学习主要由智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)组成。智能体执行了某个动作后,环境将会转换到一个新的状态,对于该新的状态环境会给出奖励信号(正奖励或者负奖励)。随后,智能体根据新的状态和环境反馈的奖励,按照一定的策略执行新的动作。

智能体通过强化学习,可以知道自己在什么状态下,应该采取什么样的动作使得自身获得最大奖励。由于智能体与环境的交互方式与人类与环境的交互方式类似,可以认为强化学习是一套通用的学习框架,可用来解决通用人工智能的问题。因此强化学习也被称为通用人工智能的机器学习方法。

4.2.2双延迟深度确定性策略梯度算法

双延迟深度确定性策略梯度算(twin delayed deep deterministic policy gradient,TD3)是一种 actor-critic(行动者–评论家)框架的深度强化学习算法,在传统的深度确定性策略梯度算法的基础上拓展而来。为了解决 actor-critic 框架算法中的Q值过估计问题,TD3采用3个关键技术提高算法的稳定性和性能,分别是:

1)actor-critic框架下的剪裁双Q学习

2)策略延迟更新

3)目标策略平滑正则化

4.2.3多经验池概率回放的双延迟深度确定性策略梯度算法

作者为降低训练成本,提出了多经验池概率回放的双延迟深度确定性策略梯度算法 (multiple experience pool experience replay twin delayed deep deterministic policy gradient,ME-TD3)创新点是对不同重要性程度经验样本分类存放,在网络模型学习时分别采用不同概率从不同缓冲经验池中选取每批次样本数据。根据经验样本中的立即奖励值对样本进行分类,认为立即奖励值大的经验样本重要性程度更高,对于重要性程度高的经验样本每批次以较大的概率选取,同时为保证样本数据多样性,每批次以较小的概率选取少量立即奖励值小、重要性程度低的经验样本。

多经验池概率回放的双延迟深度确定性策略梯度算法框架如图所示:

基于改进深度确定性梯度算法的AGC发电功率指令分配方法

图4 多经验池概率回放的双延迟深度确定性策略梯度算法框架

4.3基于ME-TD3发电功率指令动态分配算法AGC系统设计

4.3.1AGC控制器

AGC控制器仍采用PI控制器计算区域当前应该发出的AGC总发电功率指令,并输入至基于 ME-TD3 算法的发电功率指令动态分配算法

4.3.2ME-TD3发电功率指令动态分配算法

根据系统所处的状态计算出相应奖励值,将当前系统环境的状态量作为区域电网ME-TD3发电功率指令动态分配算法的输入,算法则在每个控制周期中,给出最优分配信号,输出一组连续的动作,动作为分配至n-1个机组的分配因子,该分配因子随着电网状态变化而变化,n个机组的AGC发电功率指令等于PI控制器输出的AGC发电功率指令和对应分配因子之积。

基于改进深度确定性梯度算法的AGC发电功率指令分配方法

图5 基于ME-TD3发电功率指令分配算法AGC系统
首先 ME-TD3 算法需要先进行预学习即离线训练,在预学习阶段,对电网施加负荷扰动。此时AGC控制时间周期为4s,每过4s根据当前电网状态ME-TD3算法输出一组动作(分配因子)到电网中的机组与电网进行交互产生训练样本,将这些训练样本按照回放经验标准存入经验池组中,同时使用多经验池概率回放的方式抽取样本对智能体进行离线训练。通过大量的离线训练,训练出一种可以满足随机环境下的控制性能和调节经济性综合最优的策略。

4.  Conclusion

利用算法对经验池进行分类,并采用不同概率从不同经验池采样来训练,提高了智能体的训练效率,也增加了智能体的寻优正确率。

1)相对于传统的发电功率指令分配算法-PROP算法,在多机组大电网的环境下,具有动态性能好、经济效益优的优点。

2)通过模型对比可得出,ME-TD3算法可以显著降低系统频率偏差、总功率偏差、获得最高的CPS1值。



5.  Review

论文篇幅巨大,涉及的很多标准、系数的计算公式,本文并未一一介绍,有兴趣的同学可以参照原文了解。

传统AGC本身就是根据电力系统供用电偏差采用二次调频的方式,帮助系统维持在额定范围内的动态平衡状态,属于滞后控制应用。因此,如果将机器学习等算法成熟应用于AGC控制策略,在帮助系统有效利用调频资源及时将系统偏差进行超前干预,对系统稳定、经济运行和抑制扰动都具有一定积极作用。总结来说,作者提出采用强化学习求解AGC指令动态分配的方法,虽然目前只是仿真训练阶段,但结合了某省电力系统结构、调频单元模型等进行仿真训练,具有一定的理论指导意义。

为保证电力系统的稳定运行,系统对AGC的调节性能指标有着严格要求和约束,主要包括机组的响应时间、调节速度和调节精度。若将上述指标结合到强化学习当中,势必会增加算法学习成本,这就关系到强化学习的自身弱点和局限;强化学习采样效率堪忧,需要大量数据进行训练,以目前强化学习的能力还不能承担AGC核心控制任务。但是,强化学习依据具有广阔前景,尤其以AlphaGo为代表的成果一出现便轰动学术界,成为了万众瞩目的焦点。


原文始发于微信公众号(CTS纵横安全实验室):基于改进深度确定性梯度算法的AGC发电功率指令分配方法

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年2月21日12:59:41
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   基于改进深度确定性梯度算法的AGC发电功率指令分配方法http://cn-sec.com/archives/1269175.html

发表评论

匿名网友 填写信息