摘要:以熱網(wǎng)最小年費(fèi)用作為目標(biāo)函數(shù),引入基于Q學(xué)習(xí)規(guī)則的蟻群算法,建立了熱網(wǎng)優(yōu)化算法。結(jié)合算例,比較了比摩阻算法、模擬退火算法、基于Q學(xué)習(xí)規(guī)則蟻群算法,基于Q學(xué)習(xí)規(guī)則蟻群算法的熱網(wǎng)最小年費(fèi)用最低。
關(guān)鍵詞:Q學(xué)習(xí);蟻群算法;供熱管網(wǎng)優(yōu)化
Optimization Method of Heat Supply Network with Ant Colony Algorithm Based on Q-learning Rule
CHEN Rui
Abstract:Taking the minimum annual cost of heat supply network as objective function,the optimization algorithm for heat supply network is developed by introducing ant colony algorithm based on Q-learuing rule. The specific frictional resistance algorithm,simulated annealing algorithm and ant colony algorithm based on Q-1earning rule are compared using an example. The ant colony algorithm based on Q-learning rule has the lowest minimum annual cost of heat supply network.
Key words:Q-learning;ant colony algorithm;optimization of heat supply network
1 熱網(wǎng)優(yōu)化模型
1.1 目標(biāo)函數(shù)
隨著我國(guó)城市化建設(shè)的推進(jìn)和居民生活水平的提高,城市集中供熱系統(tǒng)規(guī)模不斷擴(kuò)大。本文研究的熱網(wǎng)優(yōu)化模型以熱網(wǎng)年費(fèi)用最小作為目標(biāo)函數(shù),主要影響因素包括[1、2]:熱網(wǎng)造價(jià)、循環(huán)泵運(yùn)行費(fèi)用、熱網(wǎng)年熱損失費(fèi)用、熱網(wǎng)年折舊費(fèi)用,目標(biāo)函數(shù)的表達(dá)式為:
Fmin=g(Fn+Fp+FL+Fd) (1)
式中Fmin——熱網(wǎng)最小年費(fèi)用,元/a
Fn——熱網(wǎng)造價(jià),元
Fp——循環(huán)泵年運(yùn)行費(fèi)用,元/a
FL——熱網(wǎng)年熱損失費(fèi)用,元/a
Fd——熱網(wǎng)年折舊費(fèi)用,元/a
1.2 主要影響因素
① 熱網(wǎng)造價(jià)
熱網(wǎng)造價(jià)Fn的計(jì)算式為:

式中n——熱網(wǎng)管段數(shù)量
fi——第i段管段單位長(zhǎng)度造價(jià),元/m
Li——第i段管段長(zhǎng)度,m
B、D——回歸系數(shù)
di——第i段管段管徑,m
② 循環(huán)泵年運(yùn)行費(fèi)用
循環(huán)泵年運(yùn)行費(fèi)用Fp的計(jì)算式為:

式中ε1——換算系數(shù)
g——重力加速度,m/s2
qm,p——循環(huán)泵的計(jì)算質(zhì)量流量,kg/h
H——循環(huán)泵揚(yáng)程,m
Pp——電價(jià),元/(kW·h)
tp——循環(huán)泵年運(yùn)行時(shí)間,h/a
η——循環(huán)泵效率,取0.5~0.7
③ 熱網(wǎng)年熱損失費(fèi)用
熱網(wǎng)年熱損失費(fèi)用FL的計(jì)算式為:

式中ε2——換算系數(shù)
Ph——熱價(jià),元/J
tn——熱網(wǎng)年運(yùn)行時(shí)間,h/a
K——管道的平均傳熱系數(shù),W/(m2·K)
θav——熱網(wǎng)年平均水溫,℃
θ0——管道周?chē)橘|(zhì)的平均溫度,℃
β——管道附件的熱損失因數(shù)
④ 熱網(wǎng)年折舊費(fèi)用
熱網(wǎng)年折舊費(fèi)用Fd的計(jì)算式為:
Fd=λFn (5)
式中λ——折舊率
由式(1)~(5)可知,熱網(wǎng)最小年費(fèi)用F…可轉(zhuǎn)變?yōu)楣軓胶凸芏伍L(zhǎng)度的函數(shù)。
1.3 約束條件
① 節(jié)點(diǎn)流量平衡條件
同一節(jié)點(diǎn)的流入、流出質(zhì)量流量的代數(shù)和為零,即:

式中m——與該節(jié)點(diǎn)有關(guān)的管段數(shù)量
qm,r——與該節(jié)點(diǎn)有關(guān)的第r條管段的質(zhì)量流量,kg/s
δr——閾值,當(dāng)流入時(shí)為1,流出時(shí)為-1
② 質(zhì)量流量與熱負(fù)荷的關(guān)系
質(zhì)量流量與熱負(fù)荷關(guān)系的表達(dá)式為[3]:

式中μ——管網(wǎng)漏損系數(shù),取1.05
Фr——與該節(jié)點(diǎn)有關(guān)的第r條管段的熱負(fù)荷,kW
cp——水的比定壓熱容,kJ/(kg·K)
θs——供水溫度,℃,取130℃
θr——回水溫度,℃,取70℃
③ 管徑與質(zhì)量流量的關(guān)系
管徑與質(zhì)量流量關(guān)系的表達(dá)式為[4]:

式中dr——與該節(jié)點(diǎn)有關(guān)的第r條管段的管徑,m
W——管道內(nèi)表面的當(dāng)量絕對(duì)粗糙度,mm,取0.5mm
ρ——熱水密度,kg/m3
Rr——與該節(jié)點(diǎn)有關(guān)的第r條管段的比摩阻,Pa/m,取值范圍為60~120Pa/m
2 Q學(xué)習(xí)蟻群算法
20世紀(jì)90年代,蟻群算法作為一種求解復(fù)雜組合優(yōu)化問(wèn)題的算法被提出[5],其應(yīng)用范圍已拓展到旅行問(wèn)題[6]、車(chē)間調(diào)度問(wèn)題[7]等領(lǐng)域。但傳統(tǒng)蟻群算法存在運(yùn)算時(shí)間較長(zhǎng)、容易陷入局部極小、參數(shù)選取過(guò)程復(fù)雜、算法的智能化程度較低等弊病。
Q學(xué)習(xí)蟻群算法將Q函數(shù)的環(huán)境無(wú)關(guān)性、Agent的學(xué)習(xí)能力和蟻群算法的分布式計(jì)算、正反饋等優(yōu)點(diǎn)相結(jié)合,避免了傳統(tǒng)蟻群算法繁瑣的參數(shù)選取過(guò)程,提高了運(yùn)算效率[8]。螞蟻對(duì)應(yīng)Q學(xué)習(xí)算法中的Agent,所研究的多階段決策問(wèn)題對(duì)應(yīng)Agent周?chē)沫h(huán)境。螞蟻在當(dāng)前狀態(tài)s,通過(guò)行為選擇系統(tǒng)選擇狀態(tài)s下合適的行為a,當(dāng)前狀態(tài)s則在行為a的作用下變化至s′。通過(guò)學(xué)習(xí)系統(tǒng)根據(jù)反饋信息(包括瞬時(shí)回報(bào)和期望回報(bào))更新自身的知識(shí)(包括Q函數(shù)和相關(guān)策略知識(shí))。這樣的過(guò)程重復(fù)多次,直至學(xué)習(xí)過(guò)程收斂,此時(shí)螞蟻對(duì)應(yīng)的Agent的策略π*將是最優(yōu)的。
假設(shè)信息素模型(包括信息素更新規(guī)則、強(qiáng)化信號(hào)等)和狀態(tài)轉(zhuǎn)移規(guī)則均未知,則對(duì)所優(yōu)化問(wèn)題的每一個(gè)節(jié)點(diǎn)j都賦以Q值(行為一狀態(tài)對(duì)),用Q值取代螞蟻信息素作為決策信息,通過(guò)對(duì)Q函數(shù)變化規(guī)律的學(xué)習(xí)不斷逼近最優(yōu)策略。
設(shè)當(dāng)前狀態(tài)πj={a1,a2,a3,…,aj}下螞蟻k位于節(jié)點(diǎn)j,螞蟻將按照ε-貪婪規(guī)則確定在節(jié)點(diǎn)j′要選擇的行為a′,即以概率1-ε按貪婪策略選取當(dāng)前狀態(tài)下最大Q值對(duì)應(yīng)的行為。而以概率ε隨機(jī)選擇一個(gè)當(dāng)前狀態(tài)下允許行為的表達(dá)式為:

式中aj——螞蟻在節(jié)點(diǎn),采取的行為
q——服從區(qū)間均勻分布隨機(jī)數(shù)
ε——概率,一般取0.1
A——當(dāng)前仍未被選擇的任一項(xiàng)任務(wù)
在第x代循環(huán)中,當(dāng)螞蟻局構(gòu)建一個(gè)可行解時(shí),按下式更新所含節(jié)點(diǎn)的Q值:

式中α——學(xué)習(xí)率,0≤α<1
Eπj(aj)——螞蟻在狀態(tài)πj時(shí)采取行為aj獲得的瞬時(shí)回報(bào)
rand(0,1)——(0,1)區(qū)間的一個(gè)隨機(jī)數(shù)
v——問(wèn)題的最大節(jié)點(diǎn)數(shù)
若第x代循環(huán)產(chǎn)生了新的當(dāng)前最優(yōu)解,則按下式更新所含節(jié)點(diǎn)的Q值,表達(dá)式為:

式中γ——折扣因子,0<y<1
G——當(dāng)前狀態(tài)下可能選擇的行為集
π′——采取了最新行為之后的狀態(tài)
Q*——函數(shù)的極限
π*——最優(yōu)狀態(tài)
由于強(qiáng)化信號(hào)模型未知,故以(0,1)區(qū)間的一個(gè)隨機(jī)數(shù)作為當(dāng)前最優(yōu)解的瞬時(shí)回報(bào)值,而未來(lái)期望回報(bào)則可通過(guò)BP網(wǎng)絡(luò)對(duì)Q*值進(jìn)行估計(jì)求得。
3 算例研究
我們采用文獻(xiàn)[1]中的算例進(jìn)行對(duì)比計(jì)算,這是一個(gè)雙熱源的枝狀供熱管網(wǎng),節(jié)點(diǎn)數(shù)為23個(gè),運(yùn)算環(huán)境為Java 1.4。
3.1 算法流程
取與節(jié)點(diǎn)j關(guān)聯(lián)的某管段的管徑、長(zhǎng)度作為節(jié)點(diǎn)j的Q函數(shù)的行為-狀態(tài)對(duì)——Q值,對(duì)所有Q值賦以(0,1)區(qū)間隨機(jī)數(shù)。螞蟻k從任一個(gè)熱源節(jié)點(diǎn)j按式(9)開(kāi)始搜索,每找到一個(gè)可行節(jié)點(diǎn)j′,就以當(dāng)前階段可行解的倒數(shù)作為瞬時(shí)回報(bào)值按式(10)、(11)更新節(jié)點(diǎn)j′的Q值。一旦完成搜索過(guò)程且有更好的可行解產(chǎn)生,就以當(dāng)前最優(yōu)解的倒數(shù)作為期望回報(bào)值按式(12)、(13)更新所有可行解節(jié)點(diǎn)的Q值。以此類推,直至當(dāng)前最優(yōu)解不能再優(yōu)化。
3.2 計(jì)算結(jié)果
針對(duì)算例,分別采用比摩阻法、模擬退火法[1]、Q學(xué)習(xí)蟻群算法的熱網(wǎng)優(yōu)化結(jié)果見(jiàn)表1。由表1可知,采用Q學(xué)習(xí)蟻群算法的熱網(wǎng)最小年費(fèi)用最低。
表1 不同算法的優(yōu)化結(jié)果
算法
|
比摩阻法
|
模擬退火法
|
Q學(xué)習(xí)蟻群算法
|
熱網(wǎng)最小年費(fèi)
用/(元·a-1)
|
246.76×104
|
227.61×104
|
221.43×104
|
4 結(jié)論
將Q學(xué)習(xí)規(guī)則引入蟻群算法,使螞蟻具備自行尋優(yōu)的能力,避免了傳統(tǒng)蟻群算法復(fù)雜的參數(shù)選取過(guò)程,減少了人為干預(yù),提高了算法的智能性和運(yùn)算效率。算例研究表明,該算法在熱網(wǎng)優(yōu)化問(wèn)題中的應(yīng)用是有效的。
參考文獻(xiàn):
[1] 李祥立,鄒平華.基于模擬退火算法的供熱管網(wǎng)優(yōu)化設(shè)計(jì)[J].暖通空調(diào),2005,(4):77-81.
[2] 趙廷元.熱力管道設(shè)計(jì)手冊(cè)[M].太原:山西科學(xué)教育出版社,1986.
[3] 韋節(jié)廷,金洪文,姜潔.大型供熱管網(wǎng)優(yōu)化方案的確定[J].煤氣與熱力,2003,23(2):80-82.
[4] 師涌江,劉麗莉.供熱管網(wǎng)布置的優(yōu)化方法[J].河北建筑工程學(xué)院學(xué)報(bào),2004,(4):31-34.
[5] COLORNI A,DORIGO M,MANIEZZO V,et al. Distributed optimization by ant colonies[A].Proceedings of the 1st European Conference on Artificial Life[C].Paris:European Conference on Artificial Life,1991.134-142.
[6] 劉心報(bào),葉強(qiáng),劉林,等.分支蟻群動(dòng)態(tài)擾動(dòng)算法求解TSP問(wèn)題[J].中國(guó)管理科學(xué),2005,(6):57-63.
[7] 葉強(qiáng),劉心報(bào),程浩.改進(jìn)蟻群算法求解單機(jī)總加權(quán)延遲調(diào)度問(wèn)題[J].系統(tǒng)仿真學(xué)報(bào),2008,(8):2052-2055.
[8] 葉強(qiáng).基于改進(jìn)蟻群算法的一類單機(jī)調(diào)度問(wèn)題研究(博士學(xué)位論文)[D].合肥:合肥工業(yè)大學(xué),2008.
(本文作者:陳蕊 合肥熱電工程公司 安徽合肥 230061)
贊 賞 分享
您可以選擇一種方式贊助本站
支付寶轉(zhuǎn)賬贊助
微信轉(zhuǎn)賬贊助

- 注解:本資料由會(huì)員及群友提供僅供閱讀交流學(xué)習(xí),不得用于商業(yè)用途!
網(wǎng)站VIP會(huì)員無(wú)限制下載網(wǎng)站資料!贊助網(wǎng)站獲得,點(diǎn)擊贊助!!