基于Q學(xué)習(xí)蟻群算法的熱網(wǎng)優(yōu)化方法

摘 要

摘要:以熱網(wǎng)最小年費(fèi)用作為目標(biāo)函數(shù),引入基于Q學(xué)習(xí)規(guī)則的蟻群算法,建立了熱網(wǎng)優(yōu)化算法。結(jié)合算例,比較了比摩阻算法、模擬退火算法、基于Q學(xué)習(xí)規(guī)則蟻群算法,基于Q學(xué)習(xí)規(guī)則蟻群算

摘要:以熱網(wǎng)最小年費(fèi)用作為目標(biāo)函數(shù),引入基于Q學(xué)習(xí)規(guī)則的蟻群算法,建立了熱網(wǎng)優(yōu)化算法。結(jié)合算例,比較了比摩阻算法、模擬退火算法、基于Q學(xué)習(xí)規(guī)則蟻群算法,基于Q學(xué)習(xí)規(guī)則蟻群算法的熱網(wǎng)最小年費(fèi)用最低。
關(guān)鍵詞:Q學(xué)習(xí);蟻群算法;供熱管網(wǎng)優(yōu)化
Optimization Method of Heat Supply Network with Ant Colony Algorithm Based on Q-learning Rule
CHEN Rui
AbstractTaking the minimum annual cost of heat supply network as objective function,the optimization algorithm for heat supply network is developed by introducing ant colony algorithm based on Q-learuing rule. The specific frictional resistance algorithm,simulated annealing algorithm and ant colony algorithm based on Q-1earning rule are compared using an example. The ant colony algorithm based on Q-learning rule has the lowest minimum annual cost of heat supply network.
Key wordsQ-learning;ant colony algorithm;optimization of heat supply network
1 熱網(wǎng)優(yōu)化模型
1.1 目標(biāo)函數(shù)
    隨著我國(guó)城市化建設(shè)的推進(jìn)和居民生活水平的提高,城市集中供熱系統(tǒng)規(guī)模不斷擴(kuò)大。本文研究的熱網(wǎng)優(yōu)化模型以熱網(wǎng)年費(fèi)用最小作為目標(biāo)函數(shù),主要影響因素包括[1、2]:熱網(wǎng)造價(jià)、循環(huán)泵運(yùn)行費(fèi)用、熱網(wǎng)年熱損失費(fèi)用、熱網(wǎng)年折舊費(fèi)用,目標(biāo)函數(shù)的表達(dá)式為:
    Fmin=g(Fn+Fp+FL+Fd)    (1)
式中Fmin——熱網(wǎng)最小年費(fèi)用,元/a
    Fn——熱網(wǎng)造價(jià),元
    Fp——循環(huán)泵年運(yùn)行費(fèi)用,元/a
    FL——熱網(wǎng)年熱損失費(fèi)用,元/a
    Fd——熱網(wǎng)年折舊費(fèi)用,元/a
1.2 主要影響因素
    ① 熱網(wǎng)造價(jià)
熱網(wǎng)造價(jià)Fn的計(jì)算式為:
 
式中n——熱網(wǎng)管段數(shù)量
    fi——第i段管段單位長(zhǎng)度造價(jià),元/m
    Li——第i段管段長(zhǎng)度,m
    B、D——回歸系數(shù)
    di——第i段管段管徑,m
   ② 循環(huán)泵年運(yùn)行費(fèi)用
   循環(huán)泵年運(yùn)行費(fèi)用Fp的計(jì)算式為:
   
式中ε1——換算系數(shù)
    g——重力加速度,m/s2
    qm,p——循環(huán)泵的計(jì)算質(zhì)量流量,kg/h
    H——循環(huán)泵揚(yáng)程,m
    Pp——電價(jià),元/(kW·h)
    tp——循環(huán)泵年運(yùn)行時(shí)間,h/a
    η——循環(huán)泵效率,取0.5~0.7
    ③ 熱網(wǎng)年熱損失費(fèi)用
熱網(wǎng)年熱損失費(fèi)用FL的計(jì)算式為:
 
式中ε2——換算系數(shù)
    Ph——熱價(jià),元/J
    tn——熱網(wǎng)年運(yùn)行時(shí)間,h/a
    K——管道的平均傳熱系數(shù),W/(m2·K)
    θav——熱網(wǎng)年平均水溫,℃
    θ0——管道周?chē)橘|(zhì)的平均溫度,℃
   β——管道附件的熱損失因數(shù)
    ④ 熱網(wǎng)年折舊費(fèi)用
熱網(wǎng)年折舊費(fèi)用Fd的計(jì)算式為:
Fd=λFn    (5)
式中λ——折舊率
    由式(1)~(5)可知,熱網(wǎng)最小年費(fèi)用F…可轉(zhuǎn)變?yōu)楣軓胶凸芏伍L(zhǎng)度的函數(shù)。
1.3 約束條件
   ① 節(jié)點(diǎn)流量平衡條件
同一節(jié)點(diǎn)的流入、流出質(zhì)量流量的代數(shù)和為零,即:
 
式中m——與該節(jié)點(diǎn)有關(guān)的管段數(shù)量
    qm,r——與該節(jié)點(diǎn)有關(guān)的第r條管段的質(zhì)量流量,kg/s
    δr——閾值,當(dāng)流入時(shí)為1,流出時(shí)為-1
   ② 質(zhì)量流量與熱負(fù)荷的關(guān)系
質(zhì)量流量與熱負(fù)荷關(guān)系的表達(dá)式為[3]
 
式中μ——管網(wǎng)漏損系數(shù),取1.05
    Фr——與該節(jié)點(diǎn)有關(guān)的第r條管段的熱負(fù)荷,kW
    cp——水的比定壓熱容,kJ/(kg·K)
    θs——供水溫度,℃,取130℃
    θr——回水溫度,℃,取70℃
   ③ 管徑與質(zhì)量流量的關(guān)系
管徑與質(zhì)量流量關(guān)系的表達(dá)式為[4]
 
式中dr——與該節(jié)點(diǎn)有關(guān)的第r條管段的管徑,m
    W——管道內(nèi)表面的當(dāng)量絕對(duì)粗糙度,mm,取0.5mm
    ρ——熱水密度,kg/m3
    Rr——與該節(jié)點(diǎn)有關(guān)的第r條管段的比摩阻,Pa/m,取值范圍為60~120Pa/m
2 Q學(xué)習(xí)蟻群算法
    20世紀(jì)90年代,蟻群算法作為一種求解復(fù)雜組合優(yōu)化問(wèn)題的算法被提出[5],其應(yīng)用范圍已拓展到旅行問(wèn)題[6]、車(chē)間調(diào)度問(wèn)題[7]等領(lǐng)域。但傳統(tǒng)蟻群算法存在運(yùn)算時(shí)間較長(zhǎng)、容易陷入局部極小、參數(shù)選取過(guò)程復(fù)雜、算法的智能化程度較低等弊病。
    Q學(xué)習(xí)蟻群算法將Q函數(shù)的環(huán)境無(wú)關(guān)性、Agent的學(xué)習(xí)能力和蟻群算法的分布式計(jì)算、正反饋等優(yōu)點(diǎn)相結(jié)合,避免了傳統(tǒng)蟻群算法繁瑣的參數(shù)選取過(guò)程,提高了運(yùn)算效率[8]。螞蟻對(duì)應(yīng)Q學(xué)習(xí)算法中的Agent,所研究的多階段決策問(wèn)題對(duì)應(yīng)Agent周?chē)沫h(huán)境。螞蟻在當(dāng)前狀態(tài)s,通過(guò)行為選擇系統(tǒng)選擇狀態(tài)s下合適的行為a,當(dāng)前狀態(tài)s則在行為a的作用下變化至s′。通過(guò)學(xué)習(xí)系統(tǒng)根據(jù)反饋信息(包括瞬時(shí)回報(bào)和期望回報(bào))更新自身的知識(shí)(包括Q函數(shù)和相關(guān)策略知識(shí))。這樣的過(guò)程重復(fù)多次,直至學(xué)習(xí)過(guò)程收斂,此時(shí)螞蟻對(duì)應(yīng)的Agent的策略π*將是最優(yōu)的。
    假設(shè)信息素模型(包括信息素更新規(guī)則、強(qiáng)化信號(hào)等)和狀態(tài)轉(zhuǎn)移規(guī)則均未知,則對(duì)所優(yōu)化問(wèn)題的每一個(gè)節(jié)點(diǎn)j都賦以Q值(行為一狀態(tài)對(duì)),用Q值取代螞蟻信息素作為決策信息,通過(guò)對(duì)Q函數(shù)變化規(guī)律的學(xué)習(xí)不斷逼近最優(yōu)策略。
設(shè)當(dāng)前狀態(tài)πj={a1,a2,a3,…,aj}下螞蟻k位于節(jié)點(diǎn)j,螞蟻將按照ε-貪婪規(guī)則確定在節(jié)點(diǎn)j′要選擇的行為a′,即以概率1-ε按貪婪策略選取當(dāng)前狀態(tài)下最大Q值對(duì)應(yīng)的行為。而以概率ε隨機(jī)選擇一個(gè)當(dāng)前狀態(tài)下允許行為的表達(dá)式為:
 
式中aj——螞蟻在節(jié)點(diǎn),采取的行為
    q——服從區(qū)間均勻分布隨機(jī)數(shù)
    ε——概率,一般取0.1
    A——當(dāng)前仍未被選擇的任一項(xiàng)任務(wù)
    在第x代循環(huán)中,當(dāng)螞蟻局構(gòu)建一個(gè)可行解時(shí),按下式更新所含節(jié)點(diǎn)的Q值:
 
式中α——學(xué)習(xí)率,0≤α<1
    Eπj(aj)——螞蟻在狀態(tài)πj時(shí)采取行為aj獲得的瞬時(shí)回報(bào)
    rand(0,1)——(0,1)區(qū)間的一個(gè)隨機(jī)數(shù)
    v——問(wèn)題的最大節(jié)點(diǎn)數(shù)
    若第x代循環(huán)產(chǎn)生了新的當(dāng)前最優(yōu)解,則按下式更新所含節(jié)點(diǎn)的Q值,表達(dá)式為:
   
式中γ——折扣因子,0<y<1
    G——當(dāng)前狀態(tài)下可能選擇的行為集
    π′——采取了最新行為之后的狀態(tài)
    Q*——函數(shù)的極限
    π*——最優(yōu)狀態(tài)
    由于強(qiáng)化信號(hào)模型未知,故以(0,1)區(qū)間的一個(gè)隨機(jī)數(shù)作為當(dāng)前最優(yōu)解的瞬時(shí)回報(bào)值,而未來(lái)期望回報(bào)則可通過(guò)BP網(wǎng)絡(luò)對(duì)Q*值進(jìn)行估計(jì)求得。
3 算例研究
    我們采用文獻(xiàn)[1]中的算例進(jìn)行對(duì)比計(jì)算,這是一個(gè)雙熱源的枝狀供熱管網(wǎng),節(jié)點(diǎn)數(shù)為23個(gè),運(yùn)算環(huán)境為Java 1.4。
3.1 算法流程
    取與節(jié)點(diǎn)j關(guān)聯(lián)的某管段的管徑、長(zhǎng)度作為節(jié)點(diǎn)j的Q函數(shù)的行為-狀態(tài)對(duì)——Q值,對(duì)所有Q值賦以(0,1)區(qū)間隨機(jī)數(shù)。螞蟻k從任一個(gè)熱源節(jié)點(diǎn)j按式(9)開(kāi)始搜索,每找到一個(gè)可行節(jié)點(diǎn)j′,就以當(dāng)前階段可行解的倒數(shù)作為瞬時(shí)回報(bào)值按式(10)、(11)更新節(jié)點(diǎn)j′的Q值。一旦完成搜索過(guò)程且有更好的可行解產(chǎn)生,就以當(dāng)前最優(yōu)解的倒數(shù)作為期望回報(bào)值按式(12)、(13)更新所有可行解節(jié)點(diǎn)的Q值。以此類推,直至當(dāng)前最優(yōu)解不能再優(yōu)化。
3.2 計(jì)算結(jié)果
   針對(duì)算例,分別采用比摩阻法、模擬退火法[1]、Q學(xué)習(xí)蟻群算法的熱網(wǎng)優(yōu)化結(jié)果見(jiàn)表1。由表1可知,采用Q學(xué)習(xí)蟻群算法的熱網(wǎng)最小年費(fèi)用最低。
表1 不同算法的優(yōu)化結(jié)果
算法
比摩阻法
模擬退火法
Q學(xué)習(xí)蟻群算法
熱網(wǎng)最小年費(fèi)
用/(元·a-1)
246.76×104
227.61×104
221.43×104
4 結(jié)論
    將Q學(xué)習(xí)規(guī)則引入蟻群算法,使螞蟻具備自行尋優(yōu)的能力,避免了傳統(tǒng)蟻群算法復(fù)雜的參數(shù)選取過(guò)程,減少了人為干預(yù),提高了算法的智能性和運(yùn)算效率。算例研究表明,該算法在熱網(wǎng)優(yōu)化問(wèn)題中的應(yīng)用是有效的。
參考文獻(xiàn):
[1] 李祥立,鄒平華.基于模擬退火算法的供熱管網(wǎng)優(yōu)化設(shè)計(jì)[J].暖通空調(diào),2005,(4):77-81.
[2] 趙廷元.熱力管道設(shè)計(jì)手冊(cè)[M].太原:山西科學(xué)教育出版社,1986.
[3] 韋節(jié)廷,金洪文,姜潔.大型供熱管網(wǎng)優(yōu)化方案的確定[J].煤氣與熱力,2003,23(2):80-82.
[4] 師涌江,劉麗莉.供熱管網(wǎng)布置的優(yōu)化方法[J].河北建筑工程學(xué)院學(xué)報(bào),2004,(4):31-34.
[5] COLORNI A,DORIGO M,MANIEZZO V,et al. Distributed optimization by ant colonies[A].Proceedings of the 1st European Conference on Artificial Life[C].Paris:European Conference on Artificial Life,1991.134-142.
[6] 劉心報(bào),葉強(qiáng),劉林,等.分支蟻群動(dòng)態(tài)擾動(dòng)算法求解TSP問(wèn)題[J].中國(guó)管理科學(xué),2005,(6):57-63.
[7] 葉強(qiáng),劉心報(bào),程浩.改進(jìn)蟻群算法求解單機(jī)總加權(quán)延遲調(diào)度問(wèn)題[J].系統(tǒng)仿真學(xué)報(bào),2008,(8):2052-2055.
[8] 葉強(qiáng).基于改進(jìn)蟻群算法的一類單機(jī)調(diào)度問(wèn)題研究(博士學(xué)位論文)[D].合肥:合肥工業(yè)大學(xué),2008.
 
(本文作者:陳蕊 合肥熱電工程公司 安徽合肥 230061)