宮思吟,俞曉東,2,葛思涵,陳艷琳,鐘漢斌,2(通信作者)
(1 西安石油大學化學化工學院 陜西 西安 710065)
(2 西安石油大學西安市高碳資源低碳化利用重點實驗室 陜西 西安 710065)
反應器內(nèi)部存在復雜的流場傳遞行為,準確預測反應器中復雜的流體力學特征、傳熱過程以及各種瞬態(tài)行為,是化工領域的重點目標之一。 計算流體力學(computational fluid dynamics,CFD) 可以利用電子計算機對復雜物理現(xiàn)象進行計算和預測,更精確地研究流體流動、傳熱傳質和化學反應的基本規(guī)律。 然而,CFD 模擬方法涉及到大量的物理方程和反應機理,這些方程和機理往往非常復雜,計算量巨大。 特別是在模擬具有復雜幾何形狀和多相流等特殊流體現(xiàn)象的反應器時,需要更長的計算時間。 這不僅影響了模擬結果的實時性,而且也限制了模擬的規(guī)模和深度。 為了解決這一問題,研究者們開始將機器學習方法應用于反應器模擬中。 機器學習技術可以通過對已有歷史數(shù)據(jù)的分析和挖掘來建立反應器的預測模型,跳過了繁雜的方程計算,加速計算速度并提高模擬精度。 本文總結了一些經(jīng)典的機器學習方法和通用建模過程,并依據(jù)多篇文獻,闡述了機器學習方法在反應器內(nèi)建模的應用進展。 重點關注反應器內(nèi)流場的重建工作,以及從機器學習的視角來看有著相同原理的渦輪流場重建工作。
機器學習方法可以按照訓練數(shù)據(jù)是否有標記信息分為監(jiān)督學習、無監(jiān)督學習和半監(jiān)督學習三種。 監(jiān)督學習的數(shù)據(jù)集中包含了已有標記的數(shù)據(jù),通過建立模型學習明確的輸出關系,就可以預測新的數(shù)據(jù)。 監(jiān)督學習的典型應用包括分類和回歸問題。 分類問題是指將輸入數(shù)據(jù)劃分到事先定義好的類別中,如圖像分類、垃圾郵件過濾等;而回歸問題則是指預測一個連續(xù)值,如股票價格預測、房價預測等。 非監(jiān)督學習的任務是在沒有標記數(shù)據(jù)的情況下,對數(shù)據(jù)進行建模和分析,尋找數(shù)據(jù)中的結構和模式。 非監(jiān)督學習的典型應用包括聚類、異常檢測和降維等。 聚類是指將數(shù)據(jù)按照某種相似度度量的方法分成若干組,每組內(nèi)部數(shù)據(jù)的相似度要盡量高,組間的相似度盡量低。 異常檢測則是指在數(shù)據(jù)集中找出與其他數(shù)據(jù)不同的樣本。 而降維則是指將高維度數(shù)據(jù)映射到低維空間中,但要盡量保留數(shù)據(jù)中的關鍵特征和信息。 半監(jiān)督學習則介于監(jiān)督學習和非監(jiān)督學習之間,其任務是在部分數(shù)據(jù)有標簽、部分數(shù)據(jù)沒有標簽的情況下,通過學習已知標簽的數(shù)據(jù),為未標注的數(shù)據(jù)建立模型。
圖1 展示了Brunton 等[1]總結的三種類別中各自包含的主要的方法。 其中,神經(jīng)網(wǎng)絡模型是目前最為強大的機器學習算法之一。 它模仿了人腦的神經(jīng)元結構,通過構建多層的神經(jīng)網(wǎng)絡來實現(xiàn)對輸入數(shù)據(jù)的處理和預測。 這里簡單介紹一下神經(jīng)網(wǎng)絡中的一些基本的概念。 神經(jīng)元是神經(jīng)網(wǎng)絡中的基本單元,它接收一個輸入并產(chǎn)生輸出。 神經(jīng)元接收到的輸入與其對應的權重進行乘積之和,作為神經(jīng)元的激活值,再通過激活函數(shù)進行非線性轉換,以實現(xiàn)對復雜數(shù)據(jù)的建模。 多個神經(jīng)元按照一定規(guī)則組合成的層,可以用來提取輸入數(shù)據(jù)的不同特征。 神經(jīng)網(wǎng)絡從輸入開始進行前向傳播,依次經(jīng)過多個層,直到輸出結果。 損失函數(shù)可以衡量模型預測結果與真實結果之間的差異,作為模型訓練的目標函數(shù)。 通過計算輸出結果與真實結果的誤差,將誤差反向傳播回神經(jīng)網(wǎng)絡,更新權重,以提高模型的預測準確率。 常見的神經(jīng)網(wǎng)絡模型包括多層感知機(multilayer perceptron,MLP)、卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)等。 其中,MLP 是最基本的神經(jīng)網(wǎng)絡模型,由多個全連接層組成,可用于分類和回歸等任務;CNN 適用于處理圖像數(shù)據(jù),通過卷積層和池化層提取圖像的空間特征;RNN 則適用于處理序列數(shù)據(jù),如自然語言或天氣數(shù)據(jù)。
圖1 常用機器學習方法分類
當使用機器學習方法解決某一問題時,通常需要經(jīng)歷一些通用的建模步驟:收集數(shù)據(jù)、數(shù)據(jù)預處理、特征工程、模型選擇、訓練模型、模型評估和模型優(yōu)化等。 首先需要根據(jù)研究的問題收集和整理相關的歷史數(shù)據(jù)。 數(shù)據(jù)通常需要經(jīng)過清洗和預處理才能用于模型的訓練。 一般情況下,預處理包括對原始數(shù)據(jù)的清洗、轉換和歸一化[2]等操作,以保證數(shù)據(jù)的質量和完整性。 清洗的重點是消除噪聲、缺失值和異常值等可能對數(shù)據(jù)造成影響的數(shù)據(jù)。 歸一化則是為了避免不同量綱對模型產(chǎn)生的影響。 不同的特征往往具有不同的量綱和取值范圍,如果不對特征進行歸一化,那么量綱大的特征會對模型產(chǎn)生較大的影響,而量綱小的特征則會被忽略掉,從而影響模型的精度。 特征工程會尋找和提取與目標變量相關的有效特征,從輸入信息的角度精益求精。 它不是必須的步驟,但它能夠提高模型的準確性和泛化能力。 常見的特征工程方法包括特征選擇、特征變換、特征組合等。 將處理好的數(shù)據(jù)輸入到模型中,通過不斷地迭代來最小化預測誤差,讓模型逐漸優(yōu)化。通過驗證數(shù)據(jù)集對訓練出的模型的性能進行評估,可以使用常見的指標如均方誤差、準確率、召回率、精確度等。 當模型評估通過后,就可以將其部署到實際生產(chǎn)環(huán)境中,進行實時預測。 訓練和評估所使用的數(shù)據(jù)均是總數(shù)據(jù)集中不相交的子集,這也意味著建立模型之前必須對數(shù)據(jù)集進行劃分。 通常將原始數(shù)據(jù)集劃分為訓練集、驗證集和測試集。 訓練集用于模型的訓練,驗證集用于模型的選擇和調(diào)整,測試集用于評估模型的泛化性能。
對瞬態(tài)流場圖像預測任務進行深度學習建模,一個客觀的經(jīng)驗是從卷積神經(jīng)網(wǎng)絡入手,因為它在處理圖像數(shù)據(jù)方面的表現(xiàn)非常出色。 在流場預測方向上,CNN 可以用于提取流場數(shù)據(jù)的空間特征,如渦旋、湍流結構等,并且另一方面,CNN 在處理大量數(shù)據(jù)時具有良好的泛化能力,這使得它們能夠在訓練數(shù)據(jù)之外的數(shù)據(jù)上產(chǎn)生準確的預測。這對于流場預測是非常重要的,因為該任務往往需要在不同的操作條件下預測流場的行為。 通常情況下,單純使用CNN 的模型,即特征提取部分和流場重建(生成)部分均選擇CNN 的模型,其架構一般多采用自編碼器。 自編碼器由編碼器和解碼器兩部分組成。 編碼器將原始數(shù)據(jù)映射到一個低維空間,該空間被稱為編碼空間;解碼器將編碼空間的數(shù)據(jù)重構回原始空間或生成新的數(shù)據(jù)。
機器學習已經(jīng)成為一個備受關注的技術,它在各個領域中都有廣泛的應用。 一些研究者們也開始將機器學習應用于化學化工領域,以期加速化學研究的進程,提高化工產(chǎn)品的效率和品質。 程全中等[3]從萃取、精餾、結晶、流態(tài)化等單元操作的應用角度出發(fā),綜述了機器學習與化工結合的研究進展。 朱禮濤等[4]則討論了機器學習在多相流設備(尤其是多相反應器)中流動、傳遞及反應特性的研究現(xiàn)狀。
Bazai 等[5]建立了一個自編碼器模型,其內(nèi)部堆疊了多個CNN,并基于CFD 中的數(shù)值模擬結果進行訓練。 訓練后的模型能夠預測流化床的瞬態(tài)體積分數(shù)分布。 該研究表明,基于深度學習的模型在預測流化床瞬時流動行為的速度比CFD 更快。 這是因為深度學習模型無需求解任何傳輸方程,計算量更小。 在完成訓練過程后,該模型可以獨立于CFD 進行預測,即不需要再由CFD 提前進行模擬計算以提供數(shù)據(jù)。 An 等[6]基于U-Net[7]網(wǎng)絡構建了一個名為CFDNN 的深度學習求解器,用來預測空腔內(nèi)湍流燃燒的流場和燃燒場。 通過使用不同入口速度下的空腔火焰數(shù)據(jù)對模型進行訓練,并用訓練集范圍內(nèi)不包含的入口速度進行測試,證明了模型預測結果的可行性。 CFDNN預測結果的空間分布和時間分布與OpenFoam 的模擬結果非常吻合。 Jeon 等[8]在MLP 中引入了基于物理信息的損失函數(shù)和有限體積法,僅用先前兩個時間分布的流場就可以預測未來十幀的流場。 在傳統(tǒng)的機器學習中,損失函數(shù)通常是根據(jù)訓練數(shù)據(jù)和期望輸出定義的。 在化工領域的許多應用場景下,還有一些關于控制問題或物理定律的額外條件。 如果它們能夠被有效地納入模型中,就會約束假設空間(模型所屬的函數(shù)的集合)的范圍,模型就可以在更小的數(shù)據(jù)集上進行訓練。 物理信息損失函數(shù)通過懲罰與已知物理定律的偏差,將物理約束納入模型。 這在可用數(shù)據(jù)有限、有噪聲或不完整的問題中有明顯效果。
渦輪尾跡流場的預測是傳統(tǒng)CFD 模擬的另一個常見的應用場景。 渦輪尾跡是渦輪機在工作時形成的空氣流動的尾跡,其流場結構非常復雜,與反應器內(nèi)的流場一樣受到多種不確定因素的影響。 一些研究者已經(jīng)開始探索使用深度學習模型來預測和模擬渦輪尾跡流場。 Zhang等[9]利用六層CNN 的組合建立了一個編碼器模型,用以生成風力渦輪機尾流的時間平均流場。 建立模型前先利用大渦模擬(large-eddy simulations,LES)生成CNN 編碼器模型的訓練和驗證數(shù)據(jù)。 模型的每個輸入樣本由五個瞬時速度場構成,以反映湍流結構的時間平均變化。 這項研究中詳細測試了CNN 模型重建風力渦輪機周圍的時間平均流場的能力以及預測渦輪機功率輸出的能力。 預測的流場清楚地反映了LES 得到的渦輪尾跡的主要特征。CNN 預測得到的速度剖面與LES 時間平均結果吻合良好,總體相對誤差不超過3%。 同時,該研究利用數(shù)據(jù)增強技術有效地解決了CNN 的位置敏感性問題。 在時間上,該研究所提出的總成本比LES 減少了88%。
CFD 和機器學習都是化工領域不同的工具,在化工領域中有各自的應用場景和優(yōu)劣勢。 CFD 作為一種基于物理學原理的建模方法,能夠提供更精細和準確的流場預測。 而機器學習可以通過學習歷史數(shù)據(jù)中的行為模式來預測新的結果,跳過了計算數(shù)值方程組的步驟,大大節(jié)省了預測時間,但由于缺乏可解釋性,它暫時還無法替代CFD 模擬。 將機器學習和CFD 結合起來可以實現(xiàn)更準確和高效的流場預測。 因此,機器學習和CFD 在化工領域中將會有更多的應用,并且這兩個領域也將會相互促進。