張建明, 黃偉康, 詹永照
(江蘇大學(xué) 計(jì)算機(jī)科學(xué)與通信工程學(xué)院, 江蘇 鎮(zhèn)江 212013)
隨著互聯(lián)網(wǎng)中視頻數(shù)量的爆發(fā)式增長(zhǎng),視頻類型趨于多元化,視頻事件識(shí)別在視頻點(diǎn)播、智能監(jiān)控和視頻挖掘等方面有著廣泛的應(yīng)用.視頻事件識(shí)別是一種以檢測(cè)為目標(biāo)的檢索任務(wù),視頻事件理解過(guò)程主要為以圖像序列作為輸入,抽取特征,將結(jié)果傳入事件模型中使用,以確定是否發(fā)生了感興趣的事件.視頻事件的輸出理解過(guò)程可能是對(duì)某一特定事件是否發(fā)生或?qū)κ录目偨Y(jié).不同于傳統(tǒng)的視頻識(shí)別任務(wù),如目標(biāo)檢測(cè)、場(chǎng)景識(shí)別和動(dòng)作識(shí)別,此類任務(wù)所對(duì)應(yīng)的數(shù)據(jù)集鏡頭相對(duì)單一,目標(biāo)較少,基本不存在光線和噪聲的影響.復(fù)雜視頻事件場(chǎng)景目標(biāo)更多變,如生日聚會(huì)視頻中可能包含著“切蛋糕”、“吹蠟燭”、“唱生日歌”等多種場(chǎng)景,而每個(gè)場(chǎng)景又由不同的人和物構(gòu)成.相應(yīng)的視頻檢測(cè)識(shí)別方法可以分為傳統(tǒng)方法和深度學(xué)習(xí)方法.
傳統(tǒng)方法從原始數(shù)據(jù)中提取出模式和結(jié)構(gòu)上的信息,依賴于從業(yè)人員的經(jīng)驗(yàn)和直覺(jué).起始階段,研究人員從圖像幀中應(yīng)用顏色直方圖和形狀直方圖進(jìn)行特征提取,運(yùn)用于均衡和比較兩幅圖像之間的全局差.隨后,時(shí)空興趣點(diǎn)運(yùn)用拓展到了視頻領(lǐng)域以提取幀內(nèi)特征,進(jìn)而聚類生成碼本,最后訓(xùn)練分類器分類.傳統(tǒng)事件檢測(cè)方法多關(guān)注于視頻低層語(yǔ)義信息,對(duì)視頻中包含的豐富的靜動(dòng)態(tài)語(yǔ)義概念信息(如信息人物)、背景和行為交互沒(méi)有充分利用.
近些年來(lái),隨著深度學(xué)習(xí)的火熱,其在靜態(tài)圖像的識(shí)別、分割和檢測(cè)上取得了巨大的成功.傳統(tǒng)的檢測(cè)方法也稱作淺層學(xué)習(xí)方法,工作更注重于特征的設(shè)計(jì);而深度學(xué)習(xí)方法則更注重于網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)和優(yōu)化.基于深度學(xué)習(xí)的特征提取并非針對(duì)某一類視頻設(shè)計(jì),具有良好的普適性,區(qū)別于傳統(tǒng)手工設(shè)計(jì)樣本特征方法,其能從圖像中自動(dòng)獲取特征,不受限于專業(yè)知識(shí)領(lǐng)域,極大地?cái)U(kuò)寬了應(yīng)用領(lǐng)域.視頻由一系列圖像幀構(gòu)成,因此深度學(xué)習(xí)方法也廣泛應(yīng)用于視頻識(shí)別領(lǐng)域.單一的靜態(tài)照片處理時(shí)一般視為二維矩陣,但簡(jiǎn)單地將視頻處理為多幀圖形進(jìn)行識(shí)別忽略了視頻中的時(shí)序信息.為了更好地利用視頻中的時(shí)間信息,研究人員將視頻幀視作三維圖像,利用3D卷積神經(jīng)網(wǎng)絡(luò)模型從不同模態(tài)的圖像中提取特征,在動(dòng)作識(shí)別任務(wù)中取得了不錯(cuò)的效果.另一種方法是采用遞歸神經(jīng)網(wǎng)絡(luò)模型(recurrent neural network,RNN),RNN最主要的特征是隱狀態(tài),保留了幀與幀之間的絕大部分信息.長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory, LSTM)是RNN的改進(jìn),在RNN基礎(chǔ)上加入了存儲(chǔ)單元,具有長(zhǎng)期記憶性,有效運(yùn)用于復(fù)雜動(dòng)態(tài)建模[1].此外,H. GAMMULLE等[2]采用多流深度融合框架以提取視頻中的時(shí)空信息,在小數(shù)據(jù)集上取得了良好的效果.此外,通過(guò)模擬人眼視覺(jué)原理,在LSTM網(wǎng)絡(luò)模型中加入關(guān)注區(qū)域的移動(dòng)、縮放機(jī)制,使得模型能夠?qū)W習(xí)到視頻的關(guān)鍵區(qū)域信息,為視頻識(shí)別開(kāi)啟了新的思路[3].
雖然深度學(xué)習(xí)在視頻識(shí)別方向取得了一定進(jìn)展,但復(fù)雜事件視頻多為多個(gè)片段組成,視頻目標(biāo)和背景會(huì)存在遮擋的情況,小目標(biāo)物體容易被忽視.雖然深度學(xué)習(xí)可以學(xué)習(xí)到視頻中出現(xiàn)語(yǔ)義信息,但是利用深度學(xué)習(xí)方法需要大量的數(shù)據(jù)集進(jìn)行訓(xùn)練,這些數(shù)據(jù)通常昂貴,并且獲取耗時(shí),現(xiàn)有包含復(fù)雜事件的視頻數(shù)量遠(yuǎn)未能達(dá)到要求.因此如何最大化地利用現(xiàn)有數(shù)據(jù)中豐富的概念語(yǔ)義信息,建立更好的視頻復(fù)雜事件分類模型有待解決.
為了解決以上問(wèn)題,文中提出基于語(yǔ)義概念和雙流特征模型融合的視頻復(fù)雜事件檢測(cè)方法,采用相應(yīng)的概念探測(cè)器對(duì)視頻幀進(jìn)行概念檢測(cè),以生成優(yōu)選概念子集,依據(jù)選取出的概念子集,構(gòu)建出基于優(yōu)選概念子集的視頻事件分類器;同時(shí)構(gòu)建光流圖像和空間流序列的雙流特征卷積神經(jīng)網(wǎng)絡(luò)模型和LSTM事件分析表達(dá)模型,進(jìn)而將兩流事件分析結(jié)果進(jìn)行融合分類檢測(cè);最后兩網(wǎng)絡(luò)分析結(jié)果進(jìn)行決策融合,并達(dá)到復(fù)雜事件視頻識(shí)別的目的.
復(fù)雜事件學(xué)習(xí)框架如圖1所示.識(shí)別框架主要分為如下兩個(gè)部分.
第1部分為構(gòu)建基于概念子集的事件分類器,針對(duì)訓(xùn)練集中的視頻進(jìn)行幀間采樣后,采用顏色直方圖的方法進(jìn)行鏡頭分割,以鏡頭組方式分別進(jìn)行動(dòng)作和行為概念檢測(cè),以鏡頭幀方式進(jìn)行場(chǎng)景和目標(biāo)概念檢測(cè),對(duì)檢測(cè)到的概念進(jìn)行視頻級(jí)概念得分統(tǒng)計(jì),并針對(duì)每個(gè)事件優(yōu)化生成概念子集.生成適當(dāng)概念子集后,將輸入視頻與事件對(duì)應(yīng)概念子集進(jìn)行相似度計(jì)算,得到基于語(yǔ)義概念的事件檢測(cè)器的輸出得分.
第2部分為構(gòu)建雙流特征權(quán)重融合事件分類器.將視頻幀和光流圖像分別進(jìn)行空間流特征提取和時(shí)間流特征提取,之后輸入到長(zhǎng)LSTM網(wǎng)絡(luò)中進(jìn)行長(zhǎng)時(shí)間建模,得到雙流特征權(quán)重融合事件檢測(cè)器.
最后將兩檢測(cè)器結(jié)果進(jìn)行決策融合得到最終的事件分類器.
圖1 復(fù)雜事件學(xué)習(xí)框架
文中將從3個(gè)角度探究如何優(yōu)選生成概念子集,即如何創(chuàng)建最適合表示事件的概念探測(cè)器,如何總結(jié)出視頻級(jí)概念得分與如何針對(duì)每個(gè)事件生成適當(dāng)?shù)母拍钭蛹?
1.1.1檢測(cè)器選取
事件本質(zhì)上是由包括人和物體在內(nèi)的關(guān)鍵實(shí)體之間的相互作用來(lái)定義的.通常而言,1個(gè)事件描述包含目標(biāo)、場(chǎng)景、行為交互、視覺(jué)屬性和非視覺(jué)屬性5種不同的概念類型,但視覺(jué)屬性一般為主觀描述,比如“美麗的”、“幸福的”之類的形容詞,而非視覺(jué)屬性難以檢測(cè),因此文中著重于前3種屬性的研究.視頻事件識(shí)別本質(zhì)為處理分析出視頻中所包含的這3種屬性,從而判定事件的類別.在描述視頻事件時(shí),具有不同概括的術(shù)語(yǔ),有些屬于一般術(shù)語(yǔ),涉及更廣泛的概念,如“人”,而有些則為專業(yè)術(shù)語(yǔ),具有明確的指向,如“警察”和“籃球運(yùn)動(dòng)員”,專業(yè)的術(shù)語(yǔ)更能有效地區(qū)分不同的事件,其包含的信息量越大.文中將在原有基礎(chǔ)概念基礎(chǔ)上,加入更深層次的概念,選用的概念子集從以下數(shù)據(jù)集中生成適當(dāng)?shù)募?采用不同的方法訓(xùn)練生成概念探測(cè)器模型進(jìn)行概念檢測(cè).這4個(gè)數(shù)據(jù)集與所采用的訓(xùn)練方式,如下所示:
1) UCF101: 選取UCF101數(shù)據(jù)集作為動(dòng)作檢測(cè)的基本概念集,因?yàn)樗趧?dòng)作類的數(shù)量和各種動(dòng)作種類之間是一個(gè)很好的折衷.該數(shù)據(jù)集包含101個(gè)動(dòng)作類,每個(gè)類至少有100個(gè)視頻剪輯,包括運(yùn)動(dòng)、樂(lè)器和人物交互等.整個(gè)數(shù)據(jù)集包含13 320個(gè)視頻剪輯,每個(gè)操作類別分為25組.采用三維卷積網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以考慮幀間的運(yùn)動(dòng)信息.網(wǎng)絡(luò)中卷積核大小均為3×3×3,步長(zhǎng)為1×1×1;池化核大小為2×2×2,步長(zhǎng)為2×2×2.每次輸入16張圖片,大小為32×32.
2) TV-Interaction: TV-Interaction數(shù)據(jù)集包含從20多個(gè)不同電視節(jié)目收集的300個(gè)視頻剪輯,包含4種互動(dòng)行為,即晃手、擊掌、擁抱和親吻.針對(duì)該數(shù)據(jù)集,采用InceptionV3網(wǎng)絡(luò)[4]進(jìn)行訓(xùn)練.
3) Place365: Places365是Places2數(shù)據(jù)庫(kù)的子集,擁有來(lái)自365個(gè)場(chǎng)景類別的約180萬(wàn)個(gè)圖像數(shù)據(jù)集,包括不同類別的臥室或街道等,能有效地區(qū)分不同類別的場(chǎng)景背景.針對(duì)該數(shù)據(jù),采用VGG[5]的卷積模型進(jìn)行訓(xùn)練.
4) MS-COCO: MS-COCO是由微軟創(chuàng)建的普通物體檢測(cè)數(shù)據(jù)集,包括33萬(wàn)張圖像.相比于SUN數(shù)據(jù)集類目較少,但MS-COCO數(shù)據(jù)集單幅圖片中包含多目標(biāo)對(duì)象,且物體大多非中心分布,拍攝角度多變,背景較復(fù)雜,且包含大量的邊界框,更有利于獲得的每個(gè)目標(biāo)類別位于某特定場(chǎng)景的能力.為了獲得更多樣的識(shí)別結(jié)果,文中在該數(shù)據(jù)集基礎(chǔ)上加入部分從網(wǎng)絡(luò)收集的數(shù)據(jù),并采用R-FCN(region-based fully convolutional networks)網(wǎng)絡(luò)[6]進(jìn)行訓(xùn)練.
1.1.2視頻級(jí)概念分?jǐn)?shù)生成
(1)
式中q為第k段所包含的幀數(shù).因此,整段視頻的預(yù)測(cè)得分為
(2)
圖2為不同方法下視頻級(jí)概念得分,可知采用取最大值的方法所得分?jǐn)?shù)噪聲較多,采用均值所得分?jǐn)?shù)雖然能抑制噪聲,但有用的概念得分被抑制,易導(dǎo)致識(shí)別效果不佳.文中所采用的基于鏡頭級(jí)別的混合選取方法具有較好的魯棒性,能有效表示視頻級(jí)得分.
圖2 不同方法下的視頻級(jí)概念得分
1.1.3概念子集優(yōu)化與事件檢測(cè)
文中為每個(gè)事件構(gòu)建合適的概念子集λ*,概念子集為對(duì)復(fù)雜事件的多樣化描述,例如,描述一件事時(shí),多分開(kāi)表述為正面積極的關(guān)鍵詞合集.使得每一個(gè)事件都有正確的概念子集相對(duì)應(yīng),是文中著力研究的點(diǎn).在概念空間中,若概念子集用較少數(shù)量的概念進(jìn)行事件表示容易受噪聲的影響.換言之,采用更多的相關(guān)性概念去描述事件能有效提升識(shí)別結(jié)果.但試驗(yàn)證明,過(guò)多的概念會(huì)使得事件與概念子集之間更難匹配,相識(shí)度下降,從而導(dǎo)致識(shí)別結(jié)果不佳.通過(guò)人工篩選生成的方式費(fèi)時(shí)費(fèi)力,且容易忽視一些邊緣概念,而這些概念通常具有較大的信息熵.文中希望能通過(guò)現(xiàn)有的視頻訓(xùn)練集自動(dòng)選擇適當(dāng)概念數(shù)量建立概念子集,以映射事件,保持最佳匹配來(lái)實(shí)現(xiàn)語(yǔ)義查詢,它既可以從具有更多概念的表示中受益,又可以抵制不太相關(guān)甚至不相關(guān)概念的負(fù)面影響.
為每個(gè)事件生成優(yōu)選概念子集,該問(wèn)題的常見(jiàn)解法為蒙特卡洛模擬.但是當(dāng)參數(shù)空間很大時(shí),例如定義m個(gè)概念,那么就存在2m個(gè)組合,通過(guò)隨機(jī)抽樣很難找到最優(yōu)解或良好的近似值.文中采用交叉熵解決優(yōu)化問(wèn)題.
(3)
T次迭代后,依據(jù)θ(T)可得最優(yōu)概念子集λ*.
以顏色值a*為自變量,分別以姜黃素、去甲氧基姜黃素、雙去甲氧基姜黃素及總姜黃素含量作為因變量,得到模型3、4、5、6,回歸分析結(jié)果見(jiàn)表7~9。
在得到的第i類事件最優(yōu)概念子集λ*的基礎(chǔ)上,形成概念類別向量ci,設(shè)輸入視頻的視頻概念類別得分為c,則可得關(guān)于第i類事件的得分為
(4)
式中sim為度量相似度的函數(shù).
為了提取空間和短期的運(yùn)動(dòng)特征,模型前期分為空間流特征提取和時(shí)間流特征提取.空間流建立在所采集提取的單幀上,這與基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類方法相同,可以捕獲到視頻中的靜態(tài)信息.時(shí)間流用于計(jì)算視頻幀間的運(yùn)動(dòng)特征,作為時(shí)間流的輸入,文中在每對(duì)相鄰幀之間計(jì)算光流(位移矢量場(chǎng)),在位移矢量的水平分量和垂直分量形成兩個(gè)光流圖像,采用堆疊的光流圖像作為輸入.視頻事件之間的時(shí)間聯(lián)系較為緊密,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)是一種新型的遞歸神經(jīng)網(wǎng)絡(luò),適合于處理和預(yù)測(cè)時(shí)間序列中間隔和延遲相對(duì)較長(zhǎng)的重要事件,能夠依據(jù)前文來(lái)預(yù)測(cè)之后內(nèi)容,具有時(shí)序建模能力.文中在雙流網(wǎng)絡(luò)全連接層加入長(zhǎng)短期記憶網(wǎng)絡(luò),先在雙流網(wǎng)絡(luò)中學(xué)習(xí)局部時(shí)空信息,之后將特征序列傳入長(zhǎng)短期記憶網(wǎng)絡(luò)中獲取全局時(shí)間信息,其中的每個(gè)時(shí)間單位的隱藏層將被傳給下一層,以綜合各個(gè)時(shí)間輸出對(duì)于分類結(jié)果的影響.
設(shè)空間流網(wǎng)絡(luò)提取到的特征為xs,經(jīng)LSTM處理LLSTM可得到特征序列為
hs=LLSTM(xs).
(5)
可得復(fù)雜事件類別得分為
ys=Softmax(hs).
(6)
同理,時(shí)間流網(wǎng)絡(luò)提取到的特征為xt,經(jīng)LSTM所得特征序列為
ht=LLSTM(xt).
(7)
可得復(fù)雜事件類別得分為
yt=Softmax(ht).
(8)
在之后對(duì)雙通道的Softmax層的輸出進(jìn)行平均融合,得到基于雙流LSTM的事件檢測(cè)輸出得分為
(9)
uj=ωjy1,j+(1-ωj)y2,j.
(10)
在此基礎(chǔ)上,選擇得分最高者所對(duì)應(yīng)的事件類別作為測(cè)試視頻類別,最終事件類別表達(dá)式為
(11)
試驗(yàn)選用CCV[7]數(shù)據(jù)集以評(píng)估模型的有效性,CCV數(shù)據(jù)集包含從YouTube收集來(lái)的9 317個(gè)視頻,其中4 659視頻用作訓(xùn)練數(shù)據(jù),另外4 658個(gè)視頻用作測(cè)試數(shù)據(jù),視頻平均長(zhǎng)度為80 s.該視頻集包含多樣的內(nèi)容,僅有少量的文本標(biāo)簽和描述.視頻集由20個(gè)語(yǔ)義類別組成,語(yǔ)義范疇包含諸如“棒球”、“游行”和“生日派對(duì)”之類的復(fù)雜事件.
在概念子集優(yōu)選生成階段,概念空間S中的概念設(shè)為590個(gè);針對(duì)每個(gè)概念,迭代次數(shù)T取值50,每次迭代生成概念子集數(shù)n取1 000.φ(1)初始化為0.2,優(yōu)選子集N設(shè)置為300.
構(gòu)建雙流長(zhǎng)短時(shí)記憶模型中,針對(duì)輸入的視頻,每幀大小截取為224×224.對(duì)于特征提取網(wǎng)絡(luò)結(jié)構(gòu),采用VGG[5]和CNNM[8]提取空間和短時(shí)運(yùn)動(dòng)特征.在雙流網(wǎng)絡(luò)后進(jìn)行長(zhǎng)時(shí)間建模,采用兩層LSTM結(jié)構(gòu),每個(gè)LSTM底層有1 024個(gè)隱藏單元,第2層擁有512個(gè)隱藏單元.Dropout 是深度學(xué)習(xí)中防止過(guò)擬合的方法,通過(guò)在網(wǎng)絡(luò)的某層節(jié)點(diǎn)中設(shè)置一個(gè)被消除的概率,在每一輪權(quán)值更新時(shí)從網(wǎng)絡(luò)架構(gòu)中隨機(jī)將某些節(jié)點(diǎn)刪除,從而降低模型復(fù)雜度LSTM 層都應(yīng)用 Dropout 機(jī)制以改善性能.最終的決策融合選取權(quán)重過(guò)程中步長(zhǎng)設(shè)為0.1.
圖3為利用語(yǔ)義概念模型生成的部分概念.
圖3 語(yǔ)義概念模型所生成的部分概念
由圖3可知這些概念在某種程度上都與事件有著高度相關(guān),表明該方法能有效地選出適當(dāng)概念以映射事件.試驗(yàn)可得出文獻(xiàn)[9-12]中算法精確度分別為68.2%,70.6%,75.4%,75.6%;語(yǔ)義概念模型、雙流特征模型、融合模型的精確度分別為39.7%,78.4%,81.1%.
針對(duì)提出的復(fù)雜視頻事件識(shí)別框架,試驗(yàn)中采用平均精度計(jì)算每個(gè)事件類別得分,最后采用宏平均精度(macro average precision, MAP)作為評(píng)價(jià)標(biāo)準(zhǔn).試驗(yàn)結(jié)果表明,采用雙流特征模型能有效地對(duì)視頻進(jìn)行時(shí)序建模,相比采用SSLF與SIFT的傳統(tǒng)算法,有了較大的提升,與現(xiàn)有深度學(xué)習(xí)模型相比,準(zhǔn)確率也有顯著的提升.采用文中提出的基于語(yǔ)義概念和雙流特征模型融合方法,與單獨(dú)采用雙流特征網(wǎng)絡(luò)相比,有3.74%的提升.試驗(yàn)表明,雙流特征模型與語(yǔ)義概念模型相融合能有效利用語(yǔ)義信息,建立更好的視頻事件分類模型.圖4為CCV數(shù)據(jù)集每類的表現(xiàn).
圖4 CCV數(shù)據(jù)集每類表現(xiàn)
通過(guò)分析圖4可知,語(yǔ)義概念模型能較好地識(shí)別出具有區(qū)別性概念的事件,但當(dāng)事件之間比較相似時(shí),識(shí)別率不佳.雙流特征模型在與語(yǔ)義概念模型融合后,大部分事件的識(shí)別率得到了提升,但少許事件識(shí)別率沒(méi)有改變或出現(xiàn)下降.分析如下:傳統(tǒng)事件(如“籃球”、“滑冰”等)背景較為單一,行為區(qū)分度明顯,視頻訓(xùn)練集數(shù)量較多,雙流長(zhǎng)短時(shí)記憶模型能有效地對(duì)視頻特征進(jìn)行學(xué)習(xí),加入概念后識(shí)別結(jié)果提升不太明顯.而對(duì)于較復(fù)雜的事件,視頻數(shù)量較少,因而深度神經(jīng)網(wǎng)絡(luò)識(shí)別效果一般,結(jié)合語(yǔ)義概念能在一定程度上識(shí)別效果.在“生日派對(duì)”、“婚禮”事件中,因視頻幀存在具有區(qū)分度的概念(如“蛋糕”、“婚禮”等),識(shí)別率有所提升.但若視頻清晰度不佳,目標(biāo)物體存在遮擋,導(dǎo)致漏檢或誤檢都會(huì)使得識(shí)別效果不佳.在部分事件中前景目標(biāo)過(guò)多或動(dòng)作幅度不明顯,都易使得相應(yīng)語(yǔ)義概念失效.一些概念雖然與感興趣的事件相關(guān),但該概念所攜帶的信息量不多,如“音樂(lè)表演”件中常出現(xiàn)的眾人大合唱,概念檢測(cè)探測(cè)到人出現(xiàn)在視頻中,但該概念卻普遍存在于其他事件,且該類視頻難以用已有概念進(jìn)行合理描述,因而對(duì)這類視頻識(shí)別不夠理想.
文中提出了基于語(yǔ)義概念和雙流特征模型融合的視頻復(fù)雜事件檢測(cè)方法,相較于傳統(tǒng)算法,避免了對(duì)大量訓(xùn)練樣本的依賴;在典型復(fù)雜視頻事件數(shù)據(jù)集上與其他算法進(jìn)行對(duì)比測(cè)試,準(zhǔn)確率達(dá)到了81.1%,為所有算法中最優(yōu),證實(shí)了所提方法能有效地利用視頻中的語(yǔ)義概念信息,提升視頻事件分析的準(zhǔn)確性.
將事件分解成不同的概念,不僅在語(yǔ)義上可解釋,而且有助于在視頻庫(kù)中按關(guān)鍵字檢索視頻.視頻事件識(shí)別是一項(xiàng)具有挑戰(zhàn)性的任務(wù),文中沒(méi)有考慮長(zhǎng)視頻計(jì)算量的問(wèn)題,下一步可以在擴(kuò)充概念空間和優(yōu)化處理時(shí)間上進(jìn)一步優(yōu)化處理.