黃慶浩 呂學(xué)強(qiáng) 何 健 游新冬
1(北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室 北京 100101) 2(北京洛奇智慧醫(yī)療科技有限公司 北京 100015) 3(清華大學(xué)互聯(lián)網(wǎng)產(chǎn)業(yè)研究院 北京 100084)
國(guó)家統(tǒng)計(jì)局2018年的統(tǒng)計(jì)數(shù)據(jù)顯示中國(guó)人口數(shù)量已接近14億[1]。龐大的人口基數(shù)為國(guó)家的繁榮強(qiáng)盛提供豐富的人力資源,但隨之而來(lái)出現(xiàn)的問(wèn)題也越來(lái)越多,其中看病難已經(jīng)成為困擾人民群眾生活的一個(gè)很普遍的問(wèn)題,并引起了政府的高度重視。同年,中國(guó)就醫(yī)人次突破83.1億,平均每人就醫(yī)次數(shù)接近7次,每次就醫(yī)患者需要做多個(gè)化驗(yàn)檢測(cè),并產(chǎn)出大量的化驗(yàn)單,極大地增加了醫(yī)生的工作量[2]?;颊邤?shù)量龐大,醫(yī)生數(shù)量有限,患者能夠及時(shí)進(jìn)行化驗(yàn)檢測(cè),并得到化驗(yàn)結(jié)果,但是不能及時(shí)對(duì)化驗(yàn)單進(jìn)行解讀,最終導(dǎo)致病情延誤。這也是近幾年醫(yī)患糾紛問(wèn)題時(shí)常發(fā)生的主要原因。
近年來(lái),人工智能的發(fā)展為智慧醫(yī)療提供了強(qiáng)大的技術(shù)支持[3],以計(jì)算機(jī)視覺(jué)為基礎(chǔ)的化驗(yàn)單解讀能夠有效地提高就醫(yī)效率,減緩就醫(yī)壓力。自2014年起,R-CNN[4]深度學(xué)習(xí)算法在目標(biāo)檢測(cè)領(lǐng)域取得優(yōu)異的成績(jī),使整個(gè)學(xué)術(shù)界以及工業(yè)界掀起了一股人工智能的浪潮,各類(lèi)檢測(cè)算法應(yīng)運(yùn)而生。在現(xiàn)代生產(chǎn)活動(dòng)中,機(jī)器大有取代人類(lèi)完成復(fù)雜繁重的工作之勢(shì),智慧醫(yī)療的出現(xiàn)能夠很好地緩解看病難的問(wèn)題[5]。
基于人工智能的化驗(yàn)單智能解讀可以把患者孤立的信息之間建立聯(lián)系,同時(shí)以更加直觀的方式展現(xiàn)給患者。患者不僅能夠充分了解自身的病情,而且能夠正確地選擇就醫(yī),提高就醫(yī)效率,減緩就醫(yī)壓力[6]。BHS-CTPN方法旨在研究如何對(duì)化驗(yàn)單中的文本位置進(jìn)行準(zhǔn)確的檢測(cè)和定位,其檢測(cè)的精度對(duì)后期OCR文字識(shí)別和準(zhǔn)確地與后臺(tái)醫(yī)學(xué)知識(shí)數(shù)據(jù)進(jìn)行關(guān)聯(lián)奠定了堅(jiān)實(shí)的基礎(chǔ),是化驗(yàn)單智能解讀的重要前期工作。
通過(guò)查閱相關(guān)資料,印刷體文字檢測(cè)準(zhǔn)確率達(dá)到了99%以上,但是盡管如此,對(duì)于自然場(chǎng)景中化驗(yàn)單的文字檢測(cè)而言,仍然是一個(gè)有待突破的任務(wù),其主要原因是自然場(chǎng)景中的圖像受背景多樣性、光照強(qiáng)度等多種因素的影響,給自然場(chǎng)景中的文字檢測(cè)帶來(lái)了很大的困難。
2011年,Wang等[7]提出了一種基于滑動(dòng)窗口機(jī)制,使用隨機(jī)森林分類(lèi)器和Hog[8]特征的自然場(chǎng)景文字檢測(cè)算法。該算法是使用多尺度滑動(dòng)窗口在檢測(cè)圖像上進(jìn)行自上而下、自左到右的滑動(dòng),滑動(dòng)中產(chǎn)生的區(qū)域作為候選字符區(qū)域。對(duì)于每一個(gè)候選字符區(qū)域,進(jìn)行特征提取,然后對(duì)這些候選區(qū)域特征訓(xùn)練分類(lèi)器進(jìn)行分類(lèi)。該方法的缺點(diǎn)是得到的候選區(qū)域數(shù)量巨大,檢測(cè)效率低。
2010年,Epshtein等[9]提出了一個(gè)使用筆畫(huà)寬度變換算法(SWT),通過(guò)提取出邊緣圖像平行的邊緣生成筆畫(huà)寬度圖。但SWT算法的缺點(diǎn)顯而易見(jiàn),通常是基于邊緣圖像質(zhì)量高的圖片做檢測(cè)。2014年,Yin等[10]提出了一種基于最大穩(wěn)定極值區(qū)域算法(MSER)的文字檢測(cè)算法來(lái)提取字符候選區(qū)域。該算法開(kāi)始應(yīng)用MSER算法來(lái)生成大量的候選字符區(qū)域,然后定義一些既定的規(guī)則來(lái)篩選剔除掉部分候選字符區(qū)域負(fù)樣本,接著又使用聚類(lèi)算法將剩下的候選字符區(qū)域聚集成連通的文本區(qū)域,之后對(duì)這些文本區(qū)域的單個(gè)字符訓(xùn)練分類(lèi)器進(jìn)行分類(lèi),篩選剔除掉部分非字符區(qū)域,從而得到文本檢測(cè)的目標(biāo)區(qū)域?;贛SER算法的缺點(diǎn)是對(duì)于復(fù)雜的場(chǎng)景檢測(cè)效果不盡如人意。
近年來(lái),基于深度學(xué)習(xí)的檢測(cè)算法不斷涌出,如Faster-RCNN[11]、SSD[12]、YOLO[13]等,但這些檢測(cè)方法對(duì)于不定長(zhǎng)文本序列檢測(cè)效果欠佳。Tian等[14]提出了CTPN網(wǎng)絡(luò)用于自然場(chǎng)景下文本檢測(cè)。CTPN不同于RPN網(wǎng)絡(luò),CTPN加入了雙向LSTM獲取時(shí)序方向信息,使得模型可以序列性地預(yù)測(cè)文本小片段。CTPN網(wǎng)絡(luò)對(duì)于不定長(zhǎng)的文本序列,是將文本分成若干個(gè)小片段,然后將文本行的檢測(cè)轉(zhuǎn)化為小片段的檢測(cè),最后利用規(guī)則將屬于同一水平行的小片段組合成文本行,化繁為簡(jiǎn)。CTPN能夠很好地解決自然場(chǎng)景下不定長(zhǎng)文本序列檢測(cè)問(wèn)題,但存在的最大問(wèn)題是對(duì)于復(fù)雜場(chǎng)景和傾斜文本檢測(cè)效果欠佳。
綜上所述,對(duì)于自然場(chǎng)景下化驗(yàn)單文字檢測(cè)并去除敏感區(qū)域,目前存在的檢測(cè)方法都存在一定的缺陷,滑動(dòng)窗口和MSER算法檢測(cè)效率極慢,適應(yīng)場(chǎng)景簡(jiǎn)單,F(xiàn)aster-RCNN、SSD、YOLO等算法對(duì)不定長(zhǎng)文本序列檢測(cè)效果欠佳,CTPN算法對(duì)復(fù)雜場(chǎng)景和傾斜文本檢測(cè)效果達(dá)不到預(yù)期要求。本文提出了BHS-CTPN:一種自然場(chǎng)景下的化驗(yàn)單文字檢測(cè)方法。首先提出了一系列預(yù)處理方法,針對(duì)洛奇智慧醫(yī)療實(shí)驗(yàn)室特有的真實(shí)數(shù)據(jù)集,對(duì)化驗(yàn)單進(jìn)行矯正、切割、增強(qiáng)處理。預(yù)處理能夠很好地解決傾斜問(wèn)題、切除敏感信息問(wèn)題、光照不均勻、字跡模糊等問(wèn)題。然后提出了改進(jìn)的CTPN網(wǎng)絡(luò)模型,引入多尺度卷積核和對(duì)卷積核進(jìn)行拆分,不僅能加速網(wǎng)絡(luò)訓(xùn)練,而且能夠使網(wǎng)絡(luò)提取特征更加豐富。根據(jù)洛奇智慧醫(yī)療實(shí)驗(yàn)室特有的真實(shí)數(shù)據(jù)集設(shè)定相對(duì)應(yīng)的Anchor,使網(wǎng)絡(luò)預(yù)測(cè)的文本框位置更貼切真實(shí)文本框位置。
本文主要分四步對(duì)自然場(chǎng)景下化驗(yàn)單的文字區(qū)域進(jìn)行檢測(cè):第一步圖像矯正,將傾斜的圖片矯正為水平方向。第二步圖像切割,切除脫敏信息區(qū)域,只保留待檢測(cè)區(qū)域。第三步使用前景提取和二值化進(jìn)行圖像增強(qiáng)。第四步訓(xùn)練基于改進(jìn)的CTPN網(wǎng)絡(luò)。整體流程如圖1所示。
圖1 整體流程框架
自然場(chǎng)景下化驗(yàn)單并不是水平拍攝的,存在不同程度的傾斜,為了解決這個(gè)問(wèn)題,引用了BRISK[15]角點(diǎn)檢測(cè)匹配算法,使最終的化驗(yàn)單都呈現(xiàn)水平方向。BRISK角點(diǎn)檢測(cè)匹配算法具有旋轉(zhuǎn)不變形、尺度不變形,有較好的魯棒性,性能極為出色。BRISK角點(diǎn)檢測(cè)匹配算法主要包含三步:角點(diǎn)檢測(cè)、特征描述、特征匹配;主要利用匹配的特征角點(diǎn),構(gòu)建映射關(guān)系,然后通過(guò)模板匹配還原任意角度拍攝的化驗(yàn)單。
首先,構(gòu)建尺度空間金字塔,構(gòu)造n個(gè)2倍下采樣層和n個(gè)1.5倍下采樣層。接下來(lái)通過(guò)FAST5-8和FAST9-16對(duì)2n+1幅圖進(jìn)行特征點(diǎn)檢測(cè),選取26鄰域FAST的得分最大值作為特征點(diǎn)。然后對(duì)位置方向進(jìn)行二維二次函數(shù)插值,再對(duì)尺度方向進(jìn)行一維插值,得到比較精確的特征點(diǎn)。特征點(diǎn)的描述采用均勻采樣模式,為了解決旋轉(zhuǎn)不變性,需要對(duì)特征點(diǎn)周?chē)牟蓸訁^(qū)域進(jìn)行旋轉(zhuǎn)到主方向,得到新的采樣區(qū)域。最后通過(guò)計(jì)算特征描述的漢明距離進(jìn)行特征點(diǎn)匹配。
根據(jù)化驗(yàn)單表頭不變性進(jìn)行矯正設(shè)計(jì),使用場(chǎng)景化驗(yàn)單與模板化驗(yàn)單進(jìn)行特征匹配,最終可以得到場(chǎng)景化驗(yàn)單到模板化驗(yàn)單的變化對(duì)應(yīng)關(guān)系,通過(guò)變化軌跡構(gòu)建擬合函數(shù),如式(1)所示,其中:k表示比例系列,x表示場(chǎng)景化驗(yàn)單特征點(diǎn)對(duì)應(yīng)的坐標(biāo)位置,y表示模板化驗(yàn)單特征點(diǎn)對(duì)應(yīng)的坐標(biāo)位置。通過(guò)使用擬合的函數(shù),可以將任意角度拍攝的化驗(yàn)單進(jìn)行矯正處理。
(1)
在化驗(yàn)單檢測(cè)過(guò)程中,化驗(yàn)單中可能會(huì)包含用戶(hù)的一些敏感信息。為了脫敏,基于改進(jìn)的霍夫變換直線(xiàn)檢測(cè)算法[16],剔除敏感信息部位,保留必要的檢測(cè)區(qū)域?;舴蜃儞Q直線(xiàn)檢測(cè),是將圖像空間映射到參數(shù)空間,圖像空間中的點(diǎn)與參數(shù)空間中的直線(xiàn)是一一對(duì)應(yīng)的。因此檢測(cè)圖像空間中的直線(xiàn)可以轉(zhuǎn)換為檢測(cè)參數(shù)空間中直線(xiàn)的交點(diǎn)?;舴蜃儞Q過(guò)程如圖2所示。
圖2 霍夫變換過(guò)程
在實(shí)際應(yīng)用中,當(dāng)圖像空間上的直線(xiàn)垂直x軸時(shí),無(wú)法映射到參數(shù)空間。采用極坐標(biāo)方式作為參數(shù)空間:
r=xcosθ+ysinθ
(2)
由于圖像的復(fù)雜性,圖像中的直線(xiàn)并不在同一水平線(xiàn)上。通過(guò)霍夫直線(xiàn)檢測(cè),會(huì)得到許多小的直線(xiàn)線(xiàn)段,這些小線(xiàn)段分布在直線(xiàn)的兩側(cè)。采用水平掃描,線(xiàn)段覆蓋的思想來(lái)拼接線(xiàn)段,為了避免傾斜問(wèn)題,設(shè)定線(xiàn)段上下k個(gè)像素波動(dòng),統(tǒng)計(jì)每一行像素覆蓋的情況,最大覆蓋行即為直線(xiàn)行。將檢測(cè)的若干條水平直線(xiàn)進(jìn)行排序,最大間隔的相鄰直線(xiàn)之間即為待檢測(cè)區(qū)域,最后對(duì)化驗(yàn)單進(jìn)行裁切,剔除敏感區(qū)域,保留待檢測(cè)區(qū)域。
自然場(chǎng)景下化驗(yàn)單數(shù)據(jù)一般是通過(guò)手機(jī)拍照,其中存在了很多干擾因素,例如光照強(qiáng)度、手機(jī)像素、拍攝抖動(dòng)等影響,會(huì)導(dǎo)致拍出的照片出現(xiàn)不同程度的噪聲。同時(shí)還存在字跡不清晰、化驗(yàn)單表面污漬等問(wèn)題。這些問(wèn)題極大地干擾后期工作的進(jìn)行,因此需要對(duì)圖像進(jìn)行增強(qiáng),從而減少或消除這些干擾因素對(duì)文字檢測(cè)的干擾[17]。故提出了對(duì)不均勻光照下化驗(yàn)單圖像進(jìn)行二值化。
首先進(jìn)行前景提取,通過(guò)預(yù)估出原圖的背景圖與原圖做差得到前景圖。通過(guò)選取某點(diǎn)鄰域最高亮度的n個(gè)點(diǎn),去掉最大值,剩余值的平均值設(shè)為該點(diǎn)的背景像素值。對(duì)于深色背景,若直接利用原圖減去背景,會(huì)造成提取的文本字跡模糊,根據(jù)背景像素值來(lái)提升文本對(duì)比度。s(x,y)表示原圖像素值,p(x,y)表示背景像素值,e(x,y)表示圖像增強(qiáng)后的像素值,k表示對(duì)比度放大倍數(shù)。圖片背景顏色越深,那么k的值對(duì)應(yīng)就越小。其中B1=2.5,B2=1.0,分段函數(shù)如下:
(3)
增強(qiáng)后的圖像像素值如下:
e(x,y)=255-k(p(x,y)-s(x,y))
(4)
通過(guò)上述步驟得到增強(qiáng)后的圖像,然后對(duì)圖像進(jìn)行二值化,選用Sauvola算法[18]進(jìn)行局部閾值二值化,以某像素點(diǎn)為中心,根據(jù)當(dāng)前像素點(diǎn)鄰域內(nèi)的灰度均值與標(biāo)準(zhǔn)方差來(lái)動(dòng)態(tài)計(jì)算該像素點(diǎn)的閾值。m(x,y)表示均值,s(x,y)表示標(biāo)準(zhǔn)差。閾值T(x,y)計(jì)算如式(5)所示,其中R=128表示8位的灰度圖像,k∈(0,1)表示修正參數(shù)。
(5)
通過(guò)上述一系列預(yù)處理步驟,可以得到一張方便網(wǎng)絡(luò)處理的化驗(yàn)單,接下來(lái)需要對(duì)化驗(yàn)單的文本位置進(jìn)行檢測(cè)。本文提出了一種改進(jìn)的CTPN文本檢測(cè)模型,主要在以下三個(gè)方面進(jìn)行了改進(jìn):(1) 特征提取時(shí)卷積核的設(shè)計(jì)方面。(2) anchor(初始區(qū)域建議窗口)的設(shè)定方面。(3) 文本框合并方面。
CTPN網(wǎng)絡(luò)使用VGG網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)進(jìn)行特征提取[19]。通過(guò)修改VGG網(wǎng)絡(luò)來(lái)提取更加豐富的圖像特征。首先引入1×1卷積核,主要用來(lái)調(diào)節(jié)通道數(shù),對(duì)不同通道上的像素進(jìn)行線(xiàn)性組合,達(dá)到降維的效果。其次引入多尺度卷積核,對(duì)于不同尺度的卷積核其感受野不同,提取特征的著重點(diǎn)也不同,使最終提取的特征更加豐富。最后是對(duì)n×n卷積核進(jìn)行1×n和n×1拆分,達(dá)到同樣的提取效果,但是參數(shù)量和計(jì)算量大幅降低。
統(tǒng)計(jì)分析洛奇實(shí)驗(yàn)室提供的真實(shí)化驗(yàn)單數(shù)據(jù),可以將不定長(zhǎng)文本檢測(cè)轉(zhuǎn)化為固定寬度的anchor進(jìn)行預(yù)測(cè),化繁為簡(jiǎn)。根據(jù)真實(shí)場(chǎng)景下的化驗(yàn)單每個(gè)字符的寬度約為16個(gè)像素,將anchor寬度設(shè)置為16像素;通過(guò)不同角度和距離遠(yuǎn)近拍攝發(fā)現(xiàn),可以將anchor的高度設(shè)置為16~198像素之間,每個(gè)anchor高度計(jì)算公式如式(6)所示,系數(shù)k=0.7。
(6)
通過(guò)特征提取,anchor預(yù)測(cè),可以得到若干個(gè)文本塊,接下來(lái)需要對(duì)文本塊進(jìn)行合并得到文本線(xiàn)。主要思想是將相鄰的兩個(gè)文本塊進(jìn)行合并,直至無(wú)法合并為止。結(jié)合實(shí)際數(shù)據(jù),兩個(gè)文本框合并的條件是先將文本框按得分排序,然后從最大得分的文本框向前和向后搜索32像素,尋找范圍內(nèi)得分最大的文本框,進(jìn)行合并操作,合并時(shí)同時(shí)要求兩文本框的垂直重復(fù)率大于0.7。重復(fù)上述操作直至得到最后的文本檢測(cè)框。
模型采用的損失函數(shù)由三部分構(gòu)成:第一部分是二分類(lèi)(文本/非文本),使用交叉熵?fù)p失函數(shù);第二部分垂直方向偏移量回歸,使用smooth L1損失函數(shù);第三部分為水平方向偏移量回歸,使用smooth L1損失函數(shù)。
(7)
模型整體結(jié)構(gòu)如圖3所示,第一步是淺層特征提取,第二步使用改進(jìn)的VGG網(wǎng)絡(luò)進(jìn)行深度特征提取,第三步使用BiLSTM進(jìn)行位置關(guān)聯(lián),第四步通過(guò)設(shè)定anchor進(jìn)行位置預(yù)測(cè),并通過(guò)NMS對(duì)文本框進(jìn)行過(guò)濾。最后構(gòu)造文本線(xiàn)得到最終的預(yù)測(cè)結(jié)果。
圖3 模型結(jié)構(gòu)圖
由洛奇智慧醫(yī)療科技有限公司提供真實(shí)數(shù)據(jù)5 000幅,后期通過(guò)檢驗(yàn)指標(biāo)項(xiàng)進(jìn)行數(shù)據(jù)合成,盡可能多地?cái)U(kuò)充數(shù)據(jù)集,使數(shù)據(jù)集覆蓋全部檢測(cè)項(xiàng)目,數(shù)據(jù)最終擴(kuò)充至10 000幅。訓(xùn)練集、驗(yàn)證集、測(cè)試集的比例按照6 ∶2 ∶2的比例劃分,化驗(yàn)單數(shù)據(jù)樣例如圖4所示。
圖4 化驗(yàn)單數(shù)據(jù)樣例
使用準(zhǔn)確率(Precision)、召回率(Recall)和F-Measure(F1值)對(duì)模型做性能評(píng)估。TP表示正類(lèi)判斷成正類(lèi)的數(shù)目,TN表示負(fù)類(lèi)判斷成負(fù)類(lèi)的數(shù)目,F(xiàn)P表示負(fù)類(lèi)判斷成正類(lèi)的數(shù)目,F(xiàn)N表示正類(lèi)判斷成負(fù)類(lèi)的數(shù)目。正確率計(jì)算公式如下:
(8)
召回率計(jì)算公式如下:
(9)
F1值計(jì)算公式如下:
(10)
(1) 化驗(yàn)單預(yù)處理。針對(duì)自然場(chǎng)景下化驗(yàn)單擺放多樣性、光線(xiàn)復(fù)雜以及敏感信息等問(wèn)題,需要對(duì)化驗(yàn)單進(jìn)行預(yù)處理。首先對(duì)化驗(yàn)單進(jìn)行矯正處理,利用BRISK算法進(jìn)行角點(diǎn)檢測(cè)和角度匹配,計(jì)算映射關(guān)系,將化驗(yàn)單進(jìn)行矯正。然后基于改進(jìn)的霍夫直線(xiàn)檢測(cè)算法,去除敏感信息區(qū)域,保留檢驗(yàn)項(xiàng)的檢測(cè)區(qū)域。最后利用背景差分法和Sauvola算法進(jìn)行圖像增強(qiáng)。預(yù)處理流程如圖5所示。
圖5 預(yù)處理流程
(2) 實(shí)驗(yàn)設(shè)置。實(shí)驗(yàn)環(huán)境配置如下:Intel Xeon E5-2603 v4處理器,64 GB內(nèi)存,Nvidia Tesla k80顯卡,操作系統(tǒng)為Ubuntu 16.04.10,開(kāi)發(fā)語(yǔ)言為Python3.6.8,VGG和BiLSTM中所有參數(shù)都采用正態(tài)分布進(jìn)行隨機(jī)初始化,為了提高模型訓(xùn)練速度和最優(yōu)效果,每10個(gè)epoch學(xué)習(xí)率衰減為原來(lái)的一半。詳細(xì)參數(shù)如表1所示。
表1 模型參數(shù)
(1) 定量分析。將提出的BHS-CTPN方法分別與Hog+SVM、MSER、Faster-RCNN、YOLO、SSD、CTPN等方法在洛奇智慧醫(yī)療實(shí)驗(yàn)室提供的真實(shí)化驗(yàn)單數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果如表2所示。與CTPN模型相比,準(zhǔn)確率、召回率、F1值分別提升了8%、10%、9%,F(xiàn)PS增加了16,表明修改后的網(wǎng)絡(luò)提取的特征更加豐富預(yù)測(cè)文本框的位置更加準(zhǔn)確。與改進(jìn)的CTPN模型但沒(méi)有預(yù)處理操作的方法相比,準(zhǔn)確率、召回率、F1值分別提升了4%、6%、5%,表明一系列預(yù)處理操作能有效地提高檢測(cè)的精度。通過(guò)本組實(shí)驗(yàn)的對(duì)比和這些指數(shù)的提升,可以有效地證明BHS-CTPN模型的有效性和優(yōu)越性。
表2 學(xué)術(shù)界檢測(cè)結(jié)果對(duì)比
如表3所示,為了進(jìn)一步證明BHS-CTPN方法的有效性,本文還分別與目前在中文OCR檢測(cè)領(lǐng)域知名的三家企業(yè)提供的API進(jìn)行了對(duì)比,分別是百度、騰訊、華為。通過(guò)調(diào)用相應(yīng)的API接口,與最好性能的華為OCR 接口相比,準(zhǔn)確率、召回率、F1值分別提升了6%、3%、5%,但FPS卻減少了39,主要是因?yàn)橛布町惡褪褂酶鼜?fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。結(jié)果表明BHS-CTPN方法檢測(cè)效果值得肯定,以稍慢的效率換取更高的檢測(cè)精度。
表3 行業(yè)界檢測(cè)結(jié)果對(duì)比
(2) 定性分析。在洛奇智慧醫(yī)療實(shí)驗(yàn)室提供的真實(shí)化驗(yàn)單數(shù)據(jù)集上選取一張最具代表性的化驗(yàn)單,它包含箭頭、密集間距、多行對(duì)應(yīng)等復(fù)雜情況。檢測(cè)結(jié)果對(duì)比如圖6所示,左側(cè)為BHS-CTPN方法進(jìn)行檢測(cè)的結(jié)果,檢測(cè)結(jié)果全部正確。右側(cè)百度API接口檢測(cè)結(jié)果會(huì)出現(xiàn)一些箭頭和檢驗(yàn)項(xiàng)漏框的現(xiàn)象,騰訊API接口檢測(cè)結(jié)果同樣會(huì)出現(xiàn)箭頭漏框的現(xiàn)象,華為API接口檢測(cè)結(jié)果相對(duì)好些,但是會(huì)存在粘連的問(wèn)題。CTPN檢測(cè)結(jié)果會(huì)出現(xiàn)一些框的交叉現(xiàn)象,傳統(tǒng)方法和常見(jiàn)的目標(biāo)檢測(cè)方法效果則有較大問(wèn)題,漏框、錯(cuò)框現(xiàn)象嚴(yán)重。通過(guò)定性分析進(jìn)一步體現(xiàn)了BHS-CTPN方法的有效性和優(yōu)越性。
圖6 檢測(cè)結(jié)果對(duì)比
針對(duì)傳統(tǒng)文字檢測(cè)方法和基于深度學(xué)習(xí)的文字檢測(cè)方法在自然場(chǎng)景下化驗(yàn)單檢測(cè)效果欠佳的情況下,提出了一種自然場(chǎng)景下的化驗(yàn)單文字檢測(cè)方法——BHS-CTPN,主要包括一系列預(yù)處理方法和改進(jìn)的CTPN模型。在預(yù)處理方面,引入了針對(duì)性的預(yù)處理,進(jìn)行圖像矯正、敏感信息去除和圖像增強(qiáng)。在模型改進(jìn)方面,使用不同尺度的卷積核以及對(duì)卷積核進(jìn)行拆分,并且根據(jù)真實(shí)數(shù)據(jù)設(shè)定相應(yīng)的anchor。我們進(jìn)行了大量的實(shí)驗(yàn),分別與傳統(tǒng)方法、基于深度學(xué)習(xí)的方法,以及與知名企業(yè)產(chǎn)品進(jìn)行對(duì)比。實(shí)驗(yàn)證明,提出的BHS-CTPN方法在特定的應(yīng)用場(chǎng)景下具有明顯的優(yōu)勢(shì),對(duì)構(gòu)建智慧醫(yī)療、檢驗(yàn)結(jié)果解讀一體化具有重要的作用。但BHS-CTPN方法還有一些不足之處,如化驗(yàn)單折疊變形等問(wèn)題。在未來(lái)的工作中,我們將從兩個(gè)方面來(lái)提升模型檢測(cè)準(zhǔn)確率,一方面將進(jìn)行數(shù)據(jù)增強(qiáng),減少折疊噪聲對(duì)檢測(cè)結(jié)果的影響;另一方面將增加數(shù)據(jù)集的多樣性,使數(shù)據(jù)集覆蓋折疊變形等情況。