• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    微博截圖中的用戶觀點定位方法研究

    2022-09-05 03:04:08王桂江黃潤才馬詩語黃小剛王承茂
    信息安全研究 2022年9期
    關(guān)鍵詞:邏輯推理字符觀點

    王桂江 黃潤才 馬詩語 黃小剛 王承茂

    (上海工程技術(shù)大學電子電氣工程學院 上海 201620)

    (guijiang_wang@163.com)

    隨著互聯(lián)網(wǎng)的迅速發(fā)展與廣泛應(yīng)用,人們溝通交流、獲取信息愈加方便.互聯(lián)網(wǎng)在帶來便捷和巨量信息的同時,也為有害思想的滋生傳播提供了溫床.2019年12月,武漢爆發(fā)新型冠狀病毒肺炎疫情,圍繞該話題,大多數(shù)網(wǎng)友表達了“武漢加油”“中國加油”的支持,但也有人趁機傳播一些否定社會主義價值觀的觀點,對抗疫大局造成干擾.

    信息傳播載體的多樣性和內(nèi)容的巨量給了解和分析用戶觀點帶來巨大困難,尤其是在謠言方面,部分用戶通過截圖傳播來降低被監(jiān)管的可能.通常,分析圖像中的用戶觀點需要將所有文本進行提取,然后運用自然語言處理方式進行文本預(yù)處理.例如,使用中文分詞工具NLPIR對數(shù)據(jù)集進行分詞和詞性標注,并過濾掉其中的標點符號和特殊字符等[1].在預(yù)處理過程中,部分用戶觀點與截圖中的其他信息沖突,導致數(shù)據(jù)清洗后的結(jié)果失真,從而出現(xiàn)觀點丟失或數(shù)據(jù)被干擾的情況.因此,針對互聯(lián)網(wǎng)復(fù)雜的網(wǎng)絡(luò)截圖,運用圖像處理手段,實現(xiàn)在文本圖像中獲取特定文本區(qū)域具有較強的實際意義.

    1 相關(guān)工作

    文本檢測在近年來取得了較大的發(fā)展[2-5].Ma等人[6]運用圖神經(jīng)網(wǎng)絡(luò)提出了可檢測任意形狀的檢測模型;Liu等人[7]利用CNN解決了冗余背景噪聲、不必要的重疊甚至信息丟失等問題.MSER模型[8]、SWT模型[9]及其改進模型等傳統(tǒng)方法的優(yōu)點是執(zhí)行速度快,但當背景復(fù)雜、紋理特征不明顯時,檢測效果較差.

    隨著機器學習的發(fā)展,出現(xiàn)了基于回歸和分割的識別方法.基于回歸的方法需要對數(shù)據(jù)集進行單詞級的標注,然后使用Faster R-CNN[10]方法進行特征提取.比較典型的基于回歸的方法有YOLO[11],CTPN[12]等,這類方法對于水平文本檢測效果較好,對于不規(guī)則文本的檢測效果較差.然而,文本通常以不規(guī)則形狀出現(xiàn),為了解決這個問題,TextBoxes模型[13]通過修改神經(jīng)網(wǎng)絡(luò)的卷積核大小提取更多的特征信息,并增加滑動窗口掃描神經(jīng)網(wǎng)絡(luò)的特征圖,以有效捕捉文本形狀.PSENet模型[14]利用漸進式擴張的方法,從中心線向周邊延伸,實現(xiàn)了任意形狀文本的檢測,但在稠密文本中表現(xiàn)不佳.基于分割的方法是在像素級尋找目標文本區(qū)域[15-16],這類方法通過評估字符的外接邊界區(qū)域的位置,實現(xiàn)字符與背景的分割,以此檢測文本.SSTD模型[17]使用注意力機制減少背景干擾以增強文本區(qū)域,基于注意力機制的Transformer結(jié)構(gòu)[18]也運用到文本檢測中.

    以上方法是在圖像中尋找文本區(qū)域,并不能定位文本圖像中的特定文本.自然場景下文本比較稀疏,以上方法表現(xiàn)不錯.有別于自然場景文本,微博截圖文本組合多樣,文本稠密,想要實現(xiàn)在圖像中尋找特定文本并不容易.例如,在圖1所示的微博截圖中,框中內(nèi)容為用戶觀點,其他內(nèi)容都是無效信息,單純使用基于回歸或分割的方法無法直接定位用戶觀點位置.為此,本文提出一種兩階段的微博截圖用戶觀點定位方法.首先運用字符區(qū)域感知模型對圖像中的文本進行定位;然后運用邏輯推理對定位到的每個字符進行處理和分析;最后將由邏輯推理得到的定位結(jié)果與字符區(qū)域感知模型的定位結(jié)果進行融合,實現(xiàn)在文本圖像中尋找特定文本區(qū)域.

    2 兩階段的微博截圖用戶觀點定位方法

    2.1 文本檢測

    鑒于微博截圖內(nèi)容的稠密分布,使用連通域等方法進行觀點定位無法有效提取其中各個字符的形態(tài)信息.因此使用具有字符區(qū)域感知能力的CRAFT(character region awareness for text detection)模型[19]作為基礎(chǔ)模型檢測文本區(qū)域,充分獲取圖像中每個字符的形態(tài)信息.

    如圖2所示,CRAFT模型使用VGG-16_bn[20]作為基礎(chǔ)結(jié)構(gòu),VGG-16網(wǎng)絡(luò)結(jié)構(gòu)由13個卷積層和3個全連接層組成,因其簡潔性和實用性,被廣泛運用在圖像分類和目標檢測任務(wù)中.對于每個訓練圖像,使用多次卷積提取其中的特征信息,在解碼部分跳過全連接層,并在每次上采樣時融入卷積提取到的低級特征進行聚合,形成一個淺層加深層的卷積特征提取結(jié)構(gòu),類似于U-net[21],從而有效保留了淺層和深層的語義特征.在模型最后,通過4層卷積將輸出變?yōu)?個通道:區(qū)域分數(shù)(region score)和親和度分數(shù)(affinity score),區(qū)域分數(shù)為像素是字符中心的概率,親和度分數(shù)為相鄰字符間可以連接的概率.

    對于每個訓練圖像,需要生成字符區(qū)域分數(shù)真值標簽和帶有邊緣、形狀、輪廓和局部特征等特征級邊界框的親和度分數(shù)真值標簽.對于區(qū)域分數(shù)真值標簽的生成,CRAFT模型采用高斯熱圖的方式,這種方式可以很好地處理沒有嚴格包圍的邊界區(qū)域.區(qū)域分數(shù)真值標簽生成過程如圖3中的分數(shù)生成模塊所示,首先準備1個二維各向同性的高斯映射,然后計算高斯映射區(qū)域與每個文本框之間的透視變換,最后將高斯熱圖映射變換到文本框區(qū)域.對于親和度分數(shù)真值標簽的生成,使用相鄰的字符框(character box)定義親和度.親和度分數(shù)真值標簽生成過程如圖3中的親和框(affinity box)生成部分所示.在此部分中,綠色框為單字符的4個頂點構(gòu)成的字符框,把4個頂點連接起來,找到上下三角形的中心點,即圖中的藍色十字點,對于每個相鄰的字符框?qū)?,將上下三角形的中心設(shè)置為框的角進行連接,生成親和框.

    2.2 邏輯推理

    邏輯推理是對模型輸出的區(qū)域分數(shù)和親和度分數(shù)分別進行二值化處理,相加后得到包含字符分數(shù)(區(qū)域分數(shù)二值化結(jié)果)和字符關(guān)系分數(shù)(親和度分數(shù)二值化結(jié)果)的值text_score_comb.將text_score_comb還原成文本圖像,稱為score_text.對score_text進行處理,運用opencv提供的工具對圖像中的單個字符進行標記,獲取圖像中每個字符的坐標信息和高度信息.對由每張圖像得到的數(shù)據(jù)信息進行邏輯處理,將處理結(jié)果作為定位結(jié)果返回.邏輯推理可以視為對定位得到的文本區(qū)域根據(jù)文本形態(tài)進行分類,通過分析字符之間的關(guān)系,將檢測到的文本分為用戶觀點區(qū)域和非用戶觀點區(qū)域.

    設(shè)置數(shù)組loc_arr保存每個字符的高度信息,loc_arr[x][y]是當前位置上的字符高度,其中x,y是當前字符坐標.在每張圖像處理之前需要對該數(shù)組進行初始化,以便存儲下一張圖像信息.

    文本行中含有大量的文本和符號,為區(qū)分當前字符是文本還是符號,使用字符最大可信度(character maximum reliability, CMR)進行判別.CMR由當前字符高度與當前行最大字符高度的比較而來,如式(1)所示.根據(jù)數(shù)據(jù)分析,當CMR>0.8時,認定該字符為文本.

    (1)

    其中,max_h為當前行最大字符高度.

    為評估當前處理的文本行是否為用戶觀點信息,提出了行最大可信度(line maximum reliability, LMR).LMR由當前行中CMR>0.8的有效字符個數(shù)與當前行能夠檢測到的所有字符個數(shù)比較而來,如式(2)所示:

    (2)

    其中,count_vaild為當前行中CMR>0.8的有效字符個數(shù),count_total為當前行能夠檢測到的所有字符個數(shù).根據(jù)數(shù)據(jù)分析,當LMR>0.7且lth

    通過使用CMR將文本與符號進行了區(qū)分,使用LMR將用戶觀點文本行與非用戶觀點文本行進行了區(qū)分.區(qū)分之后,將用戶觀點文本行的縱坐標使用數(shù)組Isvaild進行記錄.實際操作過程中,使用score_text得到的用戶觀點文本行的縱坐標與使用text_score_comb得到的用戶觀點文本行的縱坐標有所偏差,這是因為text_score_comb是基于字符中心點的一個包含輪廓信息的列表,score_text是基于字符外界邊框得到的包含位置和高度的列表.為了避免這個偏差對定位結(jié)果融合造成的影響,對由score_text得到的用戶觀點文本行的縱坐標y進行修正,即y增加或減少1~2個值,稱為vaild_y,使由score_text得到的用戶觀點文本行的縱坐標與由text_score_comb得到的用戶觀點文本行的縱坐標保持一致.將修正后的縱坐標vaild_y在Isvaild中賦值為1,表示當前縱坐標對應(yīng)的是用戶觀點文本行,其他位置標記為0,如式(3)所示:

    (3)

    2.3 定位結(jié)果融合

    圖4給出了定位結(jié)果融合流程.其中,A是輸入的原始圖像;B是CRAFT模型輸出的處理后的text_score_comb,白線標記的地方為能夠檢測到字符的位置;C是邏輯處理圖像,白色標記的區(qū)域為用戶文本行區(qū)域,是基于邏輯推理得到的;D是最終定位到的用戶觀點區(qū)域;X代表定位結(jié)果融合.

    定位結(jié)果融合的具體過程如算法1所示.其中,上邊界閾值和下邊界閾值由先驗經(jīng)驗獲取,字符高度閾值經(jīng)數(shù)據(jù)分析得到,text_score_comb由CRAFT模型得到,Isvaild由邏輯推理得到.連通域是由圖像中具有相同像素值且位置相鄰的像素點組成的圖像區(qū)域,連通域閾值是連通域內(nèi)像素點值的下限.文本行外接框通過使用圖像處理工具OpenCV的CCL(連接組件標簽)和MinAreaRect(最小外接矩形)函數(shù)對text_score_comb進行區(qū)域連接得到.

    算法1.定位結(jié)果融合算法.

    輸入:text_score_comb,IsVaild,上邊界閾值,下邊界閾值,字符高度閾值;

    輸出:用戶文本行的外接框.

    ① 獲取text_score_comb的連通域個數(shù)n;

    ② fori=1;i

    ③ 獲取第i個連通域的大小(size),坐標值(x,y),寬高值(w,h);

    ④ ifsize<連通域閾值 then

    ⑤ 過濾;

    ⑥ end if

    ⑦ ify>下邊界閾值或y<上邊界閾值 then

    ⑧ 這是非用戶觀點文本行;

    ⑨ else

    ⑩ ifIsVaild[y]==1 then

    3 實 驗

    本文實驗在Ubuntu18.04上進行,使用語言為Python 3.7,GPU為華碩1070TI,顯存8 GB,系統(tǒng)內(nèi)存16 GB,Pytorch版本為1.7.0GPU.

    3.1 數(shù)據(jù)集

    實驗數(shù)據(jù)集為400張微博截圖,以用戶觀點和其他媒體內(nèi)容為主,用于對CRAFT模型進行測試.

    3.2 模型訓練及參數(shù)

    CRAFT模型首先使用具有字符級注釋的SynthText[22]數(shù)據(jù)集迭代5萬次,生成字符區(qū)域分數(shù)真值標簽和親和度分數(shù)真值標簽,并使用Adam優(yōu)化器尋找CRAFT模型的最小損失值,損失值越小越接近真實結(jié)果;然后使用數(shù)據(jù)集ICDAR13,ICDAR15,ICDAR17[23-25]進行弱監(jiān)督訓練,由于這些數(shù)據(jù)集沒有字符級注釋,因此從每個單詞級注釋生成字符框,從而得到并不準確的字符區(qū)域分數(shù)真值標簽和親和度分數(shù)真值標簽.當使用帶有單詞級注釋的真實圖像時,訓練過程中得到的中間模型預(yù)測使用分水嶺算法裁剪后的字符區(qū)域分數(shù),不斷學習得到相對合理的權(quán)重值,使真值標簽更接近真實.增強使用SynthText訓練得到的模型在ICDAR上的效果時,ICRAR與SynthText的數(shù)據(jù)比例為5∶1,迭代2.5萬次.

    在預(yù)訓練CRAFT模型的基礎(chǔ)上,本文采用層遷移的方法對CRAFT模型進行遷移學習.為了防止CRAFT模型的參數(shù)發(fā)生抖動,將學習率設(shè)置為1e-4,只對CRAFT模型的最后一層權(quán)重進行訓練.在保持CRAFT模型的單字符檢測能力的前提下,使用標記的單字符微博數(shù)據(jù)進行遷移學習,增強CRAFT模型在當前任務(wù)上的單字符檢測能力.訓練一共迭代500次,每次訓練2批數(shù)據(jù),使用Adam優(yōu)化器尋找與目標接近的最小損失值.

    3.3 實驗結(jié)果與分析

    1) 遷移學習檢測效果

    遷移學習的目的是提高在目標數(shù)據(jù)集上的檢測效果.為了檢驗遷移學習是否在數(shù)據(jù)集上發(fā)生作用,從數(shù)據(jù)集中隨機選擇一張圖像進行測試,測試內(nèi)容為用戶發(fā)表的觀點.圖5展示了遷移學習對模型的增強,圖中左側(cè)為使用遷移學習之前,右側(cè)為使用遷移學習之后.可以看出,使用遷移學習后,字符的高斯熱點圖更加明顯,部分之前檢測不到的單字符被檢測到,如圖5中白框位置.

    2) 邏輯推理的有效性

    為驗證邏輯推理的有效性,將本文方法與不使用邏輯推理的CRAFT模型進行對比.圖6展示了使用邏輯推理前后用戶觀點數(shù)和非用戶觀點數(shù)的柱狀圖.使用邏輯推理之前,用戶觀點數(shù)為9 299個,非用戶觀點數(shù)為7 957個.使用邏輯推理后,得到用戶觀點9 187個、非用戶觀點2 720個,非用戶觀點數(shù)約為使用邏輯推理前的1/3,非用戶觀點的干擾大大降低.可見,使用邏輯推理后的效果比較明顯,用戶觀點的精確度進一步增強,部分不必統(tǒng)計的信息被過濾.

    3) 不同方法用戶觀點定位效果對比

    圖7展示了PSENet,CRAFT模型和本文方法在數(shù)據(jù)集上的用戶觀點定位效果對比.如圖7(a)~(c)所示,PSENet是基于漸進式擴張的方法,當字符比較稠密時,盡管可以定位到文本行位置,但文本行外接框較為錯亂,定位效果有所損失;如圖7(d)~(f)所示,CRAFT模型沒有引入邏輯推理,雖將圖像中的所有文本都進行了檢測,整體檢測效果強于PSENet,但無法對文本進行篩選;如圖7(g)~(i)所示,本文方法引入邏輯推理,既過濾了無效信息,也對文本行中的“…”等標點內(nèi)容作了剔除,較完整地保留了用戶的主體信息,定位效果最佳.

    4 結(jié)束語

    本文針對當前微博截圖信息傳播方式提出一種基于字符區(qū)域感知和邏輯推理的微博截圖用戶觀點定位方法.首先采用CRAFT模型對當前任務(wù)進行遷移學習,提升其在當前數(shù)據(jù)集上的泛化能力;然后對字符外接框生成引入邏輯推理,實現(xiàn)有效篩選候選區(qū)域,獲取用戶觀點區(qū)域.實驗數(shù)據(jù)表明,本文方法對微博截圖用戶觀點具有較好的定位能力,能夠?qū)崿F(xiàn)在圖像中尋找特定文本區(qū)域,對于檢測互聯(lián)網(wǎng)截圖中的用戶觀點、維護信息輿論安全具有積極意義.下一步工作將研究如何對定位內(nèi)容進行提取并進行情感分析.

    猜你喜歡
    邏輯推理字符觀點
    尋找更強的字符映射管理器
    邏輯推理初步思維導圖
    字符代表幾
    一種USB接口字符液晶控制器設(shè)計
    電子制作(2019年19期)2019-11-23 08:41:50
    小議邏輯推理在教學中的重要性
    消失的殖民村莊和神秘字符
    觀點
    再談立體幾何教學中邏輯推理素養(yǎng)的培養(yǎng)
    超難度邏輯推理大挑戰(zhàn)
    業(yè)內(nèi)觀點
    營銷界(2015年22期)2015-02-28 22:05:04
    馆陶县| 文水县| 吉木乃县| 渭南市| 桐庐县| 定边县| 崇礼县| 平远县| 天峻县| 安吉县| 潮州市| 嘉鱼县| 山丹县| 鹿泉市| 犍为县| 昌乐县| 延安市| 华坪县| 襄垣县| 万载县| 永清县| 邹平县| 新民市| 大关县| 含山县| 监利县| 类乌齐县| 祥云县| 沂南县| 黄山市| 麻江县| 周至县| 海阳市| 石棉县| 吐鲁番市| 阳山县| 辉南县| 安顺市| 砀山县| 襄城县| 渭源县|