• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向并購重組類公告的信息抽取

    2020-05-22 12:33:24勝,李勝,朱
    計算機工程與設計 2020年5期
    關鍵詞:字段實體標簽

    黃 勝,李 勝,朱 菁

    (1.重慶郵電大學 通信與信息工程學院,重慶 400065;2.重慶郵電大學 光通信與網(wǎng)絡重點實驗室,重慶 400065;3.深圳證券信息有限公司 數(shù)據(jù)中心,廣東 深圳 518000)

    0 引 言

    并購重組類公告是上市公司進行信息披露的重要組成部分。有效的信息獲取可以極大促進市場監(jiān)管、投融資決策、股市預測以及企業(yè)畫像等領域的發(fā)展。如何精準且高效的實現(xiàn)并購重組類公告信息的結構化,成為金融和證券公司應用服務開發(fā)的重要一環(huán)。

    隨著機器學習和深度學習的不斷發(fā)展,序列標注法成為當前信息抽取任務的主流方法。文獻[1]針對生物醫(yī)學命名實體識別任務提出了PowerBioNE生物命名實體識別系統(tǒng),采用隱馬爾可夫模型(hidden Markov model,HMM)識別生物醫(yī)學領域?qū)嶓w,獲得了較好的實用效果[1];文獻[2]提出一種循環(huán)條件隨機場(recurrent conditional random field, RCRF)模型,該模型將條件隨機場的特性有效融于循環(huán)神經(jīng)網(wǎng)絡,并在語言理解領域取得了較好的應用[2]。然而傳統(tǒng)機器學習模型無法充分利用上下文語義特征信息,不能解決長距離依賴問題。

    文獻[3]將雙向長短期記憶網(wǎng)絡(bidirectional long short-term memory,BiLSTM)結合條件隨機場(conditional random field,CRF)模型在i2b2/VA開放數(shù)據(jù)集中獲得了0.85的F值,實驗結果表明該模型對于電子病歷中部分臨床實體的識別具有良好的效果[3]。文獻[4]將門控循環(huán)單元(gated recurrent unity,GRU)與CRF結合用于中文文本序列標注任務中,取得了較好的效果[4]。文獻[5]在BiLSTM-CRF模型的基礎上引入了注意力機制,通過學習全文“篇章級”信息,使該模型在藥物實體識別任務中的F值提高了1.48%[5]。

    在上述研究的基礎上,本文結合了傳統(tǒng)特征規(guī)則法以及序列標注法的優(yōu)勢,針對并購重組類公告的特征,提出了一種“篇章級”的信息抽取方案[15]。該方案能有效解決由單一規(guī)則法或深度神經(jīng)網(wǎng)絡帶來的抽取效果不好等問題,為自由長文本的信息抽取任務提供一種思路。

    1 并購重組類公告信息抽取方案設計

    并購重組類公告是一種具有一定格式規(guī)范的自由長文本,表述形式多樣且篇幅較長[6]。同一類型公告對于收購、出售、資產(chǎn)重組等商業(yè)行為的描述各有不同,長達500頁的公告文本中包含了大量的干擾信息,為傳統(tǒng)的信息抽取方案帶來了較大的挑戰(zhàn)[15]。

    針對公告文本特點,借鑒降維思想,提出規(guī)則法和序列標注法相結合的聯(lián)合抽取方案,通過方法級聯(lián)可以有效提高對并購重組類公告信息抽取的準確率。該方案將整個信息抽取流程拆分為兩個部分:①“句子級”抽取,公告文本中包含大量冗余信息,采用規(guī)則法,解析文本結構,編寫規(guī)則以“標題定位內(nèi)容”的形式從文本中抽取出關鍵句子集合。將“篇章級”抽取縮小為“句子級”抽取,降低冗余信息的干擾;②“字段級”抽取,采用序列標注法,訓練命名實體識別聯(lián)合模型,從關鍵句子集合中抽出所需的字段信息,實現(xiàn)“句子級”到“字段級”抽取[15],具體方案流程如圖1所示。

    圖1 公告信息抽取方案

    2 基于規(guī)則法的文本“句子級”抽取

    2.1 規(guī)則法抽取方案設計

    以領域知識為基礎的規(guī)則法,對特定領域文本識別的準確率較高[7]。優(yōu)先選擇規(guī)則法對金融領域并購重組類公告文本進行篇章級”抽取,可以有效降低自由長文本信息抽取的復雜度。相較于直接使用序列標注法的單一文本信息抽取而言,融合了規(guī)則法優(yōu)勢的組合方案更加適用于特定領域的自由長文本信息抽取任務中[15]。

    并購重組類公告具有一定的格式規(guī)范,文本以標題加內(nèi)容的形式組成,通常包含“摘要部分”和“正文部分”。通過解析文本結構,抽象出關鍵字段在文本中描述形式和定位特征,針對性的提出一套規(guī)則標簽體系用于約束各個字段規(guī)則模板的制定,設計規(guī)則邏輯運算抽取算法解析定位邏輯[15]。對于公告文本T,解析規(guī)則模板,以“標題定位內(nèi)容”的方式從文本中獲取關鍵句子Sj,通過預處理,最終得到關鍵字段所屬的句子集合Pi

    T={P1,P2,…,Pi}

    (1)

    Pi={S1,S2,…,Sj}

    (2)

    將Pi定義為新的文本段落,段落集合實現(xiàn)對公告文本T的重構,從而保留文本的“段落級”信息和“篇章級”信息。

    2.2 規(guī)則標簽體系設計

    規(guī)則標簽體系包含了整體定位邏輯,通過復雜的規(guī)則邏輯運算組合可以有效提升規(guī)則抽取的準確率,是保證“句子級”抽取準確率的關鍵之一。為了盡可能多的兼容各種自然語言的文本描述形式,設計了以下規(guī)則標簽體系,見表1。

    2.3 規(guī)則邏輯運算抽取引擎設計

    規(guī)則邏輯運算抽取引擎通過解析規(guī)則模板,獲取定位邏輯,從并購重組類公告文本中抽取所需的“句子級”信息用于進行序列標注,實現(xiàn)文本的“篇章級”抽取縮小為“句子級”抽取[15]。

    整個抽取模式分為兩種:模式1、“標題定位內(nèi)容”的抽取形式,這要求從公告文本中剝離出完整的文本目錄結構,以“樹”的形式呈現(xiàn),通過制定完善的標題規(guī)則獲取標題間的層級關系,實現(xiàn)內(nèi)容部分的精準定位;模式2、全文匹配,采用內(nèi)容規(guī)則對全文進行無差別匹配,對于匹配的結果需要進行相應的過濾和篩選。抽取的基本元素分為:表格、段落和句子,根據(jù)不同字段的位置特征,對不同的

    表1 規(guī)則標簽符號說明

    元素進行處理,本文主要以段落和句子的處理方式為主[15]。規(guī)則邏輯運算抽取引擎設計步驟如下,三層目錄結構的設定可以覆蓋當前所有抽取字段的定位特征,抽取流程如圖2所示:

    (1)文本預處理,加載規(guī)則,提取文本目錄結構樹;

    (2)抽取模式判斷,若為模式1,轉(zhuǎn)到第(3)步,否則獲取全文內(nèi)容并轉(zhuǎn)到第(7)步;

    (3)fristLevelTitle是否為空,否則令parentT等于fristLevelTitle,并轉(zhuǎn)到第(4)步,是則返回異常,結束抽??;

    (4)在parentT的所有1~3級子標題中匹配,獲取 secLevelTitle 并判斷是否為空,否則令parentT等于 secLevelTitle,跳轉(zhuǎn)至第(5)步;

    (5)在parentT的所有1~3級子標題中匹配,獲取thirdLevelTitle并判斷是否為空,否則令parentT等于thridLevelTitle,跳轉(zhuǎn)至第(6)步;

    (6)以parentT為上限,獲取下限標題,劃定抽取范圍進行第(7)步的抽取;

    (7)在劃定的內(nèi)容部分,根據(jù)內(nèi)容規(guī)則邏輯的設定抽出表格、段落、句子等基礎元素,當返回lastTitle時,默認取該標題下的所有文本,轉(zhuǎn)至第(8)步;

    (8)對抽取的句子和段落集合進行篩選,經(jīng)過處理后用于序列標注。

    3 基于序列標注法的文本“字段級”抽取

    3.1 BiGRU-Attention模型設計

    本文采用雙向門控循環(huán)單元(bidirectional gated recurrent unity,BiGRU)和注意力機制(Attention)相結合的序列標注模型,BiGRU-Attention模型主要包含:GloVe詞向量層、BiGRU神經(jīng)網(wǎng)絡層、Attention層以及CRF層[15],這樣的設計具有以下4個優(yōu)點:①常用的詞向量工具有word2vec和GolVe,后者以其對大規(guī)模語料的模型訓練效率更高,更容易實現(xiàn)并行化,相對更加適用于當前任務[8];②GRU單元相較于常用的LSTM單元擁有更簡單的結構,在保證模型識別準確率的同時能提升模型的訓練效率;③注意力層的引入使得模型在學習實體上下文語義特征的同時,引入全文“篇章級”信息以及關聯(lián)實體對之間的相關性特征,有效提高模型預測的準確率;④CRF層通過計算實體標簽之間的轉(zhuǎn)移概率,可以獲取標簽序列之間的相關性進而使模型得到標簽預測的全局最優(yōu)解[9]。

    BiGRU-Attention聯(lián)合模型如圖3所示。其中wn為詞向量,hn為BiGRU層的隱狀態(tài),M為關聯(lián)實體矩陣,an為Attentio第n層分配的權重,vn為標簽預測概率,B或O代表最終預測的實體標簽。

    圖2 規(guī)則抽取流程

    圖3 BiGRU-Attention模型結構[15]

    3.2 BiGRU模型結構

    3.2.1 GRU

    GRU結構相較于LSTM結構進行了簡化,僅保留更新門和重置門,二者通過控制歷史信息的存儲量以及對當前狀態(tài)的影響程度來提升對當前序列預測的準確性[10]。GRU在保證模型效果的同時,模型結構更簡單、參數(shù)更少、收斂性更好[11],模型更新方式如下

    rt=σ(Wr·[ht-1,xt])

    (3)

    zt=σ(Wz·[ht-1,xt])

    (4)

    (5)

    (6)

    3.2.2 BiGRU

    雙向神經(jīng)網(wǎng)絡結構可以有效學習文本的上下文語義信息,使得模型對當前時刻的預測可以結合前后時刻的相關信息,提高模型對實體預測的準確性。本文采用兩個GRU單元,正向GRU單元用于捕獲上文的語義特征,反向GRU單元用于捕獲下文的語義特征,通過結合上下文語義信息提升模型預測的準確性[15]。

    (7)

    (8)

    (9)

    3.3 Attention機制

    通過模擬人腦對注意力的分配機制,Attention模型對不同的信息分配不同的權重,實現(xiàn)對局部關鍵信息的突出[15]。注意力機制最早應用于圖像領域[12],隨后在NLP領域的機器翻譯[13]、文本分類[14]等任務上取得了優(yōu)異的表現(xiàn)。當前任務中,實體wi呈現(xiàn)以下特征:①同一個wi與關鍵字段所屬的句子集合Pi呈一對多的關系,例如:字段“交易標的”、“收購方式”抽取的句子集合中會同時包含字段“成交金額”對應的實體信息;②句中包含wi的關聯(lián)實體對,例:“采用收益法,截止至2019年8月15日,資產(chǎn)評估值為2160.18萬元?!敝小百Y產(chǎn)評估值”字段實體:“2160.18萬元”和“評估方法”字段實體:“收益法”組成關聯(lián)實體對。針對以上特征,在常用的BiGRU-CRF序列標注模型基礎上,引入了Attention層,融合全文“篇章級”信息及關聯(lián)實體對的影響,計算當前實體分配的權重概率,從而提升對關鍵實體標簽預測的精準度[15]。

    attx=softmax(f(set,elementx,W))

    (10)

    其中,f(·) 用于計算elementx與set中各個詞匯之間的相關性,W為隨模型一同訓練的參數(shù)。

    然后利用attx對relation中的信息進行篩選融合,可獲得當前詞的全文“篇章級”信息chapterx

    chapterx=attx·relation

    (11)

    通過使用哈工大LTP平臺的開源語義依存分析模型,可以有效融合與當前詞匯具有語義關系的實體信息,獲取句子Sx中的關聯(lián)實體矩陣M, LTP中部分依存關系標注集見表2。關聯(lián)實體的上下文信息dependxy

    dependxy=Mxy·relation (12)

    那么融合全文“篇章級”信息和實體對之間語義關聯(lián)信息后,詞匯最終的概率權重ax

    ax=tanh(chapterx,∑ydenpendxy)

    (13)

    4 實驗分析

    4.1 數(shù)據(jù)集

    實驗數(shù)據(jù)通過自定義爬蟲從“巨潮資訊網(wǎng)”上抓取2000篇上市公司并購重組類公告文本,其中訓練集為1600篇、驗證集和測試集分別為200篇。選取當前較為常用的BIO(begin,inside,outside)書簽機制進行標注。在此基礎上增加E(end)標簽和S(single)標簽對包含“交易標的”、“成交金額”在內(nèi)的12個字段進行語料標注,以方便對標簽實體的解析。標注標簽及說明見表3。其中S標簽表示由單個詞組成的實體,O標簽表示其它類型的實體,B標簽表示目標實體的首個詞,I標簽為其中間詞匯,E標簽表示目標實體的最后一個詞匯[15]。

    表3 標注標簽及說明[15]

    4.2 實驗評價指標

    實驗采用準確率(Precision,P)、召回率(Recall,R)以及F1值(F1-score,F(xiàn)1)作為評價指標,分別對實驗結果進行測評。

    4.3 實驗設置

    實驗采用Keras的深度學習框架,底層為TensorFlow,實驗選用BP(反向傳播算法)來訓練BiGRU-Attention聯(lián)合序列標注模型,采用SGD(隨機梯度下降算法)調(diào)整樣本訓練時的權重參數(shù)。其中詞向量設定為100維,optimizer(優(yōu)化器)選擇“adam”,學習率設置為0.01,Batch_size設置為50,Dropout參數(shù)rate設置為0.5。參數(shù)經(jīng)過多次迭代后根據(jù)準確率、召回率調(diào)整得到。

    4.4 實驗結果及分析

    實驗一:實驗選取“標題定位內(nèi)容”的規(guī)則抽取方案作為實驗方案,選取“全文內(nèi)容匹配”的規(guī)則抽取方案作為對比方案。對包含“重組類型”、“標的行業(yè)”等在內(nèi)的12個字段進行“句子級”抽取?!熬渥蛹墶背槿〗Y果及對比見表4。

    如表4所示,實驗方案的抽取效果明顯優(yōu)于對比方案。由于文本表述形式多樣,人工制定規(guī)則的不夠完善,使得實驗方案的抽取效果仍然有待提高。

    表4 “句子級”抽取結果及對比(均值)[15]

    實驗二:實驗選取基于BiGRU-Attention的序列標注法作為實驗方案,選取包含CRF、LSTM、GRU等在內(nèi)的多個模型為對照組進行實驗,來驗證當前方案的可靠性。采用實驗方案的“字段級”抽取結果見表5。序列標注模型效果對比見表6。

    表5 “字段級”抽取結果展示[15]

    表6 序列標注模型效果對比(均值)[15]

    如表5所示,模型對于關聯(lián)實體對之間的識別效果較好,其中關聯(lián)實體對:“交易標的”、成交金額”和“收購方式”的平均F1值達到了0.92;“評估方法”、“評估基準日”、“資產(chǎn)賬面值”、“資產(chǎn)評估值”的平均F1值達到了0.94。而“配套融資金額”字段F1值只有0.86,模型識別效果較差,造成改結果主要有兩個原因:①“字段級”抽取的準確率依賴于“句子級”抽取,由于人工制定的規(guī)則模板不夠完善,該字段表述形式的多樣性,使得“句子級”抽取效果較差。經(jīng)后續(xù)規(guī)則的豐富,可以進一步提升該字段的抽取準確率;②“配套融資金額”字段不具備與之組成關聯(lián)實體對的字段實體,使得模型對該字段的識別效果不佳[15]。

    如表6所示,通過實驗數(shù)據(jù)對照發(fā)現(xiàn),融合了依存關聯(lián)矩陣的BiGRU-Attention聯(lián)合模型,可以較好的學習全文“篇章級”信息,并且對于關聯(lián)實體對之間的識別效果較好。該方案對并購重組類公告文本中的金融實體識別準確率明顯高于其它序列標注模型,相較于目前主流的BiLSTM-Attention序列標注模型的F1值提高了約3個百分點[15]。

    5 結束語

    上市公司并購重組類公告是一種具有一定格式規(guī)范的自由長文本,針對公告特點,借鑒降維思想,提出規(guī)則法和序列標注法相結合的聯(lián)合信息抽取方案。采用規(guī)則法,設計標簽體系,編寫規(guī)則邏輯運算抽取引擎,將“篇章級”抽取縮小為“句子級”抽取,提出基于BiGRU-Attention的序列標注法,將句子抽取縮小為“字段級”抽取[15]。實驗結果表明本方案,具有更好準確率,驗證該方案在并購重組類公告以及同類文本的信息抽取任務中具有一定的可行性,目前該方法已在“深圳證券信息有限公司巨潮財經(jīng)數(shù)據(jù)庫和專業(yè)數(shù)據(jù)終端”中有實際應用。

    在未來的工作中,筆者將繼續(xù)研究對并購重組類公告的信息抽取任務,提出更優(yōu)的方案以解決對文本實體之間映射關系的抽取,例如:syntaxnet等。

    猜你喜歡
    字段實體標簽
    圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
    前海自貿(mào)區(qū):金融服務實體
    中國外匯(2019年18期)2019-11-25 01:41:54
    無懼標簽 Alfa Romeo Giulia 200HP
    車迷(2018年11期)2018-08-30 03:20:32
    不害怕撕掉標簽的人,都活出了真正的漂亮
    海峽姐妹(2018年3期)2018-05-09 08:21:02
    實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
    哲學評論(2017年1期)2017-07-31 18:04:00
    兩會進行時:緊扣實體經(jīng)濟“釘釘子”
    振興實體經(jīng)濟地方如何“釘釘子”
    標簽化傷害了誰
    基于多進制查詢樹的多標簽識別方法
    計算機工程(2015年8期)2015-07-03 12:20:27
    CNMARC304字段和314字段責任附注方式解析
    新巴尔虎右旗| 共和县| 峨边| 延吉市| 黑河市| 大名县| 新余市| 益阳市| 个旧市| 泉州市| 崇阳县| 安康市| 玉树县| 如东县| 克什克腾旗| 报价| 墨脱县| 武鸣县| 白朗县| 毕节市| 嘉鱼县| 余庆县| 永福县| 遵义市| 遂宁市| 青冈县| 奇台县| 青神县| 铜陵市| 馆陶县| 罗江县| 兰西县| 南雄市| 郸城县| 衡东县| 鱼台县| 建德市| 宁南县| 南汇区| 彭山县| 鲁甸县|