• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于BERT模型的暗網(wǎng)犯罪情報挖掘技術(shù)研究

      2024-12-10 00:00:00周宇蔡都
      現(xiàn)代信息科技 2024年23期
      關(guān)鍵詞:暗網(wǎng)

      摘" 要:實現(xiàn)暗網(wǎng)違法犯罪情報的規(guī)?;a(chǎn)出是打擊暗網(wǎng)違法犯罪的一項重要前置任務。當前研究較難解決暗網(wǎng)數(shù)據(jù)量不足的問題,且主要針對西文暗網(wǎng)數(shù)據(jù)進行。為實現(xiàn)中文暗網(wǎng)文本的針對性分析,提出了一種基于多任務學習的BERT-BiLSTM違法犯罪分類和命名實體識別多任務學習模型,其在文本分類和命名實體識別任務間共享BERT-BiLSTM層,并分別采用全連接層和條件隨機場(CRF)層作為文本分類和實體識別的輸出層,以加強不同任務間的知識共享。在自建的中文暗網(wǎng)數(shù)據(jù)集上的實驗結(jié)果表明,該多任務學習模型相比基線模型在兩類任務上均有一定性能提升。

      關(guān)鍵詞:暗網(wǎng);犯罪治理;多任務學習;BERT

      中圖分類號:TP183;TP391 文獻標識碼:A 文章編號:2096-4706(2024)23-0165-06

      Research on Dark Web Crime Intelligence Mining Technology Based on BERT Model

      ZHOU Yu, CAI Du

      (Jiangsu Provincial Public Security Department, Nanjing" 210024, China)

      Abstract: Achieving the large-scale production of illegal and criminal intelligence on the dark web is a crucial preliminary task for combating illegal and criminal activities on the dark web. Current research struggles to address the issue of insufficient dark web data and primarily focuses on Western language dark web data. In order to achieve targeted analysis of Chinese dark web texts, this paper proposes a multi-task learning model for BERT-BiLSTM illegal and criminal classification and named entity recognition based on multi-task learning. It shares the BERT-BiLSTM layer between the text classification and named entity recognition tasks, and adopts the fully connected layer and the Conditional Random Field (CRF) layer as the output layers for text classification and entity recognition respectively, so as to strengthen knowledge sharing between different tasks. The experimental results on the self-constructed Chinese dark web dataset show that, compared with the baseline model, this multi-task learning model achieves certain performance improvements in both types of tasks.

      Keywords: dark web; crime governance; multi-task learning; BERT

      0" 引" 言

      “暗網(wǎng)”指利用Tor、I2P等特殊路由技術(shù)架設的隱藏網(wǎng)站,因具有良好的匿名性、隱蔽性,滋生了毒品、色情、洗錢、網(wǎng)絡攻擊、非法數(shù)據(jù)買賣乃至網(wǎng)絡恐怖主義等多種違法犯罪[1],且近年來在我國境內(nèi)發(fā)案量呈增長態(tài)勢[2]。暗網(wǎng)犯罪的打擊難度主要體現(xiàn)在打擊成本和犯罪成本的不對等上[3],如何降低暗網(wǎng)犯罪的發(fā)現(xiàn)和取證難度是相關(guān)研究中的重要問題。

      深度學習技術(shù)的發(fā)展為解決該問題提供了新路徑?;仡櫼延醒芯堪l(fā)現(xiàn),機器學習方法已在暗網(wǎng)流量和網(wǎng)站指紋識別[4-5]、圖像識別[6]、命名實體識別[7-8]、用戶身份對齊[9]、內(nèi)容分類[10-11]等任務上取得了良好效果。但現(xiàn)有研究多集中于特定問題的理論探討,且以英文暗網(wǎng)數(shù)據(jù)集為主,針對中文暗網(wǎng)網(wǎng)站開展模型訓練和應用的研究不足。研究表明,英文暗網(wǎng)的犯罪生態(tài)[12]與中文暗網(wǎng)犯罪生態(tài)[2]存在一定差異,而現(xiàn)有基于英文暗網(wǎng)數(shù)據(jù)集的模型則難以彌補這部分差異。

      為了解決中文暗網(wǎng)文本違法犯罪內(nèi)容識別與發(fā)現(xiàn)的問題,本文構(gòu)建了一套面向中文暗網(wǎng)犯罪內(nèi)容的多任務學習情報挖掘模型。主要工作包括:

      1)針對主要的中文暗網(wǎng)非法網(wǎng)站開發(fā)了一套爬蟲框架,收集了12 107條頁面和帖文數(shù)據(jù);并在此基礎上,通過半自動標注構(gòu)建了中文暗網(wǎng)內(nèi)容數(shù)據(jù)集。

      2)提出了基于BERT-BiLSTM模型進行暗網(wǎng)非法活動分類和命名實體識別的方法。該方法結(jié)合了BERT預訓練模型良好的語義理解能力和雙向長短時記憶網(wǎng)絡(BiLSTM)的序列特征提取能力,提高對暗網(wǎng)長文本的語義理解和特征提取能力;運用多任務學習方法,在文本分類和實體識別任務間共享BERT-BiLSTM層,并分別采用全連接層和條件隨機場(CRF)作為輸出層,在文本分類和實體識別任務兩類任務下均有良好表現(xiàn)。

      3)基于我們構(gòu)建的數(shù)據(jù)集對中文暗網(wǎng)文本識別進行測試,實驗結(jié)果表明模型具備良好的準確率。

      本文其余部分安排如下。第二節(jié)回顧相關(guān)研究工作;第三節(jié)描述了本研究的內(nèi)容分類和命名實體識別方法;第四節(jié)介紹實驗過程,包括數(shù)據(jù)集構(gòu)造過程和實驗的技術(shù)細節(jié);最后,第五節(jié)總結(jié)本文工作并對下一階段研究提出展望。

      1" 相關(guān)技術(shù)

      1.1" 文本分類

      文本分類(Text Classification)任務主要關(guān)注將一段文本自動歸屬到一個類別中的方法,是情報抽取和分析的一個重要前置問題。采用統(tǒng)計機器學習解決文本分類問題的方法包括K-近鄰(K-Nearest Neighbors, KNN)、支持向量機(Support Vector Machine, SVM)和樸素貝葉斯算法(Naive Bayes)[13]等。

      深度學習方法興起以來,卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)[14]和循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)[15]等深度學習模型,因具備了從文本中隱含的序列信息中捕獲單詞間語義的能力在文本分類任務上取得了廣泛應用。其中,循環(huán)神經(jīng)網(wǎng)絡的一個變種長短時記憶網(wǎng)絡(LSTM)[16]在處理長距離依賴關(guān)系中表現(xiàn)良好,成為該領域重要的基礎性模型。近年來,圖神經(jīng)網(wǎng)絡[17]、大規(guī)模預訓練模型BERT[18]和GPT[19]等在文本分類任務上亦有良好表現(xiàn)。目前,使用預訓練模型獲取語義特征已成為該領域廣泛應用的典型方法。

      圍繞暗網(wǎng)文本內(nèi)容的分類,文獻[20-22]分別運用IF-IDF、支持向量機和卷積神經(jīng)網(wǎng)絡訓練了暗網(wǎng)文本分類器,效果良好;文獻[11]關(guān)注到暗網(wǎng)違法文本樣本不足的問題,利用《美國法典》中與暗網(wǎng)常見違法犯罪相關(guān)的條文,訓練了基于TF-IDF和樸素貝葉斯法的暗網(wǎng)違法內(nèi)容分類器。圍繞使用大規(guī)模預訓練模型提高分類效果,文獻[23]對比了BERT、RoBERTa、ULMFit和LSTM四類模型在分類任務上的效果,結(jié)果顯示原生BERT在準確度(Accuracy,指正確的樣本占總樣本的比例)方面表現(xiàn)較好,而BERT變種RoBERTa則在F1分數(shù)上取得優(yōu)勢。

      1.2" 命名實體識別

      命名實體識別(Named Entity Recognition, NER)主要關(guān)注從非結(jié)構(gòu)化文本中識別特定類型實體的問題。早期,基于統(tǒng)計機器學習的命名實體識別方法受到較多關(guān)注,并出現(xiàn)了隱馬爾可夫模型(Hidden Markov Model, HMM)[24]、支持向量機[25]和條件隨機場(Conditional Random Field, CRF)[26]等主流命名實體識別模型。統(tǒng)計機器學習模型研究歷史較久,但其識別質(zhì)量受特征的影響較大,模型的魯棒性有限。

      近年來,深度學習方法在命名實體識別方面取得了良好效果。文獻[27]結(jié)合了詞向量和語義特征,構(gòu)建了BiLSTM-CRF模型用于實體識別任務。在暗網(wǎng)分析領域,文獻[28]運用ElMo-BiLSTM-CNN模型,實現(xiàn)了暗網(wǎng)交易市場中交易相關(guān)實體的抽取。文獻[8,29-30]亦關(guān)注深度學習方法在暗網(wǎng)公共風險、毒品、非法交易等場景下實體識別問題上的應用。文獻[7]聚焦于用戶身份標識信息聚合問題,提出一種實體關(guān)系敏感的共指關(guān)系抽取模型,并引入少樣本學習任務解決暗網(wǎng)訓練集不足的問題。

      1.3" 多任務學習

      針對一系列彼此相關(guān)的任務,多任務學習(Multi-Task Learning)旨在共享多個學習任務中的有效信息以強化每種任務的性能。緩解數(shù)據(jù)稀疏性問題是多任務學習的一項重要目標,它被證明可以充分利用數(shù)據(jù)中的現(xiàn)有知識,降低數(shù)據(jù)要求和標記成本[31]。針對利用大規(guī)模預訓練模型的場景,多任務學習也可實現(xiàn)對既有訓練和微調(diào)成果的充分運用,降低模型訓練所需的計算資源成本[32]。以上兩個特性在解決暗網(wǎng)情報分析面臨的訓練文本不足、預訓練微調(diào)成本過高方面均具有顯著意義。文獻[33]提出了一種基于多輸出多任務學習的文本分類模式,對本文采取的多任務學習方案有所啟發(fā)。

      2" 基于BERT-BiLSTM的暗網(wǎng)內(nèi)容分類和實體識別模型設計

      調(diào)研發(fā)現(xiàn),暗網(wǎng)情報分析任務中,文本分類和實體識別兩類任務間存在較強的相關(guān)性。例如對于非法數(shù)據(jù)買賣一類的帖文,文本內(nèi)包含網(wǎng)站名、URL、數(shù)據(jù)量等實體的可能性較大;對于色情類內(nèi)容,出現(xiàn)年齡、姓名等實體的可能性較大。兩類任務共享相同的上下文信息,采取多任務模型方式可能有助于提高任務效率?;诖耍岢隽艘粋€基于BERT-BiLSTM的暗網(wǎng)內(nèi)容分類和實體識別多任務模型。模型采取多任務學習模式,共享BERT層和BiLSTM層參數(shù),并為分類任務和實體識別任務添加不同的輸出層。模型設計如圖1所示。

      2.1" BERT層

      BERT模型該模型使用自注意力機制分析文本序列中的語義特征,可實現(xiàn)對更大范圍的文本上下文特征的分析和捕捉。在輸入BERT層前,首先需要對暗網(wǎng)帖文文本進行預處理,包括:1)去除帖文中的HTML標簽、無關(guān)信息等數(shù)據(jù);2)利用BERT的tokenize()方法將文本信息轉(zhuǎn)換為BERT可處理的token序列;3)添加特殊符號,包括:在序列開頭和中間添加[CLS]、[SEP]標記、在分類任務的訓練數(shù)據(jù)中添加$和#以標記實體、對長度不足的短文本序列添加[PAD]用以補足。將預處理后文本序列輸入BERT層,將獲得張量H作為輸出:

      (1)

      其中,Ho為預處理后的token序列,hi為第i個token的詞向量。

      2.2" BiLSTM層

      盡管BERT的自注意力機制已能一定程度解決上下文問題,但作為通用預訓練模型,BERT并未顯式建模序列順序、依賴等數(shù)據(jù);而在暗網(wǎng)情報分析的特定場景中,引入LSTM可以更細致地捕捉序列的依賴信息,提高模型的特征提取能力,同時優(yōu)化模型的魯棒性。考慮到暗網(wǎng)文本同時存在前向依賴和后向依賴,我們選用BiLSTM模型實現(xiàn)雙向的上下文信息捕捉。

      BiLSTM的雙向處理過程可表示為式(2):

      (2)

      對于每個時間步t,ht為BERT輸出的特征詞向量,、分別為正向、反向的隱藏狀態(tài)。輸出H′則為每個時間步下正向、反向LSTM隱藏狀態(tài)的連接。

      2.3" 輸出層

      針對分類任務,經(jīng)過BiLSTM處理的H′已包含足以實現(xiàn)分類的信息。為了實現(xiàn)分類,我們?nèi)〕鯤′中對應[CLS]的初始向量hc,并通過一個全連接層Wc將序列特征映射到類別空間,如式(3)所示;最終,使用Softmax函數(shù)輸出類別概率,如式(4)所示:

      (3)

      (4)

      盡管可以處理長文本間的依賴關(guān)系,但針對命名實體任務所需的標簽之間的依賴關(guān)系,BiLSTM則不足以實現(xiàn)。添加一個CRF層以實現(xiàn)標簽間依賴關(guān)系的處理,提高實體識別任務輸出的準確率。將BiLSTM層的輸出通過一個全連接層輸入CRF,則標簽序列H的總得分Sh可以表示為式(5)(6):

      (5)

      (6)

      其中,Y={y1,y2,…,yn}為經(jīng)過全連接層Wn處理后的向量集合,為位置i對應標簽yi的得分, 為從標簽yi-1轉(zhuǎn)移到標簽yi的得分。

      2.4" 多任務損失計算

      為了平衡文本分類和實體識別兩類任務的影響,采用動態(tài)權(quán)重計算總的任務損失。記分類任務的損失函數(shù)為,實體識別任務的損失函數(shù)為,則總損失函數(shù)表示為:

      (7)

      其中,α(t)、β(t)分別為兩類任務的損失權(quán)重函數(shù),以時間步t為自變量,采取不平衡損失法計算:

      (8)

      (9)

      這可以避免某一單項任務的損失主導訓練過程,有助于降低模型對單一任務過擬合的概率?;趦深惾蝿盏膿p失函數(shù)分別計算其梯度后,在加權(quán)累積基礎上采取梯度下降法反向傳播到共享層:

      (10)

      (11)

      (12)

      其中,η為學習率。

      3" 實驗與結(jié)果分析

      3.1" 數(shù)據(jù)集計算

      爬取了暗網(wǎng)12 107個中文頁面,經(jīng)預處理去除其中圖片、無文本信息、文本信息過短網(wǎng)頁后,共獲得7 210個暗網(wǎng)網(wǎng)頁文本數(shù)據(jù)。對標注完成的數(shù)據(jù)以8∶1∶1的比例劃分為訓練集、驗證集和測試集。

      對訓練集和驗證集,基于以下方案,構(gòu)建文本分類和實體識別兩類集合:

      1)文本分類。參考暗網(wǎng)文本聚類分析和人工分析結(jié)果,將暗網(wǎng)網(wǎng)頁文本處理為網(wǎng)絡攻擊、色情、毒品、賭博、洗錢、槍支、假證、數(shù)據(jù)交易、軟件、定制服務10個犯罪線索類別。

      2)實體識別。根據(jù)暗網(wǎng)文本內(nèi)容的特征和詞頻分析結(jié)果,標注了以下6類命名實體:數(shù)據(jù)類(DATA)、網(wǎng)絡安全類(SECURITY)、毒品類(DRUG)、資金類(FINANCE)、色情類(PORNOGRAPHY)和賬號類(ACCOUNT)。其中,前5類為各類別下帖文中的詞語和“黑話”,第6類“賬號”類別則以暗網(wǎng)文本中常見的賬號信息為主,如Twitter、Telegram、Discord賬號等。

      3.2" 實驗環(huán)境和評價指標

      實驗環(huán)境的軟硬件配置如下:CPU Intel Core i7 12700H@4.70 GHz,內(nèi)存40 GB;GPU NVIDIA GeForce RTX 3060 Laptop,顯存6.0 GB;操作系統(tǒng)為Ubuntu Linux 22.04.4,內(nèi)核版本 5.15.146.1。

      評價指標參考業(yè)界主流方式,采用準確率、召回率、F1分數(shù)作為性能評估指標。其中,準確率(Precision)也稱查準率,指樣本中正確預測為真的樣本數(shù)占全部預測為真的樣本數(shù)量的比例;召回率(Recall)也稱查全率,指樣本中正確預測為真的數(shù)量占實際為真的樣本數(shù)量的比例。F1分數(shù)則是準確率和召回率的加權(quán)平均。各評價指標的計算公式如式(13)~(15)所示:

      (13)

      (14)

      (15)

      3.3" 實驗設計和結(jié)果分析

      3.3.1" 與基線模型的比較

      為全面評估本模型效果,選取原生BERT-Chinese模型、BiLSTM-CRF模型分別作為文本分類、實體識別任務的基線模型,測試結(jié)果如表1所示。

      從表中可知,BERT-BiLSTM-CRF模型的識別效果相比原生的BERT-Chinese模型、LSTM-CRF模型,F(xiàn)1分數(shù)均有0.7%以上的提升。特別是針對實體識別任務中,BERT-BiLSTM-CRF模型相較原始BiLSTM-CRF模型具有約1%的水平提升,可認為是BERT良好的語義識別能力在暗網(wǎng)文本上取得了更好的學習效果。

      3.3.2" 與單任務模型的比較

      為驗證多任務模型有效性,在文本分類、實體識別兩類任務上分別將多任務實驗結(jié)果與單一任務訓練的BERT-BiLSTM-CRF模型相比較,結(jié)果如表2~表3所示。

      可以發(fā)現(xiàn),針對文本分類任務,共享BERT-BiLSTM層的促進作用較好,F(xiàn)1分數(shù)提升明顯;針對實體識別任務,多任務模型對于DRUG、SECURITY、FINANCE、PORNOGRAPHY四類任務,F(xiàn)1分數(shù)均有提升,DATA類別持平;ACCOUNT類別的識別準確率雖有提升,但召回率和F1分數(shù)則不如單一任務訓練的BERT-BiLSTM-CRF,推測是由于DRUG等類別的任務語義相關(guān)性較強,ACCOUNT類別的任務則與語義相關(guān)性較弱導致。

      4" 結(jié)" 論

      本文提出了一種基于BERT-BiLSTM-CRF的暗網(wǎng)犯罪情報挖掘模型,采用多任務模型方式共享BERT-BiLSTM兩個語義層,幫助文本分類和特定類別的實體識別任務取得了更好的識別效果。同時,通過爬取和半自動標注構(gòu)建了中文暗網(wǎng)違法犯罪文本訓練數(shù)據(jù)集,并在此基礎上驗證了本文模型的有效性。本文研究對基于對于暗網(wǎng)違法犯罪情報的挖掘和自動化分析具有較強的現(xiàn)實意義。

      目前,本文所提出的暗網(wǎng)犯罪情報挖掘模型仍限于使用文本本身信息開展訓練,對于有關(guān)部門在過往打擊過程中形成的知識積累尚未能有效運用。未來研究將繼續(xù)探索將知識圖譜等知識工程方法引入暗網(wǎng)犯罪情報自動化挖掘的方法,進一步提升暗網(wǎng)違法犯罪情報的挖掘和分析效率。

      參考文獻:

      [1] 羅俊.滋蔓的暗網(wǎng)及網(wǎng)絡空間治理新挑戰(zhàn) [J].學術(shù)論壇,2020,43(5):1-12.

      [2] 王楓梧.我國暗網(wǎng)犯罪現(xiàn)狀、治理困境及應對策略 [J].中國人民公安大學學報:社會科學版,2022,38(1):12-19.

      [3] SHILLITO M R. Untangling the‘Dark Web’: An Emerging Technological Challenge for the Criminal Law [J].Information amp; Communications Technology Law,2019,28(2):186-207.

      [4] MOHD AMINUDDIN M A I,ZAABA Z F,SAMSUDIN A,et al. The Rise of Website Fingerprinting on TOR: Analysis on Techniques and Assumptions [J].Journal of Network and Computer Applications,2023,212:103582(2023-01-21).https://doi.org/10.1016/j.jnca.2023.103582.

      [5] 朱懿,蔡滿春,姚利峰,等.針對Tor暗網(wǎng)流量的MorViT指紋識別模型 [J/OL].計算機工程與應用,2024:1-14(2024-04-20).http://kns.cnki.net/kcms/detail/11.2127.TP.20240104.1104.016.html.

      [6] FAYZI A,F(xiàn)AYZI M,AHMADI K D. Dark Web Activity Classification Using Deep Learning [J/OL].arXiv:2306.07980 [cs.IR].(2023-07-01).https://arxiv.org/abs/2306.07980.

      [7] 王雨燕,趙佳鵬,時金橋,等.暗網(wǎng)網(wǎng)頁用戶身份信息聚合方法 [J].計算機工程,2023,49(11):187-194+210.

      [8] 范曉霞,周安民,鄭榮鋒,等.基于深度學習的暗網(wǎng)市場命名實體識別研究 [J].信息安全研究,2021,7(1):37-43.

      [9] 楊燕燕,杜彥輝,劉洪夢,等.一種利用注意力增強卷積的暗網(wǎng)用戶對齊方法 [J].西安電子科技大學學報,2023,50(4):206-214.

      [10] 李明哲.基于Tor網(wǎng)站文本內(nèi)容和特征的分類方法 [J].網(wǎng)絡安全技術(shù)與應用,2021(8):36-39.

      [11] HE S,HE Y,LI M. Classification of Illegal Activities on the Dark Web [C]//ICISS' 19: Proceedings of the 2nd International Conference on Information Science and Systems.New York:Association for Computing Machinery,2019:73-78.

      [12] DALINS J,WILSON C,CARMAN M. Criminal Motivation on the Dark Web: A Categorisation Model for Law Enforcement [J].Digital Investigation,2018,24:62-71.

      [13] RENNIE J D,SHIH L,TEEVAN J,et al. Tackling the Poor Assumptions of Naive Bayes Text Classifiers [C]//Proceedings of the 20th international conference on machine learning (ICML-03).Washington,D.C.:MIT Press,2003:616-623.

      [14] ALBAWI S,MOHAMMED T A,AL-ZAWI S. Understanding of a Convolutional Neural Network [C]//2017 International Conference on Engineering and Technology (ICET).Antalya:IEEE,2017:1-6.

      [15] MEDSKER L R,JAIN L,et al. Recurrent Neural Networks: Design and Applications [J].Boca Raton:CRC Press,1999.

      [16] HOCHREITER S,SCHMIDHUBER J. Long Short-Term Memory [J].Neural Computation,1997,9(8):1735-1780.

      [17] YAO L,MAO C,LUO Y. Graph Convolutional Networks for Text Classification [C]//Proceedings of the AAAI Conference on Artificial Intelligence.Honolulu:AAAI,2019:7370-7377.

      [18] DEVLIN J,CHANG M W,LEE K,et al. Bert: Pre-Training of Deep Bidirectional Transformers for Language Understanding [J/OL].arXiv:1810.04805 [cs.CL].https://doi.org/10.48550/arXiv.1810.04805.

      [19] RADFORD A,WU J,CHILD R,et al. Language Models are Unsupervised Multitask Learners [EB/OL].[2024-04-20].https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf.

      [20] SABBAH T,SELAMAT A,SELAMAT M H,et al. Hybridized Term-Weighting Method for Dark Web Classification [J].Neurocomputing,2016,173:1908-1926.

      [21] MURTY C A S,RUGHANI P H. Dark Web Text Classification by Learning Through SVM Optimization [J].Journal of Advances in Information Technology,2022,13(6):624-631.

      [22] 洪良怡,朱松林,王軼駿,等.基于卷積神經(jīng)網(wǎng)絡的暗網(wǎng)網(wǎng)頁分類研究 [J].計算機應用與軟件,2023,40(2):320-325+330.

      [23] DALVI A,SHAH A,DESAI P,et al. A Comparative Analysis of Models for Dark Web Data Classification [C]//Proceedings of International Joint Conference on Advances in Computational Intelligence.Singapore:Springer Nature Singapore,2024:245-257.

      [24] ZHOU G,SU J. Named Entity Recognition Using an HMM-based Chunk Tagger [C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2002:473-480.

      [25] EKBAL A,BANDYOPADHYAY S. Named Entity Recognition Using Support Vector Machine: A Language Independent Approach [J].International Journal of Electrical and Computer Engineering,2010,4(3):589-604.

      [26] YAO L,SUN C,LI S,et al. Crf-based Active Learning for Chinese Named Entity Recognition [C]//2009 IEEE International Conference on Systems, Man and Cybernetics.San Antonio:IEEE,2009:1557-1561.

      [27] HUANG Z,XU W,YU K. Bidirectional LSTM-CRF Models for Sequence Tagging [J/OL].arXiv:1508.01991 [cs.CL].(2015-08-09).http://arxiv.org/abs/1508.01991.

      [28] SHAH S A A,MASOOD M A,YASIN A. Dark Web: E-Commerce Information Extraction based on Name Entity Recognition Using Bidirectional-LSTM [J].IEEE Access,2022,10:99633-99645.

      [29] ZHANG P,WANG X,YA J,et al. Darknet Public Hazard Entity Recognition based on Deep Learning [C]//Proceedings of the 2021 ACM International Conference on Intelligent Computing and its Emerging Applications.ACM:New York,2021:94-100.

      [30] DALVI A,SHAH V,GANDHI D,et al. Name Entity Recognition (NER) Based Drug Related Page Classification on Dark Web [C]//2022 International Conference on Trends in Quantum Computing and Emerging Business Technologies (TQCEBT).Pune:IEEE,2022:1-5.

      [31] ZHANG Y,YANG Q. A Survey on Multi-Task Learning [J].IEEE Transactions on Knowledge and Data Engineering,2021,34(12):5586-5609.

      [32] TORBARINA L,F(xiàn)ERKOVIC T,ROGUSKI L,et al. Challenges and Opportunities of Using Transformer-based Multi-Task Learning in NLP Through ML Lifecycle: A Position Paper [J/OL].Natural Language Processing Journal,2024,7:100076(2024-05-09).https://doi.org/10.1016/j.nlp.2024.100076.

      [33] ZHAO W,GAO H,CHEN S,et al. Generative Multi-Task Learning for Text Classification [J].IEEE Access,2020,8:86380-86387.

      作者簡介:周宇(1986—),男,漢族,江蘇鹽城人,碩士,研究方向:網(wǎng)絡安全技術(shù)、網(wǎng)絡犯罪偵查;蔡都(1997—),男,漢族,江蘇鹽城人,碩士研究生在讀,研究方向:網(wǎng)絡安全技術(shù)、網(wǎng)絡安全治理。

      猜你喜歡
      暗網(wǎng)
      暗網(wǎng)環(huán)境下恐怖主義犯罪活動綜合治理模式研究
      我國暗網(wǎng)犯罪現(xiàn)狀、治理困境及應對策略
      東南亞暗網(wǎng)犯罪態(tài)勢及國際執(zhí)法合作
      暗網(wǎng)犯罪的現(xiàn)狀及趨勢研究
      法制博覽(2021年1期)2021-11-25 19:18:02
      基于暗網(wǎng)的監(jiān)控平臺設計與實現(xiàn)
      嗅出“暗網(wǎng)”中隱匿的犯罪信息
      檢察風云(2020年20期)2020-12-03 13:49:22
      暗網(wǎng)
      方圓(2020年16期)2020-09-22 07:03:44
      被“暗網(wǎng)”盯上的年輕人
      暗網(wǎng)
      ——隱匿在互聯(lián)網(wǎng)下的幽靈
      暗網(wǎng)犯罪的趨勢分析與治理對策
      犯罪研究(2019年4期)2019-09-02 08:25:36
      溆浦县| 钟祥市| 玛曲县| 大安市| 颍上县| 烟台市| 泾阳县| 保山市| 镇安县| 安龙县| 剑川县| 彝良县| 郸城县| 柞水县| 泸西县| 武城县| 黄平县| 兴安县| 雷州市| 理塘县| 南阳市| 扶风县| 鄂托克前旗| 德钦县| 哈尔滨市| 伊吾县| 鞍山市| 景谷| 珲春市| 沂水县| 五峰| 清苑县| 建宁县| 平山县| 林口县| 南皮县| 惠东县| 沁阳市| 长沙市| 邻水| 布尔津县|