• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      網(wǎng)絡(luò)詐騙信息垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)

      2017-12-08 03:16:26傅澤田
      關(guān)鍵詞:網(wǎng)頁(yè)輿情詐騙

      胡 亮 傅澤田

      1(江西警察學(xué)院 江西 南昌 330000) 2(中國(guó)農(nóng)業(yè)大學(xué) 北京 100084)

      網(wǎng)絡(luò)詐騙信息垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)

      胡 亮1傅澤田2

      1(江西警察學(xué)院 江西 南昌 330000)2(中國(guó)農(nóng)業(yè)大學(xué) 北京 100084)

      針對(duì)國(guó)內(nèi)網(wǎng)絡(luò)詐騙中犯罪人與受害人的信息不對(duì)稱問(wèn)題,基于主題信息采集與信息過(guò)濾技術(shù),構(gòu)建一個(gè)基于垂直搜索引擎技術(shù)的網(wǎng)絡(luò)詐騙信息檢索與輿情預(yù)警服務(wù)平臺(tái)IFI-TSE(Internet Fraud Information Topic Search Engine)。測(cè)試結(jié)果表明,相對(duì)傳統(tǒng)的通用搜索引擎,在檢索詐騙信息方面該平臺(tái)的平均檢索準(zhǔn)確率達(dá)到了比較高的水平。同時(shí)個(gè)性化檢索可以為用戶提供一定程度的預(yù)警信息,不僅可以為公共用戶提供高效的網(wǎng)絡(luò)詐騙數(shù)據(jù)檢索,而且還可以通過(guò)統(tǒng)計(jì)分析網(wǎng)絡(luò)詐騙大數(shù)據(jù)挖掘其包含的詐騙行為過(guò)程,為社會(huì)安全管理部門(mén)提供網(wǎng)絡(luò)詐騙輿情預(yù)警報(bào)告。

      網(wǎng)絡(luò)詐騙 垂直搜索引擎 信息檢索 信息過(guò)濾

      0 引 言

      網(wǎng)絡(luò)詐騙是以非法占有為目的,利用互聯(lián)網(wǎng)采用虛擬事實(shí)或者隱瞞事實(shí)真相的方法,騙取數(shù)額較大的財(cái)物的行為[1]。網(wǎng)絡(luò)詐騙是當(dāng)前網(wǎng)絡(luò)犯罪的主要表現(xiàn)形式,并呈現(xiàn)出組織形式集團(tuán)化、作案手法黑客化、危害程度劇增化、波及群體擴(kuò)大化、涉及范圍大眾化的特點(diǎn)。2013年根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心的研究報(bào)告數(shù)據(jù)統(tǒng)計(jì),網(wǎng)絡(luò)詐騙等產(chǎn)業(yè)估計(jì)有160萬(wàn)人從業(yè)者,涉及詐騙金額超過(guò)1 100億元,在過(guò)去半年內(nèi)有將近4.38億的中國(guó)網(wǎng)民遇到過(guò)網(wǎng)絡(luò)詐騙問(wèn)題[2-3]。中國(guó)電子商務(wù)協(xié)會(huì)發(fā)布的《2012年中國(guó)網(wǎng)站可信驗(yàn)證行業(yè)發(fā)展報(bào)告》顯示,中國(guó)網(wǎng)民總數(shù)達(dá)到5.13億,在有網(wǎng)購(gòu)經(jīng)歷的網(wǎng)民中,31.8%曾直接遭遇詐騙網(wǎng)站,每年因網(wǎng)絡(luò)詐騙造成的損失不低于308億元[4]。可見(jiàn),在當(dāng)前網(wǎng)絡(luò)普及發(fā)展的背景,在國(guó)內(nèi)網(wǎng)絡(luò)詐騙犯罪日益嚴(yán)重,給國(guó)家與社會(huì)造成了巨大的損失,嚴(yán)重?fù)p害了人民群眾的利益,極大地降低了網(wǎng)絡(luò)誠(chéng)信度,社會(huì)危害性極大。

      網(wǎng)絡(luò)有其自身的特性,比如網(wǎng)絡(luò)開(kāi)放的平等性、管理方式的非中心性、信息傳輸?shù)募磿r(shí)性與不確定性、時(shí)空的壓縮性等,其體系的復(fù)雜性展也導(dǎo)致了網(wǎng)絡(luò)詐騙的形式越來(lái)越多,越來(lái)越復(fù)雜。因此,有必要對(duì)網(wǎng)絡(luò)詐騙犯進(jìn)行認(rèn)真的分析研究,歸納其方法與特點(diǎn),找出防范與打擊網(wǎng)絡(luò)詐騙犯罪的對(duì)策。據(jù)研究發(fā)現(xiàn),網(wǎng)絡(luò)詐騙犯罪中犯罪人與受害人知識(shí)不對(duì)稱因素是網(wǎng)絡(luò)詐騙得逞的重要因素之一[1,3]。網(wǎng)絡(luò)詐騙犯罪人具有好逸惡勞、貪得無(wú)厭、冒險(xiǎn)僥幸等心理,但同時(shí)他們的知識(shí)水平較高、創(chuàng)新學(xué)習(xí)能力強(qiáng),對(duì)計(jì)算機(jī)與網(wǎng)絡(luò)的特性了解比較全面,具有很強(qiáng)的計(jì)算機(jī)與網(wǎng)絡(luò)技術(shù)能力。他們所設(shè)計(jì)的具有較高技術(shù)含量的詐騙活動(dòng)使相對(duì)缺乏計(jì)算機(jī)基礎(chǔ)知識(shí)與互聯(lián)網(wǎng)技術(shù)的人極容易受騙上當(dāng)。而在受害人中一部分是年紀(jì)較小、涉世未深的網(wǎng)民,由于社會(huì)經(jīng)驗(yàn)少而極易受騙。另一部分人是老年人,他們對(duì)新生事物缺乏了解,容易受到犯罪分子的蒙騙而落入網(wǎng)絡(luò)詐騙的陷阱[6-7]。

      從現(xiàn)有的文獻(xiàn)分析,網(wǎng)絡(luò)詐騙預(yù)防方法的研究主要集中在以下幾個(gè)方面:

      (1) 立法角度:對(duì)于網(wǎng)絡(luò)詐騙等網(wǎng)絡(luò)犯罪,國(guó)外都有相應(yīng)的法律規(guī)定,或獨(dú)立立法,或在刑法中規(guī)定單獨(dú)的篇章。比如:美國(guó)制定的《反計(jì)算機(jī)詐騙和濫用法案》;法國(guó)1993年的《刑法》就有了有關(guān)計(jì)算機(jī)犯罪的規(guī)定。在國(guó)內(nèi),針對(duì)我國(guó)現(xiàn)有的法律,結(jié)合網(wǎng)絡(luò)詐騙的特征,借鑒國(guó)外經(jīng)驗(yàn)來(lái)完善網(wǎng)絡(luò)立法,不僅有助于打擊犯罪,也是網(wǎng)絡(luò)詐騙司法預(yù)防的基礎(chǔ)[9]。在刑法條文中規(guī)定專(zhuān)門(mén)的網(wǎng)絡(luò)詐騙罪罪名,作為新的一章,將關(guān)于利用金融信用卡詐騙犯罪、利用計(jì)算機(jī)系統(tǒng)犯罪及合同詐騙罪等均以網(wǎng)絡(luò)為工具但犯罪客體有所差異的犯罪形式規(guī)定于網(wǎng)絡(luò)犯罪,從而較好地梳理網(wǎng)絡(luò)犯罪的定罪量刑體系。2001年11月23日,為加強(qiáng)反網(wǎng)絡(luò)犯罪的國(guó)際合作,美日及歐盟正式通過(guò)了全球第一個(gè)國(guó)際性的《網(wǎng)絡(luò)犯罪公約》。公約在犯罪主體和犯罪管轄、證據(jù)收集保護(hù)等方面作了規(guī)定,這對(duì)我國(guó)相關(guān)法律的修改與制定有一定的參考價(jià)值[6]。

      (2) 執(zhí)法角度:1992年,為打擊網(wǎng)絡(luò)詐騙,美國(guó)建立了《網(wǎng)絡(luò)欺詐動(dòng)議》,其采取了兩大司法舉措:一是采取聯(lián)邦犯罪訴訟,二是采取因特網(wǎng)欺詐創(chuàng)制舉措與因特網(wǎng)欺詐投訴中心[7]。其實(shí)質(zhì)就是國(guó)家綜合打擊網(wǎng)絡(luò)詐騙,通過(guò)建立專(zhuān)門(mén)的受理機(jī)構(gòu)處理案件,培訓(xùn)專(zhuān)門(mén)的偵查人員調(diào)查案件,專(zhuān)門(mén)的人員負(fù)責(zé)分析犯罪,制定預(yù)防措施等。而我國(guó)采取了是建立專(zhuān)門(mén)的機(jī)構(gòu)與培訓(xùn)專(zhuān)門(mén)的人員處理案件,地方與中央的聯(lián)手打擊網(wǎng)絡(luò)詐騙的機(jī)制。

      (3) 社會(huì)角度:這方面主要是研究各行業(yè)共同反詐騙的社會(huì)聯(lián)動(dòng)機(jī)制[8]。2013年6月25日,阿里巴巴曾與騰訊、百度、新浪、亞馬遜中國(guó)等21家互聯(lián)網(wǎng)企業(yè)在公安部指導(dǎo)下,發(fā)起成立“互聯(lián)網(wǎng)反欺詐委員會(huì)”,形成電子商務(wù)生態(tài)圈“聯(lián)防聯(lián)打”的戰(zhàn)略合作框架。2013年12月26日,騰訊公司聯(lián)合廣東省公安廳、中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)、銀監(jiān)局、銀行協(xié)會(huì)、三大運(yùn)用商、世紀(jì)佳緣、去哪網(wǎng)等政府組織、企業(yè)共同發(fā)起了國(guó)內(nèi)首個(gè)反信息詐騙聯(lián)盟,旨在動(dòng)員社會(huì)力量共同參與。

      (4) 技術(shù)角度:這方面研究主要利用信息技術(shù)構(gòu)建網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)庫(kù),通過(guò)數(shù)據(jù)分析為用戶提供預(yù)警支持[4]。2001年美國(guó)聯(lián)邦貿(mào)易委員會(huì)(FTC)設(shè)計(jì)了一種偵察與打擊網(wǎng)上詐騙的工具,與12個(gè)國(guó)家合作建立一個(gè)統(tǒng)一的數(shù)據(jù)庫(kù),將各種詐騙信息匯聚在數(shù)據(jù)庫(kù),并采取相關(guān)措施防止消費(fèi)者再成為類(lèi)似詐騙活動(dòng)的受害者。它一方面可以為司法機(jī)關(guān)破案提供線索, 另一方面可最大程度地讓網(wǎng)民免于被騙。根據(jù)這些國(guó)家達(dá)成的協(xié)議,各國(guó)的執(zhí)法部門(mén)均可以通過(guò)登陸一個(gè)設(shè)有密碼的統(tǒng)一網(wǎng)站進(jìn)入上述數(shù)據(jù)庫(kù),獲取相關(guān)信息。在國(guó)內(nèi),2011年,騰訊、百度、金山聯(lián)合宣布共建中國(guó)最大的反欺詐網(wǎng)址數(shù)據(jù)庫(kù),為用戶提供虛假網(wǎng)購(gòu)信息的檢索服務(wù)。

      本研究從網(wǎng)絡(luò)詐騙犯罪中犯罪人與受害人知識(shí)不對(duì)稱的角度出發(fā),以網(wǎng)絡(luò)詐騙信息資源為研究對(duì)象,利用數(shù)據(jù)采集與抽取技術(shù)構(gòu)建跨平臺(tái)、跨機(jī)構(gòu)的大型網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)庫(kù),擬研究實(shí)現(xiàn)一個(gè)基于垂直搜索引擎技術(shù)的網(wǎng)絡(luò)反詐騙輿情數(shù)據(jù)檢索與預(yù)警服務(wù)平臺(tái)。本研究不僅考慮在從理論角度上體現(xiàn)學(xué)術(shù)價(jià)值意義,而且在技術(shù)模式上要有所突破,實(shí)現(xiàn)一個(gè)高性能、可靠性、可用性與行業(yè)標(biāo)準(zhǔn)化的網(wǎng)絡(luò)反詐騙輿情數(shù)據(jù)庫(kù)及檢索平臺(tái)。未來(lái)將通過(guò)與相關(guān)的項(xiàng)目來(lái)推廣研究成果,使得其應(yīng)用價(jià)值得到充分體現(xiàn)。研究成果將不僅可以為公共用戶提供網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)檢索,披露網(wǎng)絡(luò)詐騙犯罪的新形式,降低用戶被詐騙的風(fēng)險(xiǎn),增強(qiáng)安全性,使公眾在虛擬的網(wǎng)絡(luò)空間中,對(duì)詐騙分子在網(wǎng)絡(luò)上設(shè)置的陷阱保持高度警惕,以增強(qiáng)其自我保護(hù)的意識(shí)、能力與水平,而且還可以通過(guò)統(tǒng)計(jì)分析大規(guī)模的詐騙輿情數(shù)據(jù)挖掘其包含的詐騙行為過(guò)程,為公安等社會(huì)安全管理部門(mén)提供精確細(xì)致的網(wǎng)絡(luò)詐騙輿情分析報(bào)告與輔助決策支持,借以提高預(yù)防詐騙犯罪的工作效率。

      1 系統(tǒng)架構(gòu)與關(guān)鍵技術(shù)研究

      IFI-TES是從互聯(lián)網(wǎng)上采集網(wǎng)站詐騙相關(guān)主題的網(wǎng)頁(yè),存儲(chǔ)到索引文件,通過(guò)檢索接口為用戶提供網(wǎng)絡(luò)詐騙輿情信息服務(wù)。其系統(tǒng)架構(gòu)主要包含信息采集、信息抽取、文件索引與信息檢索等模塊,如圖1所示。

      圖1 IFI-TSE系統(tǒng)架構(gòu)圖

      1.1 網(wǎng)絡(luò)詐騙數(shù)據(jù)來(lái)源與采集技術(shù)

      由于網(wǎng)絡(luò)詐騙信息數(shù)量較大,數(shù)據(jù)常在某個(gè)季節(jié)產(chǎn)生爆發(fā)式增長(zhǎng),具有季節(jié)性與暴發(fā)性等特點(diǎn),造成了信息量在一些節(jié)點(diǎn)突增與區(qū)域性集中的現(xiàn)象。對(duì)網(wǎng)絡(luò)詐騙信息的采集工作帶來(lái)了壓力與困難,是網(wǎng)絡(luò)詐騙信息采集時(shí)需要考慮的重要因素。網(wǎng)絡(luò)詐騙信息最主要的來(lái)源是媒體報(bào)道的網(wǎng)絡(luò)詐騙新聞(Datat.IFN)以及網(wǎng)絡(luò)詐騙投訴相關(guān)信息(Data.IFC),其次是公安系統(tǒng)網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)庫(kù)(Data.IFPD)[3-5],具體見(jiàn)表1。

      表1 網(wǎng)絡(luò)詐騙數(shù)據(jù)來(lái)源對(duì)比

      據(jù)估計(jì),媒體報(bào)道的網(wǎng)絡(luò)詐騙新聞數(shù)據(jù)量大約300萬(wàn)數(shù)量級(jí)左右,網(wǎng)絡(luò)詐騙投訴相關(guān)信息就更多了。根據(jù)模型預(yù)測(cè)大概在800萬(wàn)數(shù)量級(jí),公安系統(tǒng)網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)庫(kù)數(shù)據(jù)量約150萬(wàn)數(shù)量級(jí)左右,其他還有一些數(shù)據(jù)來(lái)自一些公益打假網(wǎng)站,估計(jì)數(shù)量大概100萬(wàn)數(shù)量級(jí)左右。如圖 2所示。

      圖2 網(wǎng)絡(luò)詐騙數(shù)據(jù)來(lái)源

      從網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)所屬的省份來(lái)看,地域分布不均衡,網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)分布與地域顯著相關(guān),其中北京、上海、廣州、浙江、江蘇等東部沿海地區(qū)經(jīng)濟(jì)富裕、網(wǎng)絡(luò)建設(shè)發(fā)達(dá),網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)量明顯偏高。而經(jīng)濟(jì)落后的西部地區(qū)網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)量相對(duì)偏少。

      1) 媒體報(bào)道的網(wǎng)絡(luò)詐騙新聞(Datat.IFN)

      本研究要采集的媒體報(bào)道的網(wǎng)絡(luò)詐騙新聞數(shù)據(jù)是包含網(wǎng)絡(luò)詐騙信息的新聞網(wǎng)頁(yè)。首先選擇一些指定新聞網(wǎng)站作為初始URL入口,然后通過(guò)多線程技術(shù)采集網(wǎng)頁(yè),同時(shí)提取出網(wǎng)頁(yè)包含的URL,添加到URL隊(duì)列,最后計(jì)算抓取新聞網(wǎng)頁(yè)與網(wǎng)絡(luò)詐騙樣本網(wǎng)頁(yè)的相關(guān)度,將高于設(shè)定閾值的網(wǎng)頁(yè)存儲(chǔ)到索引文件。

      Step1將URL種子加入未抓取隊(duì)列Q(k1,k2,…,kn);

      Step2如果未抓取隊(duì)列Q(k1,k2,…,kn)不為空則建立網(wǎng)頁(yè)抓取線程,否則跳至Step 6;

      Step3如果網(wǎng)頁(yè)未抓取則采集網(wǎng)頁(yè),將網(wǎng)頁(yè)URL添加到已抓取隊(duì)列;

      Step4對(duì)網(wǎng)頁(yè)進(jìn)行過(guò)濾,刪除無(wú)關(guān)的HTML標(biāo)簽等干擾數(shù)據(jù);

      Step5提取網(wǎng)頁(yè)中包含的URL,加入未抓取隊(duì)列Q(k1,k2,…,kn),跳至Step 1;

      Step6退出線程。

      2) 網(wǎng)絡(luò)詐騙投訴相關(guān)信息(Data.IFC)

      這部分?jǐn)?shù)據(jù)主要是一些專(zhuān)業(yè)投訴網(wǎng)站,其中包括官方性質(zhì)與個(gè)人性質(zhì)的網(wǎng)站,考慮數(shù)據(jù)質(zhì)量與可靠性,針對(duì)這兩種類(lèi)型網(wǎng)站分別賦予不同的采集策略。相對(duì)來(lái)說(shuō),官方背景的投訴網(wǎng)站可信度更高,因此在本研究中基本全部采集,而個(gè)人主辦的投訴網(wǎng)站,采集策略則根據(jù)其網(wǎng)站的網(wǎng)站創(chuàng)辦時(shí)間Y與訪問(wèn)量T來(lái)考慮。網(wǎng)站創(chuàng)辦時(shí)間越久與訪問(wèn)量越大的網(wǎng)站則認(rèn)為公眾參與度與可信度越高,其中可信度R計(jì)算公式如下:

      (1)

      3) 公安系統(tǒng)網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)庫(kù)(Data.IFPD)

      公安系統(tǒng)網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)庫(kù)由于是由各公安分局建設(shè)的,雖然部署的數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)結(jié)構(gòu)不完全相同,但基本上都是已經(jīng)加工處理的結(jié)構(gòu)化數(shù)據(jù)。信息通常包含詐騙主客體、詐騙日期、詐騙工具、詐騙流程及一些屬性描述。與一般網(wǎng)頁(yè)存在著明顯的不同,不需要經(jīng)過(guò)信息過(guò)濾,所以采集的時(shí)候主要考慮平臺(tái)的異構(gòu)性與兼容性,本研究利用XML數(shù)據(jù)接口從各種不同數(shù)據(jù)庫(kù)中采集數(shù)據(jù)。

      1.2 特定主題詐騙信息過(guò)濾與抽取技術(shù)

      由于采集的網(wǎng)絡(luò)詐騙網(wǎng)頁(yè)數(shù)據(jù)源來(lái)自不同的領(lǐng)域,其中公安系統(tǒng)網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)庫(kù)(Data.IFPD)是結(jié)構(gòu)化的數(shù)據(jù)不需要再提煉處理,而媒體報(bào)道的網(wǎng)絡(luò)詐騙新聞(Data.IFN)與網(wǎng)絡(luò)詐騙投訴相關(guān)信息(Data.IFC)是無(wú)固定數(shù)據(jù)結(jié)構(gòu)的網(wǎng)頁(yè)文本,其半結(jié)構(gòu)化的內(nèi)容不便于用戶檢索。因此需要將這兩類(lèi)采集的網(wǎng)絡(luò)詐騙主題網(wǎng)頁(yè)進(jìn)一步處理,提取其包含的結(jié)構(gòu)化信息。這樣不僅能提高平臺(tái)的檢索性能,而且改進(jìn)平臺(tái)的檢索精度,需要對(duì)過(guò)濾與抽取技術(shù)進(jìn)行專(zhuān)門(mén)的分析優(yōu)化,加強(qiáng)對(duì)一些無(wú)關(guān)詞篩選、凈化、消重,進(jìn)一步提高抽取效率,為下一步索引查詢創(chuàng)造條件[16,18]。

      對(duì)于網(wǎng)絡(luò)詐騙投訴相關(guān)信息(Data.IFC)來(lái)說(shuō),由于網(wǎng)站性質(zhì)已經(jīng)決定了其數(shù)據(jù)就是網(wǎng)絡(luò)詐騙主題的,所以采集時(shí)不需要計(jì)算網(wǎng)頁(yè)文本與網(wǎng)絡(luò)詐騙的主題相關(guān)度,在數(shù)據(jù)處理時(shí)只需要抽取結(jié)構(gòu)化數(shù)據(jù)。

      對(duì)于媒體報(bào)道的網(wǎng)絡(luò)詐騙新聞(Data.IFN)來(lái)說(shuō),由于是從各個(gè)不同的新聞網(wǎng)站采集,既包含網(wǎng)絡(luò)詐騙主題的新聞,也包括非詐騙主題的新聞,因此在信息抽取前需要對(duì)新聞文本進(jìn)行主題判斷計(jì)算,過(guò)濾非詐騙主題的新聞。針對(duì)媒體報(bào)道的網(wǎng)絡(luò)詐騙新聞(Data.IFN)的數(shù)據(jù)特點(diǎn),本文提出一種網(wǎng)絡(luò)詐騙信息抽取模型,如圖3所示。

      圖3 網(wǎng)絡(luò)詐騙信息抽取模型

      首先用語(yǔ)義標(biāo)注樣本集{F1,F2,…,Fn}的網(wǎng)頁(yè)附加屬性,計(jì)算已標(biāo)注的樣本集網(wǎng)頁(yè)之間的相似度D(Fi,Fj)。然后將樣本集的網(wǎng)頁(yè)聚類(lèi)為不同類(lèi)別,利用正則表達(dá)式在同一類(lèi)別中的網(wǎng)頁(yè)構(gòu)建具有最大相似性的網(wǎng)頁(yè)結(jié)構(gòu)作為網(wǎng)絡(luò)詐騙信息抽取模版。本研究采用類(lèi)似文檔對(duì)象模型DOM的層次結(jié)構(gòu)表示網(wǎng)頁(yè)信息,CONTENT表示需提取的數(shù)據(jù),NODE等表示結(jié)點(diǎn),分為P結(jié)點(diǎn)、DIV/SPAN節(jié)點(diǎn)與TABLE結(jié)點(diǎn),記為L(zhǎng)IST(x),表示多個(gè)x結(jié)點(diǎn)的集合。如圖4所示。

      圖4 網(wǎng)頁(yè)層次結(jié)構(gòu)

      包裝器Wrapper是一種基于規(guī)則的信息抽取方法,易于構(gòu)建,精度較高,適于半結(jié)構(gòu)化的文本。而本文研究的網(wǎng)絡(luò)詐騙信息包括Data.IFN、Data.IFC與Data.IFPD三類(lèi),主題都比較集中,Data.IFN是半結(jié)構(gòu)化的數(shù)據(jù)類(lèi)型,Data.IFC是介于半結(jié)構(gòu)化與完全結(jié)構(gòu)化之間的數(shù)據(jù)類(lèi)型,Data.IFPD則是完全結(jié)構(gòu)化的數(shù)據(jù)類(lèi)型。因此本文研究利用Wrapper來(lái)構(gòu)建網(wǎng)絡(luò)詐騙信息抽取算法。在包裝器Wrapper實(shí)現(xiàn)過(guò)程中,網(wǎng)頁(yè)的相似度采用歐氏距離,計(jì)算公式如下:

      (2)

      定義1

      表達(dá)式是由泛化標(biāo)記、類(lèi)正則表達(dá)式標(biāo)記或邏輯開(kāi)關(guān)標(biāo)記組成的字符串,本研究用[0-9]、[A-Z]、[a-z]、[u4e00-u9fa5]分別表示HTML中數(shù)字標(biāo)記、小寫(xiě)字母的文本、大寫(xiě)字母、漢字的文本的泛化標(biāo)記。

      定義2

      設(shè)表達(dá)式字符串Re=Str1NodeStr2,若表達(dá)式Re的不包含開(kāi)關(guān)/r,則Re匹配Str1是指匹配標(biāo)記在Str1中按順序出現(xiàn)不重復(fù)。對(duì)表達(dá)式Re=s1s2…sk,記O={(s1’s2’…sk’)|sj’=sj∨sj’=*∨sj’,j=1,2,…,k},設(shè)p1∈O1,p2∈O2,p1=s11s21…sk1,p2=s12s22…sk2,則p=p1+p2={s1’s2’…sk’|sj’=sj1+s2,j=1,2,…,k}。

      定義3

      設(shè)表達(dá)式字符串Re=Str1NodeStr2的表達(dá)式空間為RΩ,s1=p1/r∈RΩ,s2=p2/r∈RΩ,其中p1與p2∈O,則s=s1+s2=(p1+p2)/r。

      若表達(dá)式字符串Re識(shí)別Str1的子結(jié)點(diǎn)node,且Re與Str1∪Str2無(wú)關(guān),則稱R為S的表達(dá)式集R={r1,r2,…,rk},其中ri是S的子表達(dá)式。

      定義4

      設(shè)S包含n個(gè)子結(jié)點(diǎn)node1,node2,…,noden,如果nodei存在表達(dá)式集R,則對(duì)nodej從子表達(dá)式r1,r2,…,rn中查找,若存在ri包含匹配的子表達(dá)式,則匹配的位置是nodei的開(kāi)始位置psj。

      定義5

      設(shè)r1,r2,…,rn分別為node1,node2,…,noden的表達(dá)式集,ps1,ps2,…,psn分別為node1,node2,…,noden的位置集,則Wrapper定義為{,,…,}。

      構(gòu)建Wrapper的算法具體實(shí)現(xiàn):創(chuàng)建列表List(i,j),查找最近的父標(biāo)簽節(jié)點(diǎn)Node(k),遍歷Node(k)中的子節(jié)點(diǎn),遞歸調(diào)用查找節(jié)點(diǎn)n(k,j);如果節(jié)點(diǎn)n(k,j)與T中的特征模式匹配,則產(chǎn)生抽取結(jié)果集R;如果List(i,j)為空或者List(i,j)不為空而且List(i,j)不包含R,則將R加入列表List(i,j);如果i>1,則繼續(xù)遍歷,否則算法結(jié)束。具體流程如圖5所示。

      圖5 信息抽取算法流程圖

      1.3 基于K-NN的網(wǎng)絡(luò)詐騙信息自動(dòng)分類(lèi)模型

      對(duì)于媒體報(bào)道的網(wǎng)絡(luò)詐騙新聞(Data.IFN)、網(wǎng)絡(luò)詐騙投訴相關(guān)信息(Data.IFC)與公安系統(tǒng)網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)庫(kù)(Data.IFPD)網(wǎng)頁(yè)經(jīng)過(guò)信息抽取后的數(shù)據(jù)雖然基本上都屬于網(wǎng)絡(luò)詐騙相關(guān)的主題,但網(wǎng)絡(luò)詐騙的種類(lèi)比較多,而且數(shù)據(jù)來(lái)源也比較復(fù)雜,檢索結(jié)果會(huì)比較亂,不方便用戶高效地查找所需的信息。所以有必要對(duì)信息抽取的數(shù)據(jù)進(jìn)行分類(lèi),提高用戶檢索效率,分類(lèi)模型結(jié)構(gòu)如圖 6所示。

      圖6 分類(lèi)模型結(jié)構(gòu)圖

      分類(lèi)算法是文檔分類(lèi)的關(guān)鍵部分,由于本文的分類(lèi)對(duì)象是集中于網(wǎng)絡(luò)詐騙主題的網(wǎng)頁(yè),數(shù)據(jù)領(lǐng)域性較強(qiáng),而且網(wǎng)頁(yè)主題區(qū)分度也較高,所以本文采用了K近鄰算法來(lái)實(shí)現(xiàn)分類(lèi)。K近鄰算法的原理是將文本提取關(guān)鍵詞構(gòu)成向量,計(jì)算待分類(lèi)文本向量與樣本集里文本類(lèi)的歐式距離,選出其中最近的K個(gè)向量。然后找出K個(gè)近鄰所屬類(lèi)別的多數(shù)向量,從而獲得待分類(lèi)文本的類(lèi)別。設(shè)樣本集{F1,F2,…,Fn},對(duì)于每個(gè)文本Fi表示成向量的形式(w1i,w2i, …,wki),其中wki是第i個(gè)文本的第k個(gè)特征,在K近鄰算法中使用信息增益來(lái)作為特征選擇標(biāo)準(zhǔn),特征頻率與反向文檔頻率作為權(quán)值函數(shù),余弦函數(shù)作為向量相似度度量,則計(jì)算公式如下:

      (3)

      分類(lèi)算法具體實(shí)現(xiàn)如下:

      Step1構(gòu)造一個(gè)訓(xùn)練樣本集的相似度矩陣,設(shè)置未分類(lèi)標(biāo)記向量Tag(k1,k2,…,kn);

      Step2對(duì)每個(gè)未分類(lèi)樣本,獲得的所有鄰居里找到它的全局鄰居Ni,構(gòu)造表達(dá)式{S(di),N(di),R(di)},將Ni包含的樣本添加為已分類(lèi);

      Step3重復(fù)Step1與Step2,直到所有樣本都被設(shè)置為已分類(lèi);

      Step4對(duì)待分類(lèi)文本dt,如果Δ(di,dj)≥S(dj),則將Δ(di,dj)t添加到Class(dj),則Class(dj)=Class(dj)+Δ(di,dj);

      Step5如果Class(p)={Class(di)|i=1,2,…,k},則將dt分類(lèi)到p。

      1.4 基于查詢?nèi)罩镜脑p騙信息個(gè)性化檢索技術(shù)

      在檢索過(guò)程中用戶一般難以給出準(zhǔn)確的關(guān)鍵詞或者拼寫(xiě)錯(cuò)誤,比如“沖值”與“充值”、“匯款”與“回款”、“賬號(hào)”與“帳號(hào)”、“登陸”與“登錄”等,傳統(tǒng)可以通過(guò)詞典的方式解決,但是該方式需要手動(dòng)添加新詞,不能自動(dòng)校對(duì)新詞的拼寫(xiě)錯(cuò)誤。為了解決這個(gè)問(wèn)題,考慮從用戶檢索詞歷史紀(jì)錄中尋找新詞,設(shè)有檢索詞word1,word2,…,wordn,每個(gè)檢索詞的查詢次數(shù)為search_count1,search_count2,…,search_countn,將word1,word2,…,wordn按檢索詞的查詢次數(shù)排序。通過(guò)統(tǒng)計(jì)拼寫(xiě)錯(cuò)誤檢索詞,可以看出高頻檢索詞很少有拼寫(xiě)錯(cuò)誤,拼寫(xiě)錯(cuò)誤詞一般都是低頻檢索詞,而這些低頻檢索詞經(jīng)??梢栽谟脩魴z索詞歷史紀(jì)錄里找到拼寫(xiě)正確的高頻檢索詞,以檢索詞查詢次數(shù)為X軸,以檢索詞拼寫(xiě)錯(cuò)誤率為Y軸。如圖 7所示。這表明可以考慮利用檢索詞歷史紀(jì)錄的錯(cuò)誤率低的高頻檢索詞與錯(cuò)誤率高的低頻檢索詞之間的編輯距離來(lái)實(shí)現(xiàn)糾錯(cuò)。

      圖7 檢索詞查詢次數(shù)與拼寫(xiě)錯(cuò)誤率的關(guān)系

      雖然可以考慮用高頻檢索詞來(lái)糾正拼寫(xiě)錯(cuò)誤,但這要求高頻檢索詞數(shù)量不能太多而影響系統(tǒng)性能,為此對(duì)高頻檢索詞進(jìn)行統(tǒng)計(jì),將檢索詞根據(jù)查詢次數(shù)排列同時(shí)按順序編號(hào),以檢索詞編號(hào)為X軸,以檢索詞查詢次數(shù)為Y軸。如圖 8所示。從圖中可以看出高頻檢索詞雖然比例不高,但查詢總次數(shù)卻超過(guò)了80%,這表明可以從高頻檢索詞中尋找新詞是可行的,不僅可以糾正拼寫(xiě)錯(cuò)誤的檢索詞而且可以解決新詞自動(dòng)添加問(wèn)題。

      圖8 關(guān)鍵詞檢索頻率對(duì)比

      另外,用戶通過(guò)信息檢索接口輸入需要查詢的關(guān)鍵詞,系統(tǒng)從數(shù)據(jù)庫(kù)中檢索正文以及附加屬性中包含關(guān)鍵詞的網(wǎng)頁(yè)。然后利用排序算法對(duì)檢索結(jié)果計(jì)算進(jìn)行排序,再將排序結(jié)果返回給用戶。由于本平臺(tái)的網(wǎng)絡(luò)詐騙信息都是經(jīng)過(guò)信息抽取后的數(shù)據(jù),其精度要明顯高于未經(jīng)處理的半結(jié)構(gòu)化網(wǎng)頁(yè),考慮的排序算法更偏重于性能。所以本文采用TF*IDF算法用于排序,優(yōu)點(diǎn)是簡(jiǎn)單快速,其中TF是指某一關(guān)鍵詞在一個(gè)網(wǎng)頁(yè)中出現(xiàn)的頻率,IDF是指包含該關(guān)鍵詞的網(wǎng)頁(yè)數(shù),則計(jì)算公式如下:

      (4)

      2 性能測(cè)試與評(píng)估

      2.1 網(wǎng)絡(luò)詐騙信息采集

      由于網(wǎng)絡(luò)詐騙信息數(shù)據(jù)在網(wǎng)絡(luò)上比較分散,本文設(shè)計(jì)了分布式采集,將收集的媒體報(bào)道的網(wǎng)絡(luò)詐騙新聞(Data.INF)與網(wǎng)絡(luò)詐騙投訴相關(guān)信息(Data.IFC)網(wǎng)站存儲(chǔ)在中央服務(wù)器的URL隊(duì)列。將所有域名解析IP按地理位置分組,每個(gè)省行政區(qū)一組,共34個(gè)省級(jí)行政區(qū)域,包括23個(gè)省,5個(gè)自治區(qū),4個(gè)直轄市,以及香港、澳門(mén)2個(gè)特別行政區(qū)。系統(tǒng)網(wǎng)絡(luò)架構(gòu)如圖9所示。

      圖9 系統(tǒng)網(wǎng)絡(luò)架構(gòu)圖

      由于資源限制,我們只有5臺(tái)服務(wù)器(1臺(tái)中央服務(wù)器Central Server+4臺(tái)數(shù)據(jù)采集服務(wù)器Data Server),中央服務(wù)器不采集數(shù)據(jù),因此,每臺(tái)數(shù)據(jù)采集服務(wù)器平均要負(fù)責(zé)8組URL隊(duì)列。

      為設(shè)計(jì)系統(tǒng)達(dá)到較好的負(fù)載平衡,本文使用表 2分配站點(diǎn)地址給每個(gè)數(shù)據(jù)采集服務(wù)器,將單位時(shí)間采集的網(wǎng)頁(yè)數(shù)作為評(píng)價(jià)指標(biāo)。如果每個(gè)數(shù)據(jù)采集服務(wù)器在相同的時(shí)間內(nèi)采集的網(wǎng)頁(yè)數(shù)接近,則表示系統(tǒng)的負(fù)載平衡比較好。如圖 10所示。

      表2 數(shù)據(jù)采集區(qū)域

      圖10 系統(tǒng)負(fù)載平衡測(cè)試

      可以看出,4個(gè)數(shù)據(jù)采集服務(wù)器DS01-DS04在每次數(shù)據(jù)采集測(cè)試中收集的網(wǎng)頁(yè)數(shù)量都比較接近,基本達(dá)到了本平臺(tái)負(fù)載平衡的設(shè)計(jì)要求。在此基礎(chǔ)上,對(duì)500個(gè)網(wǎng)站抓取了3 503 029個(gè)網(wǎng)頁(yè),其中媒體報(bào)道的網(wǎng)絡(luò)詐騙新聞(Data.INF)數(shù)據(jù)源網(wǎng)站115個(gè)與網(wǎng)絡(luò)詐騙投訴相關(guān)信息(Data.IFC)數(shù)據(jù)源網(wǎng)站385個(gè)。然后利用網(wǎng)絡(luò)詐騙詞典庫(kù)IFD(Internet Fraud Dictionary)計(jì)算每個(gè)網(wǎng)頁(yè)的詐騙主題相關(guān)度,從中篩選出與網(wǎng)絡(luò)詐騙高度相關(guān)的1 873 528個(gè)網(wǎng)頁(yè)。詳見(jiàn)表3。

      表3 Data.INF與Data.IFC網(wǎng)站測(cè)試數(shù)據(jù)

      2.2 網(wǎng)絡(luò)詐騙信息抽取

      由于采集的網(wǎng)頁(yè)數(shù)量高達(dá)百萬(wàn)級(jí),全部手工標(biāo)注后測(cè)試信息抽取算法的性能不太現(xiàn)實(shí),因此從這些包含網(wǎng)絡(luò)詐騙信息的網(wǎng)頁(yè)中隨機(jī)選取了500、1 000、2 000、5 000、10 000個(gè)頁(yè)面(其中Data.INF與Data.IFC類(lèi)型網(wǎng)頁(yè)各50%,而Data.IFPD類(lèi)型網(wǎng)頁(yè)已經(jīng)是結(jié)構(gòu)化數(shù)據(jù)不需要信息抽取)作為將作為信息抽取測(cè)試數(shù)據(jù)集,對(duì)網(wǎng)頁(yè)進(jìn)行過(guò)濾與刪除干擾項(xiàng)。然后抽取網(wǎng)頁(yè)中包含的詐騙標(biāo)題(IF.Title)、詐騙主客體(IF.Object)、詐騙工具(IF.Tool,包括手機(jī)、QQ、微信號(hào)、郵箱、URL等)、詐騙內(nèi)容(IF.Content)與詐騙日期(IF.Date)等屬性。如表 4所示。在歸納學(xué)習(xí)中,各種類(lèi)型文本都可以泛化為相應(yīng)的泛化標(biāo)記,如手機(jī)號(hào)可以用”1[1-9][1-9][0-9]{8}”來(lái)表示,電子郵箱可以用”[a-z]+@[a-z]+(.[a-z]*)*”來(lái)表示,日期可以用”[1-9][0-9]{3}-[0-9]{1,2}-[0-9]{1,2}”或”[1-9][0-9]{3}年[0-9]{1,2}月”來(lái)表示,”2016年5月江蘇高郵警方破獲新型刷單網(wǎng)絡(luò)詐騙案”可以用”([1-9][0-9]{3}年[0-9]{1,2}月)([u4e00-u9fa5]+)破獲([u4e00-u9fa5]*)網(wǎng)絡(luò)詐騙案”來(lái)表示,從父節(jié)點(diǎn)中提取各個(gè)子節(jié)點(diǎn),關(guān)鍵是獲得子節(jié)點(diǎn)在父節(jié)點(diǎn)中開(kāi)始與結(jié)束識(shí)別規(guī)則。

      表4 網(wǎng)絡(luò)詐騙信息抽取表格模板

      本文采用召回率與精度作為網(wǎng)絡(luò)詐騙信息抽取模型的評(píng)價(jià)標(biāo)準(zhǔn),RE表示召回率,PE表示精度,t1表示所有抽取出的正確信息數(shù),t2表示沒(méi)有抽取出的正確信息數(shù),f表示抽取出的錯(cuò)誤信息數(shù),則計(jì)算公式如下:

      (5)

      其中:PE與RE存在反比關(guān)系,若PE增大時(shí)RE會(huì)減小,而PE減小時(shí)RE會(huì)增大。因此,在評(píng)價(jià)性能時(shí)會(huì)同時(shí)考慮PE與RE,比較常用的指標(biāo)為F:

      (6)

      在測(cè)試性能時(shí),對(duì)500個(gè)網(wǎng)站抓取網(wǎng)頁(yè),將包含網(wǎng)絡(luò)詐騙信息的網(wǎng)頁(yè)作為測(cè)試樣本集,對(duì)網(wǎng)頁(yè)進(jìn)行標(biāo)注后聚類(lèi),每類(lèi)提取一個(gè)抽取模版。然后抽取網(wǎng)頁(yè)中包含的詐騙主客體與詐騙日期等屬性。雖然測(cè)試樣本集數(shù)越高有利于精度,但是對(duì)系統(tǒng)性能影響卻很大,因此有必要在不顯著降低系統(tǒng)性能的前提下,配置最優(yōu)的測(cè)試樣本集數(shù)。為了研究樣本頁(yè)在PE與RE的數(shù)量的影響,在10萬(wàn)、20萬(wàn)、30萬(wàn)、40萬(wàn)、50萬(wàn)的測(cè)試樣本集條件下測(cè)試了PE與RE。測(cè)試結(jié)果如圖 11所示。

      圖11 網(wǎng)站詐騙信息抽取效果對(duì)比

      可以看出,算法的信息回收率與精度都比較好,平均都在0.8以上,隨著測(cè)試樣本集的網(wǎng)頁(yè)增加,雖然召回率與精度也同時(shí)增加,但在測(cè)試樣本網(wǎng)頁(yè)達(dá)到一定值后精度卻降低了,這表明測(cè)試樣本網(wǎng)頁(yè)不是越多越好。從測(cè)試結(jié)果看本平臺(tái)測(cè)試樣本集網(wǎng)頁(yè)的數(shù)量設(shè)置在30萬(wàn)左右,可以實(shí)現(xiàn)良好的平衡。本文利用PHP腳本實(shí)現(xiàn)詐騙信息抽取算法,然后對(duì)5組網(wǎng)頁(yè)集進(jìn)行測(cè)試。如圖 12所示。可以看出,本文算法的召回率與精度都比較高,而且F值也比較高,這主要因?yàn)橄鄬?duì)通用信息抽取來(lái)說(shuō),網(wǎng)絡(luò)詐騙信息包含的主題詞具有高度集中的特點(diǎn)。

      圖12 網(wǎng)絡(luò)詐騙信息抽取測(cè)試

      在信息抽取算法性能方面,本文利用總時(shí)間與平均時(shí)間作為評(píng)價(jià)系統(tǒng)性能可擴(kuò)展性的指標(biāo),如表5所示。由于硬件條件限制,本文測(cè)試了8臺(tái)節(jié)點(diǎn)(普通PC機(jī),非服務(wù)器,Intel i5 2.4 GB CPU/4 GB內(nèi)存/1 TB機(jī)械硬盤(pán)/Windows Server 2003公安專(zhuān)用版),可以看出,隨著節(jié)點(diǎn)數(shù)的增加,系統(tǒng)對(duì)頁(yè)面的處理時(shí)間與加速比都接近線性增長(zhǎng),但在超過(guò)4個(gè)節(jié)點(diǎn)后加速比放緩。

      表5 系統(tǒng)性能的可擴(kuò)展性測(cè)試

      2.3 網(wǎng)絡(luò)詐騙信息分類(lèi)

      首先刪除虛詞與數(shù)詞等干擾詞,利用詞典進(jìn)行語(yǔ)義擴(kuò)展,構(gòu)建文本向量,然后計(jì)算文本向量與樣本集的歐氏距離,選最近的K個(gè)向量確定分類(lèi),評(píng)價(jià)效果指標(biāo)計(jì)算公式如下:

      (7)

      其中:P表示平均查準(zhǔn)率,R表示平均查全率,T表示正確分類(lèi)的文本向量,E表示錯(cuò)誤分類(lèi)文本向量,L表示未被分類(lèi)文本向量,以樣本數(shù)為X軸,P或R為Y軸?;贙-NN算法的分類(lèi)結(jié)果如圖13所示。

      圖13 不同樣本的分類(lèi)比較

      2.4 網(wǎng)絡(luò)詐騙信息檢索

      本文對(duì)檢索的效果進(jìn)行了測(cè)試,選取與網(wǎng)絡(luò)詐騙相關(guān)的關(guān)鍵詞,通過(guò)系統(tǒng)檢索界面提交檢索,然后收集檢索結(jié)果,標(biāo)注檢索正確的信息。由于網(wǎng)站詐騙領(lǐng)域的特殊性,其關(guān)鍵詞比較集中,而且用戶更注重檢索的精度,查全率對(duì)用戶來(lái)說(shuō)重要性相對(duì)較低,所以本文只采用準(zhǔn)確率P來(lái)評(píng)價(jià)系統(tǒng)檢索效果,則計(jì)算公式如下:

      (8)

      其中:NT表示檢索結(jié)果中正確的網(wǎng)頁(yè)數(shù),NW表示檢索結(jié)果返回的網(wǎng)頁(yè)總數(shù)。測(cè)試結(jié)果如表6所示。

      表6 不同關(guān)鍵詞檢索結(jié)果

      可以看出,系統(tǒng)的檢索平均準(zhǔn)確率為0.678,其中“詐騙”關(guān)鍵詞最高,這是由于該關(guān)鍵詞是網(wǎng)絡(luò)詐騙的普適詞,而且系統(tǒng)存儲(chǔ)的網(wǎng)頁(yè)基本上都是經(jīng)過(guò)主題分類(lèi)過(guò)的,只有極少一部份不相關(guān)的網(wǎng)頁(yè)才可能被系統(tǒng)采集錄入數(shù)據(jù)庫(kù)。而“到我辦公室來(lái)”關(guān)鍵詞的準(zhǔn)確率也高達(dá)0.93,這是由該關(guān)鍵詞的特殊性決定的,因?yàn)樵撽P(guān)鍵詞可以獨(dú)立標(biāo)識(shí)出網(wǎng)頁(yè)的主題,只要出現(xiàn)該關(guān)鍵詞,在網(wǎng)絡(luò)詐騙數(shù)據(jù)庫(kù)中基本上都是“到我辦公室”詐騙模式。

      3 結(jié) 語(yǔ)

      本文網(wǎng)絡(luò)詐騙中犯罪人與受害人的信息不對(duì)稱問(wèn)題,基于主題信息采集與信息過(guò)濾技術(shù),構(gòu)建了一個(gè)基于垂直搜索引擎技術(shù)的網(wǎng)絡(luò)詐騙信息檢索與輿情預(yù)警服務(wù)平臺(tái)。該平臺(tái)使得用戶不僅可以檢索網(wǎng)絡(luò)詐騙信息,而且能夠比較不同類(lèi)型的詐騙手法與流行度,根據(jù)系統(tǒng)提供的決策支持信息對(duì)詐騙案件進(jìn)行評(píng)估與預(yù)警,從而可以做到提高公安等部門(mén)的工作效率、降低成本,具有較重要的理論意義與實(shí)用價(jià)值。

      [1] 王志紅. 論網(wǎng)絡(luò)詐騙犯罪[J]. 山西警官高等專(zhuān)科學(xué)校學(xué)報(bào), 2009,17(3):68-70.

      [2] 陸旭. 論網(wǎng)絡(luò)詐騙罪及其預(yù)防措施[J]. 黑龍江省政法管理干部學(xué)院學(xué)報(bào), 2012, 7(4):54-56.

      [3] 呂巖. 網(wǎng)絡(luò)詐騙犯罪淺析[J]. 中共樂(lè)山市委黨校學(xué)報(bào), 2013, 15(1):102-105.

      [4] 楊燮蛟, 魏彬, 趙雪. 網(wǎng)絡(luò)詐騙現(xiàn)狀與預(yù)防體系的建構(gòu)[J]. 行政與法, 2011, (8):55-60.

      [5] 李玉德, 縱鑫. 關(guān)于網(wǎng)絡(luò)詐騙的法律思考[J]. 法制與社會(huì), 2008, 12(36):115-115.

      [6] 代永衛(wèi), 司志剛, 費(fèi)華平. 基于數(shù)據(jù)倉(cāng)庫(kù)的公安決策支持系統(tǒng)設(shè)計(jì)[J]. 微計(jì)算機(jī)信息, 2007, 23(6):179-180.

      [7] 孫靜晶. 網(wǎng)絡(luò)詐騙案件偵查的情報(bào)合成作戰(zhàn)機(jī)制研究[J]. 鐵道警官高等專(zhuān)科學(xué)校學(xué)報(bào), 2013, 23(4):31-34.

      [8] 褚紅云. 當(dāng)前網(wǎng)絡(luò)詐騙犯罪手法與特點(diǎn)研究[C]//中國(guó)犯罪學(xué)研究會(huì)第十三屆學(xué)術(shù)研討會(huì)論文集, 2004.

      [9] 楊志勇. 網(wǎng)絡(luò)詐騙犯罪的特點(diǎn)及其打防對(duì)策[C]//全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集, 2008.

      [10] David J. Stratified analysis of AOL query log[J].Information Sciences,2009,179:1844-1858.

      [11] Jia Y. Design of an Application Model Based on Vertical Search Engine[C]//Second International Conference on Networking and Distributed Computing,2011:57-60.

      [12] Lei Xiang. A Data Mining Approach to Topic-Specific Web Resource Discovery[C]//Second International Conference on Intelligent Computation Technology and Automation.2009, 2:595-599.

      [13] Wang Chuan. An Architecture for Improving the Efficiency of Specialized Vertical Search Engine Based on GPGPUs[C]// Fourth International Conference on Genetic and Evolutionary Computing,2010:67-70.

      [14] 劉暢. 綜合搜索引擎與垂直搜索引擎的比較研究[J].情報(bào)科學(xué),2007,25(1):97-102.

      [15] 季春,姜琴,吳錚悅. 垂直搜索引擎關(guān)鍵技術(shù)研究綜述[J]. 情報(bào)探索,2012(10):91-93.

      [16] 王文鈞,李巍. 垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J]. 情報(bào)科學(xué),2010(3):477-480.

      [17] 張俊,齊鵬,李冠宇. 基于本體的垂直搜索引擎分類(lèi)索引模型設(shè)計(jì)[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2010,31(23):4999-5011.

      [18] 呂林濤, 陳麗萍, 周紅芳. 面向垂直搜索引擎的主題提取算法[J].計(jì)算機(jī)工程, 2009, 35(15):44-46.

      [19] 張倩. 教育信息垂直搜索引擎[D].長(zhǎng)春:吉林大學(xué),2012.

      [20] 王梅文. 基于本體進(jìn)行自動(dòng)分類(lèi)的元搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J]. 現(xiàn)代圖書(shū)情報(bào)技術(shù),2008(9):58-63.

      DESIGNANDIMPLEMENTATIONOFINTERNETFRAUDINFORMATIONTOPICSEARCHENGINE

      Hu Liang1Fu Zetian2

      1(JiangXiPoliceCollege,Nanchang330000,Jiangxi,China)2(ChinaAgricultureUniversity,Beijing100084,China)

      In order to solve the problem of asymmetric information crime and victims of domestic Internet fraud, this paper constructs an Internet fraud information topic search engine and public opinion early warning service platform based on the topic information collection and information filtering technology. The test results show that, compared with the traditional general search engine, the average retrieval accuracy of the platform has reached a relatively high level in the search of fraud information. The personalized retrieval can provide early warning information to some extent for the user. It can not only provide network fraud data efficient retrieval for public users, but also through statistical analysis of large data mining includes network fraud. Internet fraud report provides early warning of public opinion for the safety management department.

      Internet fraud Topic search engine Information retrieval Information filtering

      2016-08-31。國(guó)家自然科學(xué)基金項(xiàng)目(31271618);江西省教育廳科技項(xiàng)目(GJJ151193)。胡亮,講師,主研領(lǐng)域:信息檢索與信息系統(tǒng)。傅澤田,教授。

      TP393

      A

      10.3969/j.issn.1000-386x.2017.11.055

      猜你喜歡
      網(wǎng)頁(yè)輿情詐騙
      基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      基于URL和網(wǎng)頁(yè)類(lèi)型的網(wǎng)頁(yè)信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      合同詐騙
      電信詐騙
      輿情
      輿情
      擦亮雙眼,謹(jǐn)防招生詐騙
      輿情
      網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
      詐騙
      庆阳市| 壶关县| 兰考县| 汝南县| 军事| 金华市| 张家口市| 桐柏县| 南郑县| 石棉县| 肇州县| 恩施市| 同仁县| 开封市| 墨玉县| 江阴市| 浦北县| 湟源县| 卓资县| 哈尔滨市| 仁化县| 盐源县| 尉犁县| 玉龙| 巨鹿县| 江门市| 肃南| 新竹县| 富民县| 文昌市| 桂阳县| 游戏| 普洱| 呼伦贝尔市| 罗田县| 安顺市| 洛阳市| 广州市| 康平县| 榆中县| 怀集县|