• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    網(wǎng)頁學(xué)術(shù)性判斷算法設(shè)計(jì)與實(shí)現(xiàn)

    2018-09-01 07:13:30
    福建質(zhì)量管理 2018年16期
    關(guān)鍵詞:特征頻率學(xué)術(shù)性關(guān)鍵字

    (西安天和防務(wù)技術(shù)股份有限公司 陜西 西安 710075)

    一、網(wǎng)頁學(xué)術(shù)性判斷現(xiàn)狀

    (一)網(wǎng)頁學(xué)術(shù)性

    學(xué)術(shù)性[1]是學(xué)術(shù)性網(wǎng)頁的基本屬性,也是學(xué)術(shù)性的網(wǎng)頁所應(yīng)具有的鮮明特征。而如如何判斷網(wǎng)頁的學(xué)術(shù)性,要從學(xué)術(shù)網(wǎng)頁本身的內(nèi)容來分析,一般從創(chuàng)新性、實(shí)驗(yàn)性、理論性三點(diǎn)來分析網(wǎng)頁[2]。

    首先創(chuàng)新性,網(wǎng)頁所表達(dá)的學(xué)術(shù)內(nèi)容是否具備創(chuàng)新性,創(chuàng)新性是學(xué)術(shù)性論文的核心,學(xué)術(shù)性論文的創(chuàng)新性最集中地體現(xiàn)為它在多大程度上消除了不確定性。因?yàn)閯?chuàng)新性可以反應(yīng)出該論文是否是是作者的原創(chuàng)的學(xué)術(shù)工作,而不是對他人的論文的抄襲或者重復(fù)的機(jī)械工作。

    其次實(shí)驗(yàn)性,因?yàn)閷?shí)驗(yàn)性是對論文中作者提出的創(chuàng)新性的驗(yàn)證,通過實(shí)驗(yàn)性的驗(yàn)證,可以很好的分析出作者提出的觀點(diǎn)是否正確,是否可以有效的被引用,必須強(qiáng)調(diào)的是,實(shí)驗(yàn)性是對創(chuàng)新性的驗(yàn)證,而不是對既定的正確的理論進(jìn)行驗(yàn)證的分析。

    最后理論性。不論作者提出了什么創(chuàng)新或者驗(yàn)證這個(gè)創(chuàng)新的可行性。但是依然需要對自己所做的上述的兩點(diǎn)內(nèi)容進(jìn)行總結(jié)概況,使其成為可以有效的,具有體系的理論知識。這一點(diǎn)可以使論文具有很好的學(xué)術(shù)借鑒性。

    總之,關(guān)于有效的判斷一個(gè)網(wǎng)頁是否具有學(xué)術(shù)性,目前還沒有特別系統(tǒng)和有效的判定方法。

    (二)網(wǎng)頁學(xué)術(shù)性判斷依據(jù)

    對于網(wǎng)頁是否具備學(xué)術(shù)性,需要對網(wǎng)頁本身進(jìn)行分析,通過分析網(wǎng)頁的內(nèi)容來判斷,是否該網(wǎng)頁具備學(xué)術(shù)性的特征[4],而一個(gè)網(wǎng)頁本身一般具有三個(gè)特征:分別是內(nèi)容上的特征、網(wǎng)頁的結(jié)構(gòu)上的特征和網(wǎng)頁外部的特征,所以對于網(wǎng)頁學(xué)術(shù)性的判斷需要從上面的三點(diǎn)出發(fā)進(jìn)行判斷和分析:

    1.網(wǎng)頁的內(nèi)容特征

    網(wǎng)頁的內(nèi)容特征是指:網(wǎng)頁本身的主題內(nèi)容所表達(dá)的主旨。而學(xué)術(shù)性網(wǎng)頁的往往是對一篇對應(yīng)的學(xué)術(shù)文獻(xiàn)的總結(jié)或者大綱式的展示,它具有一般的學(xué)術(shù)性論文的大部分特征。所以在網(wǎng)頁的內(nèi)容上的學(xué)術(shù)性分析,就等價(jià)于對這個(gè)網(wǎng)頁內(nèi)容中存在的關(guān)鍵字的分析,分析這些關(guān)鍵字是否具備專業(yè)學(xué)術(shù)性的特征。例如:學(xué)術(shù)性網(wǎng)頁的標(biāo)題的內(nèi)容一般都是“基于…研究”,所我們就可以選取“基于”、“研究”作為判斷網(wǎng)頁學(xué)術(shù)性的關(guān)鍵字。

    2.網(wǎng)頁結(jié)構(gòu)特征

    網(wǎng)頁結(jié)構(gòu)特征是指:網(wǎng)頁在布局格式上是否具備學(xué)術(shù)性網(wǎng)站所具有的格式特征。由于學(xué)術(shù)性的網(wǎng)站大都是對一篇學(xué)術(shù)文獻(xiàn)的內(nèi)容總結(jié)或者大綱展示,所以多數(shù)學(xué)術(shù)性網(wǎng)頁結(jié)構(gòu)內(nèi)容與一篇論文的目錄無異。例如在格式上就是:標(biāo)題、指導(dǎo)老師、作者、摘要、關(guān)鍵字、分類號、引用次數(shù)、瀏覽次數(shù)等這樣分塊展示,以這樣的分塊分別對網(wǎng)頁所具有的學(xué)術(shù)性進(jìn)行說明。

    所以基于上述兩點(diǎn),并且針對網(wǎng)頁的這兩點(diǎn)進(jìn)行分析和判斷,基本上就可以得出一篇網(wǎng)頁是否具有學(xué)術(shù)性或者說這個(gè)網(wǎng)頁是否為一篇學(xué)術(shù)型的網(wǎng)頁。

    二、基于貝葉斯算法的網(wǎng)頁學(xué)術(shù)性判斷算法設(shè)計(jì)與實(shí)現(xiàn)

    由于目前并沒有一個(gè)全面的成熟的可以進(jìn)行網(wǎng)頁學(xué)術(shù)性判斷的算法,因此本文提出了基于貝葉斯算法的網(wǎng)頁學(xué)術(shù)性判斷算法,而貝葉斯算法的基礎(chǔ)就是貝葉斯定理,同時(shí)貝葉斯算法也是實(shí)現(xiàn)網(wǎng)頁學(xué)術(shù)性判斷算法的基礎(chǔ)。

    (一)貝葉斯定理

    貝葉斯定理[7]使用理論統(tǒng)計(jì)學(xué)研究概率推論,它是根據(jù)已經(jīng)發(fā)生的事件隨后預(yù)測將來可能發(fā)生的事件。在貝葉斯定理中有明確的描述:如果某事件的發(fā)生的結(jié)果是不確定性的,那么唯一的可以量化它的方式就是來描述這個(gè)事件發(fā)生的概率。

    貝葉斯定理的數(shù)學(xué)表述如下:

    假定存在兩個(gè)為事件A與B,且P(A)>0,在事件A已經(jīng)發(fā)生的條件下,事件B發(fā)生的概率,稱為事件B在給定事件A的條件概率(也稱為后驗(yàn)概率),條件概率表示為P(B|A)。P(B)可稱為無條件概率。條件概率的公式為:

    (1.1)

    由條件概率可得到乘法公式:

    P(AB)=P(A)P(B|A)=P(B)P(A|B)

    (1.2)

    假設(shè)S為試驗(yàn)E的樣本空間,A為E的事件,B1,B1,…Bn為S的一個(gè)劃分,且P(B)>0(i=0,1,2…n),則全概率公式為:

    (1.3)

    由條件概率公式和全概率公式可得如下的貝葉斯公式:

    (1.4)

    由貝葉斯公式求得后驗(yàn)概率為:

    (1.5)

    (二)網(wǎng)頁特征提取

    一個(gè)網(wǎng)頁所包含信息是非常豐富的,但是對于這個(gè)網(wǎng)頁的主題信息而言,其實(shí)只有很少的一部分對用戶來講是有效的或者說只有一部分是關(guān)于這個(gè)網(wǎng)頁的主題信息的表述,需要對網(wǎng)頁信息進(jìn)行篩選,選取能表示網(wǎng)頁主題的部分關(guān)鍵字,即找到該網(wǎng)頁的特征關(guān)鍵字。

    對目標(biāo)網(wǎng)頁進(jìn)行特征提取[8]的算法是否優(yōu)良,會直接影響到網(wǎng)頁分類的質(zhì)量。如下表1所示,為常用網(wǎng)頁特征提取方法的比較。

    表1 常用的網(wǎng)頁特征提取方法

    關(guān)鍵字的特征頻率可以很好的反應(yīng)關(guān)鍵字與文章主題之間的關(guān)系,并且易于計(jì)算,所以在本文中選取特征關(guān)鍵字的特征頻率(即不同的網(wǎng)頁中出現(xiàn)的某些詞組的頻率詞)作為我們算法的基礎(chǔ)參數(shù),并使用各個(gè)特征關(guān)鍵字的特征頻率作為我們的網(wǎng)頁學(xué)術(shù)性判斷算法的基礎(chǔ)。

    1.網(wǎng)頁學(xué)術(shù)性判別算法

    依據(jù)貝葉斯定理,將總網(wǎng)頁的樣本用W={w1,w2,……,Wn}表示,而各個(gè)樣本網(wǎng)頁由多個(gè)關(guān)鍵字組成的,即各網(wǎng)頁樣本用H={h1,h2,……,hi}表示,P(h)表示各個(gè)不同的關(guān)鍵字在網(wǎng)頁中出現(xiàn)的概率,P(D)示將要觀察的網(wǎng)頁數(shù)據(jù)D在沒確定某一假設(shè)成立時(shí)D的概率;P(D|h)表示關(guān)鍵字(h)在網(wǎng)頁數(shù)據(jù)中出現(xiàn)概率。最后求得P(h|D),即給定一個(gè)訓(xùn)練樣本數(shù)據(jù)D時(shí)h成立的概率。由貝葉斯公式求得后驗(yàn)概率為;

    (1.6)

    由于在樣本集合中對于給定的W,存在的關(guān)鍵字是多個(gè)的并且相互獨(dú)立。則各個(gè)關(guān)鍵字的對應(yīng)的概率求和相加,得到表示這個(gè)網(wǎng)頁的主題相關(guān)度的值K,如下:

    (1.7)

    由于W是不依賴于h的常數(shù),所以上式可以簡化為:

    (1.8)

    在特定情況下,可以假設(shè)H中的任意假設(shè)hi和hj,都有P(hi)=P(hj),即它們的先驗(yàn)概率相等,這樣就可以簡化上面的公式,最后只考慮P(D|h)來確定網(wǎng)頁主題的相關(guān)度閾值:

    (1.9)

    2.K值計(jì)算

    第一步:選取樣本:

    首先在網(wǎng)上抓取了3000個(gè)網(wǎng)頁作為測試數(shù)據(jù),對這些測試數(shù)據(jù)進(jìn)行人工分析,得出滿足學(xué)術(shù)性的網(wǎng)頁個(gè)數(shù)為176個(gè)。

    第二步:計(jì)算機(jī)樣本K值:

    對于樣本數(shù)據(jù)中的各個(gè)詞出現(xiàn)的頻率的統(tǒng)計(jì),經(jīng)過對樣本網(wǎng)頁的分析得出,有一部分關(guān)鍵字可以很好的對網(wǎng)頁的學(xué)術(shù)性進(jìn)行準(zhǔn)確說明,選取這些關(guān)鍵字作為網(wǎng)頁學(xué)術(shù)性特征的代表關(guān)鍵字,然后依靠貝葉斯算法求得各個(gè)關(guān)鍵字的特征頻率。

    首先選取的樣本的代表關(guān)鍵字為:標(biāo)題、基于、研究、引言、摘要、目錄、緒論、刊名、作者、機(jī)構(gòu)、致謝、分類號、關(guān)鍵字、結(jié)束語、參考文獻(xiàn)、作者單位、瀏覽歷史、下載歷史、基金項(xiàng)目、文獻(xiàn)標(biāo)識碼、所屬期刊欄目。

    對于上述關(guān)鍵字的特征頻率的統(tǒng)計(jì)基本信息如下表2所示,第一列為網(wǎng)頁中的關(guān)鍵字的序號,第二列是網(wǎng)頁中的關(guān)鍵字名稱,第三列是網(wǎng)頁中出現(xiàn)的關(guān)鍵字的數(shù)量統(tǒng)計(jì),第四列是對應(yīng)網(wǎng)中出現(xiàn)的關(guān)鍵字的實(shí)際觀測概率。

    表2 網(wǎng)頁信息統(tǒng)計(jì)

    對于上面統(tǒng)計(jì)的關(guān)鍵字進(jìn)行分析,發(fā)現(xiàn)對于網(wǎng)頁而言,出現(xiàn)頻率較大的詞語,即概率較大的關(guān)鍵字是大多數(shù)的網(wǎng)頁所共有的,并且這些關(guān)鍵字對于判定該網(wǎng)頁的學(xué)術(shù)性的判定是較低的。

    反而一些概率較小的關(guān)鍵字對于判定該網(wǎng)頁是否具有學(xué)術(shù)性的判定則較高,所以選取一部分關(guān)鍵字作為判定網(wǎng)頁是否具有學(xué)術(shù)性的判定因子。

    網(wǎng)頁特征選取的依據(jù):在表2中發(fā)現(xiàn)網(wǎng)頁關(guān)鍵字的特征頻率的統(tǒng)計(jì)中,有的關(guān)鍵字依然不能對網(wǎng)頁主題的學(xué)術(shù)性有較好的說明,所以需要人工剔除一部分,選出可以代表和高度濃縮網(wǎng)頁主題的關(guān)鍵字,進(jìn)而作為網(wǎng)頁學(xué)術(shù)性判斷定關(guān)鍵字。

    選取的關(guān)鍵字有:刊名、文獻(xiàn)標(biāo)識碼、所屬期刊欄、分類號、摘要、關(guān)鍵字、作者、作者單位、瀏覽歷史、下載歷史、基金項(xiàng)目。對于剩余的其他關(guān)鍵字我們不做選擇,由于剩余的關(guān)鍵字對網(wǎng)頁的主題的說明上不具備說服性和代表性。

    由于上述這些關(guān)鍵字對應(yīng)的特征頻率較小,采用取反的數(shù)學(xué)處理方式對其進(jìn)行處理,即通過取反方法的提高了這些關(guān)鍵字的特征頻率的數(shù)值,便于程序后續(xù)對網(wǎng)頁是否具備的學(xué)術(shù)性進(jìn)行排序。

    學(xué)術(shù)算法中的選取的部分關(guān)鍵字列表如下表3所示:

    表3 網(wǎng)頁關(guān)鍵字及其權(quán)值

    K為網(wǎng)頁學(xué)術(shù)性的相關(guān)度閥值,隨后對于樣本數(shù)據(jù)進(jìn)行處理,計(jì)算出每個(gè)網(wǎng)頁對應(yīng)相關(guān)度,依據(jù)相關(guān)度從大到小排序。下圖1為截取的部分排序圖片:

    圖1 經(jīng)學(xué)術(shù)判定后的網(wǎng)頁信息

    第三步:閾值選取分析:

    前期在3000網(wǎng)頁樣本中,人工分析的學(xué)術(shù)網(wǎng)頁個(gè)數(shù)是176個(gè)。而在機(jī)器排序中,選取相關(guān)度閾值前176的網(wǎng)頁,然后人工分析這些網(wǎng)頁的學(xué)術(shù)性,第176個(gè)網(wǎng)頁的相關(guān)度閾值為:5.428。

    由于相關(guān)性閾值為5.428處的網(wǎng)頁個(gè)數(shù)為3個(gè),則選取的網(wǎng)頁個(gè)數(shù)為179。在179個(gè)網(wǎng)頁中,再次進(jìn)行人工鑒別,這179個(gè)網(wǎng)頁中,具有學(xué)術(shù)性的網(wǎng)頁個(gè)數(shù)是145,其中不具備學(xué)術(shù)性的個(gè)數(shù)為34個(gè)。

    查全率:145/176=0.8239

    精準(zhǔn)率:145/179=0.8101;

    即學(xué)術(shù)網(wǎng)頁判定算法的精準(zhǔn)率為81.01%。

    而進(jìn)行人工鑒別的時(shí)候,判斷出具有學(xué)術(shù)性的網(wǎng)頁個(gè)數(shù)為176個(gè),再次對3000網(wǎng)頁的排序進(jìn)行人工分析,觀察到第241個(gè)網(wǎng)頁時(shí),找到了所有的具有學(xué)術(shù)性的網(wǎng)頁,而第248個(gè)網(wǎng)頁對應(yīng)的閾值為:4.3263。其中不具備學(xué)術(shù)性的網(wǎng)頁個(gè)數(shù)為65個(gè)。

    查全率:176/176=1

    精準(zhǔn)率:176/241=0.7302

    即學(xué)術(shù)網(wǎng)頁判斷算法的查全率為:100%,而精準(zhǔn)率為73.06%。

    第四步:選取閾值:

    經(jīng)分析可得,查全率和精準(zhǔn)率是無法同時(shí)滿足的,所以在使用時(shí)對閾值的選取十分重要,要以滿足自己的需求來選取閾值。在本算法中,要以精準(zhǔn)率為首要考慮要求,所以選取精準(zhǔn)率較高的閾值作為系統(tǒng)閾值,即:K=5.428。

    三、總結(jié)

    本文提出的基于貝葉斯算法的網(wǎng)頁學(xué)術(shù)性判斷算法,與單純的貝葉斯算法進(jìn)行比較,實(shí)現(xiàn)了貝葉斯算法有的新應(yīng)用,由于目前還沒有一個(gè)較為完整的對于網(wǎng)頁學(xué)術(shù)性判斷的判定算法,本文結(jié)合貝葉斯算法提出的網(wǎng)頁學(xué)術(shù)性算法較好的完成了對于網(wǎng)頁學(xué)術(shù)性的分類,可以較為準(zhǔn)確的和快速的判別出抓取的目標(biāo)網(wǎng)頁是否具備學(xué)術(shù)性。

    猜你喜歡
    特征頻率學(xué)術(shù)性關(guān)鍵字
    履職盡責(zé)求實(shí)效 真抓實(shí)干勇作為——十個(gè)關(guān)鍵字,盤點(diǎn)江蘇統(tǒng)戰(zhàn)的2021
    《海南廣播電視大學(xué)學(xué)報(bào)》強(qiáng)化學(xué)術(shù)性和現(xiàn)實(shí)性并舉
    瓷磚檢測機(jī)器人的聲音信號處理
    成功避開“關(guān)鍵字”
    光學(xué)波前參數(shù)的分析評價(jià)方法研究
    基于振動信號特征頻率的數(shù)控車床故障辨識方法
    基于相關(guān)性分析的網(wǎng)頁學(xué)術(shù)性算法研究
    電子測試(2018年22期)2018-12-19 05:12:28
    基于小波去噪和EMD算法在齒輪故障檢測中的應(yīng)用
    基于用戶反饋的關(guān)系數(shù)據(jù)庫關(guān)鍵字查詢系統(tǒng)
    誘導(dǎo)性虛假下載鏈接不完全評測
    绥中县| 商南县| 郁南县| 子长县| 梅河口市| 维西| 察雅县| 青冈县| 当雄县| 左权县| 青田县| 镇平县| 宜宾县| 深水埗区| 东乌珠穆沁旗| 四川省| 韩城市| 西乌| 望都县| 邯郸市| 孝义市| 安吉县| 福建省| 祁门县| 青阳县| 晋州市| 西和县| 兴海县| 巴林左旗| 清苑县| 吴忠市| 来宾市| 高密市| 长宁区| 平泉县| 乐陵市| 德清县| 东兰县| 邵武市| 松滋市| 岳普湖县|