• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種度量數(shù)據(jù)信息不確定性的方法?

    2021-03-22 09:11:56
    關(guān)鍵詞:信息熵度量不確定性

    范 碩 宋 波

    (成都信息工程大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 成都 610225)

    1 引言

    對(duì)數(shù)據(jù)信息的不確定性度量常用的方法是信息熵和方差。熵的概念首先出現(xiàn)在19 世紀(jì)的熱力學(xué)中,之后成為了玻爾茲曼理論的一個(gè)重要組成部分,在20世紀(jì)中葉,香農(nóng)[1]提出了信息熵的概念,信息熵是信息論的核心概念之一,Stone J V[2]對(duì)信息論以及信息熵相關(guān)的思想進(jìn)行了詳細(xì)總結(jié),Kull?back 和Leibler[3]把信息熵引入了統(tǒng)計(jì)學(xué)領(lǐng)域,從物理領(lǐng)域、通信領(lǐng)域到統(tǒng)計(jì)學(xué)領(lǐng)域,熵的定義雖有聯(lián)系但實(shí)際意義是有區(qū)別的,在三個(gè)領(lǐng)域中熵分別是對(duì)無序、信息、不確定性的度量。Ebrahimi N[4~5]等指出在數(shù)據(jù)分布為指數(shù)型或者數(shù)據(jù)方差未知的情況下,分別以方差和熵度量數(shù)據(jù)的信息含量結(jié)果可能是不一致的,并進(jìn)一步指出熵與方差之間并不存在普遍的對(duì)應(yīng)關(guān)系。Robinson D W[6]對(duì)熵理論下的基本統(tǒng)計(jì)思想進(jìn)行了綜述,并指出熵是不確定性度量的最佳方法。Ou C J[7]等在熵的基礎(chǔ)上基于La?grange-d"Alembert變分原理定義了一種稱為varent?ropy 的測度用來對(duì)隨即數(shù)據(jù)的不確定性進(jìn)行度量。Commenges D[8]對(duì)信息理論和統(tǒng)計(jì)理論的研究指出,不確定性不僅僅是和信息的多少相對(duì)的,在某些情況下,不確定性會(huì)隨著附加信息的增加而增加。Lima R 和Sampaio R[9]指出,不可能對(duì)所有隨機(jī)變量(離散的和連續(xù)的)使用相同的統(tǒng)計(jì)指標(biāo),不確定性會(huì)根據(jù)所選擇的集合不同而有不同的變化,此外,在離散數(shù)據(jù)和連續(xù)數(shù)據(jù)的不確定性度量中熵的意義也是不同的。Wang Qiuping A[10]給出了一種不同于香農(nóng)信息熵形式的變分定義形式,并證明在多種不同分布的數(shù)據(jù)度量中可以取得一致的結(jié)果,Tarald O K[11]給出了另外一種簡單的信息熵定義形式,并用多種分布的隨機(jī)數(shù)據(jù)測試證明了度量的有效性。基于信息熵的度量方法不僅應(yīng)用于通信和統(tǒng)計(jì)學(xué)等相關(guān)領(lǐng)域的數(shù)據(jù)分析中,在社會(huì)學(xué)數(shù)據(jù)分析[12]、經(jīng)濟(jì)投資數(shù)據(jù)分析[13]以及網(wǎng)絡(luò)安全數(shù)據(jù)分析[14~15]等領(lǐng)域內(nèi)也有著廣泛的應(yīng)用,一種高效的數(shù)據(jù)信息的度量方法對(duì)諸多領(lǐng)域的研究發(fā)展都有很大的應(yīng)用價(jià)值。

    目前,對(duì)不確定性與概率之間的關(guān)系的研究更多的是基于信息熵,但其他的度量方法也一直在探索中。方差曾經(jīng)是統(tǒng)計(jì)學(xué)中不確定性度量的常用方法,它比信息熵更簡單并且更有規(guī)律,但是方差的度量結(jié)果和信息熵的度量結(jié)果有時(shí)候是不一致的,特別是在數(shù)據(jù)分布未知或數(shù)據(jù)量未知的情況下,方差和信息熵可能會(huì)給出相反的評(píng)估結(jié)果。本文基于累積方差定義了一種不同于傳統(tǒng)的方差度量方法的新的不確定性度量方法,并進(jìn)行了詳細(xì)分析和測試。

    2 度量方法

    假設(shè)當(dāng)前需要度量的數(shù)據(jù)或信息的屬性集合是X ,xi是屬性集合X 中的屬性,如果把屬性集合X 分為S 和S"兩個(gè)子集合,S" 是X 中S 的絕對(duì)補(bǔ)集,其中S={xi},S"={xj|xj∈X,xj?S},對(duì)屬性集合X 中的每個(gè)xi都做上述劃分,則可以把每組S 和S"看做是0-1 分布,屬性集合X 即為一系列0-1 分布的集合。在屬性集合X 里面屬性的數(shù)量和組合方式可以是固定的也可以是動(dòng)態(tài)的,我們以屬性集上的0-1分布的累積方差作為度量的基礎(chǔ)。

    2.1 基本定義

    定義屬性集合X ={x1,…,xi,…,xn},pi為屬性集X 中屬性xi的概率或權(quán)重,則對(duì)xi在屬性集X 上劃分為S 和S"表示形式后的0-1 分布的方差為

    進(jìn)一步對(duì)屬性集X 則有d(x):

    其中d(x)的取值范圍為[0,1),d(x)作為我們的不確定性基本度量指標(biāo),可以稱d(x)為不確定性函數(shù),d(x)值為屬性集X 的不確定性大小,d(x)=0意味著所度量的系統(tǒng)是完全確定的,也即不確定性最小,d(x)→1 意味著所度量系統(tǒng)的不確定性趨于無限大,也即確定性趨于最小。

    2.2 擴(kuò)展定義

    上述定義的形式限制了d(x) 的取值范圍為[0,1),進(jìn)一步可以把d(x)的取值范圍從[0,1)擴(kuò)展到[0,+∞),我們定義了兩種形式的擴(kuò)展變換,一種非線性擴(kuò)展變換,一種線性擴(kuò)展變換。

    2.2.1 非線性擴(kuò)展變換

    通過sigmoid函數(shù)擴(kuò)展變換d(x)為s(x):

    其中函數(shù)s(x)由下面的sigmoid 函數(shù)形式推倒得出,

    上面等式右半部分的定義形式是為了保證函數(shù)s(x)為正,通過上述變換可以把d(x)的取值范圍擴(kuò)展到[0,+∞)。 s(x)的取值即為sigmoid 非線性擴(kuò)展的不確定性大小。

    2.2.2 線性擴(kuò)展變換

    假設(shè)屬性集中屬性的數(shù)量為n,把函數(shù)d(x)放大n倍則有:

    稱l(x)為線性擴(kuò)展變換后的不確定性函數(shù),當(dāng)n 趨向于無窮大時(shí),則有l(wèi)(x) 無限趨近于函數(shù)f(x)=x。

    上述兩種不確定性的擴(kuò)展定義在對(duì)數(shù)據(jù)進(jìn)行不確定性度量時(shí)和信息熵的度量效果是相似的,下一節(jié)我們繼續(xù)詳細(xì)討論相關(guān)的細(xì)節(jié)。

    3 分析

    3.1 性質(zhì)

    3.1.1 非負(fù)性和上凸性

    當(dāng)屬性集合中每個(gè)屬性的概率相等時(shí),函數(shù)d(x)在當(dāng)前的屬性數(shù)量維度上取最大值,即:

    對(duì)函數(shù)s(x)和l(x)分別有如下公式成立:

    3.1.2 對(duì)稱性和可擴(kuò)展性

    d(x)的結(jié)果僅與所度量系統(tǒng)的總體統(tǒng)計(jì)特性有關(guān),如果某些系統(tǒng)總體的統(tǒng)計(jì)特性相同,不管其內(nèi)部結(jié)構(gòu)如何,這些系統(tǒng)的d(x)值都相同。若有兩個(gè)系統(tǒng)的屬性集合X 和X",其中集合X 包含n個(gè)屬性,集合X"包含n+1 個(gè)屬性,系統(tǒng)X"只比X多了一個(gè)方差接近于0 的屬性,則兩個(gè)集合的取值趨近于相同,即對(duì)屬性集在小方差的屬性上的有限擴(kuò)展對(duì)于整體屬性集合的貢獻(xiàn)可以忽略不計(jì)。對(duì)s(x)和l(x)同理。

    3.1.3 確定性

    即d(x)存在下限,且下限為0,即當(dāng)系統(tǒng)屬性集合X 中只存在一個(gè)屬性時(shí),d(x)=0,即屬性X是完全確定的,屬性X 為必然事件。對(duì)s(x)和l(x)同理。

    3.1.4 可加性

    可加性我們可以分為兩種討論。第一種是所度量系統(tǒng)屬性集合中的屬性或者子集合的可加性,若屬性集合X 包含n 個(gè)屬性,屬性xi概率或權(quán)重為pi,對(duì)于函數(shù)d(x)則有:

    第二種是若系統(tǒng)屬性集合可分為若干子集,每個(gè)子集又可再分為若干子屬性,在所有子屬性上具有可加性。假設(shè)屬性集合X 分為n個(gè)子集合,子集合xi的概率或權(quán)重為pi,每個(gè)子集合可進(jìn)一步劃分,例如,子集合xi包含mi個(gè)子屬性,每個(gè)子屬性的概率或權(quán)重為qji,且假設(shè)屬性集合X 為{x1,…,xi,…,xn},則子集合xi為{x1i,…,xji,…,xmii},有如下等式成立:

    其中mi為子集合xi中子屬性的數(shù)量。

    對(duì)于函數(shù)l(x),在劃分子集后對(duì)每個(gè)子屬性也具有可加性,但需要根據(jù)屬性數(shù)量對(duì)屬性權(quán)重有所調(diào)整。對(duì)函數(shù)l(x)上的第一種可加性有:

    對(duì)函數(shù)l(x)上的第二種可加性有:

    函數(shù)s(x)不具有集合屬性和子屬性的可加性,在函數(shù)s(x)上有下面不等式嚴(yán)格成立:

    3.2 結(jié)果分析

    下面我們把上述三種函數(shù)定義d(x) 、s(x) 、l(x)和信息熵一起進(jìn)行討論。我們最初的目標(biāo)是尋找一種對(duì)數(shù)據(jù)進(jìn)行不確定性度量時(shí)比信息熵計(jì)算速度更快的度量指標(biāo),以更好地應(yīng)對(duì)實(shí)時(shí)性要求很高的場景,可以把d(x)、s(x)、l(x)看做是類信息熵度量指標(biāo),它們有類似的表現(xiàn)形式和指示意義,但是數(shù)學(xué)基礎(chǔ)和理論前提是不同的。信息熵通過信息量來反映系統(tǒng)的混亂程度即不確定性程度。而d(x)根據(jù)系統(tǒng)內(nèi)所有屬性的累積方差來度量整個(gè)系統(tǒng)的不確定性程度,累積方差越大,系統(tǒng)的不確定性越大,累積方差越小,系統(tǒng)的不確定性越小。

    下面我們對(duì)d(x)、s(x)、l(x)和信息熵四個(gè)指標(biāo)的統(tǒng)計(jì)特性進(jìn)行具體對(duì)比分析。

    1)樣本等概率條件下的不同屬性數(shù)量的度量指標(biāo)統(tǒng)計(jì)分析。

    圖1 屬性數(shù)量-度量指標(biāo)值對(duì)應(yīng)圖

    若度量系統(tǒng)屬性集內(nèi)有n 個(gè)屬性,假設(shè)每個(gè)屬性的權(quán)重或概率均為1/n,圖1 為n 從1~1000 范圍內(nèi)四個(gè)指標(biāo)的統(tǒng)計(jì)圖。圖1 中entropy 子圖為信息熵的統(tǒng)計(jì)圖;d(x)子圖為d(x)指標(biāo)的統(tǒng)計(jì)圖,其下限為0,上限趨近于1;s(x)子圖為s(x)的統(tǒng)計(jì)圖;l(x)子圖為l(x)的統(tǒng)計(jì)圖,隨著屬性數(shù)量增多,其結(jié)果無限趨近于y=x。四個(gè)指標(biāo)的意義基本是相同的,趨近于0代表系統(tǒng)越確定性越大,趨向于1或無窮代表系統(tǒng)不確定性越大。

    2)樣本隨機(jī)概率條件下的三屬性數(shù)量的度量指標(biāo)統(tǒng)計(jì)分析。

    若系統(tǒng)屬性集中只有兩個(gè)屬性,當(dāng)兩個(gè)屬性概率相等時(shí),度量值有最大值。當(dāng)屬性集包含三個(gè)屬性時(shí),我們隨機(jī)生成1000 個(gè)樣本數(shù)據(jù),所有樣本數(shù)據(jù)分布如圖2 所示,其中X 軸和Y 軸表示樣本三個(gè)屬性中兩個(gè)屬性的概率,Z 軸分別表示四個(gè)指標(biāo)信息熵值、d(x)值、s(x)值、l(x)值,四個(gè)指標(biāo)的函數(shù)均為上凸函數(shù),極值點(diǎn)在屬性概率相等處。

    圖2 三個(gè)屬性下的度量指標(biāo)值

    3)樣本隨機(jī)概率條件下的不同屬性數(shù)量的度量指標(biāo)統(tǒng)計(jì)分析。

    圖3 為屬性集合中分別包含2 個(gè)、4 個(gè)、6 個(gè)、8個(gè)屬性時(shí),隨機(jī)生成1000 個(gè)樣本,四個(gè)指標(biāo)整體的分布變化情況,其中X 軸表示的是每個(gè)樣本的所有屬性的總體方差(即常規(guī)的方差計(jì)算,和我們在指標(biāo)定義中的累積方差計(jì)算是不一樣的)??梢钥吹?,隨著屬性數(shù)量的增加,樣本屬性之間的總體方差的整體分布范圍開始變小,而四種指標(biāo)取值整體趨向增大。

    圖3 不同屬性數(shù)量下的隨機(jī)數(shù)據(jù)的屬性間方差和度量指標(biāo)的對(duì)應(yīng)分布圖

    對(duì)于隨機(jī)的無規(guī)律的樣本數(shù)據(jù),當(dāng)屬性增加時(shí),屬性集上的總體方差趨向于0,而按信息熵理論屬性集的不確定性應(yīng)該是增加的,此時(shí)以信息熵和常規(guī)的方差計(jì)算所度量的結(jié)果是相反的,而d(x)的度量方法和信息熵是相同的。

    4 擴(kuò)展討論

    4.1 假設(shè)討論

    上述對(duì)于d(x)定義的假設(shè)前提是基于累積的0-1 分布,我們還可以有另外一種假設(shè),假設(shè)屬性集合X 為{x1,…,xn},則有二維屬性隨機(jī)變量(X,X),對(duì)應(yīng)二維聯(lián)合分布列為

    表1 (X,X)的聯(lián)合分布表

    d(x)定義為整個(gè)系統(tǒng)的不確定性度量。同時(shí)即有p(xi,xj) (xi=xj) 為xi和xj對(duì)系統(tǒng)的確定性貢獻(xiàn)度:

    d"(x)為系統(tǒng)的確定性度量。 d(x)越大,對(duì)應(yīng)d"(x)越小,系統(tǒng)的不確定性程度越高,d(x)越小,對(duì)應(yīng)s(x) 越大,系統(tǒng)的確定性程度越大。滿足l(x)。式(16)和基于0-1 分布累積方差的方法(式(2))是等價(jià)的。

    4.2 計(jì)算時(shí)間

    圖4 為四個(gè)指標(biāo)在包含不同屬性數(shù)量的情況下的計(jì)算時(shí)間對(duì)比。上面子圖為計(jì)算1 個(gè)樣本消耗的時(shí)間,下面子圖為計(jì)算500 個(gè)樣本消耗的時(shí)間,其中time單位為s,橫坐標(biāo)軸表示屬性集中包含屬性的數(shù)量,其中d(x)、s(x)、l(x)的計(jì)算消耗大體相同,計(jì)算時(shí)間相比信息熵計(jì)算的耗時(shí)更少。

    圖4 計(jì)算時(shí)間對(duì)比

    5 結(jié)語

    上述我們定義的度量方法,從0-1 分布的角度看是一個(gè)簡化降維模型,是把對(duì)屬性集合的多維度量問題轉(zhuǎn)化為累積的單屬性二分度量問題;而從聯(lián)合概率分布角度看,則是把原有屬性空間擴(kuò)展到更高維的空間進(jìn)行統(tǒng)計(jì)分析。通過升維可以找到更多的特征和統(tǒng)計(jì)規(guī)律,通過降維可以簡化問題,在這里兩者只是描述形式不同。對(duì)于離散型隨機(jī)數(shù)據(jù)可以直接應(yīng)用該方法,但不能直接在連續(xù)型數(shù)據(jù)中應(yīng)用,連續(xù)型數(shù)據(jù)的情況更復(fù)雜,如何簡化對(duì)連續(xù)型數(shù)據(jù)的表示以及度量等問題需要更多的研究。

    猜你喜歡
    信息熵度量不確定性
    有趣的度量
    法律的兩種不確定性
    法律方法(2022年2期)2022-10-20 06:41:56
    基于信息熵可信度的測試點(diǎn)選擇方法研究
    模糊度量空間的強(qiáng)嵌入
    迷向表示分為6個(gè)不可約直和的旗流形上不變愛因斯坦度量
    英鎊或繼續(xù)面臨不確定性風(fēng)險(xiǎn)
    中國外匯(2019年7期)2019-07-13 05:45:04
    基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
    電子測試(2017年12期)2017-12-18 06:35:48
    一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
    具有不可測動(dòng)態(tài)不確定性非線性系統(tǒng)的控制
    地質(zhì)異常的奇異性度量與隱伏源致礦異常識(shí)別
    阳西县| 淅川县| 长汀县| 兴宁市| 三江| 额敏县| 东至县| 黔西县| 隆回县| 庄河市| 苍山县| 深圳市| 惠水县| 盘山县| 大余县| 筠连县| 环江| 吴桥县| 若尔盖县| 合江县| 绿春县| 平谷区| 普安县| 西乡县| 博湖县| 吴旗县| 丰台区| 大港区| 昌邑市| 开江县| 恩平市| 德保县| 科技| 德昌县| 衡山县| 宜丰县| 金昌市| 安福县| 普定县| 义乌市| 尉犁县|