宋 鵬,梁吉業(yè),錢宇華,李常洪
(1.山西大學經濟與管理學院,山西 太原 030006; 2.山西大學計算智能與中文信息處理教育部重點實驗室,山西 太原 030006)
?
區(qū)間數(shù)分級決策的特征選擇方法研究
宋 鵬1,2,梁吉業(yè)2,錢宇華2,李常洪1
(1.山西大學經濟與管理學院,山西 太原 030006; 2.山西大學計算智能與中文信息處理教育部重點實驗室,山西 太原 030006)
在多屬性決策分析中,科學的特征選擇方法有利于提取關鍵決策指標,進而求解決策方案并提升決策效率。本文面向區(qū)間數(shù)分級決策問題,以區(qū)間數(shù)優(yōu)勢關系為序化信息刻畫的基本手段;基于粗糙集與信息熵理論,通過分析條件屬性與決策屬性序相關性的決策內涵,提出了一種新的特征評價函數(shù)——區(qū)間序補集條件熵。在此基礎上,基于區(qū)間序補集條件熵的變化程度,給出了必要屬性的形式化表示與屬性重要度的度量準則,進而設計了區(qū)間數(shù)分級決策表的啟發(fā)式特征選擇算法。最后,通過兩個案例研究,驗證了特征選擇方法的有效性。
區(qū)間數(shù); 分級決策; 特征選擇; 補集條件熵
在管理科學與決策科學的發(fā)展進程中,多屬性決策作為其重要組成部分,也取得了諸多重要的研究成果[1-6]。就多屬性決策而言,其可分為選擇、排序、分類/分級三大類研究問題[7-8]。然而,需要指出的是,盡管相關研究將分類/分級問題歸入了同一類別,但本質上,分類與分級問題具有顯著區(qū)別。在分類問題中,類別之間沒有等級關系;而分級問題,其類別之間具有優(yōu)劣關系,即有序的分類。實際上,分級決策(Sorting decision)廣泛的存在于決策實踐中,如能源效率評價、風險評級、城市評價、企業(yè)效益評價、組織沖突分析等[9-13]。
在分級決策中,決策者需要基于相關的評價指標集(或稱特征集、屬性集等),著眼于問題求解的決策目標,進而對備選方案開展決策分析研究。然而,在眾多的評價指標中,往往存在不相關或冗余的屬性。這些不相關或冗余的指標,不僅僅會增加決策成本,也將影響決策性能。當然,這也是多屬性決策的共性問題。為了有效提升決策性能與決策效率,旨在挖掘符合決策目標的關鍵特征的特征選擇方法受到了更多的關注[14-17]。
就特征選擇方法而言,其一般可分為兩大類:封裝式(Wrapper)、過濾式(Filter)。比較而言,前者在進行特征選擇時需結合隨后的學習算法來評價候選的特征子集;后者則基于特定的評價函數(shù),通過考查特征之間、特征與決策目標之間的關聯(lián)程度,從而求解關鍵特征子集。從決策分析的內涵目標來看,緊密圍繞決策問題目標,進而獲取重要的特征子集,更有利于決策者在決策全流程中的監(jiān)督和控制,因此,本文重點探討過濾式特征選擇方法。
就過濾式方法而言,特征評價函數(shù)的選擇是核心環(huán)節(jié)。從現(xiàn)有研究進展來看,為了保證特征選擇效果,人們從不同視角嘗試不同的特征評價函數(shù),如距離度量、依賴性度量和信息度量等[18]。在上述特征評價函數(shù)中,基于信息度量的特征評估準則,由于其無需假設數(shù)據分布已知,且能夠考查特征間的非線性關系,因此,在特征選擇方法的研究中備受關注[16, 19-20]。需要進一步強調的是,由于粗糙集方法能夠在保持分類能力不變的條件下有效開展屬性約簡并提取決策規(guī)則,因此,基于粗糙集與信息熵結合的特征選擇方法的研究成果也不斷涌現(xiàn)。Jensen 和 Shen Qiang[21]著眼于保持決策語義不變的視角,提出了粗糙特征選擇方法和模糊粗糙特征選擇方法。針對經典粗糙集方法需要進行數(shù)據離散化的預處理步驟進而引致信息損失的問題,Parthaláin和 Shen Qiang[22]基于相容粗糙集模型給出了一種可以處理連續(xù)性數(shù)值的特征選擇算法。面向特征選擇方法計算耗時的共性困難,Qian Yuhua等[23]基于正向近似概念,針對Shannon熵、補集條件熵、組合熵等不同的特征評價函數(shù)給出了一類通用的特征選擇加速方法。面對實際決策環(huán)境中,數(shù)據樣本呈現(xiàn)動態(tài)增加形式的現(xiàn)實問題,Liang Jiye等[24]通過分析信息熵的增量機制提出了一種具有批增量處理能力的粗糙特征選擇算法。Tseng和 Huang[25]則將基于粗糙集的特征選擇方法應用于客戶關系管理研究中。可以看出,基于粗糙集與信息熵結合的特征選擇方法為有效提升特征選擇的決策性能與計算效率提供了一條可行的研究路徑。
需要進一步指出的是,在現(xiàn)實的決策分析中,由于決策問題的不確定性以及決策者的不同偏好,人們面對的數(shù)據形式也往往呈現(xiàn)模糊值、缺省值、區(qū)間值等復雜形式[26-31]。相應地,相關學者圍繞不同的數(shù)據表示形式開展了系列的特征選擇方法研究。Hu Qinghua等[32]面向具有名義型、數(shù)值型和模糊型混合數(shù)據的決策表,運用粗糙集模型和模糊粗糙集模型,給出了基于條件熵的特征選擇方法。Qian Yuhua等[33]針對模糊型數(shù)據的決策表提出了一種特征選擇的加速算法。事實上,在實際的決策問題中,各類決策指標的數(shù)值往往呈現(xiàn)動態(tài)波動的狀態(tài),因此,與單值型數(shù)據相比,區(qū)間型數(shù)據更有利于反映數(shù)據集的取值情況。因而,基于區(qū)間數(shù)據的決策建模與分析研究日益受到重視。劉小弟等[34]運用相對熵方法,針對屬性取值、方案偏好為區(qū)間型數(shù)據表示形式的多屬性決策問題,開展了群決策建模與分析研究。梁燕華等[35]結合灰靶思想,構建了區(qū)間數(shù)灰靶決策模型,進而為具有多決策對象、分類數(shù)不確定等復雜特性的分類決策問題提供了有效的決策分析方法。郭崇慧和劉永超[36]圍繞分類決策問題,基于距離度量區(qū)間數(shù)的相似性,運用最近鄰分類器,建立了一種區(qū)間型符號數(shù)據的特征選擇方法。然而,從現(xiàn)有研究進展來看,關于區(qū)間數(shù)據分級決策的特征選擇研究仍鮮有報道。因而,本文將面向區(qū)間數(shù)分級決策問題,在粗糙集理論框架下,提出一個新的概念——區(qū)間序補集條件熵,通過有效刻畫特征集合與有序決策類之間的序的相關性,進而構建一種面向區(qū)間數(shù)分級決策表開展特征選擇的新方法。
一般地,稱S=(U,AT,V,f)是一個信息系統(tǒng),其中,U為對象集合,AT為屬性集合,V=∪a∈ATVa(Va為屬性a的值域),f:U×AT→V是一個函數(shù)使得f(x,a)∈Va(a∈AT,x∈U)。進一步地,稱S=(U,AT,V,f)是一個區(qū)間信息系統(tǒng),其中,Va為區(qū)間數(shù)的集合,f(x,a)的形式表示如下:
f(x,a)=[aL(x),aU(x)]={p|aL(x)≤p≤aU(x),aL(x),aU(x)∈R}.
定義2.1對于區(qū)間信息系統(tǒng)S=(U,AT,V,f),若所有的屬性均為有序型屬性,則稱其為一個區(qū)間序信息系統(tǒng)。
在區(qū)間序信息系統(tǒng)中,有序型屬性一般包括收益型屬性與成本型屬性,對象之間的優(yōu)劣關系通過優(yōu)勢關系來刻畫。
(1)
(2)
在此基礎上,可以給出區(qū)間數(shù)分級決策表的定義。
定義2.3稱S=(U,C∪d,V,f)是一個區(qū)間數(shù)分級決策表,若條件屬性集C中的屬性均是有序型屬性且VC為區(qū)間數(shù)的集合,決策屬性為有序的類且f(x,d)∈Vd(x∈U)為單值型數(shù)據。
在分級決策表中,可令決策類集合D={D1,D2,…,Dt}(t≤|U|, |·|表示基數(shù)),表示對象集合被劃分為t類,即|Vd|=t;進一步地,不失一般性,可令r,s∈T(T={1,2,…,t}),并假設若r>s,則決策類Dr中的對象在決策屬性上優(yōu)于決策類Ds中的對象,而任一決策類內的所有對象則具有同等的優(yōu)劣級別。
(3)
從區(qū)間數(shù)分級決策表特征選擇的決策語義來看,其本質上是在條件屬性集上求解與決策屬性具有“序的相關性”的屬性子集。這里的相關性,可以理解為序的一致性和不一致性。在分級決策表中,所謂序的一致性是指,若對象y在條件屬性集A上優(yōu)于對象x,則對象y在決策屬性d上也應優(yōu)于對象x;反之,若對象y在條件屬性集A上優(yōu)于對象x,而對象y在決策屬性d上卻不優(yōu)于對象x,則認為其在序上具有不一致性。
事實上,分級決策表中序的一致性與序的不一致性,共同構成了序的不確定性。從現(xiàn)有研究成果來看,熵可以作為信息系統(tǒng)中不確定性度量的有效工具。本節(jié)將基于粗糙集與信息熵的結合,首先給出區(qū)間序補集條件熵的定義,然后對其所具有的特征評價性能進行分析。
3.1 區(qū)間序補集條件熵
(4)
實際上,Liang Jiye等[37]在等價關系條件下,通過考慮等價類的補集信息,提出了信息系統(tǒng)中補集信息熵的概念。然而,其并不適用于具有序信息的決策系統(tǒng)。因此,Song Peng等[31]面向區(qū)間序信息系統(tǒng)的決策需求提出了優(yōu)勢關系下的補集信息熵概念。
(5)
根據區(qū)間序信息系統(tǒng)中補集信息熵、補集聯(lián)合熵的定義,可以得出補集條件熵的定義。
定義3.3[31]設S=(U,AT,V,f)是一個區(qū)間序信息系統(tǒng),A,B?AT,屬性集A關于屬性集B的補集條件熵的定義為:
(6)
根據式(6),可以得出區(qū)間數(shù)分級決策表的區(qū)間序補集條件熵的形式化表示。
(7)
性質3.1設S=(U,C∪d,V,f)是一個區(qū)間數(shù)分級決策表,A?C,則E(d≥|A≥)=E(d≥∪A≥)-E(A≥)。
證明:根據定義3.4,可以得出
證畢。
從性質3.1可以看出,式(7)所提出的補集條件熵可以度量條件屬性集A和決策屬性d的聯(lián)合熵與條件屬性集A的信息熵之間的差異,因此,其符合條件熵的內涵。
3.2 區(qū)間序補集條件熵的特征評價性能分析
基于區(qū)間序補集條件熵的概念表示,本節(jié)將首先給出兩個重要的定理,然后對其決策語義進行相關分析。
證明見附錄A。
0≤E(d≥|A≥)≤1-1/|U|-E(A≥)
證明見附錄B。
可以看出,定理3.1分析了區(qū)間序補集條件熵的單調性,定理3.2則分析了其極值性。為了更好地理解極值性,本節(jié)將給出性質3.2。
證畢。
就特征選擇方法而言,其一般包括初始特征子集的選擇、搜索策略、特征評估準則以及停止條件四個方面的內容。在粗糙集理論框架下,特征選擇也被稱作為屬性約簡,其是在保持決策能力不變的條件下求解關鍵屬性。相應地,基于區(qū)間序補集條件熵的變化程度,本節(jié)將建立區(qū)間數(shù)分級決策的特征選擇算法。
在粗糙集理論框架下的屬性約簡過程中,若從條件屬性集中剔除某一屬性而條件熵不變,則認為這一屬性對于決策而言是不必要的;與之相反,當剔除掉某一屬性時條件熵發(fā)生變化,則認為這一屬性對于決策而言是必要的,所有必要的屬性構成的集合也被稱作為核。顯然,由于核屬性對于決策而言是必要的,因此,其構成了特征選擇中的初始特征子集。其形式化表示見定義4.1。
定義4.1設S=(U,C∪d,V,f)是一個區(qū)間數(shù)分級決策表,對于屬性c(?c∈C),若其滿足
E(d≥|(C-c)≥)≠E(d≥|C≥)
(8)
則稱屬性c為必要屬性;若其滿足:
E(d≥|(C-c)≥)=E(d≥|C≥)
(9)
則稱屬性c為不必要屬性。
以初始特征子集為特征搜索的基礎,基于補集條件熵的變化程度度量剩余屬性的重要性程度,將最重要的屬性優(yōu)先進入關鍵特征子集,進而構建一個啟發(fā)式搜索策略。為了度量屬性重要性程度,需給出區(qū)間序補集條件熵的另一性質。
性質4.1設S=(U,C∪d,V,f)是一個區(qū)間數(shù)分級決策表,對于屬性集A(A?C)和屬性c(c∈C,c?A),有E(d≥|A≥)≥E(d≥|(A∪c)≥)。
證畢。
根據性質4.1,基于補集條件熵的變化程度,可給出屬性重要性程度的度量準則。
定義4.2 設S=(U,C∪d,V,f)是一個區(qū)間數(shù)分級決策表,A?C,屬性c∈C-A,則屬性c的重要度為:
Sig(c,A,d)=E(d≥|A≥)-E(d≥|(A∪c)≥)
(10)
當關鍵特征子集B相對于決策屬性的補集條件熵E(d≥|B≥)與E(d≥|C≥)相等時,則說明所搜索到的特征子集保持了原始決策表的決策信息。進一步地,基于必要屬性的定義,檢測所搜索到的特征子集是否具有冗余屬性。即若?c∈B,滿足
E(d≥|(B-c)≥)≠E(d≥|B≥)
(11)
則稱關鍵特征子集B中沒有冗余屬性。此時,稱屬性集B為相對于決策屬性d的約簡。
基于上述分析,可以給出區(qū)間數(shù)分級決策的特征選擇算法。具體算法步驟如下:
步驟1:計算區(qū)間數(shù)分級決策表S=(U,C∪d,V,f)的區(qū)間序補集條件熵E(d≥|C≥);
步驟2:令特征子集Red←?,對于條件屬性集中的任意屬性c∈C,若E(d≥|(C-c)≥)≠E(d≥|C≥),則Red←Red∪{c};
步驟3:B←Red;
步驟4:計算E(d≥|B≥);若E(d≥|B≥)≠E(d≥|C≥),則執(zhí)行步驟5;若E(d≥|B≥)=E(d≥|C≥),則執(zhí)行步驟6;
步驟5:對屬性集C-B循環(huán)執(zhí)行:
5.1:對于任意的屬性c∈C-B,計算屬性重
要度Sig(c,B,d);
5.2:若屬性c0滿足條件Sig(c0,B,d)=max
{Sig(c,B,d),c∈C-B},則B←B∪{c0};
5.3:若E(d≥|B≥)=E(d≥|C≥),則執(zhí)行步驟6;若E(d≥|B≥)≠E(d≥|C≥),則轉至5.1;
步驟6:對于任意的屬性c∈B,若E(d≥|(B-c)≥)=E(d≥|B≥),則B←B-{c};
步驟7:Red←B,結束。
在現(xiàn)實的數(shù)據挖掘與決策分析任務中,數(shù)據的預處理步驟(如缺省數(shù)據處理、異常樣本剔除、特征選擇等)是決策結果的重要影響因素,就其工作量而言,也往往占據決策任務的80%[38]。事實上,Roy[39]將多屬性決策分為選擇、排序、分類/分級、特征選擇四類主要的決策分析任務??梢姡卣鬟x擇在多屬性決策中具有重要的研究意義。本節(jié)將面向風險投資項目決策、股票選擇決策兩個典型的投資決策問題,基于所提出的特征選擇方法進行預處理,分別就特征選擇與分級決策、特征選擇與排序決策的結合開展應用研究。
5.1 風險投資項目決策
從風險投資項目決策的現(xiàn)有研究進展來看,主要圍繞投資前的項目篩選開展多屬性決策分析研究。然而,為了有效降低投資風險,風投資金往往并非一次全部注入風險項目,而是采取多階段投資形式。在每一階段中,可以根據項目的收益情況進行相關決策分析。
表1列示了16個待評價的風險項目。按照項目在上一輪投資后的收益情況分為優(yōu)、良、一般三類,不失一般性,令決策屬性值分別為3、2、1。一般地,在風投專家進行投資前項目篩選時,重點關注管理團隊能力、市場競爭力、產品差異度以及財務能力等;在分階段注入投資后,由于風投企業(yè)將參與項目運作與管理(即投資后管理),因此,主要關注市場競爭力、項目發(fā)展能力,并更為細致的考查項目的財務能力。表1列示了8個評價指標cj(j=1,2,…,8),分別代表市場銷售能力(銷售毛利率)、項目發(fā)展能力(資產增長率)、項目現(xiàn)金流能力(經營活動現(xiàn)金流比率、現(xiàn)金流動負債比率)、項目營運能力(總資產周轉率、固定資產周轉率)、項目抵御財務風險能力(速動比率、利息保障倍數(shù))。
表1 風險投資項目決策指標值數(shù)據表
就風險投資項目的多階段投資模式而言,在每一投資階段的項目運行中,項目運營業(yè)績指標的數(shù)值往往呈現(xiàn)動態(tài)波動的特征。一般地,決策者往往以每一階段為特定時間段來計量相關的業(yè)績指標;相應地,獲得的指標數(shù)值則是單值數(shù)據形式,并以此為基礎進行決策分析。顯然,單值數(shù)據難以反映現(xiàn)實中各項業(yè)績指標的取值波動情況。為了更好地刻畫數(shù)據的數(shù)值波動特征,可將每一投資階段按照特定標準(如月份、季度)劃分為多個時間段,并針對每個時間段計算相應的指標數(shù)值;在此基礎上,通過分析每一指標不同時間段的多個數(shù)值的取值情況,給出該指標的區(qū)間數(shù)值。本文基于數(shù)據打包思想[40],以每一指標數(shù)值的最小值為區(qū)間值下界,以每一指標數(shù)值的最大值為區(qū)間值上界,進而給出每一指標的區(qū)間數(shù)。當然,需要說明的是,當每一指標的數(shù)據樣本足夠多時,則可通過估計數(shù)值的分布,給出更為準確的區(qū)間數(shù)取值。基于上述思想,結合我國高科技行業(yè)相關指標的實際取值范圍,表1給出了16個風險項目的8個評價指標的區(qū)間數(shù)據。
按照算法,可以得出如下特征選擇計算結果。
(1)計算表1的區(qū)間序補集條件熵,可得E(d≥|C≥)=0.0078。
(2)針對每個指標計算E(d≥|(C-c)≥),可得:
E(d≥|(C-c1)≥)=0.0117,E(d≥|(C-c2)≥)=0.0117
E(d≥|(C-c3)≥)=0.0156
E(d≥|(C-c4)≥)=E(d≥|(C-c5)≥)=E(d≥|(C-c6)≥)=E(d≥|(C-c7)≥)=E(d≥|(C-c8)≥)=0.0078
因此,核屬性集為{c1,c2,c3}。
(3)計算核屬性集相對于決策屬性的區(qū)間序補集條件熵,得出:
E(d≥|{c1,c2,c3}≥)=0.0078=E(d≥|C≥)
(4)回溯檢驗屬性集{c1,c2,c3}是否存在冗余屬性,可得:
E(d≥|(B-c1)≥)=0.0117≠E(d≥|B≥),
E(d≥|(B-c2)≥)=0.0117≠E(d≥|B≥),
E(d≥|(B-c3)≥)=0.0156≠E(d≥|B≥)。
因此,屬性集{c1,c2,c3}中不存在冗余屬性。相應地,可得關鍵特征子集為:
B={c1,c2,c3}
從關鍵特征子集的決策語義來看,其表示特征子集中的相關指標與決策屬性具有序相關性。就風險投資項目的投資后管理而言,探尋與項目收益具有序相關的關鍵評價指標,可為風險投資項目的運作管理構建重點指標監(jiān)控體系,并提取分級決策規(guī)則。事實上,粗糙集理論的核心思想就是通過有效的特征選擇進而獲取符合人類決策行為模式的If…then…決策規(guī)則。進一步地,結合Qian Yuhua等[41],可以對決策規(guī)則、整體決策規(guī)則集的決策性能進行評價。本節(jié)僅討論各規(guī)則的決策性能。
根據表1中每個項目的指標數(shù)據可以誘導出一條決策規(guī)則。首先,可分析決策屬性值f(xi,d)=3的項目x1,x3,x7,x8,x14,x16,相應地,基于關鍵特征子集可獲得6條決策規(guī)則:
a)Iff(x,c1)≥[0.31,0.33]∧f(x,c2)≥[0.35,0.38]∧f(x,c3)≥[0.92,0.97], thenf(x,d)≥3.
b)Iff(x,c1)≥[0.30,0.32]∧f(x,c2)≥[0.35,0.38]∧f(x,c3)≥[0.90,0.97], thenf(x,d)≥3.
c)Iff(x,c1)≥[0.29,0.32]∧f(x,c2)≥[0.29,0.34]∧f(x,c3)≥[0.49,0.53], thenf(x,d)≥3.
d)Iff(x,c1)≥[0.25,0.28]∧f(x,c2)≥[0.25,0.27]∧f(x,c3)≥[0.38,0.45], thenf(x,d)≥3.
e)Iff(x,c1)≥[0.20,0.25]∧f(x,c2)≥[0.24,0.26]∧f(x,c3)≥[0.38,0.42], thenf(x,d)≥3.
f)Iff(x,c1)≥[0.15,0.21]∧f(x,c2)≥[0.23,0.25]∧f(x,c3)≥[0.36,0.39], thenf(x,d)≥3.
對于每個決策規(guī)則而言,可根據其確定度(Certainty measure)對其決策性能進行評價。確定度的形式表示為:
(12)
根據式(12),可以計算得出上述6條決策規(guī)則的確定度,即:
CM(x1)=CM(x3)=CM(x7)=CM(x8)=CM(x14)=100%,
CM(x16)=6/7=85.71%.
進一步分析基于對象x16誘導出的決策規(guī)則f,可以發(fā)現(xiàn),存在一個對象x4與其相矛盾,該對象在條件屬性上符合決策規(guī)則,但其決策屬性值卻為2。綜合來看,由于前5條規(guī)則均是完全確定的,因此,可將其合并。實際上,規(guī)則e包含了前4條規(guī)則。所以,通過分析決策屬性值f(xi,d)=3的項目x1,x3,x7,x8,x14,x16,可以得出一條確定性決策規(guī)則,一條非確定性決策規(guī)則,即:
r1:Iff(x,c1)≥[0.20,0.25]∧f(x,c2)≥[0.24,0.26]∧f(x,c3)≥[0.38,0.42], thenf(x,d)≥3.(CM=100%)
r2:Iff(x,c1)≥[0.15,0.21]∧f(x,c2)≥[0.23,0.25]∧f(x,c3)≥[0.36,0.39], thenf(x,d)≥3. (CM=85.71%)
類似地,通過分析決策屬性值f(xi,d)≥2的11個項目,可以得出兩條決策規(guī)則,即:
r3:Iff(x,c1)≥[0.10,0.14]∧f(x,c2)≥[0.14,0.15]∧f(x,c3)≥[0.30,0.32], thenf(x,d)≥2. (CM=100%)
r4:Iff(x,c1)≥[0.10,0.12]∧f(x,c2)≥[0.14,0.15]∧f(x,c3)≥[0.25,0.26], thenf(x,d)≥2.(CM=91.67%)
可以看出,基于關鍵特征子集,決策者可獲取更為精煉的分級決策規(guī)則。實際上,精煉的決策規(guī)則在實際的決策分析中是非常必要的,畢竟決策規(guī)則中條件屬性的數(shù)量越多,其在決策支持中的泛化能力(即適用性)就會越弱。進一步地,結合決策規(guī)則的確信度評價,可為決策者提供具有概率意義的決策規(guī)則評價準則。
當然,需要說明的是,為了便于直觀理解,本節(jié)通過簡潔的算例分析了特征選擇、分級決策規(guī)則的決策內涵。實際上,在風險投資項目決策的投資后管理中,基于大量、多輪的項目案例,通過分析關鍵特征子集及其對應的分級決策規(guī)則,特別是分析決策規(guī)則中各指標的取值分布情況以及各決策規(guī)則的平均確信度,有利于風險投資項目的相關利益主體建立多階段風險投資項目管理的重點指標監(jiān)控與量化評價體系,進而為風險投資項目決策優(yōu)化提供有效的決策支持。
5.2 股票選擇決策
隨著全球資本市場的迅速發(fā)展,股票投資決策的研究也受到更為廣泛的關注。尤其近二十年來,隨著人工智能決策方法的發(fā)展,關于選股策略的研究不斷涌現(xiàn)。當然,關于選股策略研究的爭論也從未停止。有效市場理論認為,投資者在可用信息集(歷史的價格信息、市場公開信息以及私有信息)下無法獲得超額收益,并將市場劃分為弱式、半強式及強式有效三種形式。但是,諸多的研究證據表明中國股票市場未達半強式有效,這也就意味著,投資者基于公開的企業(yè)財務信息可以獲得超額投資收益。
本節(jié)以上證180指數(shù)成分股為研究樣本,基于9個財務指標(條件屬性)以及股票收益率(決策屬性)構建區(qū)間數(shù)分級決策表?;谔卣鬟x擇算法,可以獲取與股票收益率具有序相關性的關鍵財務指標。在此基礎上,通過特定的排序方法,基于關鍵財務指標集進行排序決策,即可獲得股票選擇的排序決策結果。本質上來看,這是一類符合謹慎投資者投資需求的股票選擇策略。其核心思想是,在影響股票收益率的眾多影響因素中(如:財務指標、宏觀經濟指標、專家投資建議、“內幕消息”等),只有基于反映企業(yè)經濟運行情況的評價準則進行的決策,才是可靠的選股策略。Sevastjanov和Dymova[42]以模糊數(shù)為數(shù)據的基本表示形式,基于上述思想開展了股票選擇決策研究。本文則基于區(qū)間數(shù)據表示形式,綜合運用區(qū)間數(shù)分級決策的特征選擇方法和區(qū)間數(shù)排序決策方法,開展股票選擇決策研究。
事實上,從股票選擇決策的研究進展來看,決策者往往基于財務指標的單值數(shù)據開展決策建模與分析。然而,對于股票市場而言,無論是上市公司的財務指標還是市場回報指標,數(shù)值的波動性是普遍而又必須關注的特征。顯然,傳統(tǒng)的單值數(shù)據是一種信息不完全的數(shù)據表現(xiàn)形式。相比較單值數(shù)據而言,區(qū)間數(shù)據更有利于反映數(shù)值的取值分布情況,更有利于揭示數(shù)據取值的整體特性。
本節(jié)選取全球金融危機爆發(fā)后的2009年上證180指數(shù)成分股為研究樣本。在樣本選擇時,考慮到金融類上市公司與非金融類上市公司的財務指標數(shù)值具有顯著差異,剔除掉了金融類股票;考慮到股票選擇決策本質上是選優(yōu),剔除掉了企業(yè)經營中利潤指標為負值的股票;此外,剔除了數(shù)據不全的公司。樣本股票共91支。財務指標選擇了表示企業(yè)財務運營狀況的常用的9個指標,分別為:營業(yè)利潤率、凈資產收益率、現(xiàn)金流量比率、現(xiàn)金流動負債比率、總資產周轉率、固定資產周轉率、凈利潤增長率、速動比率、資產負債率。在構建區(qū)間數(shù)分級決策表時,基于上市公司的季報公布制度,考慮到上市公司2008年度的財務報告在2009年4月30日前公布,因此,財務指標以2008年度的季度數(shù)據為基礎,取季度數(shù)據的最大值為區(qū)間數(shù)的上界,取季度數(shù)據的最小值為區(qū)間數(shù)的下界;決策屬性則按照2009年5月——6月股票收益率的取值,將樣本分為三類,即股票收益率前30%樣本的決策屬性值為3,股票收益率后30%樣本的決策屬性值為1,其余樣本的決策屬性值為2。具體數(shù)據信息見表2。
按照算法,可以得出如下特征選擇計算結果。
(1)計算表2的區(qū)間序補集條件熵,可得:
E(d≥|C≥)=0.000724
(2)針對每個指標計算E(d≥|(C-c)≥),可得:
E(d≥|(C-cj)≥)≠E(d≥|C≥) (j=1,3,5,6,7,9)
E(d≥|(C-cj)≥)=E(d≥|C≥) (j=2,4,8)
因此,核屬性集為{c1,c3,c5,c6,c7,c9}
(3)計算核屬性集相對于決策屬性的區(qū)間序補集條件熵,得出:
E(d≥|{c1,c3,c5,c6,c7,c9}≥)=0.001087≠E(d≥|C≥)
(4)計算非核屬性的重要度,可得:
Sig(c2,B,d)=0.000363,Sig(c4,B,d)=0.000242
Sig(c8,B,d)=0.000363
可以看出,此時,屬性c2和c8的重要度最大,則分別令其進入關鍵特征子集,并計算區(qū)間序補集條件熵,得出:
E(d≥|{c1,c3,c5,c6,c7,c9,c2}≥)=E(d≥|C≥)
E(d≥|{c1,c3,c5,c6,c7,c9,c8}≥)=E(d≥|C≥)
(5)回溯檢驗屬性集{c1,c3,c5,c6,c7,c9,c2}和{c1,c3,c5,c6,c7,c9,c8}是否存在冗余屬性,可得各屬性此時均滿足E(d≥|(B-cj)≥)≠E(d≥|B≥)。因此,可以得出,區(qū)間序分級決策表具有兩個特征選擇結果,即:
B1={c1,c2,c3,c5,c6,c7,c9},B2={c1,c3,c5,c6,c7,c8,c9}
基于特征選擇結果,結合文獻[31]中的區(qū)間數(shù)排序決策方法,可以獲得股票選擇決策的排序結果。表3列示了基于兩個關鍵特征子集的兩種排序前5位的股票選擇決策結果??梢钥闯?,兩種結果中有4支股票是相同的。實際上,在第一種排序結果中代碼為600085的股票在第二種排序決策結果中排列于第6位,說明了兩個關鍵特征子集所包含的決策信息是相近的。
表2 股票選擇決策指標值數(shù)據表
表3 排序前五位股票結果列表
進一步地,為了驗證方法的有效性,表4列示了兩種方案下持有前五位股票從2009年7月——2009年12月(即持有1個月至持有6個月)的股票平均回報率;為了分析投資策略的收益能力,將同期的上證180指數(shù)回報率作為選股策略是否有效的評價基準,并在表4中列示;同時,考慮到研究樣本集進行了樣本剔除,因此,本文也計算了同期的股票樣本集的平均回報率。為了清晰的展示實證結果,圖1給出了投資回報率的比較圖。從表4與圖1的結果可以看出,本節(jié)基于特征選擇結果構建的股票選擇策略可以獲得超額收益,進而驗證了方法的有效性。
表4 股票回報率結果列表
圖1 股票回報率結果比較圖
特征選擇作為多屬性決策的重要預處理步驟,對于決策分析任務中,有效獲取關鍵決策指標進而求解決策方案、提升決策效率具有重要的意義。本文面向區(qū)間數(shù)分級決策問題,以區(qū)間數(shù)優(yōu)勢關系作為區(qū)間數(shù)分級決策表序化信息刻畫的基本手段,基于粗糙集理論與信息熵的結合,著眼于條件屬性與決策屬性序相關性的度量,提出了一個新的特征評價函數(shù)——區(qū)間序補集條件熵。在此基礎上,通過分析區(qū)間序補集條件熵的變化程度,基于必要屬性概念給出了初始特征子集的選取方法,基于屬性重要性程度的度量準則設計了關鍵特征子集的搜索策略,進而構建了基于區(qū)間序補集條件熵的區(qū)間數(shù)分級決策表特征選擇算法。通過風險投資項目決策與股票選擇決策兩個案例,說明了特征選擇與分級決策、特征選擇與排序決策結合的決策建模與分析流程。研究結果表明,本文所提出的區(qū)間序補集條件熵可以有效度量條件屬性與決策屬性的序相關性,進而為區(qū)間數(shù)分級決策中求解關鍵決策指標提供了科學的特征選擇方法。
附錄:
A.定理3.1的證明
證明:根據定義3.4,可以得出
證畢。
B.定理3.2的證明
證畢。
[1] Dyer J S, Fishburn P C, Steuer R E, et al. Multiple criteria decision making, multiattribute utility theory: The next ten years[J]. Management Science, 1992, 38(5): 645-654.
[2] Wallenius J, Dyer J S, Fishburn P C, et al. Multiple criteria decision making, multiattribute utility theory: Recent accomplishments and what lies ahead[J]. Management Science, 2008, 54(7): 1336-1349.
[3] 梁昌勇, 顧東曉, 程文娟, 等. 含非連續(xù)性信息多屬性案例中的決策知識發(fā)現(xiàn)方法[J]. 中國管理科學, 2014, 22(4): 83-91.
[4] 劉健, 劉思峰, 馬義中, 等.基于心理閾值的多屬性決策問題目標調整研究[J]. 中國管理科學, 2015, 23(2): 123-130.
[5] 丁濤, 梁樑. 基于方案占優(yōu)和排序穩(wěn)健性的多屬性決策方法[J]. 中國管理科學, 2016, 24(8): 132-138.
[6] 韓菁, 葉順心, 柴建,等. 基于后悔理論的混合型多屬性案例決策方法[J]. 中國管理科學, 2016, 24(12): 108-116.
[7] Roy B.Multicriteria methodology for decision aiding[M]//Pardalos P.nonconvex optimization and its applications.US:Springer Verlag, 1996.
[8] Zopounidis C, Doumpos M.Multicriteria classification and sorting methods: A literature review[J]. European Journal of Operational Research, 2002, 138 (2): 229-246.
[9] Neves L P, Martins A G, Antunes C H, et al. A multi-criteria decision approach to sorting actions for promoting energy efficiency[J]. Energy Policy, 2008, 36(7): 2351-2363.
[10] Kadziński M, Tervonen T, Figueira J R.Robust multi-criteria sorting with the outranking preference model and characteristic profiles[J]. Omega, 2015, 55: 126-140.
[11] Kadziński M, Ciomek K, Sowiński R.Modeling assignment-based pairwise comparisons within integrated framework for value-driven multiple criteria sorting[J].European Journal of Operational Research, 2015, 241(3): 830-841.
[12] 張小芝, 朱傳喜, 朱麗. 時序多屬性決策的廣義等級偏好優(yōu)序法[J]. 中國管理科學, 2014, 22(4): 105-111.
[13] Silva M M, Costa APCS,de Gusmao APH.Continuous cooperation: Aproposal using a fuzzy multicriteria sorting method[J]. International Journal of Production Economics, 2014, 151: 67-75.
[14] Dash M, Liu Huan.Consistency-based search in feature selection[J]. Artificial Intelligence, 2003, 151(1-2): 155-176.
[15] 趙宇, 黃思明, 陳銳. 數(shù)據分類中的特征選擇算法研究[J]. 中國管理科學, 2013, 21(6): 38-46.
[16] Lee J, Kim D W.Fast multi-label feature selection based on information-theoretic feature ranking[J]. Pattern Recognition, 2015, 48(9): 2761-2771.
[17] Maldonado S, Montoya R, Weber R.Advanced conjoint analysis using feature selection via support vector machines[J]. European Journal of Operational Research, 2015, 241(2): 564-574.
[18] 姚旭, 王曉丹, 張玉璽, 等. 特征選擇方法綜述[J]. 控制與決策, 2012, 27(2): 161-166.
[19] Peng Hanchuan, Long Fuhui, Ding C. Feature selection based on mutual information: Criteria of max-dependency,max-relevance, and min-redundancy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(8):1226-1238.
[20] Wang Feng, Liang Jiye. An efficient feature selection algorithm for hybrid data[J]. Neurocomputing, 2016, 193(c): 33-41.
[21] Jensen R, Shen Qiang.Semantics-preserving dimensionality reduction:Rough and fuzzy-rough-based approaches[J]. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(12): 1457-1471.
[22] Parthaláin N M, Shen Qiang.Exploring the boundary region of tolerance rough sets for feature selection[J]. Pattern Recognition, 2009, 42(5): 655-667.
[23] Qian Yuhua, Liang Jiye, Pedrycz W, et al. Positive approximation:An accelerator for attribute reduction in rough set theory[J]. Artificial Intelligence,2010, 174(9-10): 597-618.
[24] Liang Jiye, Wang Feng, Qian Yuhua,et al.A group incremental approach to feature selection applying rough set technique[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(2): 294-308.
[25] Tseng T L, Huang C C.Rough set-based approach to feature selection in customer relationship management[J]. Omega, 2007, 35 (4): 365 - 383.
[26] 徐澤水, 達慶利. 一種基于可能度的區(qū)間判斷矩陣排序法[J]. 中國管理科學, 2003, 11(1): 63-65.
[27] Xu Zeshui, Liao Huchang.Intuitionistic fuzzy analytic hierarchy process[J]. IEEE Transactions on Fuzzy Systems, 2014, 22(4): 749 - 761.
[28] 樊治平, 陳發(fā)動, 張曉. 考慮決策者心理行為的區(qū)間數(shù)多屬性決策方法[J]. 東北大學學報(自然科學版), 2011, 32(1): 136-139.
[29] Fan Zhiping, Liu Yang.An approach to solve group-decision- making problems with ordinal interval numbers[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 2010, 40(5):1413-1423.
[30] Liang Jiye, Xu Zongben.The algorithm on knowledge reduction in incomplete information systems[J].International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2002, 10(1): 95-103.
[31] Song Peng, Liang Jiye, Qian Yuhua. A two-grade approach to ranking interval data[J]. Knowledge-Based Systems, 2012, 27: 234-244.
[32] Hu Qinghua, Yu Daren, Xie Zongxia. Information-preserving hybrid data reduction based on fuzzy-rough techniques[J]. Pattern Recognition Letters, 2006, 27 (5):414-423.
[33] Qian Yuha, Wang Qi, Cheng Honghong, et al.Fuzzy-rough feature selection accelerator[J]. Fuzzy Sets and Systems, 2015, 258: 61-78.
[34] 劉小弟, 朱建軍, 劉思峰. 方案有不確定偏好的區(qū)間數(shù)相對熵群決策方法[J]. 中國管理科學, 2014, 22(6): 134-140.
[35] 梁燕華, 郭鵬, 朱煜明. 基于樣本集的區(qū)間數(shù)灰靶分類決策模型及應用[J]. 中國管理科學, 2014, 22(5): 98-103.
[36] 郭崇慧, 劉永超. 區(qū)間型符號數(shù)據的特征選擇方法[J]. 運籌與管理, 2015, 24(1): 67-74.
[37] Liang Jiye, Chin K S, Dang C Y, et al. A new method for measuring uncertainty and fuzziness in rough settheory[J]. International Journal of General Systems, 2002, 31(4):331-342.
[38] Piramuthu S.Evaluating feature selection methods for learning in data mining applications[J]. European Journal of Operational Research, 2004, 156(2): 483-494.
[39] Roy B.Méthodologie Multicritèred’Aide à la Décision[M]. Paris:Economica, 1985.
[40] Diday E. From data to knowledge: Probabilistic objects for a symbolic data analysis[M]//Dodge Y,Whittaker J.Statistics,Heidelberg:Physica,1992.
[41] Qian Yuhua,Liang Jiye, Song Peng, et al.Evaluation of the decision performance of the decision rule set from an ordered decision table[J].Knowledge-Based Systems, 2012, 36: 39-50.
[42] Sevastjanov P, Dymova L. Stock screening with use of multiple criteria decision making and optimization[J]. Omega, 2009, 37(3): 659-671.
Research on Feature Selection Method for Interval Sorting Decision
SONG Peng1,2,LIANG Ji-ye2,QIAN Yu-hua2,LI Chang-hong1
(1. School of Economics and Management, Shanxi University, Taiyuan 030006, China;2.Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education,Shanxi University, Taiyuan 030006, China)
In the field of multiple attributes decision making, sorting decision has become an important kind of issue and been widely concerned in many practical application areas. In the process of making sorting decision,the rational and effective feature selection methods can extract informative and pertinent attributes, and thus improve the efficiency of decision making. From the extant literatures, many valuable researches have been provided for more reasonably solving this problem in the context of diverse data types, such as single value, null value and set value. However, very few studies focus on the sorting decision in term of interval-valued data. The objective of this paper is to provide a new feature selection approach for interval sorting decision by using the interval outranking relation. By integrating rough set model and information entropy theory, a new measurement called complementary condition entropy, which investigates the complementary nature of the relevant sets, is proposed for feature evaluation through analyzing the inherent implication of correlation between considered attributes in the problem of interval sorting decision. Furthermore,on the basis of the difference of the values of complementary condition entropy,the representation of the indispensable attributes and the measurement of attributes importance are presented, and then develop a heuristic feature selection algorithm is proposed for interval sorting decision. Finally, two illustrative applications, namely,the issues of venture investment and portfolio selection, are employed to demonstrate the validity of the proposed method.For the problem of multi-stage venture investment decision, through investigating the competitiveness, development capacity and financial capability of 16 investment projects, the corresponding probabilistic decision rules having better generalization capability, which can be used to determine whether to perform further investment. As to the issue of portfolio selection, 91 stocks coming from Chinese stock market and 9 operating performance indicators of these firms are employed. By using the presented approach in this study, a portfolio which has better investment return can be construeted. Accordingly, the corresponding strategy for building portfolio is useful to quantitative investment decision. In brief, as the important preprocessing tool in the process of decision analysis, the feature selection method built in this paper is of extensive meaning for discovering the key indicators and improving decision performance in the field of sorting decision.
interval-valued data; sorting decision; feature selection; complementary condition entropy
2016-01-014;
2016-02-12
國家自然科學基金青年項目(71301090);國家自然科學基金重點項目(71031006, 61432011);國家優(yōu)秀青年科學基金項目(61322211);教育部人文社會科學研究青年基金項目(12YJC630174);山西省高等學校創(chuàng)新人才支持計劃(2013052006)
宋鵬(1979-),男(漢族),山西晉城人,山西大學經濟與管理學院副教授,管理學博士,研究方向:決策理論與方法、數(shù)據挖掘,E-mail:songpeng@sxu.edu.cn.
1003-207(2017)07-0141-12
10.16381/j.cnki.issn1003-207x.2017.07.016
C934
A