• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      健康社區(qū)中回答可靠性的評(píng)估方法研究

      2019-04-28 06:24:12張朋柱
      上海管理科學(xué) 2019年2期
      關(guān)鍵詞:食材可靠性醫(yī)生

      苗 富 張朋柱

      (上海交通大學(xué) 安泰經(jīng)濟(jì)與管理學(xué)院,上海 200030)

      如何提供更好的知識(shí)獲取服務(wù)一直是信息時(shí)代致力解決的問(wèn)題。信息方式的獲取經(jīng)歷了以雅虎門戶網(wǎng)站為代表的被動(dòng)式信息服務(wù),再到搜索引擎,最后到用戶產(chǎn)生內(nèi)容模式的問(wèn)答社區(qū)。在線問(wèn)答社區(qū)也經(jīng)歷了初期以簡(jiǎn)單的用戶激勵(lì)機(jī)制為運(yùn)作模式發(fā)展到以社區(qū)建設(shè)、用戶關(guān)系、內(nèi)容運(yùn)營(yíng)為基礎(chǔ)模式。前者典型的就是Yahoo!Answers、百度知道,后者如知乎。在醫(yī)療資源緊張、互聯(lián)網(wǎng)醫(yī)療發(fā)展迅猛的背景下,醫(yī)學(xué)垂直領(lǐng)域問(wèn)答社區(qū)如尋醫(yī)問(wèn)藥網(wǎng)、好大夫在線等應(yīng)運(yùn)而生。這些問(wèn)答社區(qū)在一定程度上解決了醫(yī)療資源緊張、醫(yī)患信息不對(duì)稱的問(wèn)題,幫助回答人們?nèi)粘I钪杏龅降牧闼榛慕】滇t(yī)療問(wèn)題。但是,目前互聯(lián)網(wǎng)醫(yī)療模式也遇到了一些問(wèn)題。由于醫(yī)療知識(shí)的特殊性和相關(guān)的利益糾葛,問(wèn)答社區(qū)中醫(yī)生的回答有時(shí)未必完全可信,有時(shí)對(duì)于同一個(gè)醫(yī)學(xué)問(wèn)題,不同的醫(yī)生可能也會(huì)給出完全相反的意見(jiàn),從而讓信息搜尋者感到無(wú)所適從。

      為此,我們考慮從醫(yī)生的回答以及其回答所處特定環(huán)境角度出發(fā),研究醫(yī)生回答的可靠性。一般對(duì)問(wèn)答社區(qū)回答質(zhì)量控制的研究,致力于研究什么樣的問(wèn)題是被用戶認(rèn)可的高質(zhì)量問(wèn)答,以此來(lái)提供社區(qū)改進(jìn)的意見(jiàn)建議,從而增加社區(qū)的用戶黏性。不同的是,醫(yī)生的可靠性建模會(huì)研究評(píng)價(jià)醫(yī)生的回答是否符合客觀事實(shí)。為此,我們基于尋醫(yī)問(wèn)藥網(wǎng)中關(guān)于疾病與中藥的問(wèn)答語(yǔ)料庫(kù),并以權(quán)威中藥處方庫(kù)為可靠性標(biāo)準(zhǔn),測(cè)度問(wèn)答相關(guān)的多方面特征,采取分類學(xué)習(xí)的框架,對(duì)回答的可靠性進(jìn)行評(píng)估研究。為不失一般性,本文以食材與疾病之間的營(yíng)養(yǎng)關(guān)系為主要目標(biāo),原因是中藥食材與疾病的營(yíng)養(yǎng)關(guān)系相對(duì)簡(jiǎn)單,易于理解區(qū)分,另外判斷其正確與否也相對(duì)容易。

      我們的研究可以幫助完善健康醫(yī)療社區(qū)的醫(yī)生管理評(píng)估機(jī)制,為信息搜尋者評(píng)估信息是否符合事實(shí)提供參考,還可以幫助用醫(yī)療健康領(lǐng)域知識(shí)圖譜技術(shù)解決知識(shí)層面的可信性問(wèn)題。

      1 相關(guān)研究

      目前,網(wǎng)絡(luò)社區(qū)問(wèn)答的質(zhì)量評(píng)估研究主要集中在評(píng)價(jià)因素研究和自動(dòng)化評(píng)價(jià)中。其中,自動(dòng)化評(píng)價(jià)主要是構(gòu)造相關(guān)的評(píng)價(jià)特征,再將其轉(zhuǎn)化為機(jī)器學(xué)習(xí)問(wèn)題。大規(guī)模的在線社區(qū)問(wèn)答主要依賴自動(dòng)化評(píng)價(jià),是目前主要的研究方向。

      國(guó)外的自動(dòng)化研究相對(duì)較早,這些研究主要是針對(duì)如Yahoo!Answers這樣的一般性社區(qū),其目標(biāo)是評(píng)估問(wèn)答被用戶采納的可能性。不同的是特征集和模型的不同,比如豐富的特征,包括結(jié)構(gòu)特征、文本特征、社區(qū)特征并使用了分類框架來(lái)綜合這些特征以區(qū)分問(wèn)答社區(qū)中信息質(zhì)量的高度。國(guó)內(nèi)的自動(dòng)化評(píng)價(jià)研究也主要針對(duì)百度知道這樣的社區(qū),比如[1]提出了針對(duì)百度問(wèn)答的質(zhì)量評(píng)價(jià)檢測(cè)算法,來(lái)自動(dòng)化區(qū)分問(wèn)答是否是一個(gè)高質(zhì)量問(wèn)答,在基于經(jīng)典的文本特征和鏈接特征之外,作者針對(duì)百度問(wèn)答的特點(diǎn),提出了時(shí)序特征、基于問(wèn)題粒度的特征和基于百度知道社區(qū)的用戶特征,同樣研究了百度問(wèn)答的質(zhì)量檢測(cè)。在特征選擇上,提出了內(nèi)容覆蓋次數(shù)、類別距離等文本特征,以及是否被采納、投票數(shù)、提問(wèn)者的評(píng)論、回答者的屬性等非文本特征。不同的是,其認(rèn)為百度問(wèn)答的最佳回復(fù)往往是不可靠的,并且許多問(wèn)答并沒(méi)有最佳回復(fù)的標(biāo)記。因此,直接把提問(wèn)者選擇的最佳答案作為高質(zhì)量問(wèn)答是不妥的,因此其對(duì)每一條答案進(jìn)行人工標(biāo)注,將回答按照質(zhì)量標(biāo)準(zhǔn)分為高質(zhì)量、低質(zhì)量、中質(zhì)量。

      但是,目前自動(dòng)化評(píng)價(jià)研究仍然存在一系列的問(wèn)題。其一,研究的目標(biāo)主要集中在問(wèn)答的用戶滿意情況上,并不是定位在回答者提供的知識(shí)是否符合客觀事實(shí);其二,目前的質(zhì)量評(píng)估缺少領(lǐng)域聚焦;其三,缺乏統(tǒng)計(jì)的比較體系,沒(méi)有對(duì)提出的因素進(jìn)行不同社區(qū)的對(duì)比研究。

      2 數(shù)據(jù)與語(yǔ)料

      2.1 問(wèn)答數(shù)據(jù)

      問(wèn)答數(shù)據(jù)主要由問(wèn)題字段、提問(wèn)者的基本特征,以及醫(yī)生回答的字段組成。問(wèn)題字段包括提問(wèn)內(nèi)容和提問(wèn)時(shí)間,提問(wèn)者的個(gè)人信息包括年齡,性別和姓名,回答者字段包括醫(yī)生的姓名、專長(zhǎng)、職位、主要鏈接、問(wèn)答時(shí)間與回答的文本內(nèi)容。同一個(gè)問(wèn)題可能會(huì)有多條的回答。醫(yī)生數(shù)據(jù)主要包括醫(yī)生的姓名、所在醫(yī)院、???,以及在社區(qū)中的活動(dòng)統(tǒng)計(jì)指標(biāo)。問(wèn)答數(shù)據(jù)的樣本如下:

      “{"link":"http://club.xywy.com/question/20160215/46525745.htm","question":{"gender":"女","age":"49","time":"2014-06-23 06:39:05","name":"會(huì)員38315670","text":"醫(yī)生你好我叫劉輝女今年49歲,我有冠心病有時(shí)前后心疼,近幾天又發(fā)血糖有點(diǎn)高空腹7.3,我想吃點(diǎn)阿膠補(bǔ)血顆粒,補(bǔ)氣血能行嗎?"},"keyword":"阿膠 冠心?。?,"answers":[{"text":"問(wèn)題分析。你好,冠心病是由于心臟血管動(dòng)脈硬化,導(dǎo)致血管狹窄引起的供血不足,這和貧血是兩回事,需要積極治療預(yù)防心肌梗塞。意見(jiàn)建議阿膠是治療貧血的,對(duì)冠心病沒(méi)有 作 用。","doc Link":"http://club.xywy.com/doc_card/20885174","name":"劉祥禮","time":"2014-06-23 07:27:39"}]}”

      2.2 中醫(yī)處方數(shù)據(jù)

      萬(wàn)方中醫(yī)知識(shí)庫(kù)中包含了大量的中醫(yī)醫(yī)院臨床診斷常見(jiàn)疾病的中藥處方。如關(guān)于治療“喉炎”的某條中藥處方“射干12g,桔梗9g,甘草9g,元參12g,木蝴蝶15g,桑葉12g,芥穗9g,白芥子9g,川貝母12g,炒杏仁12g,僵蠶9g,蒼耳子9g”。這些中醫(yī)處方數(shù)據(jù)都是經(jīng)過(guò)嚴(yán)格驗(yàn)證的中藥處方,并有相應(yīng)的論文來(lái)源和實(shí)際病例。因此,我們使用該數(shù)據(jù)作為判斷疾病與中藥營(yíng)養(yǎng)關(guān)系的標(biāo)準(zhǔn)。

      2.3 實(shí)驗(yàn)標(biāo)注數(shù)據(jù)

      一般來(lái)說(shuō),食材和疾病的營(yíng)養(yǎng)關(guān)系可以分為某食材對(duì)疾病的恢復(fù)有積極的作用、消極的作用、沒(méi)有影響。當(dāng)然,也有可能一個(gè)同時(shí)包含疾病和食材的句子并沒(méi)有明確指出兩者之間的營(yíng)養(yǎng)關(guān)系。具體的四種關(guān)系的定義如下:(1)食材對(duì)于疾病的恢復(fù)有積極作用;(2)食材對(duì)于疾病的恢復(fù)有消極作用;(3)食材對(duì)于疾病的恢復(fù)起到中性作用或者取決具體的情況(4)并未提及食材與疾病之間的關(guān)系。表1是標(biāo)注的語(yǔ)料庫(kù)樣本。

      表1 語(yǔ)料標(biāo)注數(shù)據(jù)樣本——桂圓與常見(jiàn)疾病的營(yíng)養(yǎng)關(guān)系

      在實(shí)際的標(biāo)注過(guò)程中,我們組織7位項(xiàng)目人員獨(dú)立地按照統(tǒng)一標(biāo)注協(xié)議進(jìn)行獨(dú)立標(biāo)注。為了嚴(yán)格控制標(biāo)注的質(zhì)量,我們進(jìn)行標(biāo)注的一致性檢查,即對(duì)于每一條問(wèn)答,采取2人獨(dú)立標(biāo)注,只有該問(wèn)答被不同的標(biāo)注人獨(dú)立標(biāo)注而不出現(xiàn)沖突的時(shí)候,才認(rèn)為是合格的標(biāo)注。其中,平均的人工標(biāo)注的一致率為67%,說(shuō)明語(yǔ)料理解存在相當(dāng)大的歧義。這主要是由于醫(yī)學(xué)社區(qū)問(wèn)答中語(yǔ)言表達(dá)的復(fù)雜性、模糊性和條件性導(dǎo)致的。表2展示的是在計(jì)算一致率的時(shí)候排除“未提及”類型時(shí)的情況,可以看到整體的一致性提高到84%,說(shuō)明了分歧比較大的地方主要集中在“未提及”類型的判斷上面。

      表2 去除“未提及”類型以后標(biāo)注人員的標(biāo)注情況

      3 評(píng)估模型

      回答的可靠性自動(dòng)化評(píng)估,和一般的問(wèn)答質(zhì)量自動(dòng)化評(píng)估有許多的相似之處。相同的是都是建立評(píng)估特征因素、構(gòu)建預(yù)測(cè)目標(biāo),再將其轉(zhuǎn)化為機(jī)器學(xué)習(xí)分類問(wèn)題。

      不同之處在于:(1)本文研究的是回答中包含的觀點(diǎn)的可靠性即是否和權(quán)威的知識(shí)認(rèn)知一致,而一般的研究主要研究什么樣的回答被用戶采納。因此,模型需要注重選擇合適的指標(biāo)y度量回答的可靠性;(2)本文研究的是健康醫(yī)療領(lǐng)域的社區(qū)問(wèn)答,而之前的研究大多集中在一般性問(wèn)答社區(qū)的不同子模塊,我們注意到健康醫(yī)療領(lǐng)域社區(qū)較一般回答社區(qū)具有明顯的異質(zhì)性;(3)由于研究目標(biāo)和健康醫(yī)療社區(qū)獨(dú)特的環(huán)境,需要發(fā)現(xiàn)具有領(lǐng)域適用性的可靠性評(píng)估因素。

      圖1 評(píng)估模型示意圖

      3.1 目標(biāo)變量構(gòu)建

      我們對(duì)比醫(yī)生對(duì)于疾病與中藥食材的判斷與中藥現(xiàn)有的處方觀點(diǎn)是否一致,如果一致那么就認(rèn)為該條問(wèn)答與權(quán)威認(rèn)知是一致的,反之亦然。

      定義LB=1表示醫(yī)生判斷食材對(duì)于疾病的影響判斷是積極的,否則LB=0。LN=1表示食材對(duì)于疾病的積極影響由權(quán)威的處方庫(kù)得到佐證,否則LN=0.我們考慮了三種類型的目標(biāo)變量:

      TF表示醫(yī)生判斷中藥對(duì)疾病的影響是積極的,但是卻未得到中醫(yī)處方的佐證,該指標(biāo)主要考查醫(yī)生的回答是否在我們已知的知識(shí)體系之中。

      FT表示醫(yī)生判斷中藥對(duì)疾病的影響是消極的,但是卻得到了中醫(yī)處方的佐證,該指標(biāo)主要考查醫(yī)生的判斷不能直接違反常規(guī)認(rèn)知。

      TFFT=TF*FT

      其中,TFFT是FT且TF,即要求該醫(yī)生不能犯“TF”的錯(cuò)誤,也不能犯“FT”的錯(cuò)誤。

      圖2 評(píng)估目標(biāo)變量構(gòu)建示意圖

      3.2 特征因素構(gòu)建

      回答可靠性的評(píng)估因素的選擇是評(píng)估框架中重要的一環(huán)。與一般的社區(qū)回答質(zhì)量評(píng)估研究不同,醫(yī)療社區(qū)的回答呈現(xiàn)出如下的特點(diǎn):其一,在線健康問(wèn)答社區(qū),提問(wèn)與回答是單向的,有患者和醫(yī)生兩種不同的角色。這種社區(qū)知識(shí)不對(duì)稱的角色模式與一般社區(qū)中用戶之間平等提問(wèn)回答有很大的不同。其二,由于知識(shí)的不對(duì)稱,提問(wèn)者(患者)對(duì)回答者(醫(yī)生)的回答很少質(zhì)疑,另外醫(yī)生之間也不會(huì)相互質(zhì)疑。其三,在可靠性評(píng)估研究中,需要側(cè)重知識(shí)的正確性,而非回答是否被提問(wèn)者采納。我們認(rèn)為問(wèn)答是否被提問(wèn)者采納和問(wèn)答知識(shí)的正確性有差異也有聯(lián)系。因此,針對(duì)健康問(wèn)答社區(qū)回答可靠性評(píng)價(jià)具有鮮明的特點(diǎn)。

      為此研究從問(wèn)答的文本(T),回答者的個(gè)人信息與社區(qū)互動(dòng)指標(biāo)(U),回答時(shí)間特征(Seq),實(shí)體特征(E),話題特征(TP)五個(gè)維度出發(fā)構(gòu)建評(píng)估體系。其中,T、U、Seq是傳統(tǒng)以用戶滿意度為目標(biāo)的質(zhì)量評(píng)估研究提出的特征,TP、E是新構(gòu)建的特征。

      3.2.1 傳統(tǒng)特征

      文本的特征(T)。醫(yī)生的回答文本是評(píng)價(jià)問(wèn)答質(zhì)量的一個(gè)重要方面。參考了[1],我們構(gòu)造了回答的文本長(zhǎng)度T1,回答文本長(zhǎng)度和問(wèn)題長(zhǎng)度比值T2,醫(yī)生回答文本熵T3三個(gè)指標(biāo)去度量文本特征。

      醫(yī)生特征與社區(qū)互動(dòng)特征(U)。社會(huì)化媒體的一個(gè)重要的特點(diǎn)在于用戶參與編輯發(fā)布內(nèi)容。在健康醫(yī)療問(wèn)答社區(qū)中,醫(yī)生的個(gè)人信息包括醫(yī)生所收到的感謝數(shù)占總回答比例為U1、醫(yī)生的回答被評(píng)為最佳回復(fù)的數(shù)量為U2、醫(yī)生的總回答量為U3。前兩個(gè)指標(biāo)都可以用來(lái)衡量醫(yī)生回答的用戶認(rèn)可度,U3反映的是醫(yī)生平臺(tái)的參與度。

      時(shí)間特征(Seq)。一般來(lái)說(shuō),問(wèn)答社區(qū)都會(huì)紀(jì)錄每一條回答的時(shí)間。評(píng)估了時(shí)間特征在回答質(zhì)量評(píng)估中的作用,其認(rèn)為后面的回答會(huì)參考前面回答的內(nèi)容,從而提供更加全面準(zhǔn)確的回答。因此,在健康社區(qū)醫(yī)生回答的準(zhǔn)確性方面,我們也利用了時(shí)間的特征,包括同一條問(wèn)題下面回答所處的時(shí)間順序Seq1、回答與提問(wèn)時(shí)間差Seq2。

      3.2.2 實(shí)體特征(E)

      由于本研究關(guān)注的是中藥與疾病的營(yíng)養(yǎng)學(xué)關(guān)系,因此每一條問(wèn)答中都會(huì)存在對(duì)應(yīng)的中藥材與疾病實(shí)體詞語(yǔ)。我們用中藥材、疾病詞語(yǔ)在百度搜索中的返回?cái)?shù)量來(lái)作為衡量該條知識(shí)的大眾化程度的代理變量E1。如果中藥材、疾病詞語(yǔ)在百度搜索中返回?cái)?shù)量比較少,那么說(shuō)明關(guān)于中藥材、疾病知識(shí)的討論相對(duì)比較冷門,因此對(duì)于它們的營(yíng)養(yǎng)學(xué)知識(shí)也相對(duì)比較難以認(rèn)知,因此存在較大的錯(cuò)誤判斷的可能。另外參考[6,15],我們采用醫(yī)生回答文本內(nèi)容與以百度搜索前10條搜索返回文本的Kullback-Leibler偏離E2來(lái)衡量醫(yī)生回答的相對(duì)準(zhǔn)確性,E2是一種文本信息距離的度量,

      其中,P、Q分別表示醫(yī)生回答文本和百度搜索前10條搜索返回文本的詞頻分布向量。

      3.2.3 話題特征(TP)

      一般的問(wèn)答社區(qū)都會(huì)采取一些文本分類的技術(shù)來(lái)組織相關(guān)的問(wèn)題,從而形成一簇相似的話題。在評(píng)估回答的質(zhì)量時(shí),將回答的信息納入同一話題之中,將會(huì)提供額外的有用的鑒別信息。與一般社區(qū)不同的是,健康社區(qū)中并沒(méi)有按照疾病和中藥為標(biāo)準(zhǔn)進(jìn)行分類組織,因此我們需要自動(dòng)化地將問(wèn)答組織成話題。

      由于問(wèn)答文本在采集時(shí)是按照中藥和疾病為關(guān)鍵詞采集的,因此我們以問(wèn)答中所涉及的中藥、疾病大類為分類標(biāo)準(zhǔn),將所討論內(nèi)容相關(guān)的問(wèn)答劃為同一類話題。

      其中,包括話題包含問(wèn)答數(shù)TP1,該回答的文本長(zhǎng)度在同一話題之下所有回答平均長(zhǎng)度的比值TP2,以及問(wèn)題回答文本長(zhǎng)度比與該話題之下平均值的比值TP3。

      其中,T1topic為同一類話題之下所有回答的T1統(tǒng)計(jì)量的平均值,TP2和TP3的計(jì)算方式類似。

      4 結(jié)果與分析

      本實(shí)驗(yàn)從尋醫(yī)問(wèn)藥網(wǎng)上以常見(jiàn)疾病和中藥為關(guān)鍵詞,采取搜索引擎通過(guò)爬蟲采集了3500個(gè)問(wèn)答對(duì)。然后,將其分為7組,所有的7名標(biāo)注人員獨(dú)立標(biāo)注兩次,在去除“未提及”和“中性”類型和觀點(diǎn)不一致的情況之下,最終樣本量?jī)H為1324條。

      表3 語(yǔ)料中涉及的疾病和中藥的數(shù)據(jù)比例(top6)

      4.1 描述統(tǒng)計(jì)分析

      表4給出了負(fù)樣本比例,可以看出犯FT錯(cuò)誤的比例為12%,犯TF類型的錯(cuò)誤約為29%。語(yǔ)料中出現(xiàn)的錯(cuò)誤類型大多為TF類型錯(cuò)誤。另外,從表4中可以看出,F(xiàn)T、TF與LB、IN變量的相關(guān)性都比較高,這是由于這兩個(gè)變量在定義上依賴LB與IN的邏輯關(guān)系。為了降低與LB、IN的相關(guān)性,我們定義了TFFT指標(biāo),這個(gè)指標(biāo)包括了TF錯(cuò)誤和FT錯(cuò)誤。TFFT得到的正負(fù)樣本比例基本上是平衡的,而且和LB、IN指標(biāo)的相關(guān)性也比較低。

      表4 目標(biāo)變量與決策變量基礎(chǔ)統(tǒng)計(jì)量

      表5 目標(biāo)變量相關(guān)性表

      4.2 特征對(duì)比與評(píng)估

      為了評(píng)估不同特征因素的重要性,使用邏輯回歸檢測(cè)因素的重要性。從表6中可以看出不同特征的重要性。

      可以發(fā)現(xiàn),傳統(tǒng)特征中醫(yī)生和社區(qū)互動(dòng)特征U出了U1,其他均不顯著。值得關(guān)注的是U1顯著、U2不顯著,原因可能是雖然這兩個(gè)指標(biāo)都可以反映用戶的認(rèn)可度,但是在健康社區(qū)中含義卻不同。病人感謝在操作方式上更加昂貴,而評(píng)為最佳回復(fù)則更多出于禮貌。同時(shí),文本特征中除了U3,其他在健康社區(qū)可靠性評(píng)估中也不顯著。時(shí)間特征均不顯著,說(shuō)明回答相對(duì)順序不會(huì)影響可靠性,這是和一般的質(zhì)量評(píng)估研究最大的不同。一般的社區(qū)中問(wèn)題專業(yè)性不強(qiáng),后面的回答會(huì)補(bǔ)充前面的回答,因而獲得用戶更高的認(rèn)可度,但是在健康社區(qū)的可靠性方面,上面的邏輯并不成立。

      對(duì)于實(shí)體特征E,在FT和TFFT方面都是顯著正向的,這說(shuō)明當(dāng)醫(yī)生判斷的知識(shí)相對(duì)常見(jiàn)時(shí),判斷的可靠性會(huì)顯著增加。針對(duì)于TF、E特征卻是反向的,主要是因?yàn)楫?dāng)知識(shí)相對(duì)常見(jiàn)時(shí),犯TF類錯(cuò)誤即醫(yī)生判斷為積極但卻未得到權(quán)威知識(shí)庫(kù)的佐證。我們認(rèn)為這可能與醫(yī)學(xué)知識(shí)周期長(zhǎng)導(dǎo)致權(quán)威知識(shí)庫(kù)的更新慢,而健康社區(qū)這類社交媒體相關(guān)的知識(shí)卻更新快,從而導(dǎo)致了TF錯(cuò)誤的增加,所以關(guān)系是反向的。

      對(duì)于話題特征TP,我們發(fā)現(xiàn)其在FT和TFFT方面是比較顯著的,關(guān)系方向也是正向的。這說(shuō)明當(dāng)問(wèn)答中的文本內(nèi)容相比同類話題豐富時(shí),其更加可靠。另外,可以看到文本特征T并不顯著,說(shuō)明了在比較文本特征時(shí),需要在話題內(nèi)進(jìn)行比較。

      表6 特征變量t值表

      為了考察傳統(tǒng)特征和領(lǐng)域特征對(duì)模型的影響,采取前向搜索的方式來(lái)不斷加入特征集。線性分類器模型預(yù)測(cè)TF、FT、TFFT、傳統(tǒng)特征{T+Seq+U}的AUC分別為0.55、0.52、0.55,這僅僅比隨機(jī)猜測(cè)0.5好一點(diǎn)。在加入E+TP特征以后,AUC分別提升到0.61、0.67、0.54,說(shuō)明了傳統(tǒng)的特征在健康社區(qū)的可靠性評(píng)估方面效果并不突出。這說(shuō)明了不同的研究領(lǐng)域特征的適用性也不同。另外,可以看到除了TFFT指標(biāo),新提出的特征的效果表現(xiàn)都是顯著的。

      圖3 新舊特征的效果對(duì)比

      4.3 模型效果

      參考[1-3]研究,我們使用邏輯回歸(LR)、支持向量機(jī)(SVM)和梯度提升樹(shù)(GBDT)強(qiáng)分類模型作為機(jī)器學(xué)習(xí)分類模型。其中,模型的超參數(shù)都是經(jīng)過(guò)交叉驗(yàn)證最優(yōu)化的結(jié)果,其中邏輯回歸中C=1;支持向量機(jī)的超參數(shù)設(shè)置如下gamma=1/n,其中n=13為特征因素?cái)?shù)量C=1,采取高斯核函數(shù);梯度提升樹(shù)中決策樹(shù)模型數(shù)為200,最大深度為5;采取ROC-AUC作為模型的評(píng)價(jià)標(biāo)準(zhǔn)。為了消除樣本類不平衡對(duì)模型的影響,我們采取重復(fù)采樣的方式使得不同類的樣本量達(dá)到1∶1。為了評(píng)估模型的穩(wěn)定性,我們利用[14]提出的方法,采取5層交叉驗(yàn)證來(lái)評(píng)估模型的穩(wěn)定性。表7內(nèi)的數(shù)據(jù)分別是交叉驗(yàn)證數(shù)據(jù)集上模型AUC的均值和方差。

      在分類器的選擇上,以線性分類器LR為比較基準(zhǔn),從表7可以看到非線性模型整體上要比基準(zhǔn)模型表現(xiàn)好。在非線性模型中,GBDT模型整體上要優(yōu)于SVM模型,這說(shuō)明在問(wèn)答可靠性評(píng)估系統(tǒng)中,特征的組合加權(quán)也是影響系統(tǒng)性能的因素之一。

      表7 LR、SVM和GBDT評(píng)估模型的AUC

      5 結(jié)束語(yǔ)

      5.1 結(jié)論

      目前的質(zhì)量評(píng)估研究缺少領(lǐng)域聚焦,以用戶滿意度為目標(biāo),并且缺乏特征在不同社區(qū)的適用性分析。我們結(jié)合醫(yī)生的判斷和權(quán)威知識(shí)庫(kù),建立FT、FT、TFFT指標(biāo)來(lái)評(píng)價(jià)醫(yī)生回答的質(zhì)量,并比較考查了一般社區(qū)問(wèn)答質(zhì)量的評(píng)估因素,發(fā)現(xiàn)這些特征并不完全適合健康領(lǐng)域的可靠性評(píng)估。為此,根據(jù)健康管理社區(qū)的特點(diǎn)提出了實(shí)體特征和話題特征,實(shí)證發(fā)現(xiàn)這些特征可以顯著提高模型的表現(xiàn),并且探討了這些特征表現(xiàn)具有差異性的原因。另外,在學(xué)習(xí)模型上,我們發(fā)現(xiàn)非線性模型中GBDT模型整體上要優(yōu)于SVM模型、邏輯回歸模型。

      5.2 不足與未來(lái)進(jìn)展

      相比于以用戶滿意度為目標(biāo)的質(zhì)量評(píng)估,健康領(lǐng)域的問(wèn)答質(zhì)量評(píng)估具有獨(dú)特的性質(zhì)和更高的難度。目前為止,系統(tǒng)的評(píng)估能力整體上還有待提高。另外,我們發(fā)現(xiàn)目前的因素特征在甄別TFFT類型錯(cuò)誤方面還明顯不足,需要發(fā)現(xiàn)更加有效的因素特征。

      猜你喜歡
      食材可靠性醫(yī)生
      巧用食材鋪“地錦”
      學(xué)與玩(2022年8期)2022-10-31 02:42:32
      最美醫(yī)生
      可靠性管理體系創(chuàng)建與實(shí)踐
      每天吃20種食材 可能嗎?
      媽媽寶寶(2019年10期)2019-10-26 02:45:36
      醫(yī)生
      望著路,不想走
      文學(xué)港(2018年1期)2018-01-25 12:48:30
      有ID的放心食材
      商周刊(2017年9期)2017-08-22 02:57:50
      電子制作(2017年2期)2017-05-17 03:55:06
      換醫(yī)生
      基于可靠性跟蹤的薄弱環(huán)節(jié)辨識(shí)方法在省級(jí)電網(wǎng)可靠性改善中的應(yīng)用研究
      通海县| 手机| 义马市| 延吉市| 临武县| 河东区| 长兴县| 三门峡市| 镇平县| 东平县| 惠来县| 大渡口区| 贺州市| 桂林市| 西林县| 垦利县| 涡阳县| 普兰店市| 芮城县| 浑源县| 高雄县| 松桃| 类乌齐县| 临湘市| 黑山县| 永嘉县| 镇沅| 壤塘县| 南城县| 宣化县| 万山特区| 枣阳市| 神池县| 岳西县| 布尔津县| 嘉黎县| 洪泽县| 镇雄县| 大名县| 滕州市| 武隆县|