• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基因解讀系統(tǒng)中遺傳檢測報(bào)告自動生成技術(shù)

    2021-02-25 07:48:18張少偉蔣艷凰
    關(guān)鍵詞:表型排序報(bào)告

    張少偉 蔣艷凰

    1(中國科學(xué)技術(shù)大學(xué)軟件工程學(xué)院 安徽 合肥 230026)2(人和未來生物科技(長沙)有限公司 湖南 長沙 410000)

    0 引 言

    遺傳病是指染色體畸變和基因突變引起的一大類疾病。截至2010年8月10日,已登記的孟德爾遺傳性狀或者疾病達(dá)20 135種,其中已知的單基因遺傳病及線粒體基因病為6 500余種[1]。由于我國人口基數(shù)龐大,遺傳病對我國的影響尤為明顯,我國有1 000余萬單基因遺傳病患者,新生兒中有超過800萬染色體遺傳病患者,多基因遺傳病和體細(xì)胞遺傳病的發(fā)病人數(shù)更是難以估量[2]。對基因進(jìn)行精準(zhǔn)檢測與解讀,準(zhǔn)確定位致病原因,預(yù)防遺傳疾病,成為一項(xiàng)關(guān)系到全人類的關(guān)鍵技術(shù),也是近年來臨床醫(yī)學(xué)研究的熱點(diǎn)。

    外顯子測序是指用序列捕獲技術(shù)將全基因組外顯子區(qū)域DNA捕捉并富集后進(jìn)行高通量測序的基因組分析方法[3]。在人類基因中大約有180 000外顯子,一個正常樣本的基因檢測結(jié)果可能包含了數(shù)萬條突變基因,由人工進(jìn)行逐條解讀是不實(shí)際也是不合理的。在這一背景下,國內(nèi)外推出了眾多優(yōu)秀的基因解讀系統(tǒng),如“人和未來”的GTX.Digest系統(tǒng)、以色列的Congenica等。這些系統(tǒng)能夠?qū)蜻M(jìn)行注釋并按致病性排序,醫(yī)療人員僅需要關(guān)注排名前幾十個基因,極大地減少了醫(yī)療工作者的工作量。醫(yī)療工作者依據(jù)解讀系統(tǒng)的分析結(jié)果,查找一定量的文獻(xiàn)來佐證基因與疾病之間的影響,并最終生成一份解讀報(bào)告。

    中國遺傳學(xué)會遺傳咨詢分會組織發(fā)布的《高通量全外顯子組測序檢測報(bào)告示例》中顯示,檢測報(bào)告應(yīng)包含樣本信息、臨床癥狀、檢測項(xiàng)目、檢測結(jié)論、基因變異信息、疾病名稱、結(jié)果解釋、建議,以及參考文獻(xiàn)[4]。這樣一份報(bào)告往往需要花費(fèi)醫(yī)療工作者數(shù)小時的工作時間,一些復(fù)雜的報(bào)告甚至需要花費(fèi)數(shù)十小時。因此,自動出具報(bào)告并將已有信息自動填入報(bào)告能夠極大減輕醫(yī)療工作者的負(fù)擔(dān)。

    GTX.Digest是“人和未來”推出的一款云端基因解讀系統(tǒng)。GTX.Digest以基因突變?yōu)閱挝?,以探究突變的致病性為目?biāo),對用戶的VCF數(shù)據(jù)文件進(jìn)行注釋解讀。解讀結(jié)果不僅包含基因數(shù)據(jù)的注釋結(jié)果,還包含ClinVar、OMIM、Orphanet等權(quán)威數(shù)據(jù)庫的致病性建議。同時,GTX.Digest開發(fā)組還對PubMed所有文獻(xiàn)進(jìn)行了文本挖掘,探究文獻(xiàn)描述的基因突變與疾病之間的關(guān)系,并開創(chuàng)性地將文本挖掘結(jié)果應(yīng)用在了基因解讀中,用戶可直接看到文獻(xiàn)中描述基因突變與疾病關(guān)系的句子,極大地提高了醫(yī)生確定致病基因的效率和準(zhǔn)確性。GTX.Digest能夠很好地輔助醫(yī)生進(jìn)行遺傳病分析,但無法自動生成遺傳檢測報(bào)告,而遺傳檢測報(bào)告作為基因解讀的最終輸出,是一個成熟的基因解讀系統(tǒng)中不可或缺的一環(huán)[5]。

    針對自動出具報(bào)告的現(xiàn)實(shí)需求,基于GTX.Digest基因解讀系統(tǒng)的分析結(jié)果、醫(yī)生對致病性的判定結(jié)果、生物醫(yī)學(xué)領(lǐng)域的權(quán)威數(shù)據(jù)庫等,在Linux操作系統(tǒng)上,實(shí)現(xiàn)了全外顯子檢測報(bào)告的自動生成。用戶在解讀系統(tǒng)中確定了致病基因后,填寫患者基本信息,選擇與治病基因相關(guān)聯(lián)的疾病、轉(zhuǎn)錄本等信息,系統(tǒng)將自動分析基因變異產(chǎn)生的氨基酸變化,自動生成從基因便宜角度對疾病解釋,以及與之相關(guān)的參考文獻(xiàn)。系統(tǒng)提供報(bào)告預(yù)覽和自動下載功能,下載的報(bào)告為Word格式,用戶可對其進(jìn)行進(jìn)一步編輯。

    1 報(bào)告自動生成系統(tǒng)架構(gòu)

    圖1給出了報(bào)告自動生成系統(tǒng)結(jié)構(gòu),主要包括三個部分:基因數(shù)據(jù)庫、報(bào)告內(nèi)容獲取、報(bào)告生成與應(yīng)用?;A(chǔ)數(shù)據(jù)庫包括生成報(bào)告所需的基礎(chǔ)數(shù)據(jù)來源,這些數(shù)據(jù)包括:GTX.Digest系統(tǒng)解讀結(jié)果、氨基酸描述數(shù)據(jù)、表型-疾病關(guān)系數(shù)據(jù)、文獻(xiàn)數(shù)據(jù)等。數(shù)據(jù)的真實(shí)性與權(quán)威性決定了報(bào)告的質(zhì)量,因此必須以準(zhǔn)確、權(quán)威的數(shù)據(jù)庫為基礎(chǔ),構(gòu)建報(bào)告生成系統(tǒng)。報(bào)告內(nèi)容的獲取包括兩部分:一是需要醫(yī)護(hù)人員參與的內(nèi)容獲取,包括填寫用戶的基因信息、從解讀結(jié)果中選擇致病基因相關(guān)的疾病和轉(zhuǎn)錄本等;二是系統(tǒng)根據(jù)基礎(chǔ)數(shù)據(jù)庫自動生成相關(guān)報(bào)告內(nèi)容。報(bào)告生成和應(yīng)用則根據(jù)獲取的情報(bào)內(nèi)容,自動生成Word報(bào)告。

    圖1 報(bào)告自動生成系統(tǒng)結(jié)構(gòu)

    1.1 基礎(chǔ)數(shù)據(jù)庫

    基礎(chǔ)數(shù)據(jù)庫是報(bào)告自動生成的關(guān)鍵,決定了報(bào)告的整體質(zhì)量,因此數(shù)據(jù)來源必須與行業(yè)規(guī)范相符合,數(shù)據(jù)的權(quán)威性也需得到行業(yè)的認(rèn)可。

    1.1.1解讀結(jié)果數(shù)據(jù)

    解讀結(jié)果是指對原始的基因數(shù)據(jù)的解讀結(jié)果,將生澀難懂的基因編碼轉(zhuǎn)換成普適的學(xué)科術(shù)語,并以基因突變?yōu)閱挝?,依?jù)權(quán)威數(shù)據(jù)庫,對其致病性進(jìn)行標(biāo)注[6]。

    該系統(tǒng)的解讀結(jié)果數(shù)據(jù)來源于基因解讀平臺GTX.Digest。GTX.Digest不僅對基因和變異進(jìn)行了致病性排序,而且展示了對PubMed文獻(xiàn)的挖掘結(jié)果,使得解讀結(jié)果更科學(xué)、精準(zhǔn)。

    解讀結(jié)果數(shù)據(jù)包括:基因名、轉(zhuǎn)錄本編號、突變信息、遺傳模式、致病性、OMIM疾病等。

    1.1.2氨基酸描述數(shù)據(jù)

    解讀結(jié)果數(shù)據(jù)中關(guān)于氨基酸的變化使用的是國際通用的氨基酸簡寫形式,而在報(bào)告中是以中文形式呈現(xiàn)。氨基酸描述數(shù)據(jù)記錄了氨基酸的英文簡稱與中文全稱,用來實(shí)現(xiàn)英文簡稱與中文全稱的轉(zhuǎn)換,如表1所示。

    表1 氨基酸描述數(shù)據(jù)

    1.1.3表型-疾病對應(yīng)數(shù)據(jù)

    表型指一定基因型的個體,在特定環(huán)境中所呈現(xiàn)出來的性狀,例如:感冒、發(fā)燒、紅發(fā)[6]。所有的遺傳病都有其特定的表型特征,正是因?yàn)楸硇团c疾病的這種相關(guān)性,解讀軟件要求輸入表型數(shù)據(jù)來作為排序依據(jù)。

    通常來說,基因突變可能導(dǎo)致的疾病不唯一,每種疾病的表型特征也不盡相同[7]。要精確判定樣本患有何種疾病,必須計(jì)算樣本表型與疾病的相關(guān)性,這就需要表型-疾病關(guān)系數(shù)據(jù),即某一種疾病會有哪些表型。

    人類孟德爾遺傳線上庫(Online Mendelian Inheritance in Man,OMIM)[8]提供了疾病與人類表型術(shù)語集(Human Phenotype Ontology,HPO)的對應(yīng)表,如表2所示。

    表2 OMIM疾病-HPO對應(yīng)關(guān)系

    OMIM提供的表格以O(shè)MIM疾病為基本單位,每一個疾病-表型關(guān)系為一條,共96 919條數(shù)據(jù)。在本文系統(tǒng)中,疾病-表型關(guān)系用于判定用戶輸入的表型與何種疾病相關(guān)性更大,這種相關(guān)性用“用戶輸入表型”與“疾病對應(yīng)表型”相同的數(shù)量來衡量。依據(jù)這種應(yīng)用場景,對表格進(jìn)行了聚合,得到7 015條MySQL記錄,結(jié)構(gòu)如表3所示。

    表3 聚合后的OMIM疾病-表型對應(yīng)

    為方便對HPO進(jìn)行比對,以列表風(fēng)格對HPO進(jìn)行存儲,同時為了加快查詢速度,本文還對OMIM編號添加了索引。

    1.1.4文獻(xiàn)數(shù)據(jù)

    遺傳檢測報(bào)告用于指導(dǎo)醫(yī)生進(jìn)行臨床診斷,因此報(bào)告的內(nèi)容,特別是致病性判定一定要有所依據(jù),需要一定量的參考文獻(xiàn)支持。

    本系統(tǒng)中的參考文獻(xiàn)來源于權(quán)威數(shù)據(jù)庫OMIM、ClinVar、PubMed文獻(xiàn)挖掘結(jié)果庫dmVar,并在其基礎(chǔ)上進(jìn)行了優(yōu)化排序。

    1.2 報(bào)告內(nèi)容獲取

    報(bào)告內(nèi)容獲取即生成報(bào)告內(nèi)容,主要分為用戶基本信息填寫、致病基因分析結(jié)果獲取、致病性描述、文獻(xiàn)獲取四個部分。

    (1) 用戶基本信息填寫依據(jù)《高通量全外顯子組測序檢測報(bào)告示例》。報(bào)告中的基本信息應(yīng)包括受檢者信息、樣本信息、送檢者信息,由用戶填寫。此外,用戶還可對系統(tǒng)推薦的轉(zhuǎn)錄本和疾病進(jìn)行更改。

    (2) 致病基因分析結(jié)果包括基因名、轉(zhuǎn)錄本、遺傳方式等信息。從GTX.Digest解讀結(jié)果中獲取數(shù)據(jù),并按照相應(yīng)的表格形式進(jìn)行組織。

    (3) 致病性描述中除了解讀結(jié)果外,還包括基因所導(dǎo)致的疾病、疾病遺傳方式、父母的患病分析。

    (4) 文獻(xiàn)獲取指從文獻(xiàn)數(shù)據(jù)庫中獲取疾病所對應(yīng)的參考文獻(xiàn),并按照參考文獻(xiàn)格式進(jìn)行組織。

    1.3 報(bào)告生成與應(yīng)用

    全外顯子檢測報(bào)告包含表格類復(fù)雜結(jié)構(gòu),目前沒有很好的Linux庫可實(shí)現(xiàn)對Word的直接編輯。為了兼顧Web頁面預(yù)覽的需求,本文決定使用HTML作為直接生成格式,而后再對其進(jìn)行格式轉(zhuǎn)換。

    在報(bào)告生成過程中存在多次頁面交互:基本信息填寫與疾病轉(zhuǎn)錄本選擇、疾病-基因相關(guān)性檢查、報(bào)告預(yù)覽。

    在基本信息填寫與疾病轉(zhuǎn)錄本選擇交互界面中,用戶可填寫基本信息,還可以更改系統(tǒng)推薦的疾病與轉(zhuǎn)錄本。用戶填寫的基本信息將進(jìn)行存儲,用于自動填充信息表格。

    當(dāng)用戶選擇的疾病與基因的遺傳方式不同時,相關(guān)數(shù)據(jù)將呈現(xiàn)在疾病-基因相關(guān)性檢查界面上,供用戶查看和確認(rèn)。

    HTML報(bào)告生成后,可進(jìn)行報(bào)告預(yù)覽。

    2 HTML模板生成與文獻(xiàn)排序

    遺傳報(bào)告自動生成的難點(diǎn)主要有兩點(diǎn):Linux系統(tǒng)下Word文件的生成和文獻(xiàn)數(shù)據(jù)排序。在本技術(shù)中,Word報(bào)告的生成路線為:HTML模板—數(shù)據(jù)填充—格式轉(zhuǎn)換,HTML模板定義了報(bào)告的內(nèi)容和風(fēng)格,是報(bào)告生成的關(guān)鍵。文獻(xiàn)數(shù)據(jù)是報(bào)告結(jié)論可信度的重要依據(jù),由于報(bào)告的篇幅有限,如何對文獻(xiàn)進(jìn)行排序,并從中選出可信度大的文獻(xiàn),是提高報(bào)告質(zhì)量的關(guān)鍵。

    2.1 HTML模板的生成

    模板指的是報(bào)告的初始HTML模板,其定義了報(bào)告的基本結(jié)構(gòu)。模板由Word類軟件編輯并導(dǎo)出,而后根據(jù)所填寫的內(nèi)容,對模板內(nèi)容進(jìn)行調(diào)整。模板內(nèi)容主要分為4類:固定表格、自由表格、固定段落、自由段落,每一類都有各自的處理方法。

    (1) 固定表格。固定表格的特征是表格結(jié)構(gòu)不會隨報(bào)告內(nèi)容改變而改變,如表4所示。因此,表格的格式可以固定在模板中,只需要將填入的信息進(jìn)行替換即可。

    表4 固定表格

    (2) 自由表格。自由表格指的是表格的結(jié)構(gòu)會隨報(bào)告的內(nèi)容而改變。例如表5所示的臨床表型相關(guān)變異表格。

    表5 自由表格-臨床表型相關(guān)變異

    表格的大小會隨著用戶標(biāo)記的基因數(shù)量而增加,因此表格的結(jié)構(gòu)不能夠固定在模板中,而是應(yīng)該隨著數(shù)據(jù)的增加,將結(jié)構(gòu)連同數(shù)據(jù)一同寫入。因此,在HTML模板中,臨床表型相關(guān)變異表格僅寫入表頭格式。基因數(shù)據(jù)按照表頭格式,逐行進(jìn)行插入。

    (3) 固定段落。固定段落的內(nèi)容一般是通用的解釋性語句,語句內(nèi)容固定,格式固定,可直接定義在模板中。

    (4) 自由段落。自由段落指段落的內(nèi)容不固定,其中又分為字符不固定段落與格式不固定段落。字符不固定段落指的是段落的基本格式已經(jīng)確定,僅有段落中的某些字符串需要隨著用戶的輸入而進(jìn)行更改,這類段落可以直接編寫在HTML模板中,將需要替換的關(guān)鍵字進(jìn)行標(biāo)識,使用時進(jìn)行字符替換。

    格式不固定段落指的是段落格式或數(shù)量不固定,這類段落無法將格式固定在HTML模板中,故HTML模板僅寫入需要替換的字符串,段落格式由內(nèi)容生成模塊定義。

    2.2 文獻(xiàn)排序

    基因檢測報(bào)告需要提供PubMed文獻(xiàn)的引用作為文獻(xiàn),如何獲取與基因檢測報(bào)告內(nèi)容相關(guān)的文獻(xiàn)成為關(guān)鍵。本文利用了三個數(shù)據(jù)來源:OMIM數(shù)據(jù)庫、ClinVar數(shù)據(jù)庫和文本挖掘數(shù)據(jù)庫dmVar。

    OMIM數(shù)據(jù)庫是人類孟德爾遺傳的網(wǎng)絡(luò)版,主要著眼于可遺傳的或遺傳性的基因疾病,其中包括文本信息和相關(guān)參考信息、序列記錄、圖譜和相關(guān)其他數(shù)據(jù)庫[8]。

    ClinVar是一個公開的數(shù)據(jù)庫,收集了與疾病相關(guān)的數(shù)據(jù)庫。由美國國立衛(wèi)生研究院于2013年為了生物技術(shù)信息開發(fā)而構(gòu)建。ClinVar擁有來自1 000個提交者的600 000條提交記錄,代表430 000條變異數(shù)據(jù)[9]。

    PubMed是由美國國家生物技術(shù)中心(NCBI)主導(dǎo)的,美國國立衛(wèi)生研究院(NIH)與美國國家醫(yī)學(xué)圖書館(NLM)共同開發(fā)維護(hù)的免費(fèi)數(shù)據(jù)庫,其收錄了3 000萬篇生物醫(yī)學(xué)文獻(xiàn)[10]。PubMed文獻(xiàn)的挖掘工作一直是醫(yī)學(xué)工作者的研究熱點(diǎn),在進(jìn)行挖掘時,研究者主要采用3種方法將描述表型的詞匯映射為標(biāo)準(zhǔn)詞表[11],包括醫(yī)學(xué)主題詞(Medical Subject Headings, MeSH)[12]、統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(Unified Medical Language System, UMLS)[13]、人類表型本體論(Human Phenotype Ontology, HPO)[14]。GTX.Digest系統(tǒng)中的文本挖掘數(shù)據(jù)庫dmVar以MeSH號作為表型標(biāo)準(zhǔn)詞表,提取了PubMed文獻(xiàn)中基因、突變、疾病等命名實(shí)體,以及期刊編號、期刊影響因子等信息。

    基于上述三個數(shù)據(jù)庫,本文選擇文獻(xiàn)的優(yōu)先級判斷主要有相關(guān)性和可信度兩個維度。相關(guān)性指文獻(xiàn)是否在描述所選基因和疾病,是一個強(qiáng)條件;可信度是一個較為綜合的指標(biāo),以期刊的影響因子和發(fā)表時間進(jìn)行綜合評估。

    2.2.1文獻(xiàn)預(yù)處理

    ClinVar和OMIM雖然都是遺傳疾病的數(shù)據(jù)庫,但兩者的關(guān)注點(diǎn)不一樣。ClinVar以基因突變?yōu)榛締挝?,探討突變是否致病,尋找致病性證據(jù)。OMIM則是以疾病為基本單位,討論疾病由哪些基因突變引起,給出疾病的基本特征。在這一差異下,兩者文獻(xiàn)數(shù)據(jù)的組織方法有很大差別。OMIM提供的文獻(xiàn)列表明確了文獻(xiàn)討論的基因與疾?。籆linVar給出的文獻(xiàn)列表則關(guān)注突變及其是否會致病,沒有對疾病進(jìn)行分類。相關(guān)性(文獻(xiàn)是否描述同一個疾病)是進(jìn)行文獻(xiàn)排序的前提,因此需要對ClinVar文獻(xiàn)進(jìn)行分類。此外,兩者都沒有給出文獻(xiàn)所發(fā)期刊的影響因子。

    文獻(xiàn)預(yù)處理的主要工作有:(1) 實(shí)現(xiàn)ClinVar文獻(xiàn)按疾病分類;(2) 獲取文獻(xiàn)影響因子標(biāo)記。

    2.2.2ClinVar文獻(xiàn)分類

    dmVar文本挖掘數(shù)據(jù)庫中標(biāo)注了每一篇文獻(xiàn)所討論的基因、突變、疾病、期刊影響因子,其中疾病以PubMed疾病分類標(biāo)準(zhǔn)MeSH進(jìn)行標(biāo)注。

    基于文本挖掘結(jié)果,ClinVar文獻(xiàn)預(yù)處理算法流程如圖2所示。使用ClinVar文獻(xiàn)的PubMed號在文本挖掘結(jié)果中查找該文獻(xiàn)所討論疾病的MeSH號,根據(jù)查詢到的MeSH號,于MeSH-OMIM號對應(yīng)表中查找MeSH號所對應(yīng)的OMIM號,最后以此OMIM號來標(biāo)記ClinVar文獻(xiàn),實(shí)現(xiàn)ClinVar文獻(xiàn)的疾病分類。

    圖2 ClinVar文獻(xiàn)分類流程

    2.2.3期刊影響因子的獲取

    PubMed文本挖掘結(jié)果中包含了文獻(xiàn)所發(fā)期刊的影響因子,由于PubMed收錄文章的跨度大(1781年至今),一些期刊已經(jīng)??蚋瑢τ谶@類期刊,本文默認(rèn)其影響因子為0。

    期刊影響因子的獲取如圖3所示。使用文獻(xiàn)的PubMed號在文本挖掘結(jié)果中查詢對應(yīng)期刊的影響因子,并以影響因子標(biāo)記文獻(xiàn)。

    圖3 期刊影響因子獲取流程

    2.2.4排序算法

    文獻(xiàn)排序的評定標(biāo)準(zhǔn)主要有:相關(guān)性、影響因子、發(fā)表時間。

    1) 相關(guān)性判斷。實(shí)現(xiàn)ClinVar文獻(xiàn)的疾病分類后,依據(jù)疾病可獲得OMIM文獻(xiàn)列表和ClinVar文獻(xiàn)列表集合。集合內(nèi)的文獻(xiàn)與所述疾病絕對相關(guān),應(yīng)當(dāng)擁有更高的權(quán)重,否則其權(quán)重應(yīng)當(dāng)較小。

    2) 影響因子的權(quán)重設(shè)計(jì)。影響因子IF是以年為單位進(jìn)行計(jì)算的。以1992年的某一期刊影響因子為例:

    IF1992=A/B

    式中:A為該期刊1990年至1991年所有文獻(xiàn)在1992年中被引用的次數(shù);B為該期刊1990年至1991年所有文獻(xiàn)數(shù)。文獻(xiàn)刊物的影響因子來源于湯森路透發(fā)布的期刊引證報(bào)告(Journal Citation Reports,JCR)[15],其代表最近一年內(nèi)刊物的論文質(zhì)量。據(jù)此,文獻(xiàn)發(fā)表時間越早,當(dāng)前影響因子的有效性應(yīng)當(dāng)越低;另一方面,隨著檢測設(shè)備和現(xiàn)代醫(yī)學(xué)的發(fā)展,發(fā)表時間晚的文獻(xiàn)應(yīng)當(dāng)具有更高的可信度,其影響因子也應(yīng)該有更高的權(quán)重。

    本文統(tǒng)計(jì)了2002年至2012年遺傳學(xué)排名前9的期刊的影響因子變化率,如表6所示??梢钥闯觯琶?的期刊影響因子的10年平均變化率高達(dá)35%,證明了影響因子權(quán)重設(shè)計(jì)的正確性。文獻(xiàn)發(fā)表時間越早,當(dāng)前影響因子的有效性就越低。

    表6 遺傳學(xué)期刊影響因子變化率

    基于上述思想,設(shè)計(jì)排序算法如下:

    pscore=α·r·EIF(IF+0.01)+(1-α)·(1-r)·EIF(IF+0.01)

    式中:r為相關(guān)性,表示文獻(xiàn)是否與疾病主題相關(guān),相關(guān)時r=1,否則r=0;α為相關(guān)性因子,取α=0.99;IF為當(dāng)前年份期刊的影響因子,(IF+0.01)是為了避免未找到影響因子的文獻(xiàn)被直接排除;EIF為影響因子的時效性量化。

    式中:Yc為所有文獻(xiàn)發(fā)表時間的中位數(shù),即對發(fā)表時間越早的文獻(xiàn),當(dāng)前年份影響因子的影響力越低。

    3 實(shí) 驗(yàn)

    文獻(xiàn)排序算法的目標(biāo)是找到符合普遍醫(yī)學(xué)研究者文獻(xiàn)選取傾向的文獻(xiàn)序列,通常來說依據(jù)有:(1) 主題一致;(2) 影響因子大;(3) 發(fā)表時間近。

    3.1 單維算法結(jié)果分析

    基于上述的基本依據(jù),考察相關(guān)性、影響因子、發(fā)表時間各自對算法結(jié)果的影響。本文假設(shè)文獻(xiàn)列表中文獻(xiàn)發(fā)布時間中位數(shù)為1970年,即:

    分別考察(r=0,IF=10)、(r=1,IF=10)、(r=1,IF=15)條件下,Pscore隨發(fā)表時間的變化規(guī)律,結(jié)果如圖4所示。

    圖4 不同條件下Pscore隨發(fā)表時間的變化曲線

    依據(jù)變化曲線結(jié)果,從相關(guān)性、影響因子、發(fā)表時間三個維度進(jìn)行分析,可得:

    1) 由P1、P2曲線對比可知,在本文算法的排序結(jié)果中,相同發(fā)表時間、相同影響因子、主題相關(guān)的文獻(xiàn)比不相關(guān)的文獻(xiàn)的排序結(jié)果要靠前。

    2) 由P2、P3曲線對比可知,在本文算法的排序結(jié)果中,主題相關(guān)的、發(fā)表時間相同的、較高影響因子的文獻(xiàn)的排序要優(yōu)于較低影響因子的文獻(xiàn)。

    3) 由P3曲線可知,在本文算法的排序結(jié)果中,主題相關(guān)的、影響因子相同的、發(fā)表時間較晚(較新)的文獻(xiàn)的排序要優(yōu)于較早發(fā)表的文獻(xiàn)。

    由上述的分析結(jié)果可知,本文排序算法符合醫(yī)學(xué)研究者普遍的文獻(xiàn)排序規(guī)則,排序結(jié)果符合用戶的預(yù)期。

    3.2 多維算法結(jié)果分析

    在真實(shí)的使用環(huán)境中,單維度影響是容易決斷的,難的是多維度分析。例如此時有兩篇文獻(xiàn)A、B,其中A發(fā)表于2002年,當(dāng)前影響因子為4,B發(fā)表于2007年,當(dāng)前影響因子為3.5,此時A、B的排序是難以確定的,抉擇時應(yīng)該考慮使用場景。此時,存在兩種不同的場景:候選文獻(xiàn)的發(fā)表時間普遍較早(場景一)和候選文獻(xiàn)的發(fā)表時間普遍較晚(場景二)。

    在場景一中,文獻(xiàn)的發(fā)表時間都較早,發(fā)表時間影響力降低,影響因子為主要判斷因素(沒有充分的可供選擇“新”文獻(xiàn)),此時A文獻(xiàn)的排序應(yīng)該高于B。在場景二中,文獻(xiàn)的發(fā)表時間都較晚,早發(fā)表的文獻(xiàn)的優(yōu)先級降低(有充分的可供選擇的“新”文獻(xiàn)),此時B文獻(xiàn)的排序應(yīng)該高于A。

    依據(jù)上述假設(shè),引入文獻(xiàn)列表發(fā)表時間中位數(shù)Yc,假定兩篇文獻(xiàn)分別為T1(Yc=2010,IF=10)、T2(Yc=1990,IF=15) ,其中Yc為發(fā)表時間、IF為影響因子??疾熘形粩?shù)對算法結(jié)果的影響,如圖5所示。

    圖5 中位數(shù)Yc-Pscore曲線

    可以看出,當(dāng)中位數(shù)較低時,T2排序結(jié)果優(yōu)于T1,即影響因子為主要影響因素;當(dāng)中位數(shù)較高時,T1的排序結(jié)果優(yōu)于T2,此時影響因子的影響力降低,發(fā)表時間影響力增加。該結(jié)果符合引入中位數(shù)的初衷。

    3.3 排序?qū)嶒?yàn)

    本實(shí)驗(yàn)選取了OMIM編號為216900疾病對應(yīng)的17篇文獻(xiàn),并使用本文算法對其進(jìn)行排序,結(jié)果如表7所示。

    表7 遺傳學(xué)期刊影響因子變化率

    續(xù)表7

    可以看出,本文算法并不是單一從影響因子或者發(fā)表時間進(jìn)行排序,而是對二者進(jìn)行了復(fù)合考慮,排序結(jié)果符合我們的預(yù)期。

    3.4 算法評價

    文獻(xiàn)排序算法的最終目標(biāo)是從特定的文獻(xiàn)列表中,選出可信度高的文獻(xiàn),這一過程應(yīng)該考慮文獻(xiàn)列表的特點(diǎn),而不是單一地使用某一項(xiàng)指標(biāo)衡量。本文算法不僅綜合了相關(guān)性、影響因子和發(fā)表時間的影響,還考慮了文獻(xiàn)列表整體發(fā)表時間的影響,能夠滿足實(shí)際應(yīng)用的需求。

    4 結(jié) 語

    本文從醫(yī)生出具遺傳檢測報(bào)告過于繁瑣的現(xiàn)實(shí)需求出發(fā),實(shí)現(xiàn)了遺傳檢測報(bào)告自動生成技術(shù)。該技術(shù)整合了OMIM、ClinVar、PubMed文獻(xiàn)挖掘數(shù)據(jù)dmVar,并在其基礎(chǔ)上設(shè)計(jì)了文獻(xiàn)排序算法。系統(tǒng)可針對用戶輸入的表型,推薦匹配度更高的遺傳疾病,提高了檢測報(bào)告的準(zhǔn)確性,減輕了醫(yī)生的工作量。遺傳檢測報(bào)告自動生成技術(shù)已經(jīng)應(yīng)用在GTX.Digest中。下一步工作為:(1) 拓展數(shù)據(jù)庫,加入其他權(quán)威數(shù)據(jù)庫如Orphanet等。(2) 拓展系統(tǒng)可出具報(bào)告的類型,如腫瘤檢測報(bào)告等。(3) 在報(bào)告中加入疾病描述的內(nèi)容。

    猜你喜歡
    表型排序報(bào)告
    排序不等式
    恐怖排序
    節(jié)日排序
    刻舟求劍
    兒童繪本(2018年5期)2018-04-12 16:45:32
    建蘭、寒蘭花表型分析
    一圖看懂十九大報(bào)告
    報(bào)告
    GABABR2基因遺傳變異與肥胖及代謝相關(guān)表型的關(guān)系
    報(bào)告
    慢性乙型肝炎患者HBV基因表型與血清學(xué)測定的臨床意義
    都匀市| 阳曲县| 岑巩县| 华阴市| 密山市| 什邡市| 和硕县| 碌曲县| 陇川县| 日土县| 五华县| 荣昌县| 北海市| 抚松县| 青冈县| 神池县| 宁国市| 浪卡子县| 阳曲县| 汉沽区| 刚察县| 集贤县| 杭锦旗| 安溪县| 商丘市| 镇康县| 邹平县| 葫芦岛市| 丹巴县| 阿坝| 化德县| 庄浪县| 彭阳县| 府谷县| 阿尔山市| 娱乐| 若羌县| 兴隆县| 海安县| 临猗县| 余干县|