• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于多層特征表征與級聯(lián)模型的醫(yī)療簡歷篩選

    2022-03-03 13:46:32張曉瑩陸慧娟
    關(guān)鍵詞:細(xì)粒度級聯(lián)注意力

    張曉瑩,陸慧娟

    1(中國計(jì)量大學(xué) 現(xiàn)代科技學(xué)院,杭州 310018) 2(中國計(jì)量大學(xué) 信息工程學(xué)院,杭州 310018)

    1 引 言

    互聯(lián)網(wǎng)招聘已經(jīng)成為了醫(yī)院引進(jìn)人才的主要方式,節(jié)省了傳統(tǒng)招聘所產(chǎn)生的人力物力成本.由于網(wǎng)絡(luò)招聘獲取信息與投遞簡歷的便捷性,使得投遞簡歷的數(shù)量大幅度增加,需要投入更多人力對簡歷進(jìn)行篩選,如何高效準(zhǔn)確地自動篩選大量的簡歷成為了亟待解決的問題.

    簡歷篩選可以大致分為推薦與分類兩類方法.推薦方法基于推薦系統(tǒng)的思想,通過計(jì)算簡歷信息與崗位要求信息間的匹配度,篩選出與崗位要求匹配度最高的簡歷.如ALMALIS等[1]提出基于內(nèi)容推薦的簡歷推薦方法,通過Minkowski距離計(jì)算匹配度.ZHANG等[2]則提出基于協(xié)同過濾的簡歷推薦方法,使用了推薦系統(tǒng)里面Item-Based與User-Based兩類方法.谷楠楠等[3]計(jì)算簡歷和職位信息之間的互惠得分值,按照互惠得分排序,推薦Top N簡歷給企業(yè).此類方法,能夠從大量的簡歷中推薦出與崗位要求相匹配的簡歷,特別適用于中華英才網(wǎng)與智聯(lián)招聘這類廣域的企業(yè)與簡歷匹配,企業(yè)和競聘者互推.而對于醫(yī)療招聘這類垂直領(lǐng)域,由于都是主動投遞簡歷,崗位與簡歷內(nèi)容匹配度都很高,而需要的是更精細(xì)的簡歷等級評估和篩選,基于推薦方法的簡歷篩選較難適用.

    另一種基于分類的簡歷篩選方法,利用歷史競聘者的簡歷作為訓(xùn)練數(shù)據(jù)(包括被錄用與未被錄用的簡歷),訓(xùn)練分類模型,判斷是否為可能被錄用的競聘者.如MWARO等[4]提出基于樸素貝葉斯分類模型的簡歷分類方法.文獻(xiàn)[5]提出了基于集成學(xué)習(xí)的簡歷分類方法,采用投票的方式集成了樸素貝葉斯、支持向量機(jī)、邏輯斯蒂克回歸等多種分類模型.文獻(xiàn)[6]提出了基于語義分析的簡歷分類方法.LUO等[7]提出了ResumeNet,采用了注意力網(wǎng)絡(luò)與全連接神經(jīng)網(wǎng)絡(luò)融合多類簡歷特征用于簡歷分類.秦嵩等[8]提出了基于離散篩選模型的簡歷分類方法.張波等[9]提出了主動式簡歷的概念及基于反向傳播神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模式及篩選方案,主動式簡歷招聘指的是企業(yè)為招攬某種人才而主動發(fā)放統(tǒng)一或定制簡歷的一種招聘行為,并且該方法能夠適于更精細(xì)的簡歷分類,如JIECHIEU等[10]基于卷積神經(jīng)網(wǎng)絡(luò)多標(biāo)簽簡歷分類用于競聘者技能預(yù)測,為簡歷標(biāo)記10類技能項(xiàng).SAYFULLINA等[11]研究了面向簡歷分類的卷積神經(jīng)網(wǎng)絡(luò)模型領(lǐng)域適應(yīng)問題,將簡歷分為了27個職位類型.

    所謂醫(yī)療簡歷,是指投遞到醫(yī)院尤其是投遞到臨床醫(yī)技類崗位的電子簡歷.隨著多年的積累,醫(yī)院積累了大量的醫(yī)療簡歷數(shù)據(jù),能夠作為分類模型的訓(xùn)練數(shù)據(jù).區(qū)別于互聯(lián)網(wǎng)與制造業(yè)專業(yè)技術(shù)崗位,及高校與科研院所科學(xué)研究崗位,醫(yī)療特別是臨床醫(yī)技類崗位,不但要求競聘者具有實(shí)際的臨床醫(yī)療專業(yè)技能,還要求具有臨床醫(yī)學(xué)科學(xué)研究能力,可以說是專業(yè)技術(shù)與科學(xué)研究兼任崗位,對競聘者專業(yè)背景、臨床經(jīng)驗(yàn)、科研能力等方面都有要求與考量.比如,臨床醫(yī)技類崗位簡歷比互聯(lián)網(wǎng)與制造業(yè)專業(yè)技術(shù)崗位多出了科研能力的部分.而比高校與科研院所科學(xué)研究崗位多出了實(shí)習(xí)與技術(shù)資質(zhì)資格等技術(shù)能力部分.醫(yī)療簡歷構(gòu)成更為復(fù)雜,表現(xiàn)為多類與多層次的特征信息,現(xiàn)有方法應(yīng)用于醫(yī)療簡歷篩選時(shí)對特征的不同層級分層關(guān)系及綜合表征方面考慮不足.再者,現(xiàn)有基于分類的簡歷篩選方法對簡歷是“通過與不通過”的二分類篩選.但在實(shí)際場景中,簡歷篩選貫穿著整個招聘流程,通常包括初審、筆試與面試.簡單的二分類僅能滿足簡歷初審的需求,而對于后續(xù)筆試與面試環(huán)節(jié)幫助甚微.

    面向上述問題,本文提出基于多級特征表征與級聯(lián)模型的醫(yī)療簡歷細(xì)粒度篩選.針對醫(yī)療簡歷多類特征層次化結(jié)構(gòu)的特點(diǎn),將簡歷特征分為教育與工作背景、科研能力、業(yè)務(wù)能力等特征組,提出多級特征表征模型,通過層級注意力網(wǎng)絡(luò)結(jié)構(gòu)和多層輸出向量合并的方法,實(shí)現(xiàn)底層、局部和全局特征的提取與表征.不同多層級的注意力網(wǎng)絡(luò)的輸出向量對簡歷特征的表征粒度和能力是不同的,將其合并使得表征向量可以攜帶更多特征信息,能夠兼顧底層特征細(xì)分要求與特征組綜合表征要求.針對離散(如專業(yè))、數(shù)值(如工作年限)、文本(如論文標(biāo)題)等底層特征可以采用不同的表征方法,同時(shí)能夠從不同特征層級綜合表征簡歷特征,使得組內(nèi)特征作為一個整體,并通過注意力機(jī)制增強(qiáng)有用特征作用于后續(xù)的分類模型.

    此外,本文將現(xiàn)有簡單的“通過與不通過”粗略篩選改進(jìn)為“一般”(不能通過初審)、“中等”(通過初審但不通過筆試)、“良好”(通過筆試但不通過面試)和“優(yōu)秀”(通過面試)的細(xì)粒度篩選,更加符合現(xiàn)今醫(yī)院臨床醫(yī)技類招聘初審、筆試、面試的多級篩選過程,也有利于后續(xù)對不同等級人才的考量,采用級聯(lián)分類模型建模該過程.實(shí)驗(yàn)表明,以支持向量機(jī)為分類方法的多級特征表征與級聯(lián)模型平均F1值達(dá)到82.46%,能夠提升優(yōu)秀類簡歷的分類效果,對可能被錄用的競聘者識別的更好,對于簡歷篩選的實(shí)際應(yīng)用幫助更大,在簡歷篩選問題上,有必要組合不同類型與粒度的特征提升簡歷篩選的效果.

    本文后續(xù)組織結(jié)構(gòu)如下:第2節(jié)介紹所提出的方法,首先介紹簡歷篩選模型的架構(gòu),之后介紹醫(yī)療簡歷特征與分組,最后詳細(xì)介紹了多級特征表征模型與級聯(lián)分類模型;第3節(jié)為實(shí)驗(yàn),以13552份簡歷為數(shù)據(jù),分別以隨機(jī)森林、全連接神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯和支持向量機(jī)為分類模型,通過比較實(shí)驗(yàn)驗(yàn)證了多級特征表征模型的效果;最后為結(jié)語,給出本文結(jié)論.

    2 方 法

    2.1 簡歷篩選模型架構(gòu)

    基于多級特征表征與級聯(lián)分類模型的簡歷篩選過程如圖1所示.在醫(yī)療簡歷特征分組的基礎(chǔ)上,多級特征表征模型利用三層注意力網(wǎng)絡(luò)分別表征底層特征、一級特征組、二級特征組,并將三層注意力網(wǎng)絡(luò)的輸出向量合并作為最終的簡歷特征表征向量.詳細(xì)的模型結(jié)構(gòu)將在第2.3節(jié)介紹.注意力網(wǎng)絡(luò)由BAHDANAU等[12]提出,用于機(jī)器翻譯,之后被用于情感分析[13]、文本蘊(yùn)含[13]、圖像分類[14]、語言建模[15]等.注意力網(wǎng)絡(luò)能夠動態(tài)地去關(guān)注輸入的特定部分特征從而更為有效地實(shí)現(xiàn)輸入特征表征及建立與輸出間的關(guān)聯(lián)關(guān)系.注意力也適用于多特征表征,如LIU等將其應(yīng)用于俄語社交媒體文本,融合俄語形態(tài)、俚語等詞級特征和特殊符號、英譯情感信息等多特征的表征.

    圖1 基于多層級特征表征與級聯(lián)分類模型的簡歷篩選過程Fig.1 Resume screening process based on multi-level feature representation and cascade classification model

    面向簡歷細(xì)粒度分類的級聯(lián)分類模型以多級特征表征向量為輸入,輸出簡歷的類別,由4個二分類模型構(gòu)成.詳細(xì)的模型結(jié)構(gòu)將在第2.4節(jié)介紹.對于簡歷細(xì)粒度篩選,本文采用級聯(lián)分類模型,而不是通過多分類模型,其原因包括兩個方面.簡歷篩選具有數(shù)據(jù)不平衡問題,影響分類模型的效果,如果直接使用多分類模型,那么將導(dǎo)致算法的預(yù)測結(jié)果更多的偏向樣本量多的類別.再者,對于級聯(lián)模型能夠針對不同級模型專門訓(xùn)練特征表征,得到適合于不同級模型的有效表征.這種基于注意力和級聯(lián)模型的方法被用于了肝腫瘤分割,能夠很好的增強(qiáng)有用特征,抑制無用特征,提升模型表現(xiàn).

    2.2 醫(yī)療簡歷特征與分組

    臨床醫(yī)技類崗位簡歷,除了包括個人基本信息、教育經(jīng)歷、工作經(jīng)歷外,還包含項(xiàng)目經(jīng)歷、獲獎情況、論文/著作情況、培訓(xùn)/實(shí)習(xí)經(jīng)驗(yàn)、學(xué)術(shù)兼職/社團(tuán)任職、聘任職稱證書、職業(yè)技能證書等情況如表1所示.

    表1 臨床醫(yī)技簡歷信息結(jié)構(gòu)Table 1 Information structure of medical recruitment resume

    臨床醫(yī)技簡歷信息構(gòu)成更為復(fù)雜,對分析、處理與特征表征造成了困難.簡歷本身是層次化的結(jié)構(gòu),需要具有針對性的層次化的特征提取與分析方法.現(xiàn)有方法都關(guān)注于不同層特征的區(qū)分處理以及在簡歷分類中的特征組合,如谷楠楠[3]等根據(jù)簡歷層次化結(jié)構(gòu),將整個簡歷文本分成6個通用類別文本塊,針對不同文本塊的特點(diǎn)分別采用了規(guī)則與隱馬爾科夫模型的方法提取簡歷信息.YU等[5]采用了級聯(lián)隱馬爾科夫模型與支持向量機(jī)混合模型針對簡歷不同層級文本對簡歷信息進(jìn)行提取.LUO等[7]提出了ResumeNet,采用了注意力網(wǎng)絡(luò)與全連接神經(jīng)網(wǎng)絡(luò)融合多類簡歷特征用于簡歷量化評估.但是,現(xiàn)有方法對于不同層級分層關(guān)系及綜合表征的考慮不足,如單篇論文、全部發(fā)表論文、科研能力這3個層級關(guān)系的表征.

    針對簡歷不同層級分層及綜合表征的問題,本文首先將簡歷特征分為了一級組、二級組與特征的三級結(jié)構(gòu).一級組包括基礎(chǔ)、教育、工作、科研4項(xiàng).二級組包括論文、獲獎、工作經(jīng)歷、實(shí)習(xí)經(jīng)歷、資質(zhì)等11項(xiàng).特征包括入職時(shí)間、離職時(shí)間、工作單位、部門/科室、崗位、論文標(biāo)題、期刊、影響因子、兼職時(shí)間、職務(wù)、機(jī)構(gòu)名稱等40項(xiàng).表2為以工作為例給出了特征分組示例.

    2.3 多層級特征表征模型

    在簡歷特征分組的基礎(chǔ)上,提出多級特征表征模型,模型結(jié)構(gòu)如圖2所示.模型以特征的初始表征向量x0,i為輸入,經(jīng)過3層注意力網(wǎng)絡(luò),輸出簡歷類別y.本文將3層注意力網(wǎng)絡(luò)的輸出向量拼接在一起作為簡歷特征的多級表征向量,用于后續(xù)的簡歷篩選.這種層級注意力網(wǎng)絡(luò)結(jié)構(gòu)和多層輸出向量合并方法能夠提取和兼顧底層、局部和全局特征的表征.LUO等[7]也使用了注意力網(wǎng)絡(luò)提取簡歷特征的組合表征,僅使用了注意力網(wǎng)絡(luò)最后層輸出向量.LAURIOLA等[16]研究了多核學(xué)習(xí)中全連接神經(jīng)網(wǎng)絡(luò)中間層向量的組合,表明組合多個中間層向量的有效性.

    圖2 多層級特征表征模型結(jié)構(gòu)圖Fig.2 Structure of multi-level feature representation model

    具體地,離散特征(如專業(yè))的初始表征采用One-hot向量表征.數(shù)值特征(如工作年限)的初始表征向量第一維值為該特征的特征值,其他維度值設(shè)置為0.文本特征(如論文標(biāo)題)采用預(yù)訓(xùn)練語言模型BERT[15]轉(zhuǎn)為向量作為初始表征.自底向上,第1層注意力網(wǎng)絡(luò)的每個單元數(shù)量對應(yīng)一個簡歷特征二級組,因此具有11個注意力單元.注意力單元i其輸入為第i二級組內(nèi)的特征初始表征向量xj,i,1,xj,i,2,…,xj,i,m,輸出為第二級組特征的表征向量x′j,i.第2層注意力網(wǎng)絡(luò)的每個注意力單元與每個簡歷特征的一級組對應(yīng),因此有4個注意力單元.對于注意力單元j輸入是第j一級組所有的二級組的第1層注意力單元的輸出向量x′j,1,x′j,2,…,x′j,k,輸出是第j一級組特征的表征向量x″j.第3層注意力網(wǎng)絡(luò)具有一個注意力單元,以第2層4個注意力單元的輸出向量為輸入,輸出為表征向量x?.之后經(jīng)過一個全連接單元輸出簡歷類別y.

    (1)

    (2)

    ej,i,k=Wxj,i,k

    (3)

    2.4 簡歷細(xì)粒度篩選與級聯(lián)分類模型

    本文將二分類簡歷篩選改進(jìn)為細(xì)粒度篩選,分為一般(不能通過初選)、中等(通過初審但不通過筆試)、良好(通過筆試但不通過面試)和優(yōu)秀(通過面試).細(xì)粒度篩選結(jié)果能夠更好的方便招聘者在各個環(huán)節(jié)上對簡歷的使用,也有利于沒招滿的情況下,再次從細(xì)分類中尋找合適競聘者.

    面向簡歷細(xì)粒度分類的級聯(lián)分類模型由3個二分類模型構(gòu)成.一級模型判斷是否為一般簡歷,即是否能通過初審.一級模型訓(xùn)練使用通過初審和不通過初審的簡歷作為訓(xùn)練數(shù)據(jù).二級模型判斷是否為中等簡歷,即是否能夠通過筆試,使用初審?fù)ㄟ^的簡歷中通過筆試與不通過筆試的簡歷作為訓(xùn)練數(shù)據(jù).三級模型判斷是良好還是優(yōu)秀簡歷,即是否能夠通過面試.其訓(xùn)練數(shù)據(jù)采用通過筆試中通過與不通過面試的簡歷構(gòu)成.每個二分類模型不限于具體方法,可以選擇支持向量機(jī)、隨機(jī)森林、邏輯斯蒂回歸等分類模型.

    級聯(lián)模型簡歷篩選過程如圖3所示.對于一篇簡歷首先通過一級二分類模型判斷是否為一般簡歷,若是則判定為一般等級簡歷,若不是則通過二級二分類模型判斷是否為中等簡歷,若是則判定為中等簡歷,若不是則通過最后的三級二分類模型判斷是良好還是優(yōu)秀簡歷.

    圖3 級聯(lián)模型簡歷篩選過程Fig.3 Resume screening process of cascade model

    3 實(shí) 驗(yàn)

    3.1 實(shí)驗(yàn)數(shù)據(jù)

    本文以某醫(yī)院2019年與2020年的臨床醫(yī)技類的招聘簡歷數(shù)據(jù)作為數(shù)據(jù)集,其中包括競聘者性別、年齡、職稱、教育經(jīng)歷、工作經(jīng)歷、項(xiàng)目/課題情況、獲獎情況、論文/著作情況、培訓(xùn)/實(shí)習(xí)經(jīng)驗(yàn)等信息.該醫(yī)院的應(yīng)聘流程與大多數(shù)單位的應(yīng)聘流程一致,分為初審、筆試、面試.此數(shù)據(jù)集共13552條數(shù)據(jù),其中一般等級簡歷3086條(未通過初審),中等等級簡歷7478條(通過初審但沒有通過筆試),良好等級簡歷2708條(通過筆試但沒有通過面試),優(yōu)秀等級簡歷280條(通過面試),各等級簡歷數(shù)量參見表3,括號內(nèi)為各等級簡歷所占百分比.通過表3,可以看到各等級的簡歷數(shù)量比例非常不平衡,尤其是優(yōu)秀等級的簡歷非常少,僅占總數(shù)的2.07%,而中等等級簡歷占到55.18%多于其他等級簡歷總和.

    表3 數(shù)據(jù)集各等級簡歷數(shù)量Table 3 Number of each level resumes in dataset

    3.2 實(shí)驗(yàn)設(shè)置

    為了模型訓(xùn)練及測試,首先從各級簡歷數(shù)據(jù)中隨機(jī)抽取20%作為測試數(shù)據(jù),其余80%作為模型的訓(xùn)練數(shù)據(jù).在訓(xùn)練數(shù)據(jù)上訓(xùn)練模型后,在測試數(shù)據(jù)上測試模型的簡歷分類效果.之后,按照2.4節(jié)所述的各級模型的訓(xùn)練數(shù)據(jù)的構(gòu)成,將訓(xùn)練數(shù)據(jù)再劃分為級聯(lián)模型中各級模型的訓(xùn)練數(shù)據(jù).級聯(lián)模型中各級模型訓(xùn)練數(shù)據(jù)數(shù)量如表4所示.

    表4 級聯(lián)模型中各級模型訓(xùn)練數(shù)據(jù)Table 4 Training data for each level of the models in cascade classification model

    多級特征表征模型中的BERT模型采用Bert-base-chinese.離散特征One-hot向量、數(shù)值特征向量、文本特征BERT表征向量都設(shè)置為768維.二級組特征的表征向量、一級組特征表征向量與最后一層注意力網(wǎng)絡(luò)的輸出向量維度為128維.模型訓(xùn)練采用Adam優(yōu)化算法[18],學(xué)習(xí)率為0.001,Dropout率為0.3,訓(xùn)練數(shù)據(jù)批量(Batch)為64,訓(xùn)練周期(Epoch)為100.實(shí)驗(yàn)評價(jià)指標(biāo)采用F1值.

    (4)

    (5)

    (6)

    3.3 實(shí)驗(yàn)結(jié)果與分析

    1)多級特征表征實(shí)驗(yàn)

    為研究多級特征表征模型的作用,本文在隨機(jī)森林、全連接神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯和支持向量機(jī)的級聯(lián)模型與多分類模型下,比較了多級特征表征(M1)、無多級特征表征(M2)、僅使用多級特征表征最后一層向量(M3)、僅使用多級特征表征第2層向量(M4)、僅使用多級特征表征第1層向量(M5)的5種方法.無多級特征表征是將離散特征One-hot向量、數(shù)值特征向量、文本特征BERT表征向量直接拼接為一個向量作為模型輸入.不同特征表征方法的F1值列入了表5.

    由表5所示,在不同的級聯(lián)模型下,應(yīng)用多級特征表征模型的分類效果好于其他方法.表明多級特征表征(M1)能夠很好的提取用于簡歷篩選的特征表征,而且能夠適用于隨機(jī)森林、全連接神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯與支持向量機(jī)等不同的分類方法.采用多級特征表征的方法好于僅使用多級特征表征最后一層向量(M3)、僅使用多級特征表征第2層向量(M4)、僅使用多級特征表征第1層向量(M5)的方法,表明在簡歷分類問題上,有必要組合不同類型與粒度的特征,使得表征向量攜帶更多特征信息.本文所提出的層級注意力網(wǎng)絡(luò)結(jié)構(gòu)和多層輸出向量合并的方法能夠提取和兼顧底層、局部和全局特征不同粒度特征的表征,從而能夠提升簡歷分類的效果.

    表5 不同特征表征方法的F1值Table 5 F1 of different feature representation methods

    在各簡歷等級下,各種分類方法的級聯(lián)模型的F1值都好于多分類模型.特別是對于優(yōu)秀等級的簡歷,多分類模型的F1較低.這表明多分類模型不傾向于將樣本分于優(yōu)秀等級.其原因是,優(yōu)秀等級簡歷數(shù)據(jù)量較小,模型對該類學(xué)習(xí)不充分.同時(shí),優(yōu)秀類簡歷數(shù)據(jù)對訓(xùn)練損失影響相比于其他等級的數(shù)據(jù)也相對小很多,使得模型更傾向于占比較大等級簡歷的學(xué)習(xí).而級聯(lián)模型能夠很好解決該問題,提升了優(yōu)秀等級簡歷的分類效果.在實(shí)際招聘過程中,優(yōu)秀等級簡歷是最終通過面試可能被錄用的競聘者.對該類簡歷分類效果更好,則意味著級聯(lián)模型相比于多分類模型對于簡歷篩選的實(shí)際應(yīng)用幫助更大.

    對于數(shù)據(jù)較充足的中等等級簡歷的分類,級聯(lián)模型也好于多分類模型.原因是中等等級簡歷數(shù)據(jù)相對較多,多分類模型更傾向于分到該類.級聯(lián)模型改善了其他類數(shù)據(jù)的分類效果的同時(shí),使得分到中等等級的簡歷相對變少,從而提高了中等等級簡歷的分類準(zhǔn)確率.

    2)與前人工作的對比

    本文將所提出方法以SVM為基分類器在醫(yī)療簡歷數(shù)據(jù)集上與最新前人工作進(jìn)行了對比,包括:2017年SAYFULLINA等[11]提出的基于卷積神經(jīng)網(wǎng)絡(luò)的方法,2018年由LUO等[7]提出的ResumeNet,2020年MWARO等[4]提出的樸素貝葉斯方法.各方法的F1值列入了表6中.實(shí)驗(yàn)表明,本文提出的基于多層特征表征與級聯(lián)模型的簡歷篩選方法好于對比方法.在優(yōu)秀等級簡歷上,F(xiàn)1值比ResumeNet高6.69%.ResumeNet也使用了注意力網(wǎng)絡(luò).本文與ResumeNet不同的是采用了多級注意力網(wǎng)絡(luò)的特征表征向量,并且加入了殘差結(jié)構(gòu).而ResumeNet采用單層注意力網(wǎng)絡(luò).結(jié)合表5,在同樣使用樸素貝葉斯為基分類器的情況下,與MWARO等提出的方法相比,基于多層特征表征與級聯(lián)模型的方法的各等級簡歷篩選效果更好.

    表6 與前人工作的對比Table 6 Comparison with previous work

    4 結(jié) 語

    本文研究了醫(yī)療招聘簡歷篩選,將簡歷特征分為教育與工作背景、科研能力、業(yè)務(wù)能力等特征組,并將現(xiàn)有簡單的“通過與不通過”粗略篩選改進(jìn)為“優(yōu)秀、良好、中等、一般”的細(xì)粒度篩選,更加符合現(xiàn)今醫(yī)院招聘初審、筆試、面試的多級篩選過程,也有利于后續(xù)對不同等級人才的考量.提出了基于多級注意力網(wǎng)絡(luò)的多級特征表征模型與級聯(lián)分類模型,用于簡歷細(xì)粒度篩選.在包含13552條簡歷的數(shù)據(jù)集上驗(yàn)證了所提出方法,在各等級簡歷分類上好于對比現(xiàn)有方法.

    在簡歷分類問題上,有必要組合不同類型與粒度的特征,層級注意力網(wǎng)絡(luò)結(jié)構(gòu)和多層輸出向量合并的方法能夠提取和兼顧底層、局部和全局特征不同粒度特征的表征,從而能夠提升簡歷分類的效果.面向細(xì)粒度簡歷分類問題,級聯(lián)分類模型能夠有效解決數(shù)據(jù)不平衡帶來的分類錯誤,特別是能夠提升優(yōu)秀類簡歷的分類效果,對可能被錄用的競聘者識別的更好,對于簡歷篩選的實(shí)際應(yīng)用幫助更大.

    在今后的研究中,將重點(diǎn)關(guān)注級聯(lián)一體化模型的研究,使得特征表征模型和級聯(lián)模型中各級分類模型能夠共享部分模型參數(shù),從而能夠共享部分特征表征知識與分類知識,也能夠降低模型參數(shù)數(shù)量,提升訓(xùn)練與預(yù)測速度.

    猜你喜歡
    細(xì)粒度級聯(lián)注意力
    融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
    讓注意力“飛”回來
    細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
    基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
    “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
    傳媒評論(2017年3期)2017-06-13 09:18:10
    級聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
    電子制作(2016年15期)2017-01-15 13:39:09
    支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
    A Beautiful Way Of Looking At Things
    基于級聯(lián)MUSIC的面陣中的二維DOA估計(jì)算法
    LCL濾波器在6kV級聯(lián)STATCOM中的應(yīng)用
    電測與儀表(2014年1期)2014-04-04 12:00:34
    绥江县| 区。| 嘉荫县| 宝清县| 扶绥县| 绥宁县| 白朗县| 大化| 河间市| 邢台县| 秀山| 姚安县| 浪卡子县| 永平县| 浮梁县| 探索| 来宾市| 宁陕县| 广安市| 五莲县| 大理市| 宜黄县| 修文县| 驻马店市| 嘉峪关市| 张家港市| 柞水县| 鹤岗市| 买车| 济宁市| 西华县| 都江堰市| 北宁市| 会东县| 尚志市| 仙桃市| 若尔盖县| 大竹县| 平山县| 西峡县| 淮滨县|