• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    計(jì)算人文視閾下的計(jì)算語言學(xué):現(xiàn)狀和范式

    2023-06-18 06:15:42柏曉鵬
    圖書與情報(bào) 2023年1期
    關(guān)鍵詞:數(shù)字人文自然語言處理語言學(xué)

    摘? ?要:文章討論計(jì)算人文視閾下計(jì)算語言學(xué)的定位問題,主要涉及三個問題:計(jì)算人文視閾下計(jì)算語言學(xué)的定位、研究范式,以及它與其他計(jì)算人文研究方向的關(guān)系?!坝?jì)算人文”這一術(shù)語明確了數(shù)字人文的研究以計(jì)算技術(shù)解決人文學(xué)科的研究問題這一研究范式。我們認(rèn)為,當(dāng)前計(jì)算語言學(xué)的工作顯示出明顯的工程特征,將語言作為數(shù)據(jù)進(jìn)行處理,很少有回答語言學(xué)研究問題的工作。盡管很多學(xué)者認(rèn)為計(jì)算語言學(xué)是語言學(xué)的研究方向之一,但目前并無很多利用計(jì)算技術(shù)來進(jìn)行語言學(xué)研究的案例。因此,以文本可讀性工作為例,提出一個利用計(jì)算技術(shù)進(jìn)行語言學(xué)研究的計(jì)算語言學(xué)研究范式。研究認(rèn)為,計(jì)算語言學(xué)在工作方式上與其他計(jì)算人文研究方向并無二致,應(yīng)在統(tǒng)一的研究范式下工作;作為研究工具的計(jì)算語言學(xué),則需要在有效性和可解釋性間獲得平衡,推動數(shù)字人文各分支領(lǐng)域的發(fā)展,這是計(jì)算語言學(xué)在“以人文為核心,以計(jì)算為工具”這一研究框架中的準(zhǔn)確定位。

    關(guān)鍵詞:計(jì)算語言學(xué);計(jì)算人文;數(shù)字人文;語言學(xué);自然語言處理

    中圖分類號:H085.2? ?文獻(xiàn)標(biāo)識碼:A? ?DOI:10.11968/tsyqb.1003-6938.2023002

    Abstract In this article, we discuss the positioning of computational linguistics in the context of computational humanities. We focus on three main issues: the position of computational linguistics in the context of computational humanities, the research paradigm, and its relationship with other research fields in computational humanities. The term "computational humanities" clarifies the research paradigm in which the study of digital humanities solves research problems in the humanities with computational technologies. We find that current work in computational linguistics shows distinctly engineering character, treating language as data, with little work answering the research questions of linguistics. Although many scholars consider computational linguistics as one of the research directions in linguistics, we do not see many cases of using computational technology for linguistic (especially for Chinese language) research at present. Therefore, this paper proposes a computational linguistics research paradigm that uses computational techniques for linguistic research, using text readability work as an example. We believe that computational linguistics is no different from other research fields in computational humanities and should work under a unified research paradigm. Computational linguistics as a research method requires a balance between validity and interpretability. This is the positioning of computational linguistics in the framework of "humanities as the core and computation as the tool".

    Key words computational linguistics; computational humanities; computational humanities; linguistics; natural language processing

    1? ?從數(shù)字人文到計(jì)算人文

    數(shù)字人文將人文研究的成果用數(shù)字化手段呈現(xiàn)出來,如可視化的數(shù)據(jù)檢索在地圖上表示。隨著近年來計(jì)算技術(shù)作為研究工具應(yīng)用到學(xué)術(shù)研究的各個領(lǐng)域,人文研究也逐漸接受并嘗試使用這些工具來更新研究方法、拓展研究視野乃至提出新的研究問題?!坝?jì)算人文”這一術(shù)語強(qiáng)調(diào)將計(jì)算技術(shù)運(yùn)用成研究工具,改變現(xiàn)有的研究范式。簡單來說,是將基于數(shù)據(jù)(data based)和數(shù)據(jù)驅(qū)動(data driven)這兩種方法運(yùn)用到傳統(tǒng)上依賴研究者個人經(jīng)驗(yàn)的人文研究中。

    在數(shù)字人文提出之前,較有影響力的術(shù)語是人文計(jì)算。人文計(jì)算源于羅伯特·布薩對于著作索引的研究[1],早期的人文計(jì)算的研究也主要圍繞著詞語索引的構(gòu)建,借助計(jì)算機(jī)對詞語進(jìn)行計(jì)量,以此完成索引資源的建構(gòu)[2]。人文學(xué)科在研究過程中引入了計(jì)算技術(shù),開拓新的研究視角[3]。黃水清認(rèn)為,人文計(jì)算的核心框架與數(shù)字人文沒有本質(zhì)區(qū)別[4]。通過文本編碼、數(shù)據(jù)庫、計(jì)量分析等技術(shù)將人文內(nèi)容以及研究成果以數(shù)字化的形式呈現(xiàn)。數(shù)據(jù)可視化為人文研究提供了全局圖景,得以進(jìn)行“遠(yuǎn)讀”研究[5]。

    “計(jì)算人文”術(shù)語的提出,體現(xiàn)了計(jì)算技術(shù)作為研究方法融入人文科學(xué)的趨勢,“人文”是研究問題和研究對象,通過計(jì)算技術(shù)的方法發(fā)現(xiàn)、回應(yīng)人文學(xué)科的研究問題。一方面,計(jì)算技術(shù)作為人文科學(xué)的研究方法,在各人文子領(lǐng)域中應(yīng)該擁有統(tǒng)一的研究范式、系統(tǒng)的研究流程。黃水清在針對人文計(jì)算的困窘以及規(guī)范化的研究中提出了問題定義、數(shù)據(jù)集構(gòu)建、技術(shù)實(shí)現(xiàn)、問題求解、結(jié)果評價(jià)及呈現(xiàn)的五階段范式[6];另一方面,科學(xué)研究不僅是對材料進(jìn)行計(jì)量統(tǒng)計(jì),得到統(tǒng)計(jì)數(shù)據(jù),更重要的是利用數(shù)據(jù),對其中的研究問題進(jìn)行解釋,通過計(jì)算技術(shù)在人文學(xué)科研究中發(fā)現(xiàn)問題,解釋問題,甚至對已有結(jié)論進(jìn)行再論證。

    本文討論計(jì)算語言學(xué)與計(jì)算人文的關(guān)系。首先,介紹計(jì)算語言學(xué)的概況、發(fā)展歷程以及主流研究范式;其次,介紹計(jì)算語言學(xué)中一些典型的語言學(xué)問題。目前計(jì)算語言學(xué)的主要研究問題不是語言學(xué)研究問題,其主流方法與計(jì)算人文提出的研究框架并不兼容;第三,展示一項(xiàng)文本可讀性的研究,提出計(jì)算人文框架下計(jì)算語言學(xué)的研究范式;最后,討論計(jì)算語言學(xué)作為計(jì)算人文的研究工具的問題。

    2? ?計(jì)算語言學(xué)的發(fā)展

    2.1? ? 計(jì)算語言學(xué)的定義

    計(jì)算語言學(xué)致力于自動化處理自然語言,如語音與文字的相互轉(zhuǎn)換、專有名詞的識別、文本分類、回答問題、文本摘要的生成、翻譯等。其研究成果的運(yùn)用使數(shù)字人文研究的重點(diǎn)逐漸轉(zhuǎn)向了對文本知識的挖掘。如劉瀏等通過對《春秋》三傳中的女性人物知識以及諸侯國聯(lián)姻關(guān)系進(jìn)行量化分析,為《春秋》三傳中的女性人物的解讀提供了新的角度[7]。于純良等利用機(jī)器學(xué)習(xí)算法對稷下學(xué)重要文獻(xiàn)資料中的知識信息進(jìn)行自動識別、細(xì)粒度的語義知識深度標(biāo)引以及知識單元提取,以支持文獻(xiàn)資源的知識挖掘[8]。

    計(jì)算語言學(xué)至少在語言學(xué)和計(jì)算機(jī)科學(xué)兩個領(lǐng)域得到系統(tǒng)性關(guān)注,與之并列,還有“自然語言處理”這一常見術(shù)語。關(guān)于這兩個術(shù)語,我們列舉學(xué)界一些有代表性的說法:

    計(jì)算語言學(xué)是利用電子數(shù)字計(jì)算機(jī)進(jìn)行的語言分析[9]。

    計(jì)算語言學(xué)是通過建立形式化的計(jì)算模型來分析、理解和處理語言的學(xué)科[9]。

    計(jì)算語言學(xué),也稱自然語言處理或自然語言理解,是一門以計(jì)算為手段對自然語言進(jìn)行研究和處理的學(xué)科[10]。

    自然語言處理就是利用計(jì)算機(jī)為工具對人類特有的書面形式和口頭形式的語言進(jìn)行各種類型處理和加工的技術(shù)[11]。

    (計(jì)算語言學(xué)是)語言學(xué)的一個分支,用計(jì)算技術(shù)和概念來闡述語言學(xué)和語音學(xué)問題[12]。

    自然語言處理要研制表示語言能力和語言應(yīng)用的模型,根據(jù)這樣的語言模型設(shè)計(jì)各種實(shí)用系統(tǒng),并探討這些實(shí)用系統(tǒng)的評測技術(shù)[13]。

    計(jì)算語言學(xué)包括以語音為主要研究對象的語音學(xué)基礎(chǔ)及其語音處理技術(shù)研究和以詞匯、句子、話語或語篇及其詞法、句法、語義和語用等相關(guān)信息為主要研究對象的處理技術(shù)研究[14]。

    從上述定義和描述可以看出,“計(jì)算語言學(xué)”強(qiáng)調(diào)使用計(jì)算技術(shù)對語言進(jìn)行研究,“自然語言處理”則關(guān)注語言處理技術(shù),但二者的定義在很大程度上是重合的,難以做出涇渭分明的區(qū)分。目前學(xué)界對計(jì)算語言學(xué)的認(rèn)識是:其研究對象是人類語言,研究手段是計(jì)算技術(shù),研究目的是對語言進(jìn)行自動化處理,其研究過程涉及對語言的建模和對模型的評價(jià)。

    2.2? ? 計(jì)算語言學(xué)方法論的變遷

    計(jì)算語言學(xué)研究的方法論經(jīng)歷了三個階段:基于規(guī)則的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的經(jīng)驗(yàn)主義方法和基于深度神經(jīng)網(wǎng)絡(luò)的方法。

    2.2.1? ? 基于規(guī)則的方法

    基于規(guī)則的方法是理性主義(rationalism)方法,基于喬姆斯基關(guān)于語言是人腦內(nèi)在功能(faculty)的假設(shè)。它主張用人工整理和定義的語法規(guī)則,通過推理程序,對自然語言進(jìn)行自動處理。根據(jù)規(guī)則構(gòu)造出來的語言處理系統(tǒng)解釋力很強(qiáng),因?yàn)橐?guī)則來自于語言學(xué)家對語言的觀察和總結(jié)。然而,在多數(shù)情況下,系統(tǒng)中的規(guī)則并不能覆蓋所有語言現(xiàn)象。當(dāng)某條規(guī)則在計(jì)算過程中碰到例外,需要對這條規(guī)則做出修正。

    以詞性標(biāo)注(POS tagging)為例,假設(shè)一個詞性標(biāo)注系統(tǒng)由一百條語法規(guī)則組成,對其中任何一條規(guī)則進(jìn)行變動,都可能會帶來其他規(guī)則變化的連鎖反應(yīng)。語法學(xué)研究顯示,自然語言是復(fù)雜系統(tǒng),幾乎沒有一套規(guī)則可以涵蓋所有可能的語言現(xiàn)象?;谝?guī)則的方法需要不斷地對規(guī)則系統(tǒng)做出調(diào)整,隨著所要處理的語言現(xiàn)象增多,規(guī)則系統(tǒng)面臨崩潰。

    2.2.2? ?基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法

    基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法是經(jīng)驗(yàn)主義(empiricism)方法。它與認(rèn)知語言學(xué)的假設(shè)一致,認(rèn)為語言能力的獲取是語言輸入的結(jié)果。人們通過已有的語言數(shù)據(jù)對統(tǒng)計(jì)模型進(jìn)行訓(xùn)練(training),將語言現(xiàn)象在語料庫中的分布轉(zhuǎn)化為統(tǒng)計(jì)模型的參數(shù),然后用帶有參數(shù)的統(tǒng)計(jì)模型去處理新的語言現(xiàn)象。相較于基于規(guī)則的方法,該方法更加健壯(robust),具有較好的預(yù)測性。從應(yīng)用的角度說,基于統(tǒng)計(jì)的方法比基于規(guī)則的方法更加簡單,適應(yīng)性更強(qiáng)?;诮y(tǒng)計(jì)的方法需要將自然語言轉(zhuǎn)換為恰當(dāng)?shù)谋硎荆╮epresentation),并根據(jù)具體任務(wù)抽取特征(features),所以,特征工程(feature engineering)是非常重要的工作。

    2.2.3? ?基于深度神經(jīng)網(wǎng)絡(luò)的方法

    基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法結(jié)果的好壞很大程度上取決于數(shù)據(jù)的規(guī)模和標(biāo)注質(zhì)量。語料庫的規(guī)模、標(biāo)注深度、標(biāo)注質(zhì)量、標(biāo)注內(nèi)容等問題都會對機(jī)器學(xué)習(xí)模型的結(jié)果產(chǎn)生影響。進(jìn)入21世紀(jì),互聯(lián)網(wǎng)上積累了海量數(shù)據(jù),這為深度神經(jīng)網(wǎng)絡(luò)(deep neural network)算法的實(shí)現(xiàn)提供了數(shù)據(jù)基礎(chǔ)。深度神經(jīng)網(wǎng)絡(luò)的輸入端和輸出端之間有n層神經(jīng)網(wǎng)絡(luò),每層神經(jīng)網(wǎng)絡(luò)上有若干個節(jié)點(diǎn)(node,又稱為神經(jīng)元),每個節(jié)點(diǎn)是一個參數(shù),數(shù)據(jù)進(jìn)入網(wǎng)絡(luò)后經(jīng)過計(jì)算(如激活函數(shù)、求導(dǎo)等操作)進(jìn)行逐層的向前/向后傳播,最終得到輸出值,在此期間,網(wǎng)絡(luò)中的節(jié)點(diǎn)(參數(shù))不斷更新,以優(yōu)化輸出值。深度神經(jīng)網(wǎng)絡(luò)方法又稱為深度學(xué)習(xí)(deep learning)。

    深度神經(jīng)網(wǎng)絡(luò)技術(shù)在語言處理中代表性的算法主要有詞嵌入(Word Embedding)、長短時(shí)記憶(Long-Short Term Memory)和預(yù)訓(xùn)練語言模型(Pre-trained Language Models)。詞嵌入是文本表示方法,與統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法常用的獨(dú)熱表示(One-hot Representation)相比,詞嵌入表示將高維空間的詞匯向量投射到低維空間,得到低維高稠密的詞匯向量。LSTM是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network),RNN是一類處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),適用于語言,LSTM通過門結(jié)構(gòu)(Gate)的設(shè)計(jì)彌補(bǔ)了RNN無法處理長距離依存信息的問題,成為處理語言數(shù)據(jù)的典型算法。預(yù)訓(xùn)練模型提供“預(yù)訓(xùn)練+微調(diào)”的模式,研究者使用開源預(yù)訓(xùn)練模型,用自己的數(shù)據(jù)對模型進(jìn)行微調(diào)后,即可開展研究工作。深度神經(jīng)網(wǎng)絡(luò)方法已成為計(jì)算語言學(xué)的主流方法,其在各項(xiàng)NLP任務(wù)上的表現(xiàn)均優(yōu)于基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法。

    2.3? ? 計(jì)算語言學(xué)的主流研究范式

    從20世紀(jì)40年代機(jī)器翻譯工作開始,計(jì)算語言學(xué)逐漸形成了一個主流的研究范式獲取數(shù)據(jù)、訓(xùn)練模型、評測模型。這三個部分是目前進(jìn)行計(jì)算語言學(xué)研究工作的必要環(huán)節(jié)。

    2.3.1? ?獲取數(shù)據(jù)

    數(shù)據(jù)是用來訓(xùn)練模型的。對于不同的方法,獲取數(shù)據(jù)的方式和難度是不同的。對于基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法來說,需要從語料庫中獲取信息,對模型進(jìn)行訓(xùn)練。而標(biāo)注是必要的工作,如分詞、詞性標(biāo)注、句法剖析、語義角色標(biāo)注等。不同任務(wù)需要標(biāo)注的類型和深度是不一樣的。

    對于深度神經(jīng)網(wǎng)絡(luò)的方法,數(shù)據(jù)主要來自互聯(lián)網(wǎng)語料,包含了很多信息。如果使用預(yù)訓(xùn)練模型,研究者只需要準(zhǔn)備少量的、簡單標(biāo)注的數(shù)據(jù)對預(yù)訓(xùn)練模型進(jìn)行微調(diào)即可將模型轉(zhuǎn)移(transfer)到自己的工作上。

    2.3.2? ?訓(xùn)練模型

    本質(zhì)上,模型是(一些)數(shù)學(xué)公式,訓(xùn)練模型就是利用語料庫將公式中的參數(shù)估計(jì)出來的過程。如最簡單的一元線性回歸模型y=a+bx,訓(xùn)練模型的過程就是利用語料庫中(x,y)信息對參數(shù)a、b進(jìn)行估計(jì)。對于預(yù)訓(xùn)練模型來說,訓(xùn)練模型是對網(wǎng)絡(luò)上的參數(shù)進(jìn)行估計(jì)。在實(shí)際工作中,模型參數(shù)的規(guī)??赡芊浅}嫶?,當(dāng)前的大語言模型(Large Language Models)參數(shù)規(guī)模往往超過億個,如Bert、GPT-1的參數(shù)規(guī)模是1億多,GPT-2的參數(shù)規(guī)模是15億,Google的PaLm參數(shù)規(guī)模5400億,ChatGPT(GPT-3.5)參數(shù)規(guī)模1750億,而GPT-4達(dá)到百萬億的參數(shù)規(guī)模。

    2.3.3? ?評測模型

    模型訓(xùn)練完成后需要對其表現(xiàn)進(jìn)行檢測,以判斷其是否有效,稱為評測(evaluation)。一般來說,用于評測模型的數(shù)據(jù)是訓(xùn)練語料中的一部分,在實(shí)際工作中,研究者會按一定的比例將語料庫分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),也就是說,測試數(shù)據(jù)是模型在訓(xùn)練階段沒有“見過”的,這個比例往往是7:3或者8:2,取決于語料庫規(guī)模。

    用于評測模型的指標(biāo)對不同的任務(wù)是不同的。如準(zhǔn)確率(accuracy)、召回率(recall)和調(diào)和平均值(f-score)適合用于分類、序列標(biāo)注等模型的評測,而BLEU、標(biāo)注一致性等指標(biāo)適用于機(jī)器翻譯、自動文摘模型的評測。

    在這個研究范式中,研究目標(biāo)是最大程度優(yōu)化模型算法在語言處理任務(wù)中的表現(xiàn),研究問題則是通過模型改進(jìn)、開發(fā)新的數(shù)據(jù)集以在特定任務(wù)上達(dá)到最佳的評測結(jié)果。

    3? ?計(jì)算語言學(xué)與語言學(xué)的關(guān)系

    通過引入其他學(xué)科的研究方法,當(dāng)代語言學(xué)衍生出相應(yīng)的研究方向。如認(rèn)知語言學(xué)使用認(rèn)知科學(xué)中的“象似性”原理解釋語法化過程中某些語法現(xiàn)象的演變,心理語言學(xué)使用眼動儀和行為實(shí)驗(yàn)記錄人眼對語言材料的“刺激-反應(yīng)”數(shù)據(jù),從而對多義詞義項(xiàng)選擇進(jìn)行解釋。同樣,學(xué)者們認(rèn)為計(jì)算語言學(xué)是當(dāng)代語言學(xué)的研究方向之一。但仔細(xì)觀察計(jì)算語言學(xué)的發(fā)展及其研究范式,我們并不認(rèn)為計(jì)算語言學(xué)與認(rèn)知語言學(xué)、心理語言學(xué)一樣,是典型的語言學(xué)研究方向。本節(jié)羅列一些曾在計(jì)算語言學(xué)中被關(guān)注的語言問題,藉此來討論計(jì)算語言學(xué)與語言學(xué)的關(guān)系。

    3.1? ? 分詞(Segmentation)

    漢語書面語沒有詞邊界,相較于英語這類語言,計(jì)算機(jī)處理漢語首先要識別詞邊界,詞邊界隔開的單位被稱為分詞單位。在具體研究中,分詞單位的定義往往不是語言學(xué)意義上的詞。如果我們要從語料庫中統(tǒng)計(jì)常用詞,那么分詞單位應(yīng)當(dāng)是語言學(xué)意義上的詞,即“獨(dú)立運(yùn)用的最小音義結(jié)合體”,所以,“中華人民共和國”就應(yīng)該被切分為三個分詞單位“中華”“人民”和“共和國”。如果要做一個搜索系統(tǒng),那么分詞單位應(yīng)當(dāng)是表達(dá)一個完整概念的單位,“中華人民共和國”就應(yīng)該被視為一個分詞單位。用于進(jìn)行分詞的方法有三種:基于詞典的規(guī)則方法、基于統(tǒng)計(jì)模型的方法和基于分類模型的方法。

    3.2? ? 詞性標(biāo)注(Part-of-speech Tagging)

    句子中的每個詞都有其語法類別,稱為詞性,詞性標(biāo)注就是在句子中確定每個詞詞性的任務(wù)。相較于印歐語系形態(tài)屈折變化豐富的語言,對漢語進(jìn)行詞性標(biāo)注存在一些困難[15]:無法從詞形推斷詞性;詞的語法兼類現(xiàn)象普遍;詞性標(biāo)注標(biāo)準(zhǔn)不統(tǒng)一。進(jìn)行詞性標(biāo)注的方法主要有基于統(tǒng)計(jì)的方法、基于規(guī)則的方法和統(tǒng)計(jì)與規(guī)則相結(jié)合的方法。

    3.3? ? 句法分析(Parsing)

    句子是層次性結(jié)構(gòu),所以句子中的詞不總是與相鄰的詞有直接句法關(guān)系,句法分析就是自動識別句子中詞與詞之間的句法關(guān)系并進(jìn)一步確定句法結(jié)構(gòu)的任務(wù)。

    句法分析主要分為短語結(jié)構(gòu)分析(constituent parsing)和依存分析(dependency parsing)兩種路徑。前者以賓州樹庫(Penn Treebank)為代表,后者以哈工大依存樹庫(dependency treebank)為代表。這兩種路徑反映了不同的語法理論,對于計(jì)算語言學(xué)來說,這是兩種不同的句子表示方法。

    句法分析是計(jì)算語言學(xué)中一項(xiàng)基礎(chǔ)工作,曾被認(rèn)為是機(jī)器翻譯必經(jīng)之路。用于句法分析的訓(xùn)練語料庫開發(fā)成本非常大,而且不同學(xué)者對同一個句法現(xiàn)象該如何標(biāo)注也會有爭議。

    3.4? ? 語義分析

    常見的語義分析工作有詞義消歧和語義角色標(biāo)注。

    3.4.1? ?詞義消歧(Word Sense Disambiguation)

    一詞多義是詞匯語義中最常見的現(xiàn)象,詞匯學(xué)往往會區(qū)別多義詞和漢語中的同音同形詞,但對計(jì)算機(jī)而言,這兩個現(xiàn)象是一回事,都是一個詞形對應(yīng)多個義項(xiàng)。如“吃”在“我吃餃子”和“吃俺老孫一棒”中是不同的意思,詞義消歧的目標(biāo)就是把“吃”在不同句子中的義項(xiàng)標(biāo)注出來。

    3.4.2? ?語義角色標(biāo)注(Semantic Role Labeling)

    語義角色描述了句法上所說“論元”與謂語中心的語義關(guān)系,來源于Fillmore(1968)提出的格語法。如“我吃了一碗飯”,謂語中心是“吃”,它轄制兩個論元:“我”和“一碗飯”。論元“我”的語義角色是謂語中心的“施事(agent)”,而“一碗飯”則是謂語中心的“受事(patient)”。SRL就是要在“論元-謂語中心”的框架中將論元的語義角色自動識別出來。

    3.5? ? 計(jì)算語言學(xué)和語言學(xué)的關(guān)系

    上述問題并不能算是語言學(xué)的研究問題,換言之,計(jì)算語言學(xué)的相關(guān)研究沒有回答相關(guān)的詞匯學(xué)、句法學(xué)和語義學(xué)的問題。上述問題只是在特定任務(wù)中計(jì)算語言學(xué)需要解決的障礙。如計(jì)算語言學(xué)需要識別漢語文本的詞邊界,因?yàn)榻y(tǒng)計(jì)模型需要使用詞分布的數(shù)據(jù)進(jìn)行訓(xùn)練。對于語言學(xué),分詞問題的本質(zhì)是回答“漢語中什么是詞”的問題,而詞性標(biāo)注的本質(zhì)則是“對于缺乏屈折形態(tài)變化的漢語,如何對詞劃分句法類別”的問題??梢钥吹?,計(jì)算語言學(xué)在分詞、詞性標(biāo)注方面的工作并沒有推動解決相關(guān)語言學(xué)問題。

    從評價(jià)的角度來看,評價(jià)一個計(jì)算語言學(xué)工作優(yōu)劣的標(biāo)準(zhǔn)是某個機(jī)器學(xué)習(xí)模型在標(biāo)準(zhǔn)數(shù)據(jù)集上是否能夠取得評測指標(biāo)的提升。如預(yù)訓(xùn)練語言模型能夠比支撐向量機(jī)模型在同一個漢語分詞數(shù)據(jù)集上取得更好的調(diào)和平均值,那使用預(yù)訓(xùn)練語言模型進(jìn)行分詞的工作就是更好的。但是,預(yù)訓(xùn)練語言模型依然沒有能夠回答語言學(xué)問題。

    總體而言,在目前主流計(jì)算語言學(xué)的研究范式中,研究目的不是對語言現(xiàn)象進(jìn)行研究解釋,而是解決具體的工程問題。計(jì)算語言學(xué)還沒有發(fā)展出一套以解決語言學(xué)研究問題為中心的研究范式。以句法為例,計(jì)算語言學(xué)所說的句法研究與語言學(xué)所說的句法研究不是一回事,計(jì)算語言學(xué)的句法研究工作是在現(xiàn)有句法分析體系(一般是短語結(jié)構(gòu)文法或依存句法)框架下,探討如何將線性的句子自動解析為層次性的樹狀結(jié)構(gòu),語言學(xué)的句法研究工作則是構(gòu)建句法規(guī)則體系,并且用句法體系來解釋句法現(xiàn)象。現(xiàn)有的計(jì)算語言學(xué)研究范式與“人文為問題,計(jì)算為方法”的框架不兼容。計(jì)算語言學(xué)研究應(yīng)當(dāng)有一個以“語言/語言學(xué)研究”為核心,回應(yīng)語言和語言學(xué)研究問題的研究范式。

    4? ?計(jì)算人文視閾下計(jì)算語言學(xué)研究范式:以文本可讀性計(jì)算為例

    計(jì)算語言學(xué)應(yīng)形成一個以語言學(xué)問題為中心的研究范式,在這個范式中對語言學(xué)問題進(jìn)行討論。這里我們以一項(xiàng)文本可讀性計(jì)算(text readability assessment)的工作為例,來演示我們?nèi)绾瓮ㄟ^計(jì)算語言學(xué)中的自動分類技術(shù),對比評價(jià)各項(xiàng)語言學(xué)特征對文本可讀性的影響[16],并嘗試提出一套以語言問題為核心研究范式。

    4.1? ? 文本可讀性計(jì)算(Text Readability Assessment)

    文本可讀性指文本易于閱讀和理解的程度,是對文本的難易程度進(jìn)行評估的核心指標(biāo),是分級閱讀研究關(guān)心的核心問題之一。前人研究將文本可讀性計(jì)算看作分類問題,使用基于統(tǒng)計(jì)的自動分類模型為研究方法。

    4.2? ? 研究問題

    研究者在文本可讀性計(jì)算這個問題上,主要關(guān)心兩方面的問題:一是哪些計(jì)算模型和方法可以用來解決這個問題;二哪些因素影響了文本的可讀性。前一個問題是關(guān)于如何構(gòu)造文本可讀性計(jì)算系統(tǒng),以達(dá)到自動判斷的目的。后一個問題是文本中有哪些特征影響了可讀性,這是關(guān)于文本可讀性的理論問題。顯然后一個問題是語言學(xué)的研究問題,在計(jì)算人文的框架中,應(yīng)以此為研究問題。文本可以分解為若干語言學(xué)特征:詞匯、句法、篇章。這些特征如何影響文本的可讀性,從而可以指導(dǎo)應(yīng)用語言學(xué)的相關(guān)工作,如語言教學(xué)。所以,研究問題具體為:詞匯、句法和篇章這三種語言特征對文本可讀性的影響如何。

    4.3? ? 構(gòu)建語料庫和獲取語言學(xué)特征

    語料庫是此項(xiàng)研究的材料,選取了“統(tǒng)編版語文教材語料庫”[17]共計(jì)31.5萬字(不包括標(biāo)點(diǎn))。由于語料整體規(guī)模較小,語料庫以學(xué)段為分級單位,根據(jù)教育部頒布的《義務(wù)教育語文課程標(biāo)準(zhǔn)》(2022版)對學(xué)段的劃分將四個學(xué)段的課文對應(yīng)為四個可讀性級別,作為類別標(biāo)簽。然后,對語料庫標(biāo)注了三個層面的語言學(xué)特征:詞法(25種)、句法(6種)和篇章(44種)。

    4.4? ? 自動分類實(shí)驗(yàn)

    工程研究不同,本文不以提高分類器的分類結(jié)果為目標(biāo),而是把分類器作為工具,用來測試文本語言特征對可讀性的影響。以文本在教材中所處的學(xué)段作為可讀性類別標(biāo)簽,以語言特征作為參數(shù),實(shí)現(xiàn)特征與類別的關(guān)聯(lián),最后利用該模型判定該文本的所屬類別。對文本可讀性級別影響較大的特征,當(dāng)它出現(xiàn)的時(shí)候,分類模型的結(jié)果必然比它不出現(xiàn)的時(shí)候更好。我們可以通過觀察某類特征是否出現(xiàn)對于分類結(jié)果的影響,來評估該特征對文本可讀性的影響。

    4.5? ? 實(shí)驗(yàn)結(jié)果

    實(shí)驗(yàn)結(jié)果顯示了不同種類的語言特征對文本可讀性的影響(見表1)。使用支撐向量機(jī)分類器,我們可以對“語言特征對文本可讀性的影響”這一問題進(jìn)行量化分析。在單一特征模型中,篇章特征模型的分級準(zhǔn)確率為65.21%,優(yōu)于詞匯模型和句法模型,句法特征模型的準(zhǔn)確率最差。所以,篇章特征對文本可讀性的影響最大,詞匯特征次之,句法特征最次。

    4.6? ? 計(jì)算人文視閾下計(jì)算語言學(xué)的研究范式

    以語言和語言學(xué)問題為核心,計(jì)算技術(shù)為研究手段,通過上述文本可讀性的工作,可以總結(jié)出一個計(jì)算人文視閾下計(jì)算語言學(xué)的研究范式。它包含四個部分:提出語言學(xué)研究問題;與研究問題相關(guān)的語言學(xué)特征的獲?。粚⒀芯繂栴}轉(zhuǎn)換為計(jì)算語言學(xué)任務(wù),設(shè)計(jì)實(shí)驗(yàn);分析實(shí)驗(yàn)結(jié)果,回應(yīng)研究問題。

    5? ?作為研究工具的計(jì)算語言學(xué)

    語言是人類文明的重要載體,人類文明大多以語言形式(語音和文字)保留下來。人文學(xué)科(如文學(xué)、歷史、文獻(xiàn)學(xué)等)大部分的研究對象(如檔案、文獻(xiàn)等)以文本形式呈現(xiàn),所以文本是必不可少的研究材料。在研究中,不僅要對個體材料有精深的理解和把握,也需要對大規(guī)模材料有整體上的認(rèn)識,這在依賴研究者個體經(jīng)驗(yàn)的情況下是難以實(shí)現(xiàn)的。計(jì)算語言學(xué)的快速發(fā)展為處理大規(guī)模文本數(shù)據(jù),以及在文本中進(jìn)行知識發(fā)現(xiàn)等研究活動提供了工具。我們認(rèn)為,計(jì)算語言學(xué)作為研究工具,有三方面的工作可為相關(guān)研究所用:語言資源建設(shè)、文本分析技術(shù)、基于深層神經(jīng)網(wǎng)絡(luò)和預(yù)訓(xùn)練模型的技術(shù)。

    5.1? ? 語言資源建設(shè)

    語言資源分為語料庫和語言知識庫。

    語料庫是對真實(shí)語言材料進(jìn)行各類標(biāo)注的結(jié)果,它為統(tǒng)計(jì)模型提供數(shù)據(jù)。語料庫可以做如下分類:根據(jù)語料庫的用途可分為通用語料庫(如人民日報(bào)語料庫、BCC語料庫、臺灣中研院語料庫)和專用語料庫(如口語語料庫、中介語語料庫);根據(jù)所搜集語料的時(shí)間跨度可分為共時(shí)語料庫(如LIVAC語料庫、人民日報(bào)語料庫)和歷時(shí)語料庫(如古代漢語語料庫);根據(jù)語料庫的加工類型和深度可分為詞法標(biāo)注語料庫(如人民日報(bào)語料庫、國家語委平衡語料庫)、句法樹庫(如賓州樹庫、清華樹庫)、句法依存樹庫(如哈工大漢語依存樹庫)、命題庫(如賓州命題樹庫)、篇章樹庫(賓州篇章樹庫)、抽象語義表示庫。語料規(guī)模、采集范圍、標(biāo)注規(guī)范,這些問題決定了語料庫的質(zhì)量并進(jìn)一步影響后續(xù)的研究,相關(guān)研究催生了一個專門的研究方向:語料庫語言學(xué)。

    語言知識庫是確定的語言知識的集合,它往往以詞典和數(shù)據(jù)庫的形式出現(xiàn)。語言知識庫的建立依賴專家知識,是語言處理系統(tǒng)的基礎(chǔ)設(shè)施。根據(jù)語言知識庫的基本元素,可分為概念知識庫(如WordNet、FrameNet、HowNet、同義詞詞林)、詞匯知識庫(如北大語法信息詞典)。

    語言資源相關(guān)的工作對于計(jì)算人文依然具有重大的意義和價(jià)值,一方面現(xiàn)有的語言資源可以直接用于計(jì)算人文的研究,另一方面其方法論可以指導(dǎo)未來語料庫和數(shù)據(jù)庫的開發(fā)和建設(shè)。

    5.2? ? 文本分析技術(shù)

    計(jì)算語言學(xué)在文本分析方面的成果可以運(yùn)用在從詞到篇各層面的數(shù)據(jù)挖掘。文本分析產(chǎn)生的數(shù)據(jù),如詞匯、語法關(guān)系等,對于文學(xué)、語言學(xué)、歷史學(xué)等人文社會科學(xué)研究領(lǐng)域是非常有用的材料。目前研究者可以通過開源的形式獲得大部分的文本分析工具。這里簡單介紹一些可以對漢語文本進(jìn)行分析的開源工具。

    5.2.1? ?詞法分析工具

    詞法分析是對文本進(jìn)行挖掘和處理的第一步,目前大多數(shù)面向現(xiàn)代漢語的詞法分析工具可以達(dá)到高于90%的調(diào)和平均值(f-score),即使不能直接用于研究,也可以極大地簡化相應(yīng)的工作負(fù)擔(dān)。古文分詞的工具比較少見,這主要是因?yàn)楣糯鷿h語的時(shí)間跨度很大,不同時(shí)代、文體、題材的文本都稱為古代漢語文本,其內(nèi)部的詞法分布規(guī)律非常不均衡,故打造一個通用的古文分詞工具難度很大。古漢語分詞與詞性標(biāo)注國際評測是專門面向該問題的工作[18]。

    詞法分析主要包括:分詞、詞性標(biāo)注、各類命名實(shí)體識別等。命名實(shí)體識別可以看作是一類特殊的詞性標(biāo)注,目前大部分的詞法分析工具都把這三個部分集成在一起(一些開源詞法分析工具見表2)。

    5.2.2? ?句法分析工具

    句法分析工具將句子中詞的關(guān)系進(jìn)行顯性標(biāo)注一般有短語結(jié)構(gòu)分析和依存分析兩種。短語結(jié)構(gòu)分析將句子表示為一個樹狀結(jié)構(gòu),依存分析將句子表示為一個有向圖的結(jié)構(gòu)。盡管這兩種分析方法基于不同的句法學(xué)理念,但是二者間在技術(shù)上是可以相互轉(zhuǎn)換的。本文僅對部分開源句法分析工具簡單列舉(見表3)。

    5.2.3? ?語義分析工具

    語義分析主要是對句中詞的語義角色關(guān)系進(jìn)行顯性標(biāo)注。語義分析需要在句法分析的基礎(chǔ)上進(jìn)行,非常依賴句法分析的結(jié)果。目前主要是LTP和suPar提供語義角色標(biāo)注和語義依存分析。需要指出的是,suPar是一款若干句法分析工具的集成,很難看作是原創(chuàng)性的工作。

    以上列舉的各項(xiàng)文本分析工具,大多以語言處理平臺的方式出現(xiàn),專門針對某一語言單項(xiàng)的分析工具(除了結(jié)巴分詞)不多。從效果上來看,從高到低依次排序?yàn)椋悍衷~、句法分析、語義分析。分詞和句法分析工具的結(jié)果基本上可以直接使用,但是需要根據(jù)具體研究做一些適應(yīng)性改造。而語義分析的結(jié)果較差,如suPar報(bào)告的語義依存分析結(jié)果的調(diào)和平均值最高為71%。

    就計(jì)算語言學(xué)本身而言,對文本內(nèi)容進(jìn)行挖掘是其工作流程中的中間環(huán)節(jié),如果下游的任務(wù)不再需要某種文本數(shù)據(jù),那么對這種數(shù)據(jù)的挖掘就不再重要,如上文所提及的句法分析工作。所以計(jì)算人文領(lǐng)域需要在句法語義等“傳統(tǒng)的”文本處理分析工具方面投入研究。

    5.3? ? 基于深層神經(jīng)網(wǎng)絡(luò)和預(yù)訓(xùn)練模型的技術(shù)

    深層神經(jīng)網(wǎng)絡(luò)和預(yù)訓(xùn)練模型技術(shù)是目前計(jì)算語言學(xué)的主流技術(shù),已經(jīng)應(yīng)用在各個研究方向上。深層神經(jīng)網(wǎng)絡(luò)技術(shù)又稱為端到端(end-to-end)的技術(shù),即研究者只需選擇模型、調(diào)整參數(shù)、輸入數(shù)據(jù)即可,而不再需要從頭開發(fā)。而這種端到端的模式也使得很多任務(wù),如機(jī)器翻譯、人機(jī)對話等,不再依賴對文本的詞匯、結(jié)構(gòu)、語義等分析的結(jié)果,所以上面提到的各種文本分析技術(shù)不再是(計(jì)算機(jī)科學(xué)視閾下)計(jì)算語言學(xué)研究的重點(diǎn)①。學(xué)界和工業(yè)界相繼開源了一批深層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)框架,如PyTorch[28]、TensorFlow[29]等,這些框架的核心是各種預(yù)訓(xùn)練模型,預(yù)訓(xùn)練模型是在深層神經(jīng)網(wǎng)絡(luò)框架中使用大規(guī)模數(shù)據(jù)訓(xùn)練得到的神經(jīng)語言模型,這些框架和預(yù)訓(xùn)練模型使得研究者可以訓(xùn)練自己的預(yù)訓(xùn)練模型。目前開源的中文預(yù)訓(xùn)練模型如中文BERT[30-31]、ELECTRA(現(xiàn)代漢語)、SiKuBert[32](古代漢語)等,還有Hugging Face[33]這樣的模型框架。

    開源的深層神經(jīng)網(wǎng)絡(luò)框架和預(yù)訓(xùn)練模型極大簡化了研究者對深層神經(jīng)網(wǎng)絡(luò)技術(shù)的使用,研究者不必從頭去開發(fā)極為復(fù)雜的模型,甚至不用去準(zhǔn)備大量數(shù)據(jù),而是直接調(diào)用開源工具,結(jié)合小規(guī)模數(shù)據(jù)對預(yù)訓(xùn)練語言模型進(jìn)行微調(diào)。當(dāng)然,目前開源的預(yù)訓(xùn)練模型大多是通用性的,人文研究還需要結(jié)合具體研究,開發(fā)特定用途的預(yù)訓(xùn)練模型,如史學(xué)模型、文學(xué)模型、文獻(xiàn)模型等。

    5.4? ? 技術(shù)的有效性和可解釋性

    相比統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型,基于深層神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練模型能夠更好地完成語言處理的各項(xiàng)任務(wù)。但也帶來一個問題,預(yù)訓(xùn)練模型的解釋力不及統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型,盡管學(xué)術(shù)界提出“可解釋的深度學(xué)習(xí)”,但是預(yù)訓(xùn)練模型為何能夠取得很好的結(jié)果,哪些因素對模型產(chǎn)生了積極影響。對于人文研究來說,需要在技術(shù)的有效性和可解釋性間達(dá)到平衡,在計(jì)算機(jī)科學(xué)無法使得預(yù)訓(xùn)練模型更加“透明”的情況下,研究者可以將預(yù)訓(xùn)練模型作為在研究的中間層,而不是直接輸出最終結(jié)果,這樣可以做到一定程度的平衡。如在文本可讀性的研究中,我們使用基于預(yù)訓(xùn)練模型的句法分析器輸出了高質(zhì)量的句法分析結(jié)果,然后用統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型構(gòu)造文本可讀性分類器,以評估不同語言學(xué)特征對文本可讀性的影響。

    6? ?結(jié)論

    本文首先介紹了計(jì)算人文的概念,提出這一術(shù)語是數(shù)字人文進(jìn)一步發(fā)展、對研究方法的認(rèn)識進(jìn)一步明確的結(jié)果。隨后討論了計(jì)算語言學(xué)在計(jì)算人文中的定位,介紹了計(jì)算語言學(xué)的發(fā)展,計(jì)算語言學(xué)與語言學(xué)的關(guān)系,以及計(jì)算語言學(xué)作為研究工具在計(jì)算人文領(lǐng)域中的作用。認(rèn)為當(dāng)前計(jì)算語言學(xué)的研究范式屬于計(jì)算機(jī)科學(xué)。計(jì)算人文視閾下的計(jì)算語言學(xué)研究范式與計(jì)算機(jī)科學(xué)的研究范式應(yīng)有所不同。由此展示了一項(xiàng)文本可讀性計(jì)算的工作,利用自動分類實(shí)驗(yàn)考查不同的語言學(xué)特征對文本可讀性的影響,借此提出了一個與計(jì)算機(jī)科學(xué)研究范式不同的、以語言和語言學(xué)研究問題為核心的計(jì)算人文研究范式,這個范式與計(jì)算人文所提出的研究框架是契合的。

    在新一代互聯(lián)網(wǎng)技術(shù)爆發(fā)的背景下,計(jì)算語言學(xué)研究應(yīng)順勢而上,把握好國家建設(shè)“新文科”的機(jī)遇,在計(jì)算人文這一大的框架下,將本體研究與計(jì)算技術(shù)充分結(jié)合,開辟出具有中國特色的學(xué)科體系、學(xué)術(shù)話語。在以深層神經(jīng)網(wǎng)絡(luò)為代表的新一代計(jì)算語言學(xué)技術(shù)蓬勃發(fā)展的今天,利用開源框架和模型,人文研究已經(jīng)完全可以將計(jì)算技術(shù)融入自己的研究,使用基于數(shù)據(jù)和數(shù)據(jù)驅(qū)動的方法推動人文研究的進(jìn)一步發(fā)展。

    計(jì)算語言學(xué)今后的發(fā)展,一方面需要以語言和語言學(xué)研究為核心,利用計(jì)算技術(shù)推動語言學(xué)研究;另一方面,應(yīng)在文本分析、預(yù)訓(xùn)練模型等方面深入研究,以人文學(xué)科的問題為研究問題,為計(jì)算人文領(lǐng)域其他研究方向提供研究工具。計(jì)算語言學(xué)應(yīng)找準(zhǔn)定位,推動計(jì)算人文的進(jìn)一步發(fā)展,助力“新文科”發(fā)展戰(zhàn)略。

    參考文獻(xiàn):

    [1]? Busa R.The Annals of Humanities Computing:The Index Thomisticus[J].Computer and the Humanities,1980,14(2):83-90.

    [2]? 黃水清,劉瀏,王東波.計(jì)算人文的發(fā)展及展望[J].科技情報(bào)研究,2021,3(4):1-12.

    [3]? 黃水清,劉瀏,王東波.國內(nèi)外數(shù)字人文研究進(jìn)展[J].情報(bào)學(xué)進(jìn)展,2022,14(0):50-84.

    [4]? 黃水清.回歸人文:從人文計(jì)算到計(jì)算人文[N].社會科學(xué)報(bào),2021-09-09(5).

    [5]? 王軍.從人文計(jì)算到可視化——數(shù)字人文的發(fā)展脈絡(luò)梳理[J].文藝?yán)碚撆c批評,2020(2):18-23.

    [6]? 黃水清.人文計(jì)算與數(shù)字人文:概念、問題、范式及關(guān)鍵環(huán)節(jié)[J].圖書館建設(shè),2019(5):68-78.

    [7]? 劉瀏,黃水清,孟凱,等.《春秋》三傳女性人物的人文計(jì)算研究[J].圖書情報(bào)工作,2020,64(23):109-123.

    [8]? 于純良,吳一平,白如江,等.數(shù)字人文視域下稷下學(xué)語義計(jì)算平臺建設(shè)研究[J].圖書館建設(shè),2022(2):141-149.

    [9]? 翁富良、王野翊.計(jì)算語言學(xué)導(dǎo)論[M].北京:中國社會科學(xué)出版社,2015.

    [10]? 劉穎.計(jì)算語言學(xué)[M].北京:清華大學(xué)出版社,2014.

    [11]? 馮志偉.自然語言的計(jì)算機(jī)處理[M].上海:上海外語教育出版社,1996.

    [12]? (英)戴維·克里斯特爾.沈家煊,譯.現(xiàn)代語言學(xué)詞典[M].北京:商務(wù)印書館,2002.

    [13]? Manaris B.Natural Language Processing:A Human-computer Interaction Perspective[J].Advaced in Computers,1999,47:1-66.

    [14]? 宗成慶.統(tǒng)計(jì)自然語言處理[M].北京:清華大學(xué)出版社,2016.

    [15]? 劉開瑛.中文文本自動分詞和標(biāo)注[M].北京:商務(wù)印書館,2000.

    [16]? 柏曉鵬,吉伶俐.篇章結(jié)構(gòu)特征對文本可讀性的影響[J].語言文字應(yīng)用,2022(3):62-72.

    [17]? 柏曉鵬,吉伶俐.部編版小學(xué)語文教材語料庫建設(shè):目的和原則[J].新疆教育學(xué)院學(xué)報(bào) ,2020,36 (1):11-17.

    [18]? Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:1810.04805,2018.

    [19]? HanLP官網(wǎng)[EB/OL].[2023-01-14].https://www.hanlp.com/index.html.

    [20]? JUNYI S.jieba[CP/OL].[2023-01-14].https://github.com/fxsjy/jieba.

    [21]? 語言技術(shù)平臺(Language Technology Plantform | LTP )[EB/OL].[2023-01-14].http://ltp.ai/.

    [22]? THULAC:一個高效的中文詞法分析工具包[EB/OL].[2023-01-14].http://thulac.thunlp.org/.

    [23]? YAN J.甲言Jiayan[CP/OL].[2023-01-14].https://github.com/jiaeyan/Jiayan.

    [24]? stanfordnlp/stanza[CP].Stanford NLP,2023.

    [25]? supar·PyPI[EB/OL].[2023-01-14].https://pypi.org/project/supar/.

    [26]? DDParser[CP].Baidu,2023.

    [27]? Overview[EB/OL].[2023-01-14].https://stanfordnlp.github.io/CoreNLP/.

    [28]? PyTorch[EB/OL].[2023-01-14].https://www.pytorch.org.

    [29]? ABADI M,AGARWAL A,BARHAM P,et al.TensorFlow,Large-scale machine learning on heterogeneous systems[EB/OL].[2023-01-14].https://github.com/tensorflow/tensorflow.

    [30]? BERT[EB/OL].[2023-01-14].https://github.com/google-research/bert.

    [31]? Li B,Yuan Y,Lu J,et al.The First International Ancient Chinese Word Segmentation and POS Tagging Bakeoff:Overview of the EvaHan 2022 Evaluation Campaign[C].Proceedings of the Second Workshop on Language Technologies for Historical and Ancient Languages,2022:135-140.

    [32]? 王東波,劉暢,朱子赫,等.SikuBERT與SikuRoBERTa:面向數(shù)字人文的《四庫全書》預(yù)訓(xùn)練模型構(gòu)建及應(yīng)用研究[J].圖書館論壇,2022,42(6):31-43.

    [33]? Hugging Face-The AI community building the future[EB/OL].[2023-01-14].https://huggingface.co/.

    作者簡介:柏曉鵬,華東師范大學(xué)中文系副教授,研究方向:計(jì)算語言學(xué)、語言數(shù)字資源、詞匯學(xué)、漢語語言學(xué)。

    猜你喜歡
    數(shù)字人文自然語言處理語言學(xué)
    數(shù)字學(xué)術(shù)與公眾科學(xué):數(shù)字圖書館新生態(tài)
    跨界與融合:全球視野下的數(shù)字人文
    跨界與融合:全球視野下的數(shù)字人文
    認(rèn)知語言學(xué)與對外漢語教學(xué)
    基于組合分類算法的源代碼注釋質(zhì)量評估方法
    大規(guī)模古籍文本在中國史定量研究中的應(yīng)用探索
    面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
    漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
    HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
    科技視界(2016年5期)2016-02-22 11:41:39
    語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動
    极品教师在线视频| 国产午夜精品论理片| 伦理电影大哥的女人| 一进一出抽搐gif免费好疼| www日本黄色视频网| 亚洲狠狠婷婷综合久久图片| 在线看三级毛片| 一本精品99久久精品77| 黄色一级大片看看| 欧美+亚洲+日韩+国产| 欧美黄色片欧美黄色片| 欧美成人a在线观看| 免费在线观看成人毛片| 国产在线男女| 三级国产精品欧美在线观看| 亚洲国产欧洲综合997久久,| 国产欧美日韩一区二区精品| 直男gayav资源| 国产亚洲精品av在线| 两个人的视频大全免费| 久久人人爽人人爽人人片va | 校园春色视频在线观看| 人妻制服诱惑在线中文字幕| 日韩成人在线观看一区二区三区| 最新中文字幕久久久久| 久久久久久久久大av| 国产免费av片在线观看野外av| 亚洲国产色片| 日韩欧美精品免费久久 | 九九在线视频观看精品| 精品一区二区三区视频在线观看免费| 91久久精品电影网| 好男人电影高清在线观看| 欧美日本亚洲视频在线播放| 久久精品91蜜桃| 国内精品美女久久久久久| 日本熟妇午夜| 亚洲精品一卡2卡三卡4卡5卡| 日本免费一区二区三区高清不卡| 亚洲无线在线观看| 免费在线观看亚洲国产| 日韩国内少妇激情av| 人人妻,人人澡人人爽秒播| 99在线人妻在线中文字幕| 亚洲成av人片免费观看| 亚洲三级黄色毛片| 国产一区二区三区视频了| 免费av毛片视频| 夜夜爽天天搞| 国产综合懂色| 变态另类成人亚洲欧美熟女| 色吧在线观看| 麻豆成人午夜福利视频| 天堂网av新在线| 网址你懂的国产日韩在线| 在线观看av片永久免费下载| 淫秽高清视频在线观看| 亚洲一区高清亚洲精品| 757午夜福利合集在线观看| 亚洲国产精品999在线| 一级毛片久久久久久久久女| 亚洲欧美精品综合久久99| 成人永久免费在线观看视频| 少妇被粗大猛烈的视频| 久久久久久大精品| 少妇人妻精品综合一区二区 | 在线观看一区二区三区| 国模一区二区三区四区视频| 久久伊人香网站| 老熟妇乱子伦视频在线观看| 亚洲激情在线av| 嫩草影院入口| 久久精品国产亚洲av天美| 老熟妇乱子伦视频在线观看| 丰满的人妻完整版| 18禁裸乳无遮挡免费网站照片| 日本三级黄在线观看| 国产精品乱码一区二三区的特点| 国产免费av片在线观看野外av| 欧美成人一区二区免费高清观看| 高潮久久久久久久久久久不卡| 国产午夜福利久久久久久| 精品午夜福利在线看| 亚洲av免费高清在线观看| 国产成人a区在线观看| 午夜福利在线观看免费完整高清在 | 久久精品国产清高在天天线| 亚洲av免费高清在线观看| 久久久精品大字幕| 欧美+亚洲+日韩+国产| 九九热线精品视视频播放| 国产成人aa在线观看| 国产在线男女| 国产野战对白在线观看| 免费人成视频x8x8入口观看| 欧美国产日韩亚洲一区| 精品一区二区三区人妻视频| 18禁在线播放成人免费| 国产日本99.免费观看| 亚洲一区二区三区不卡视频| 日韩欧美一区二区三区在线观看| 国产成人影院久久av| 久久人妻av系列| 成年女人看的毛片在线观看| 精品久久国产蜜桃| 中出人妻视频一区二区| 成人国产综合亚洲| 美女黄网站色视频| 三级毛片av免费| 中文资源天堂在线| 亚洲国产精品sss在线观看| 国产伦人伦偷精品视频| 久久久久精品国产欧美久久久| 午夜两性在线视频| 琪琪午夜伦伦电影理论片6080| 在线免费观看不下载黄p国产 | 国产三级中文精品| 99久久无色码亚洲精品果冻| 精品国内亚洲2022精品成人| 一进一出抽搐gif免费好疼| 九九热线精品视视频播放| 欧美色欧美亚洲另类二区| 成人永久免费在线观看视频| 91麻豆精品激情在线观看国产| 亚洲成av人片免费观看| 国产成+人综合+亚洲专区| 18禁黄网站禁片免费观看直播| 久久6这里有精品| 亚洲国产精品久久男人天堂| 一进一出抽搐gif免费好疼| 综合色av麻豆| 久久精品国产亚洲av天美| 国产精品久久久久久久电影| 色综合站精品国产| 日韩欧美在线二视频| 一区二区三区激情视频| 十八禁网站免费在线| 能在线免费观看的黄片| 日本熟妇午夜| 国产精品av视频在线免费观看| 他把我摸到了高潮在线观看| 欧美最新免费一区二区三区 | av天堂中文字幕网| 国产午夜精品久久久久久一区二区三区 | 国产伦在线观看视频一区| 人妻夜夜爽99麻豆av| 日韩欧美精品v在线| 男女那种视频在线观看| av视频在线观看入口| 欧美乱妇无乱码| 国产欧美日韩一区二区精品| 欧美高清性xxxxhd video| 欧美日本视频| 国产精品综合久久久久久久免费| 丰满人妻一区二区三区视频av| 成人午夜高清在线视频| 如何舔出高潮| 亚洲无线观看免费| 国产爱豆传媒在线观看| 久久中文看片网| 欧美成人a在线观看| 久久久国产成人精品二区| 男女那种视频在线观看| 深夜a级毛片| 97热精品久久久久久| 免费人成在线观看视频色| av中文乱码字幕在线| 免费看美女性在线毛片视频| 最近最新中文字幕大全电影3| av在线蜜桃| 国产精品自产拍在线观看55亚洲| 国产在视频线在精品| 悠悠久久av| 露出奶头的视频| 人妻久久中文字幕网| 成人特级黄色片久久久久久久| АⅤ资源中文在线天堂| 成年女人毛片免费观看观看9| 小说图片视频综合网站| 中文字幕熟女人妻在线| av黄色大香蕉| 欧美日本亚洲视频在线播放| 午夜精品在线福利| 激情在线观看视频在线高清| 99在线人妻在线中文字幕| 日本黄色片子视频| 国产极品精品免费视频能看的| 成人特级av手机在线观看| 国产成人欧美在线观看| 精品一区二区三区视频在线观看免费| 国产精品女同一区二区软件 | 国产色婷婷99| 亚洲片人在线观看| 国产麻豆成人av免费视频| 两性午夜刺激爽爽歪歪视频在线观看| 国产精品免费一区二区三区在线| 中出人妻视频一区二区| 日韩免费av在线播放| 国产黄色小视频在线观看| 午夜久久久久精精品| 久久精品人妻少妇| 中国美女看黄片| 成人精品一区二区免费| 亚洲av.av天堂| 午夜激情欧美在线| 午夜两性在线视频| 欧美成人性av电影在线观看| 少妇的逼水好多| 3wmmmm亚洲av在线观看| 热99re8久久精品国产| 少妇高潮的动态图| 亚洲国产欧美人成| 久久人妻av系列| 99国产极品粉嫩在线观看| 久久天躁狠狠躁夜夜2o2o| 真人做人爱边吃奶动态| 久久99热这里只有精品18| 日韩 亚洲 欧美在线| 国产精品国产高清国产av| 亚洲18禁久久av| 国产成人欧美在线观看| 久久精品人妻少妇| 久久性视频一级片| 激情在线观看视频在线高清| 99国产综合亚洲精品| 精品人妻一区二区三区麻豆 | 亚洲中文日韩欧美视频| 国产精品,欧美在线| 国产亚洲欧美98| 日韩中文字幕欧美一区二区| 国产高清有码在线观看视频| 午夜日韩欧美国产| 国产精品一区二区三区四区久久| 国产v大片淫在线免费观看| 国内精品美女久久久久久| 搡老妇女老女人老熟妇| 国产精品野战在线观看| 美女黄网站色视频| 内地一区二区视频在线| 精品人妻视频免费看| 欧美成人一区二区免费高清观看| 91九色精品人成在线观看| 在线免费观看的www视频| 国产视频内射| 成人毛片a级毛片在线播放| 91在线精品国自产拍蜜月| 成人美女网站在线观看视频| 精华霜和精华液先用哪个| 1024手机看黄色片| 日韩精品中文字幕看吧| 嫩草影院精品99| 真实男女啪啪啪动态图| 国产主播在线观看一区二区| 又爽又黄无遮挡网站| 动漫黄色视频在线观看| 国产精品久久视频播放| 国产免费男女视频| 一个人免费在线观看的高清视频| 欧美一级a爱片免费观看看| 午夜福利欧美成人| 97超级碰碰碰精品色视频在线观看| 女同久久另类99精品国产91| 欧美激情在线99| a级一级毛片免费在线观看| 日韩欧美一区二区三区在线观看| 色综合欧美亚洲国产小说| 亚洲专区中文字幕在线| 国产欧美日韩一区二区精品| 在线天堂最新版资源| 一夜夜www| 欧美最黄视频在线播放免费| 香蕉av资源在线| 欧美丝袜亚洲另类 | 丰满人妻一区二区三区视频av| 男人狂女人下面高潮的视频| 亚洲av成人不卡在线观看播放网| 国产人妻一区二区三区在| 国产黄片美女视频| 国产黄色小视频在线观看| 可以在线观看毛片的网站| 精品国产三级普通话版| 蜜桃亚洲精品一区二区三区| 午夜福利在线在线| 简卡轻食公司| 国产午夜福利久久久久久| 制服丝袜大香蕉在线| 精品一区二区三区av网在线观看| 日本 av在线| 国产美女午夜福利| 欧美三级亚洲精品| 精品免费久久久久久久清纯| 美女被艹到高潮喷水动态| 亚洲片人在线观看| 国内精品久久久久久久电影| 国产一区二区三区视频了| 亚洲av第一区精品v没综合| 日本一本二区三区精品| 亚洲第一区二区三区不卡| 日韩欧美三级三区| 一边摸一边抽搐一进一小说| 欧美日韩亚洲国产一区二区在线观看| 最新在线观看一区二区三区| 99久久精品一区二区三区| 亚洲第一区二区三区不卡| 亚洲激情在线av| 老司机午夜十八禁免费视频| 人妻夜夜爽99麻豆av| 女人十人毛片免费观看3o分钟| 国产 一区 欧美 日韩| 午夜影院日韩av| 毛片女人毛片| 免费无遮挡裸体视频| 久久久精品欧美日韩精品| 久久国产精品人妻蜜桃| 亚洲片人在线观看| 一级黄片播放器| 亚洲国产高清在线一区二区三| 欧美日韩乱码在线| 亚洲中文日韩欧美视频| 麻豆国产97在线/欧美| 极品教师在线视频| 精品国产亚洲在线| 91在线精品国自产拍蜜月| 中文字幕av在线有码专区| 日韩欧美一区二区三区在线观看| 特大巨黑吊av在线直播| 午夜影院日韩av| 熟女人妻精品中文字幕| 夜夜看夜夜爽夜夜摸| 观看美女的网站| 国产欧美日韩精品一区二区| 精品午夜福利在线看| 99热这里只有精品一区| 亚洲成人精品中文字幕电影| 亚洲人成伊人成综合网2020| 一区二区三区高清视频在线| 午夜老司机福利剧场| 欧美+日韩+精品| 久久久久久国产a免费观看| 级片在线观看| 国产精品av视频在线免费观看| 午夜激情欧美在线| 好男人电影高清在线观看| 日本一二三区视频观看| 亚洲av二区三区四区| 免费看美女性在线毛片视频| 午夜日韩欧美国产| 成年女人永久免费观看视频| 看免费av毛片| 久久中文看片网| 亚洲国产精品久久男人天堂| 18禁黄网站禁片免费观看直播| 少妇人妻精品综合一区二区 | 99视频精品全部免费 在线| 亚洲国产精品成人综合色| 国产精品亚洲美女久久久| 亚洲精品粉嫩美女一区| 可以在线观看毛片的网站| 长腿黑丝高跟| 国产av麻豆久久久久久久| 久久久久久久久大av| 亚洲一区高清亚洲精品| 97超级碰碰碰精品色视频在线观看| 91九色精品人成在线观看| 丰满人妻一区二区三区视频av| 很黄的视频免费| 久久国产精品影院| 嫩草影院精品99| 国内精品久久久久精免费| 午夜福利欧美成人| 亚洲人成电影免费在线| 免费无遮挡裸体视频| 欧美日韩中文字幕国产精品一区二区三区| 老司机午夜十八禁免费视频| 国产精品亚洲一级av第二区| 亚洲狠狠婷婷综合久久图片| 级片在线观看| 亚洲自拍偷在线| 毛片女人毛片| 欧美日韩瑟瑟在线播放| 天堂动漫精品| 亚洲av电影不卡..在线观看| 久久久久久九九精品二区国产| 99国产精品一区二区蜜桃av| 丁香六月欧美| 热99在线观看视频| 午夜激情福利司机影院| 国产视频一区二区在线看| 乱人视频在线观看| 国产又黄又爽又无遮挡在线| 午夜福利18| 久9热在线精品视频| 欧美三级亚洲精品| 简卡轻食公司| av天堂在线播放| 夜夜夜夜夜久久久久| 午夜福利18| 亚洲第一欧美日韩一区二区三区| 久久精品夜夜夜夜夜久久蜜豆| 99热这里只有精品一区| 国产精品免费一区二区三区在线| 免费在线观看日本一区| 国产一区二区亚洲精品在线观看| 国产亚洲精品av在线| 偷拍熟女少妇极品色| 搡老熟女国产l中国老女人| 免费观看人在逋| 人妻制服诱惑在线中文字幕| 69av精品久久久久久| 两性午夜刺激爽爽歪歪视频在线观看| 搡老妇女老女人老熟妇| 亚洲av二区三区四区| 久久久久国内视频| 国产极品精品免费视频能看的| 1024手机看黄色片| 午夜福利在线在线| 特大巨黑吊av在线直播| 亚洲av.av天堂| 精品久久久久久久久久免费视频| 精品久久国产蜜桃| 国产亚洲精品av在线| 天美传媒精品一区二区| 波野结衣二区三区在线| 午夜福利视频1000在线观看| 国产高清视频在线播放一区| 夜夜夜夜夜久久久久| 美女免费视频网站| 国产成人啪精品午夜网站| 热99在线观看视频| 亚洲人成网站高清观看| 成人特级av手机在线观看| 搡老熟女国产l中国老女人| 亚洲av第一区精品v没综合| 亚洲色图av天堂| a在线观看视频网站| 身体一侧抽搐| 亚洲欧美激情综合另类| 久久精品国产自在天天线| 在线播放国产精品三级| 亚洲自偷自拍三级| 真人做人爱边吃奶动态| 亚洲片人在线观看| 免费黄网站久久成人精品 | 天天躁日日操中文字幕| 欧美高清性xxxxhd video| 成人一区二区视频在线观看| 婷婷六月久久综合丁香| 两人在一起打扑克的视频| 日韩欧美 国产精品| 色吧在线观看| 中出人妻视频一区二区| 亚洲精品亚洲一区二区| 成人无遮挡网站| 国产精品乱码一区二三区的特点| 综合色av麻豆| 精品国内亚洲2022精品成人| 我的女老师完整版在线观看| 日韩欧美在线二视频| 午夜福利欧美成人| 首页视频小说图片口味搜索| 欧美一区二区国产精品久久精品| 亚洲av成人精品一区久久| 色综合亚洲欧美另类图片| 蜜桃久久精品国产亚洲av| 日韩欧美精品v在线| 老司机午夜十八禁免费视频| 午夜福利高清视频| 精品欧美国产一区二区三| 一级黄色大片毛片| 久久6这里有精品| 好看av亚洲va欧美ⅴa在| 哪里可以看免费的av片| 久久精品国产亚洲av天美| 97人妻精品一区二区三区麻豆| 成人三级黄色视频| 国产亚洲精品久久久com| 国产精品98久久久久久宅男小说| av视频在线观看入口| 欧美绝顶高潮抽搐喷水| 国产一区二区亚洲精品在线观看| 国产aⅴ精品一区二区三区波| 国内揄拍国产精品人妻在线| 免费看日本二区| 日本与韩国留学比较| 精品无人区乱码1区二区| 亚洲成人久久性| 国产欧美日韩一区二区精品| 日韩中文字幕欧美一区二区| 最后的刺客免费高清国语| 亚洲专区国产一区二区| 亚洲国产精品成人综合色| 久久久久国产精品人妻aⅴ院| 一夜夜www| 人妻制服诱惑在线中文字幕| 一个人免费在线观看电影| 亚洲一区二区三区不卡视频| av在线天堂中文字幕| 99久久99久久久精品蜜桃| 久久久久久大精品| 小蜜桃在线观看免费完整版高清| 国产一区二区三区在线臀色熟女| 国语自产精品视频在线第100页| 成年人黄色毛片网站| 免费看a级黄色片| 亚洲第一电影网av| 色哟哟·www| 欧美日韩瑟瑟在线播放| 一本一本综合久久| 亚洲精品日韩av片在线观看| 99热这里只有是精品50| 偷拍熟女少妇极品色| 在线观看免费视频日本深夜| 免费在线观看亚洲国产| 精品一区二区免费观看| 成人精品一区二区免费| 嫩草影院入口| 成人国产一区最新在线观看| 日本三级黄在线观看| 国产一区二区激情短视频| 欧美激情久久久久久爽电影| 亚洲国产色片| 少妇丰满av| 免费人成在线观看视频色| а√天堂www在线а√下载| 中文亚洲av片在线观看爽| 日本撒尿小便嘘嘘汇集6| 国产精品久久久久久精品电影| 成人精品一区二区免费| 久久天躁狠狠躁夜夜2o2o| 嫩草影视91久久| 成熟少妇高潮喷水视频| 麻豆国产97在线/欧美| 日韩精品中文字幕看吧| 成人性生交大片免费视频hd| 男女下面进入的视频免费午夜| 成人一区二区视频在线观看| 91久久精品国产一区二区成人| 一进一出抽搐gif免费好疼| 一卡2卡三卡四卡精品乱码亚洲| 九色成人免费人妻av| 国产毛片a区久久久久| 成人性生交大片免费视频hd| 久久精品夜夜夜夜夜久久蜜豆| 国产欧美日韩精品一区二区| 老鸭窝网址在线观看| 91字幕亚洲| 国内久久婷婷六月综合欲色啪| 99在线人妻在线中文字幕| 国产精品国产高清国产av| 亚洲人成电影免费在线| 国产精品av视频在线免费观看| 午夜视频国产福利| 国产精品久久视频播放| 亚洲真实伦在线观看| 国产大屁股一区二区在线视频| 噜噜噜噜噜久久久久久91| 欧美区成人在线视频| 桃色一区二区三区在线观看| 亚洲av美国av| 在线十欧美十亚洲十日本专区| 国产淫片久久久久久久久 | 日本 欧美在线| 波多野结衣高清无吗| 又爽又黄a免费视频| 99国产综合亚洲精品| 亚洲精品在线美女| 老司机福利观看| 琪琪午夜伦伦电影理论片6080| 免费av不卡在线播放| 日本撒尿小便嘘嘘汇集6| 黄片小视频在线播放| 国产探花极品一区二区| 一本一本综合久久| 久久精品久久久久久噜噜老黄 | 国产爱豆传媒在线观看| 日本在线视频免费播放| 露出奶头的视频| 国产精品久久久久久久电影| 亚洲精品456在线播放app | 1024手机看黄色片| avwww免费| 免费av观看视频| 男插女下体视频免费在线播放| 久久国产乱子免费精品| 丁香六月欧美| 最后的刺客免费高清国语| 深夜a级毛片| 窝窝影院91人妻| 中国美女看黄片| 精品久久久久久,| 欧美潮喷喷水| 久久午夜福利片| 久久国产乱子伦精品免费另类| 免费观看精品视频网站| 欧美黑人巨大hd| 日本与韩国留学比较| 免费观看精品视频网站| 性插视频无遮挡在线免费观看| 亚洲真实伦在线观看| 啦啦啦观看免费观看视频高清| 欧美黑人巨大hd| 亚洲乱码一区二区免费版| 国产探花在线观看一区二区| 亚洲黑人精品在线| 免费看a级黄色片| 国产探花在线观看一区二区| 最近最新免费中文字幕在线| 国产男靠女视频免费网站| 天堂网av新在线| 性插视频无遮挡在线免费观看| 亚洲乱码一区二区免费版| 窝窝影院91人妻| 高清毛片免费观看视频网站| 五月伊人婷婷丁香| 日韩欧美在线乱码|