張蓋倫 陸越
“基本上,只要人類交流和工作過程中涉及到語言和文字的地方,自然語言處理技術都有可能發(fā)揮作用?!比f小軍說,在科研論文寫作過程中,可以借助自然語言處理技術幫助推薦參考文獻,并自動生成related work等章節(jié)的文字;業(yè)界也有基于自然語言處理技術自動編撰圖書的嘗試。“我個人也接觸到很多很有意思也很有挑戰(zhàn)的應用需求,但可惜的是不少需求都無法基于目前的自然語言處理技術進行實現(xiàn)。自然語言處理技術還需要進一步地發(fā)展和突破,我相信在未來將有更多的用武之地?!?/p>
中國知網常務副總經理張宏偉長期關注自然語言處理,大數(shù)據(jù)和人工智能方面的應用研究。他告訴筆者,在數(shù)字出版和知識服務的全鏈條中,你都能看到人工智能和機器學習技術的身影。
人工智能可以對數(shù)字出版的選題策劃、協(xié)同撰稿、內容編審進行賦能。大數(shù)據(jù)標注機器人則能對海量文獻信息資源進行OCR文字識別,智能版面分析,知識元抽取,自動分類,自動標引主題,自動生成摘要,自動翻譯,自動標注引用和參考文獻。
人們熟悉的論文抄襲檢測,同樣需要智能技術。它不是簡單的語句重復檢測,而是要對文本內容(包括圖片、公式、表格等)進行語義索引,“看你在思想上有沒有抄襲別人”。如果存在不同語言之間的互抄,還需要動用“機器翻譯”。張宏偉表示,初級的語義抄襲可以由機器揪出來,不過,如果足夠有“心機”,完全用自己的語言“洗”了別人的思想,對人工智能的技術要求一下就提高了許多。目前已有利用神經網絡模型對文本內容構建高維度語義索引等新技術出現(xiàn),不管是中文還是英文,一律映射到一個統(tǒng)一的語義空間,實現(xiàn)真正基于內容理解的語義級全文比對檢索。
知識庫是智慧社會的基礎設施
至于在學術研究中必不可少的資料索引,看似簡單,也仍然具有技術含量。
張宏偉說,數(shù)字出版和數(shù)字圖書館的資源類型非常豐富,有大量文本、圖像和音視頻數(shù)據(jù),且數(shù)據(jù)是非結構化的,若想對其進行深度的挖掘利用,難度不小。
深度學習等統(tǒng)計方法嚴重依賴于大樣本數(shù)據(jù),然而,現(xiàn)實世界中,很多實際問題僅僅依靠統(tǒng)計方法是無法解決的,這就需要建立專門的計算機能理解的知識庫,實現(xiàn)真正的人工智能。但構建知識庫,本身是一項極其艱難且耗時漫長的工作。畢竟,機器和人對知識的理解方式大相徑庭。
張宏偉說,像知網這樣的機構正在致力于深度整合全球知識信息資源,建設世界知識大數(shù)據(jù)。也在讓文本文獻碎片化、網絡化,依據(jù)知識使用的場景,采用半自動知識抽取算法來構建面向垂直領域的知識圖譜。2019年知網陸續(xù)推出了一些基于知識圖譜的行業(yè)智慧應用產品,如醫(yī)療領域的臨床智能診斷,法律領域的智能量刑判案等。
“不過,我們在這些領域剛剛起步。我個人覺得,還是要少一點浮躁,踏踏實實做一些基礎性的工作。沒有知識的支撐,就談不上‘智慧?!痹趶埡陚タ磥?,知識庫和人工智能,本身就是互相促進、相互賦能的關系。構建知識庫需要人工智能,而人工智能的發(fā)展,也離不開知識庫。怎么將人類的知識庫轉換成計算機能理解的知識庫是人工智能的核心問題,面臨許多困難,需要學術界和產業(yè)界共同努力。