袁堂軍
【摘要】人工智能和大數(shù)據(jù)分析技術(shù)的發(fā)展為社會(huì)科學(xué)研究提供了新的技術(shù)方法和理念,同時(shí)也帶來(lái)了新的挑戰(zhàn)。本文從人工智能技術(shù)在我國(guó)社會(huì)科學(xué)研究中的運(yùn)用現(xiàn)狀出發(fā),分析了未來(lái)人工智能技術(shù)背景下社會(huì)科學(xué)研究范式的多元化發(fā)展和文理融合發(fā)展的趨勢(shì)。強(qiáng)調(diào)推動(dòng)我國(guó)可計(jì)算社會(huì)科學(xué)研究發(fā)展需要避免的幾個(gè)誤區(qū),比如偏重相關(guān)關(guān)系的研究而忽略對(duì)因果關(guān)系的探索,受樣本數(shù)據(jù)偏差的影響而陷入“統(tǒng)計(jì)的胡說(shuō)”現(xiàn)象,以及過(guò)度依賴(lài)于算法而導(dǎo)致結(jié)果偏差放大的現(xiàn)象等。隨著文理融合時(shí)代的到來(lái),統(tǒng)計(jì)學(xué)和數(shù)據(jù)處理相關(guān)的計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的跨學(xué)科普及至關(guān)重要,需要盡早開(kāi)展相關(guān)的交叉學(xué)科的設(shè)置,積極提供網(wǎng)絡(luò)教育等相關(guān)知識(shí)普及的公共品。
【關(guān)鍵詞】人工智能? 大數(shù)據(jù)? 社會(huì)科學(xué)? 統(tǒng)計(jì)? 計(jì)算機(jī)語(yǔ)言
【中圖分類(lèi)號(hào)】C3? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻(xiàn)標(biāo)識(shí)碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2019.20.005
隨著人類(lèi)社會(huì)的進(jìn)步和科技的發(fā)展,科學(xué)研究的方法也在不斷演進(jìn),從早期以亞里士多德的天動(dòng)學(xué)說(shuō)為代表的自然哲學(xué)研究手法,逐步演變到以牛頓為代表的對(duì)自然哲學(xué)的數(shù)學(xué)原理的探索,進(jìn)一步發(fā)展到如今基于數(shù)值計(jì)算和模擬仿真的計(jì)算科學(xué)時(shí)代。而進(jìn)入21世紀(jì),人工智能技術(shù)(Artificial Intelligence)的發(fā)展,揭開(kāi)了被稱(chēng)為第4代科學(xué)——數(shù)據(jù)集約型(大數(shù)據(jù))科學(xué)發(fā)展的序幕。[1]
傳統(tǒng)的科學(xué)研究方法主要是基于研究人員通過(guò)觀察和實(shí)驗(yàn)提出假說(shuō),然后通過(guò)反復(fù)試錯(cuò)驗(yàn)證來(lái)實(shí)現(xiàn)對(duì)理論的探索,是先提出理論然后進(jìn)行驗(yàn)證的過(guò)程。而人工智能背景下研究的特征則體現(xiàn)在利用相對(duì)有限的小規(guī)模的觀察數(shù)據(jù),然后通過(guò)不同場(chǎng)景假設(shè)和模擬仿真技術(shù)來(lái)獲取更多數(shù)據(jù)——即深度學(xué)習(xí),最終完成新理論的發(fā)現(xiàn),可以稱(chēng)之為模擬仿真驅(qū)動(dòng)型科學(xué)研究,是一個(gè)從數(shù)據(jù)中去發(fā)現(xiàn)規(guī)律的過(guò)程。
人工智能的發(fā)展的基礎(chǔ)是計(jì)算機(jī)科學(xué)和認(rèn)知科學(xué)的發(fā)展,然而應(yīng)用人工智能的研究領(lǐng)域卻不僅僅局限于計(jì)算機(jī)科學(xué),而是跨界于各個(gè)自然科學(xué)和社會(huì)科學(xué)的領(lǐng)域。在我國(guó),人工智能在科學(xué)研究中的應(yīng)用也越來(lái)越普遍,主要集中于計(jì)算機(jī)科學(xué)、工程和自動(dòng)控制系統(tǒng)領(lǐng)域?!吨袊?guó)人工智能發(fā)展報(bào)告2018》中已經(jīng)顯示中國(guó)目前是人工智能論文產(chǎn)出和人工智能專(zhuān)利布局最多的國(guó)家。在過(guò)去的20年里,中國(guó)人工智能領(lǐng)域的論文產(chǎn)出全球占比從4.26%上升到了27.68%,按照國(guó)際經(jīng)濟(jì)學(xué)對(duì)比較優(yōu)勢(shì)的定義,[2]中國(guó)人工智能領(lǐng)域的論文產(chǎn)出全球占比已經(jīng)大于中國(guó)GDP的全球占比了,因此中國(guó)在人工智能的研究領(lǐng)域已經(jīng)屬于具有比較優(yōu)勢(shì)的國(guó)家了。這一定程度上是得益于現(xiàn)今人工智能算法的進(jìn)化很大程度上以大數(shù)據(jù)為基礎(chǔ),而中國(guó)龐大的人口規(guī)模是世界上最好的天然的大數(shù)據(jù)試驗(yàn)場(chǎng)。
與此同時(shí),隨著微觀數(shù)據(jù)的可獲得性的增加,社會(huì)科學(xué)研究領(lǐng)域在最近的20年來(lái)越來(lái)越趨向于量化研究,其中包括實(shí)證研究和反事實(shí)分析。以經(jīng)濟(jì)學(xué)為例,在經(jīng)濟(jì)學(xué)領(lǐng)域備受關(guān)注的約翰·貝茨·克拉克獎(jiǎng),該獎(jiǎng)項(xiàng)60%的獲獎(jiǎng)?wù)叨极@得了諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)。在1995年之前,僅有20%的獲獎(jiǎng)?wù)叩牡某晒墙⒃跀?shù)據(jù)基礎(chǔ)上的實(shí)證研究(80%是理論研究成果),而在過(guò)去的15年內(nèi),實(shí)證研究的獲獎(jiǎng)比例上升到了70%。因此,可以預(yù)見(jiàn)人工智能中的大數(shù)據(jù)和大數(shù)據(jù)技術(shù)在社會(huì)科學(xué)研究領(lǐng)域中的運(yùn)用將會(huì)越來(lái)越普遍,而成為社會(huì)科學(xué)研究領(lǐng)域的一個(gè)重要趨勢(shì)。
人工智能的技術(shù)為社會(huì)科學(xué)領(lǐng)域的研究者們帶來(lái)了前所未有的大數(shù)據(jù)的同時(shí),也為社會(huì)科學(xué)研究提供了新的技術(shù)和方法,甚至是新的研究理念。這些對(duì)社會(huì)科學(xué)領(lǐng)域的研究而言無(wú)疑是巨大的機(jī)遇。但需要注意的是,人工智能技術(shù)雖然使得社會(huì)科學(xué)與自然科學(xué)研究在方法上形成了一定的共通性,但是這兩類(lèi)研究之間仍然具有幾點(diǎn)本質(zhì)的不同,如何合理而有效地利用人工智能技術(shù),對(duì)社會(huì)科學(xué)研究者們提出了一些特殊的挑戰(zhàn)性問(wèn)題。首先,社會(huì)科學(xué)的主要研究對(duì)象是人和人類(lèi)的行為,存在倫理限制的技術(shù)手段無(wú)法在人類(lèi)活動(dòng)中實(shí)現(xiàn)完全實(shí)驗(yàn)環(huán)境,因此人工智能所帶來(lái)的大數(shù)據(jù)在社會(huì)科學(xué)領(lǐng)域很難真正實(shí)現(xiàn)理想中的總體而非樣本的情境。其次,人工智能可以協(xié)助研究者們從更為微觀的層面對(duì)社會(huì)科學(xué)問(wèn)題進(jìn)行分析,在獲得微觀個(gè)體的精確行為的同時(shí),也對(duì)研究者進(jìn)行宏觀規(guī)律總結(jié)帶來(lái)了挑戰(zhàn)。人類(lèi)微觀活動(dòng)之間的交互作用是非常復(fù)雜的,因此宏觀加總的難度也隨著數(shù)據(jù)的細(xì)化而成幾何級(jí)數(shù)式的增加。最后,我們對(duì)社會(huì)科學(xué)的研究成果的應(yīng)用一般不是具體的產(chǎn)品或者服務(wù),而是一些戰(zhàn)略性的政策,比如說(shuō)企業(yè)的營(yíng)銷(xiāo)策略,激勵(lì)機(jī)制,政府的政策方針,等等,因此,社會(huì)科學(xué)的研究成果的影響面會(huì)比較大,在分析過(guò)程中的稍許偏差很可能會(huì)帶來(lái)巨大的社會(huì)影響。
基于上述背景,本文嘗試從社會(huì)科學(xué)領(lǐng)域利用人工智能的現(xiàn)狀出發(fā),闡述人工智能為社會(huì)科學(xué)研究帶來(lái)研究范式的多元化以及研究技術(shù)和方法革新,并進(jìn)一步深入探討人工智能給社會(huì)科學(xué)研究所帶來(lái)的挑戰(zhàn)以及如何應(yīng)對(duì)的策略和建議。
社會(huì)科學(xué)領(lǐng)域利用人工智能研究的現(xiàn)狀
相比自然科學(xué),人工智能在社會(huì)科學(xué)領(lǐng)域中的應(yīng)用尚處在比較基礎(chǔ)的階段。羅晨和沈浩(2018)根據(jù)美國(guó)科學(xué)情報(bào)研究所(Institute for Scientific Information, ISI)編制的Web of Science(WoS)引文數(shù)據(jù)庫(kù),選取了以人工智能為主題的社會(huì)科學(xué)領(lǐng)域的發(fā)表論文和會(huì)議論文,發(fā)現(xiàn)社會(huì)科學(xué)涉及到人工智能的研究最早可以追溯到1975年。然而在最開(kāi)始的10年,人工智能相關(guān)的社會(huì)科學(xué)領(lǐng)域每年的論文數(shù)量?jī)H在個(gè)位數(shù)徘徊,直到最近的10年,這一數(shù)字出現(xiàn)了飛速地增長(zhǎng),每年都有超過(guò)百篇的相關(guān)論文,其中2017年和2018年,分別超過(guò)了200篇。雖然中國(guó)在工程和自然科學(xué)類(lèi)的人工智能方面的研究數(shù)量領(lǐng)先于世界各國(guó),但是在社會(huì)科學(xué)領(lǐng)域,我們對(duì)人工智能方面的應(yīng)用還是與發(fā)達(dá)國(guó)家(尤其是美國(guó))有一定的差距,截止于2018年,社會(huì)科學(xué)領(lǐng)域人工智能相關(guān)的文獻(xiàn)中國(guó)的數(shù)量還不到美國(guó)的四分之一。
社會(huì)科學(xué)是研究人類(lèi)社會(huì)種種現(xiàn)象的各學(xué)科的總體或者其中任一學(xué)科,它包括商業(yè)與經(jīng)濟(jì)、政治學(xué)、法學(xué)、倫理學(xué)、歷史學(xué)、社會(huì)學(xué)、心理學(xué)、教育與教育研究、運(yùn)籌學(xué)與管理科學(xué)等。社會(huì)科學(xué)的不同子科學(xué)涉及人工智能的研究深度和廣度都各不相同。截至2018年,我國(guó)人工智能在社會(huì)科學(xué)子學(xué)科中應(yīng)用最多的是商業(yè)與經(jīng)濟(jì)方向,共有515篇相關(guān)論文;而論及人工智能的應(yīng)用廣度,即在人工智能研究領(lǐng)域的某社會(huì)科學(xué)子學(xué)科與其他學(xué)科的關(guān)聯(lián)度,心理學(xué)的度數(shù)中心度則是最高的。其他涉及人工智能較多的社會(huì)科學(xué)子科學(xué)分別是運(yùn)籌學(xué)與管理科學(xué)、教育與教育研究,以及其他社會(huì)科學(xué)子學(xué)科(跨學(xué)科、倫理學(xué)和社會(huì)科學(xué)史)。表1表示了應(yīng)用人工智能最多(深度)的五個(gè)社會(huì)科學(xué)子學(xué)科,以及他們相應(yīng)的廣度指標(biāo)(社會(huì)網(wǎng)絡(luò)分析的度數(shù)中心度[3])。
從表1中我們可以看到,社會(huì)科學(xué)領(lǐng)域中涉及到人工智能較多的這些子學(xué)科,也是近年來(lái)研究數(shù)量化趨勢(shì)比較明顯的社會(huì)科學(xué)子學(xué)科。人工智能的跨學(xué)科特征在社會(huì)科學(xué)研究中的體現(xiàn)是十分明顯的,毫無(wú)疑問(wèn)未來(lái)將會(huì)是文理融合的時(shí)代。
人工智能與社會(huì)科學(xué)研究范式的多元化
如前言所述,人工智能在社會(huì)科學(xué)研究中的引入使得社會(huì)科學(xué)的研究方法更為多元化。根據(jù)米加寧等(2018)的研究,可以把社會(huì)科學(xué)的研究范式歸納分為四種。
一是定性分析,即通過(guò)類(lèi)比和推理歸納概括研究對(duì)象之間的關(guān)系,而現(xiàn)代的社會(huì)科學(xué)的定性分析就是通過(guò)理論建模,解釋研究對(duì)象之間的復(fù)雜邏輯關(guān)系,對(duì)應(yīng)于自然哲學(xué)研究方法。
二是定量分析,通過(guò)“假設(shè)-檢驗(yàn)”,利用人工采集的數(shù)據(jù)論證研究對(duì)象之間的關(guān)系。在社會(huì)科學(xué)中因果關(guān)系的確認(rèn)是研究者們極為關(guān)注的,但長(zhǎng)期以來(lái)由于數(shù)據(jù)的局限性,同時(shí)社會(huì)科學(xué)的研究對(duì)象的構(gòu)成要素復(fù)雜多變,因此在社會(huì)科學(xué)研究中大量的定量分析常常存在由于樣本的選擇而帶來(lái)的偏差問(wèn)題,對(duì)應(yīng)于數(shù)學(xué)原理探索方法。
三是計(jì)算實(shí)驗(yàn)的仿真研究,其中最具代表性的就是經(jīng)濟(jì)學(xué)領(lǐng)域中使用的可計(jì)算一般均衡分析。它是在通過(guò)復(fù)雜的數(shù)學(xué)推導(dǎo)的定性分析基礎(chǔ)上,利用有限的真實(shí)數(shù)據(jù)對(duì)模型進(jìn)行校準(zhǔn),當(dāng)復(fù)雜模型被證實(shí)有一定程度的有效性之后,通過(guò)模擬現(xiàn)實(shí)不存在的模擬數(shù)據(jù),對(duì)研究對(duì)象進(jìn)行反事實(shí)分析來(lái)完成的。最近10年,計(jì)算實(shí)驗(yàn)的仿真研究方法在社會(huì)科學(xué)研究領(lǐng)域越來(lái)越到受影響力大的專(zhuān)業(yè)學(xué)術(shù)期刊的關(guān)注,其原因歸結(jié)于這類(lèi)研究方法能夠較好地克服定性分析和定量分析的局限性。
四是基于人工智能的數(shù)據(jù)集約型研究?,F(xiàn)在的大數(shù)據(jù)研究從數(shù)據(jù)獲取、建模到分析預(yù)測(cè)幾乎都可以由計(jì)算機(jī)來(lái)完成。其數(shù)據(jù)上的優(yōu)勢(shì)是毋庸置疑的,研究的效率也要遠(yuǎn)勝于其他研究方法;然而這類(lèi)研究方法的重點(diǎn)卻應(yīng)該鎖定在理論建模分析中。如果忽略甚至放棄了理論建模,那么就可能造成對(duì)研究對(duì)象之間的因果關(guān)系以及其他復(fù)雜邏輯都不能準(zhǔn)確判定,研究結(jié)果也難以給與合理解釋?zhuān)虼耍仨毞磸?fù)強(qiáng)調(diào)的是,一旦大數(shù)據(jù)的樣本存在偏差或者算法出現(xiàn)偏誤,研究結(jié)果也將會(huì)存在很大的誤差。
人工智能的發(fā)展為社會(huì)科學(xué)的研究帶來(lái)了過(guò)去無(wú)法想象的大數(shù)據(jù)、新算法,和超強(qiáng)的計(jì)算能力,因此在未來(lái)社會(huì)科學(xué)研究的范式必然向多元性發(fā)展。
首先,在研究問(wèn)題的提出方面,大數(shù)據(jù)的研究范式可以驅(qū)動(dòng)研究者們提出新的研究問(wèn)題和研究關(guān)注點(diǎn)。到目前為止大多數(shù)人工智能所提供的大數(shù)據(jù)是被動(dòng)收集的,受研究熱點(diǎn)或傳統(tǒng)研究方向的主觀影響較小,因此,這些大數(shù)據(jù)無(wú)論是深度還是廣度都可以給研究者們帶來(lái)新的研究問(wèn)題的啟發(fā),可以幫助研究者跳出必須基于對(duì)先行文獻(xiàn)綜述的傳統(tǒng)的框架,而對(duì)學(xué)科重要問(wèn)題展開(kāi)拓展研究的空間變大。
其次,無(wú)論是數(shù)據(jù)的獲得、整合和分析,人工智能的運(yùn)用都會(huì)大幅度提高效率,大數(shù)據(jù)分析,可以讓研究者能夠更加順利地觀察和捕捉到研究對(duì)象之間的邏輯關(guān)系。
再次,由于“因果關(guān)系是人類(lèi)理性行為與活動(dòng)的基本依據(jù),人類(lèi)理性本身不可能否定因果關(guān)系”(王天思,2016)。社會(huì)科學(xué)傳統(tǒng)的理論建模定性分析可以獲得研究對(duì)象之間的理論因果關(guān)系,在此基礎(chǔ)上,如能充分利用人工智能的先進(jìn)算法,毫無(wú)疑問(wèn)可以使得理論建模的假設(shè)大幅度減少,模型的復(fù)雜程度可以得到大幅度提高,仿真程度也會(huì)變得更高和更好。
最后,研究者們可以根據(jù)理論模型的定性分析,利用人工智能進(jìn)行進(jìn)一步的大數(shù)據(jù)收集和整合,實(shí)現(xiàn)對(duì)理論研究結(jié)果進(jìn)行準(zhǔn)實(shí)驗(yàn)性的定量分析。在社會(huì)科學(xué)領(lǐng)域的實(shí)證分析中,變量的內(nèi)生性問(wèn)題,遺漏變量問(wèn)題以及樣本選擇性偏差問(wèn)題是困擾研究者能否作出準(zhǔn)確因果判定的關(guān)鍵原因。人工智能所帶來(lái)的多維度的大數(shù)據(jù)一般能很好的解決遺漏變量問(wèn)題,降低樣本選擇性偏差的概率,同時(shí)如果輔以在大數(shù)據(jù)采集和挖掘前的準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)來(lái)解決變量?jī)?nèi)生性問(wèn)題,那么社會(huì)科學(xué)的定量研究的說(shuō)明力將會(huì)更強(qiáng)。
如上所述,研究范式的多元化的目標(biāo)和趨勢(shì),是需要既能克服傳統(tǒng)研究范式的數(shù)據(jù)劣勢(shì),又能克服完全給予數(shù)據(jù)科學(xué)的大數(shù)據(jù)研究范式的理論解釋力度不足的問(wèn)題。
可計(jì)算社會(huì)科學(xué)研究的發(fā)展
人工智能的運(yùn)用對(duì)社會(huì)科學(xué)的研究技術(shù)和方法帶來(lái)巨大的影響,推動(dòng)了被稱(chēng)為可計(jì)算社會(huì)科學(xué)研究領(lǐng)域的發(fā)展。主要體現(xiàn)在突破大數(shù)據(jù)技術(shù)突破數(shù)據(jù)瓶頸,提高分析效率以及能夠?qū)崿F(xiàn)宏觀研究的微觀支持等方面。
大數(shù)據(jù)技術(shù)(數(shù)據(jù)采集挖掘,數(shù)據(jù)儲(chǔ)存整合和數(shù)據(jù)分析)。人工智能為社會(huì)科學(xué)研究提供了諸多新的分析技術(shù),其中最具代表性的就是大數(shù)據(jù)技術(shù),這一技術(shù)徹底改變了社會(huì)科學(xué)研究中數(shù)據(jù)難獲得的重大問(wèn)題,由于數(shù)據(jù)量的激增,傳統(tǒng)的社會(huì)科學(xué)研究中的數(shù)據(jù)整合和簡(jiǎn)單數(shù)據(jù)分析的方法也隨之發(fā)生巨大的變化。正如Einav和Hendry(2013)所指出,大數(shù)據(jù)具有四個(gè)主要的特征,即數(shù)據(jù)體量大,生成速度快,種類(lèi)多樣,以及價(jià)值密度低。大數(shù)據(jù)的運(yùn)用與傳統(tǒng)的數(shù)據(jù)的處理方法將發(fā)生巨大的變化。
第一是數(shù)據(jù)的實(shí)時(shí)可得性。傳統(tǒng)的數(shù)據(jù)通常是人工采集的,并且是為了社會(huì)科學(xué)研究某個(gè)特定“假設(shè)-檢驗(yàn)”為目的而收集的,通常具有較嚴(yán)重的滯后性。數(shù)據(jù)的實(shí)時(shí)可得性為社會(huì)科學(xué)研究中的預(yù)測(cè)提供了良好的基礎(chǔ)。盡管數(shù)據(jù)的時(shí)效性稍差對(duì)揭示基于歷史過(guò)程的社會(huì)科學(xué)領(lǐng)域的一般規(guī)律不會(huì)產(chǎn)生較大的影響,但是對(duì)于利用這個(gè)一般規(guī)律來(lái)對(duì)未來(lái)進(jìn)行預(yù)測(cè)的時(shí)候,數(shù)據(jù)的實(shí)時(shí)性對(duì)預(yù)測(cè)結(jié)果的準(zhǔn)確度而言就是至關(guān)重要的了。
第二是數(shù)據(jù)量的巨大。伴隨數(shù)據(jù)量的巨大化所帶來(lái)的多維度數(shù)據(jù)一方面在為研究者提供更多信息的同時(shí),也讓研究者在使用數(shù)據(jù)整合和分析的統(tǒng)計(jì)學(xué)工具方面也會(huì)隨之發(fā)生質(zhì)變。處理海量數(shù)據(jù)將會(huì)更加依賴(lài)高效的計(jì)算機(jī)算法和云計(jì)算。
第三是數(shù)據(jù)的結(jié)構(gòu)多元性。傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu)一般不是數(shù)值就是文本,而大數(shù)據(jù)的數(shù)據(jù)來(lái)源更加多樣化,可能是傳統(tǒng)的數(shù)值或文本,也可能是圖片、音頻,甚至是視頻。比如在經(jīng)濟(jì)學(xué)中常用的用來(lái)估算當(dāng)?shù)亟?jīng)濟(jì)發(fā)展的衛(wèi)星燈光數(shù)據(jù)的原始格式就是圖片格式。這意味著傳統(tǒng)的數(shù)據(jù)分析方法就不再適用,數(shù)據(jù)整合的第一步是如何把不同數(shù)據(jù)格式的數(shù)據(jù)進(jìn)行量化處理,轉(zhuǎn)化成社會(huì)科學(xué)研究可以直接利用的數(shù)據(jù)形式,這也是需要新的算法和計(jì)算機(jī)的運(yùn)算能力。
第四是數(shù)據(jù)挖掘、儲(chǔ)存和分析的技術(shù)的更新速度會(huì)大幅度增加。當(dāng)數(shù)據(jù)的規(guī)模越來(lái)越大,數(shù)據(jù)庫(kù)、并行計(jì)算、云計(jì)算、機(jī)器學(xué)習(xí)等技術(shù)都會(huì)成為社會(huì)科學(xué)研究的中間步驟。
計(jì)算模型+數(shù)據(jù)校準(zhǔn)分析的算法和數(shù)據(jù)輔助。在社會(huì)科學(xué)領(lǐng)域,研究者們所探究的研究對(duì)象的因果關(guān)系不會(huì)完全被大數(shù)據(jù)中的相關(guān)關(guān)系完全取代。在某些規(guī)范(normative)研究中,人工智能所帶來(lái)的高效可靠的相關(guān)關(guān)系確實(shí)已經(jīng)足夠進(jìn)行一些預(yù)測(cè)分析,并且可以為政策制定者提供很好的借鑒和支持。然而實(shí)證(positive)研究是不可能止步于相關(guān)關(guān)系的,因果關(guān)系才能是社會(huì)科學(xué)研究者們追尋人類(lèi)和社會(huì)發(fā)展規(guī)律的本源。人工智能以及人工智能所帶來(lái)的大數(shù)據(jù)不應(yīng)該成為因果關(guān)系的阻礙,理想的結(jié)果是“大數(shù)據(jù)會(huì)成為因果分析的強(qiáng)大手段”(劉濤雄、尹德才,2017)。
人工智能的算法能夠大大提高社會(huì)科學(xué)研究的分析效率,研究者們?cè)诮⒗碚撃P偷臅r(shí)候,不需要由于傳統(tǒng)的計(jì)算能力問(wèn)題而對(duì)模型進(jìn)行各種假設(shè)限制,這使得模型能更好地對(duì)真實(shí)世界進(jìn)行模擬。其實(shí)在人工智能涉足社會(huì)科學(xué)研究領(lǐng)域之前,經(jīng)濟(jì)學(xué)就已經(jīng)使用了計(jì)算一般均衡模型取代傳統(tǒng)的理論模型來(lái)探討能源和環(huán)境等問(wèn)題。
計(jì)算模型在自然科學(xué)領(lǐng)域早已被廣泛應(yīng)用,比如物理學(xué),幾乎所有的理論物理研究都是建立在計(jì)算模型的基礎(chǔ)上。然而計(jì)算模型在社會(huì)科學(xué)領(lǐng)域雖然被應(yīng)用的時(shí)間不短,但是始終沒(méi)有實(shí)現(xiàn)質(zhì)的飛躍,其根本原因就是計(jì)算模型在校準(zhǔn)時(shí)所需要的數(shù)據(jù)在社會(huì)科學(xué)領(lǐng)域比較難以獲得。人工智能的介入恰恰能解決社會(huì)科學(xué)研究數(shù)據(jù)難的問(wèn)題。大數(shù)據(jù)的數(shù)據(jù)規(guī)模和維度可以用來(lái)對(duì)計(jì)算模型進(jìn)行高精度的校準(zhǔn),同時(shí)數(shù)據(jù)的實(shí)時(shí)性也可以為計(jì)算模型對(duì)社會(huì)問(wèn)題的預(yù)測(cè)提高準(zhǔn)確度。
微觀分析和宏觀分析的結(jié)合?,F(xiàn)在社會(huì)科學(xué)研究在做微觀個(gè)體分析與其在做宏觀政策分析時(shí)相對(duì)比較割裂。[4]比如說(shuō)宏觀經(jīng)濟(jì)學(xué)的研究方法和微觀經(jīng)濟(jì)學(xué)的研究方法就有很大的差異,哪怕兩者研究的是同一個(gè)問(wèn)題,相互之間都很難統(tǒng)一。這是由于社會(huì)科學(xué)研究的主體是人和人類(lèi)的行為,人類(lèi)行為之間的交互作用極為復(fù)雜,往往存在“加總的謬誤”現(xiàn)象,即微觀研究很難進(jìn)行宏觀加總,同樣的,宏觀的分析也很難進(jìn)行微觀的拆分。
人工智能為社會(huì)科學(xué)研究帶來(lái)的大數(shù)據(jù)使得社會(huì)科學(xué)研究必然能從更微觀的層面進(jìn)行,同時(shí)人工智能也能帶來(lái)新的計(jì)算機(jī)算法,能夠?qū)ξ⒂^研究的結(jié)果進(jìn)行宏觀的復(fù)雜加總和綜合,使得社會(huì)科學(xué)的宏觀分析和微觀分析有更好的統(tǒng)一性。如此一來(lái),我們既可以實(shí)現(xiàn)對(duì)微觀個(gè)體行為的深入研究,也能夠破析出各個(gè)微觀個(gè)體相互之間的網(wǎng)絡(luò)結(jié)構(gòu),從而進(jìn)一步得出每個(gè)微觀個(gè)體對(duì)不同宏觀因素的作用。
可計(jì)算社會(huì)科學(xué)研究所面臨的挑戰(zhàn)
盡管人工智能技術(shù)的運(yùn)用揭開(kāi)了可計(jì)算社會(huì)科學(xué)研究發(fā)展的序幕,然而要真正達(dá)到創(chuàng)造具有實(shí)踐意義的研究成果,尚需完善一些基礎(chǔ)條件。人工智能的核心技術(shù)是深度學(xué)習(xí),盡管它具有處理大量各類(lèi)數(shù)據(jù)的超強(qiáng)能力,但尚不能應(yīng)對(duì)一些異常項(xiàng)的干擾,因此對(duì)于復(fù)雜現(xiàn)象以及個(gè)別特殊現(xiàn)象的推定和解釋?zhuān)x不開(kāi)具有理論知識(shí)的專(zhuān)家系統(tǒng)的支持。如果不考慮這些問(wèn)題,往往容易陷入一些誤區(qū)。同時(shí),對(duì)于作為專(zhuān)家支持系統(tǒng)的研究人員首先要不忘社會(huì)科學(xué)研究的初心,探索規(guī)律和理論,不能被數(shù)據(jù)綁架而導(dǎo)致結(jié)果偏離。因此不僅需要具有理解各種數(shù)據(jù)特征和使用數(shù)據(jù)的能力,也需要具備數(shù)據(jù)科學(xué)的基本素養(yǎng)和一定的編程能力。
可計(jì)算社會(huì)科學(xué)研究中的誤區(qū)。人工智能為社會(huì)科學(xué)領(lǐng)域帶來(lái)了新的研究范式和新的研究技術(shù)和方法,這些無(wú)疑對(duì)于現(xiàn)在越來(lái)越依賴(lài)于定量分析的社會(huì)科學(xué)研究而言是極大的機(jī)遇。然而,我們必須也要意識(shí)到人工智能在帶來(lái)研究效率提升的同時(shí),很可能也會(huì)使得社會(huì)科學(xué)研究者們陷入研究的誤區(qū)。
第一個(gè)誤區(qū)是過(guò)度注重相關(guān)關(guān)系而忽略研究對(duì)象之間的因果關(guān)系。大量的文獻(xiàn)已經(jīng)關(guān)注到了這點(diǎn),王天思(2016)從哲學(xué)的角度闡述了大數(shù)據(jù)中的因果關(guān)系,劉林平等(2016)也探討了規(guī)律和因果在大數(shù)據(jù)應(yīng)用到社會(huì)學(xué)領(lǐng)域的重要性,馬費(fèi)成(2018)在論述人文社會(huì)科學(xué)與自然科學(xué)應(yīng)當(dāng)相互學(xué)習(xí)借鑒時(shí)也提出可以在相關(guān)關(guān)系的基礎(chǔ)上分析因果關(guān)系。如前所述人工智能的運(yùn)用要擺脫對(duì)數(shù)值計(jì)算的偏重而應(yīng)將其作為社會(huì)科學(xué)因果關(guān)系的研究的輔助。
第二個(gè)誤區(qū)是陷入“統(tǒng)計(jì)的胡說(shuō)”現(xiàn)象。這里需要關(guān)注的是大數(shù)據(jù)究竟帶來(lái)的僅僅是樣本的增加,還是可以成為總體。在大多數(shù)情況下人工智能技術(shù)所帶來(lái)的大數(shù)據(jù)只是統(tǒng)計(jì)樣本的增加,也就是從傳統(tǒng)分析的小樣本到大數(shù)據(jù)下的大樣本。美國(guó)機(jī)場(chǎng)電子護(hù)照的通行經(jīng)常無(wú)法識(shí)別深膚色的人種,其主要原因就是在設(shè)計(jì)人臉識(shí)別的人工智能算法校準(zhǔn)的時(shí)候采用了不具有代表性的大數(shù)據(jù)樣本。在社會(huì)科學(xué)的研究中也是如此,通過(guò)分析有偏的樣本,即使它是大數(shù)據(jù)的樣本,得出的研究結(jié)論也必定是有偏差的。
第三個(gè)誤區(qū)是過(guò)度依賴(lài)算法而導(dǎo)致偏差的擴(kuò)大?,F(xiàn)在的人工智能算法只能處理一個(gè)特定的任務(wù),也就是狹義的人工智能,[5]由于狹義人工智能的算法是為了某個(gè)特定目標(biāo)而施行的,其算法會(huì)在有偏的基本數(shù)據(jù)樣本上帶來(lái)更大的偏差。Barocas和Selbst(2016)討論大數(shù)據(jù)分析可能會(huì)帶來(lái)意想不到估計(jì)偏差,文中提到美國(guó)波士頓政府曾利用人工智能的算法根據(jù)智能手機(jī)對(duì)道路坑洼的識(shí)別來(lái)決策道路維護(hù)資源的投入,由于智能手機(jī)識(shí)別道路坑洼這一大數(shù)據(jù)樣本本身就是有偏的,而人工智能自動(dòng)迭代更新的算法會(huì)帶來(lái)道路維護(hù)資源的進(jìn)一步錯(cuò)配。相對(duì)經(jīng)濟(jì)發(fā)展較為落后的地區(qū)而言,波士頓富人區(qū)的智能手機(jī)持有數(shù)量較多,人工智能的算法是通過(guò)智能手機(jī)是否感受到行車(chē)路上是否有坑洼來(lái)分配政府的修路資源,帶來(lái)的結(jié)果只能是富人區(qū)的道路情況被過(guò)度維護(hù)。原先的數(shù)據(jù)樣本偏差僅僅是富人區(qū)的道路坑洼會(huì)更多地被匯報(bào),而人工智能來(lái)分配道路維護(hù)資源的算法會(huì)產(chǎn)生進(jìn)一步的資源不公平分配的結(jié)果。
即使算法是無(wú)偏的,人工智能的單一目標(biāo)也可能會(huì)帶來(lái)公平性的問(wèn)題?!杜聿┥虡I(yè)周刊》在2016年的一篇文章中深入討論了亞馬遜公司通過(guò)人工智能算法來(lái)最大化包裹投遞效率和服務(wù)最多的客戶的目標(biāo)卻導(dǎo)致公司在自動(dòng)選擇服務(wù)區(qū)域時(shí)完美避過(guò)大多數(shù)的黑人區(qū)。作為美國(guó)最大的網(wǎng)絡(luò)零售商,利潤(rùn)最大化無(wú)疑是其目標(biāo),因此亞馬遜公司所設(shè)計(jì)的人工智能算法并不會(huì)把種族考慮在內(nèi),這種看似“無(wú)偏”的算法實(shí)際上卻帶來(lái)了類(lèi)似于“種族歧視”的服務(wù)設(shè)定范圍,造成社會(huì)公平的損失。
需要強(qiáng)調(diào)的是,在社會(huì)科學(xué)研究的過(guò)程中,人工智能可能會(huì)帶來(lái)樣本和算法有偏的兩個(gè)誤區(qū)會(huì)產(chǎn)生相互疊加的放大效應(yīng),輕則是我們的研究結(jié)果可信性下降,重則我們的研究結(jié)果可能是偽命題。相比理論的定性分析和傳統(tǒng)數(shù)據(jù)的定量分析,人工智能介入的社會(huì)科學(xué)研究的研究方法更為復(fù)雜,因此增加了其他研究者對(duì)研究結(jié)果的辨錯(cuò)難度。
社會(huì)科學(xué)研究人員在利用人工智能進(jìn)行深度研究所必需的能力。人工智能源于計(jì)算機(jī)科學(xué),它所需的學(xué)習(xí)和技術(shù)與社會(huì)科學(xué)研究者所接受的綜合訓(xùn)練之間交集很小。相比中國(guó)人工智能的論文產(chǎn)出,中國(guó)的人工智能人才擁有量不是最高,從絕對(duì)數(shù)量來(lái)說(shuō)遠(yuǎn)低于美國(guó),從研究領(lǐng)域來(lái)看,中國(guó)人工智能人才的研究領(lǐng)域也相對(duì)比較分散。
隨著人工智能對(duì)社會(huì)科學(xué)研究的逐漸滲透,社會(huì)科學(xué)研究者們除了要具備傳統(tǒng)的社會(huì)科學(xué)領(lǐng)域的學(xué)科訓(xùn)練之外,還需要具備一定的數(shù)據(jù)工程師和軟件工程師的能力。與此同時(shí),社會(huì)科學(xué)研究者們還需要理解社會(huì)科學(xué)領(lǐng)域的因果分析方法和現(xiàn)在大數(shù)據(jù)的相關(guān)關(guān)系分析方法之間的利與弊,在研究不同問(wèn)題的時(shí)候選擇合適的研究方法。
政策建議。新技術(shù)的運(yùn)用必將進(jìn)一步推動(dòng)可計(jì)算社會(huì)科學(xué)研究的發(fā)展。一般來(lái)說(shuō),大數(shù)據(jù)的相關(guān)關(guān)系分析方法更適合于規(guī)范研究,提高預(yù)測(cè)的準(zhǔn)確性,為政府和企業(yè)提供政策建議和支持;而大數(shù)據(jù)輔助的因果關(guān)系分析則是實(shí)證研究未來(lái)的發(fā)展方向。人工智能在真正進(jìn)入計(jì)算機(jī)算法自我迭代更新和進(jìn)步之前,還是高技術(shù)勞動(dòng)力密集型的。然而隨著進(jìn)一步的發(fā)展,面臨文理融合時(shí)代的到來(lái),社會(huì)科學(xué)研究者與數(shù)據(jù)工程師和軟件工程師的跨學(xué)科合作也是社會(huì)科學(xué)研究的必然趨勢(shì)。這個(gè)跨學(xué)科融合的基礎(chǔ)學(xué)科,無(wú)疑是統(tǒng)計(jì)學(xué)和數(shù)據(jù)處理相關(guān)的計(jì)算機(jī)語(yǔ)言。一些發(fā)達(dá)國(guó)家,比如日本,已從小學(xué)即開(kāi)始進(jìn)行統(tǒng)計(jì)學(xué)的普及教育,在大學(xué)本科文科類(lèi)專(zhuān)業(yè)中開(kāi)設(shè)“數(shù)據(jù)科學(xué)”專(zhuān)業(yè)課,同時(shí)也大力推廣計(jì)算社會(huì)科學(xué)相關(guān)開(kāi)發(fā)軟件的學(xué)習(xí),如R語(yǔ)言、java語(yǔ)言以及人工智能核心語(yǔ)言Python等??梢越梃b其做法,盡早開(kāi)展相關(guān)的交叉學(xué)科設(shè)置,以及提供利用網(wǎng)絡(luò)相關(guān)知識(shí)的普及等公共品,為迎接第四科學(xué)時(shí)代的到來(lái),打好基礎(chǔ),做好準(zhǔn)備。
(上海社會(huì)科學(xué)院世界中國(guó)學(xué)研究所謝一青博士對(duì)本文亦有貢獻(xiàn))
注釋
[1]人工智能的概念早在1956年的達(dá)特茅斯(Dartmouth)會(huì)議上就被正式提出了。自那以后,隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,人工智能的理論和實(shí)踐也不斷被刷新,其定義的內(nèi)涵和外延也不斷被拓展?,F(xiàn)今取得共識(shí)的概念大多沿用“人工智能之父”約翰·麥卡錫(John McCarthy)的定義和解釋?zhuān)凑J(rèn)為機(jī)器無(wú)需像人類(lèi)般思考才算獲得智能,人工智能的關(guān)鍵在于讓機(jī)器能夠解決人腦所能解決的問(wèn)題。因此,現(xiàn)在大多數(shù)研究者探討的人工智能,是以大數(shù)據(jù)為基礎(chǔ),利用計(jì)算機(jī)的運(yùn)算能力,使用迭代更新的算法來(lái)實(shí)現(xiàn)對(duì)現(xiàn)實(shí)情況的分析和決策(張洪忠等,2018;陸汝鈐,1989)。
[2]在國(guó)際經(jīng)濟(jì)學(xué)領(lǐng)域,一國(guó)相對(duì)要素稟賦豐裕的定義是該要素的世界占比大于該國(guó)GDP的世界占比,一旦一國(guó)的某種要素相對(duì)要素稟賦豐裕,該國(guó)在密集型使用這一豐裕要素的產(chǎn)品和服務(wù)上就具備了比較優(yōu)勢(shì)。
[3]羅晨和沈浩(2018)利用社會(huì)網(wǎng)絡(luò)分析法,把各個(gè)利用了人工智能進(jìn)行研究的社會(huì)科學(xué)子學(xué)科作為社會(huì)網(wǎng)絡(luò)中的行為者,通過(guò)分析不同子學(xué)科在論文發(fā)表領(lǐng)域的共現(xiàn)次數(shù),獲得每個(gè)子學(xué)科的度數(shù)中心度。度數(shù)中心度越高的社會(huì)科學(xué)子學(xué)科與其他子學(xué)科的聯(lián)系更為廣泛。
[4]在純理論模型定性分析的時(shí)候,通過(guò)對(duì)模型的嚴(yán)格假設(shè),微觀分析和宏觀分析在早期的社會(huì)科學(xué)研究中也可以實(shí)現(xiàn)統(tǒng)一。
[5]廣義人工智能是目前人工智能的目標(biāo),它是否能穩(wěn)定存在目前還未被數(shù)學(xué)證明。Yampolskiy(2015)深入探討了一種廣義人工智能算法存在的boot-strap悖論。
參考文獻(xiàn)
張洪忠、石韋穎、劉力銘,2018,《如何從技術(shù)邏輯認(rèn)識(shí)人工智能對(duì)傳媒業(yè)的影響》,《新聞界》,第2期。
陸汝鈐,1989,《人工智能(上)》,北京:科學(xué)出版社。
清華大學(xué)中國(guó)科技政策研究中心,2018,《中國(guó)人工智能發(fā)展報(bào)告2018》,北京:清華大學(xué)公共管理學(xué)院。
羅晨、沈浩,2018,《社會(huì)科學(xué)領(lǐng)域的人工智能研究:基于SSCI文獻(xiàn)的探索》,《全球傳媒學(xué)刊》,第5卷第4期。
米加寧、章昌平、李大宇、林濤,2018,《第四研究范式:大數(shù)據(jù)驅(qū)動(dòng)的社會(huì)科學(xué)研究轉(zhuǎn)型》,《學(xué)海》,第2期。
王天思,2016,《大數(shù)據(jù)中的因果關(guān)系及其哲學(xué)內(nèi)涵》,《中國(guó)社會(huì)科學(xué)》,第5期。
Einav, L., Hendry, D. F., 2013, "The Data Revolution and Economic Analysis", http://www.nber.org/papers/w19035.pdf.
Yampolskiy, R. V., 2015, From Seed AI to Technological Singularity via Recursively Self-Improving Software.
"Amazon Doesn't Consider the Race of Its Customers. Should It?", Bloomberg.com.
劉林平、蔣和超、李瀟曉,2016,《規(guī)律與因果:大數(shù)據(jù)對(duì)社會(huì)科學(xué)研究沖擊之反思——以社會(huì)學(xué)為例》,《社會(huì)科學(xué)》,第9期。
馬費(fèi)成,2018,《推進(jìn)大數(shù)據(jù)、人工智能等信息技術(shù)與人文社會(huì)科學(xué)研究深度融合》,《評(píng)價(jià)與管理》,第2期。
劉濤雄,尹德才,2017,《大數(shù)據(jù)時(shí)代與社會(huì)科學(xué)研究范式變革》,《理論探索》,第6期。
Barocas, S., Selbst, A. D., 2016, Big Data's Disparate Impact, California Law Review, 104, pp. 671-732.
責(zé) 編∕趙鑫洋