張曉慧
摘? 要:《圖書館論壇》2014年第九期的“公益性數(shù)字保存的經(jīng)濟(jì)價(jià)值”一文,以ESDS為例,收集了大量調(diào)查資料,進(jìn)行了理論探索,尤以“權(quán)值系數(shù)”進(jìn)行成本分析為重。資料采錄是基礎(chǔ),數(shù)據(jù)分析是支柱;概念不能含糊,原理必須清晰。基于這樣的認(rèn)識(shí),該文著重從資料采錄、數(shù)據(jù)分析兩個(gè)方面,試圖探究、考量其價(jià)值,以期推動(dòng)討論深入持續(xù)。
關(guān)鍵詞:數(shù)字保存? 資料采錄? 數(shù)據(jù)分析? 成本? 價(jià)值
中圖分類號(hào):G250.253? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào):1672-3791(2019)03(a)-0240-02
Abstract: The 9th " Library Tribune " in 2014" The economic value of public welfare nature of the digital preservation " one article, taking ESDS as an example, collecting a large number of survey data, designing the four forms of digital preservation of economic value; exploring the theory, especially the "weights" cost analysis for heavy. Data acquisition is the foundation, data analysis is the pillar; concept can not be vague, the principle must be clear. Based on this understanding, this paper focuses on the two aspects of data acquisition and data collection, trying to explore concerns the value of this paper, in order to in-depth discussion can continue.
Key Words: Digital preservation; Data acquisition; Data analysis; Cost; Value
“公益性數(shù)字保存的經(jīng)濟(jì)價(jià)值”一文(作者:臧國(guó)全、李哲。以下簡(jiǎn)稱“價(jià)值”,發(fā)表于2014年第九期的《圖書館論壇》),以ESDS(Economic and Social Data Service)為例,設(shè)計(jì)了數(shù)字保存經(jīng)濟(jì)價(jià)值的4種表現(xiàn)形式,包括保存價(jià)值、用戶收益與凈經(jīng)濟(jì)價(jià)值、效率影響、保存特藏收益等,尤以“權(quán)值系數(shù)”進(jìn)行成本分析為重。該文是國(guó)家自然科學(xué)基金項(xiàng)目“數(shù)字保存經(jīng)濟(jì)要素與經(jīng)濟(jì)評(píng)價(jià)研究”(項(xiàng)目編號(hào):71173197)的研究成果之一,筆者在此從資料采錄、數(shù)據(jù)分析兩個(gè)方面,著重探究、考量其關(guān)于“成本”分析的價(jià)值。
1? 關(guān)于調(diào)查資料的價(jià)值
“價(jià)值”一文涉及資料龐雜,全部取自2012年ESDS。作為英國(guó)經(jīng)濟(jì)和社會(huì)科學(xué)數(shù)據(jù)的分布式數(shù)字保存服務(wù)項(xiàng)目,ESDS是該領(lǐng)域科學(xué)研究、教學(xué)和學(xué)習(xí)的重要數(shù)據(jù)庫(kù),其數(shù)字資源分為5個(gè)類型,為所有用戶提供完全免費(fèi)的訪問服務(wù)。作者首先以非抽樣調(diào)查,得到了統(tǒng)計(jì)表,內(nèi)含當(dāng)年有效用戶數(shù)量及訪問數(shù)字資源的總次數(shù)V、數(shù)字資源提交總次數(shù)U,以及訪問與提交次數(shù)在各類型資源的分布狀況,并掌握了有效用戶數(shù)量M,明確了用戶年均訪問次數(shù)L=V/M。這些基礎(chǔ)工作是必要的,也是清晰的(見表1)。
與此同時(shí),原文還就平均值的獲得進(jìn)行了一系列搜集整理工作。一是以訪問需收費(fèi)為假設(shè),就用戶的“支付意愿”(即用戶為獲得訪問服務(wù)而愿意支付的金額)進(jìn)行了調(diào)查,結(jié)果顯示每戶的年平均支付意愿為B=962,而每次的平均支付意愿為b=48.5;二是以訪問不再向新用戶開放為假設(shè),就原用戶的“接受意愿”(即轉(zhuǎn)讓訪問權(quán)時(shí)愿意接受的價(jià)格)進(jìn)行了調(diào)查,結(jié)果顯示每戶的年平均接受意愿為A=1,576;三是調(diào)查每次數(shù)字“資源提交的平均耗時(shí)”,以“最近一次提交耗時(shí)”T=185h來(lái)代替;四是用戶每次數(shù)字“資源訪問的平均耗時(shí)”,以ESDS用戶“最近一次訪問耗時(shí)”t=0.41h來(lái)代替。關(guān)于支付意愿、接受意愿的平均值,是怎么考慮的?有無(wú)加權(quán)分析,是否合理?都不得而知。至于提交、訪問耗時(shí)的平均值,以最近一次的情形代替總體的平均水平,其合理性、背景是什么?這些平均值,是基于全面調(diào)查還是抽樣調(diào)查或者其他調(diào)查,其數(shù)據(jù)價(jià)值如何?是非常需要斟酌的,因?yàn)槭玛P(guān)成本分析的成敗。
“價(jià)值”一文存在數(shù)據(jù)混亂引用隨意的現(xiàn)象。例如,關(guān)于2012年有效用戶數(shù)量M,原文在“效率影響”等分析中,均以M=23000人為有效用戶數(shù)量,并據(jù)此分析給出了一系列計(jì)算結(jié)果;然而在“支付意愿”“接受意愿”等分析中,原文卻又采用了M=32000人這個(gè)數(shù)據(jù),進(jìn)而在隨后的分析中都以這個(gè)數(shù)字為依據(jù)。以這樣隨意的討論結(jié)果,與“實(shí)際擬合”不嚴(yán)肅。
“價(jià)值”一文給出了樣本容量為N1=894的“用戶訪問抽樣調(diào)查”,并配合各類型分布情況表(見表2)有說明:依數(shù)字資源5個(gè)類型的劃分,表的左邊“類型1”之列,表明選擇類型1資源的用戶,分僅僅單獨(dú)選擇類型1的、同時(shí)選擇類型2的、同時(shí)選擇類型3的、同時(shí)選擇類型4的、同時(shí)選擇類型5的等5種情形,其用戶數(shù)依次為422、79、206、65、80個(gè),選擇類型1的用戶合計(jì)為852個(gè);其余各列類推。然而依此表述,僅僅訪問5個(gè)類型中一個(gè)類型的用戶(見表中斜線),其累加就達(dá)422+208+404++167+209,遠(yuǎn)大于樣本容量N1即894。原文關(guān)于樣本容量為N2=193的“數(shù)字資源提交抽樣調(diào)查”,也存在著類似問題。這兩個(gè)抽樣調(diào)查,其價(jià)值大打折扣。但愿這只不過是我們理解有問題。