黨雪寧 李明,2
(1.廣西科技大學(xué)經(jīng)濟(jì)與管理學(xué)院 廣西柳州 545000;2.廣西科技大學(xué)廣西工業(yè)高質(zhì)量發(fā)展研究中心 廣西柳州 545000)
近年來(lái),互聯(lián)網(wǎng)產(chǎn)業(yè)迅猛發(fā)展,數(shù)據(jù)資源比重不斷提高,同時(shí)數(shù)據(jù)挖掘、數(shù)據(jù)分析技術(shù)的發(fā)展加快了數(shù)據(jù)資源價(jià)值的評(píng)估,從而能夠最大程度地發(fā)揮數(shù)據(jù)資產(chǎn)的效用。數(shù)據(jù)資產(chǎn)評(píng)估研究存在數(shù)據(jù)資源龐大難以有效利用、數(shù)據(jù)資產(chǎn)不能合理評(píng)估造成互聯(lián)網(wǎng)行業(yè)發(fā)展緩慢、數(shù)據(jù)資產(chǎn)本身特性造成評(píng)估困難等問(wèn)題。因此,我們需要觀察行業(yè)發(fā)展現(xiàn)狀,充分考慮衡量數(shù)據(jù)資產(chǎn)價(jià)值的因素,構(gòu)建適用于數(shù)據(jù)資產(chǎn)價(jià)值的評(píng)估模型,從而提高數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估的精確性。
孟小峰、慈祥(2013)[1]提出大數(shù)據(jù)具有規(guī)模大、多樣性、高速性的特點(diǎn);張興旺等(2019)[2]認(rèn)為數(shù)據(jù)資源經(jīng)過(guò)加工處理實(shí)現(xiàn)價(jià)值增值后形成數(shù)據(jù)資產(chǎn)。具體特征包括:控制、可變現(xiàn)、可計(jì)量、可估值、可流通?;诖?,將數(shù)據(jù)資產(chǎn)的特征歸納為非實(shí)體性、類(lèi)型多樣性、可變性、權(quán)屬不清晰等四個(gè)方面。對(duì)不同行業(yè)來(lái)說(shuō),影響數(shù)據(jù)資產(chǎn)價(jià)值的因素也不同;黃萃(2014)[3]提出不同的定價(jià)策略及定價(jià)方法的選擇會(huì)受到獲取公共信息的目的、價(jià)值估算、成本及融資、市場(chǎng)競(jìng)爭(zhēng)狀況及社會(huì)信息公平等五個(gè)因素的影響;吳江(2015)在探討數(shù)據(jù)交易時(shí),數(shù)據(jù)產(chǎn)權(quán)、數(shù)據(jù)的有用性數(shù)據(jù)交易成本、交易機(jī)制等會(huì)對(duì)數(shù)據(jù)資產(chǎn)價(jià)值造成影響。通過(guò)總結(jié)不同學(xué)者的觀點(diǎn),本文認(rèn)為數(shù)據(jù)資產(chǎn)與質(zhì)量、稀缺性、效用等息息相關(guān)。
BP神經(jīng)網(wǎng)絡(luò)由三部分構(gòu)成,分別是輸入層、隱藏層、輸出層。神經(jīng)網(wǎng)絡(luò)的每一層由若干個(gè)神經(jīng)元組成,神經(jīng)元作為BP神經(jīng)網(wǎng)絡(luò)的感知器,經(jīng)過(guò)激活函數(shù)的處理完成傳播過(guò)程。BP神經(jīng)網(wǎng)絡(luò)由輸入、權(quán)重、偏置、激活函數(shù)、輸出等組成。BP神經(jīng)網(wǎng)絡(luò)包含正向傳播和反向反饋。BP神經(jīng)網(wǎng)絡(luò)的正向傳播通過(guò)激活函數(shù)來(lái)實(shí)現(xiàn),將訓(xùn)練樣本作為輸入層,與權(quán)重計(jì)算加上偏置,經(jīng)過(guò)激活函數(shù)的處理,得到的輸出結(jié)果作為下一次節(jié)點(diǎn)的輸入,將輸出結(jié)果與期望值進(jìn)行比較,結(jié)果達(dá)不到期望值,不斷調(diào)整迭代得到滿(mǎn)意的結(jié)果,將最終的結(jié)果進(jìn)行測(cè)試,并應(yīng)用于適用領(lǐng)域。
遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)分為BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)確定、遺傳算法優(yōu)化和BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)3個(gè)部分。其中,BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)確定部分根據(jù)擬合函數(shù)的輸入輸出參數(shù)個(gè)數(shù)確定BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)而確定遺傳算法個(gè)體的長(zhǎng)度。遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值,種群中的每個(gè)個(gè)體都包含一個(gè)網(wǎng)絡(luò)所有的權(quán)值和閾值,每個(gè)個(gè)體通過(guò)適應(yīng)度函數(shù)計(jì)算適應(yīng)度值,遺傳算法通過(guò)選擇、交叉、變異操作找到最優(yōu)的適應(yīng)度值對(duì)應(yīng)的個(gè)體。
百度公司于2000年1月1日由李彥宏攜“超鏈分析”搜索引擎專(zhuān)利技術(shù)在中關(guān)村科技園創(chuàng)建,這一技術(shù)專(zhuān)利使百度成為國(guó)內(nèi)高科技企業(yè),掌握了世界尖端科學(xué)核心技術(shù),也使中國(guó)躋身于全球包括美國(guó)、俄羅斯、韓國(guó)在內(nèi)僅有的4個(gè)具有搜索引擎核心技術(shù)的國(guó)家之列。百度互聯(lián)網(wǎng)服務(wù)用戶(hù)達(dá)10億,每天響應(yīng)數(shù)十億次搜索請(qǐng)求,已成為100余個(gè)國(guó)家和地區(qū)上網(wǎng)民眾接收中文信息和服務(wù)的重要途徑。
百度搜索引擎價(jià)值受網(wǎng)站內(nèi)在技術(shù)、用戶(hù)角度等多方面影響,通過(guò)搜索引擎統(tǒng)計(jì)網(wǎng)站,我們盡可能較多的搜集影響搜索引擎數(shù)據(jù)資產(chǎn)價(jià)值的因素,從網(wǎng)站了解到用戶(hù)因素占了較大的部分,因此本文主要從用戶(hù)角度出發(fā)對(duì)搜索引擎價(jià)值進(jìn)行預(yù)測(cè),以流量指標(biāo)作為評(píng)價(jià)標(biāo)準(zhǔn),選取瀏覽量、訪客數(shù)、IP數(shù)、跳出率、平均訪問(wèn)時(shí)長(zhǎng)、轉(zhuǎn)換次數(shù)6個(gè)指標(biāo)作為百度搜索引擎數(shù)據(jù)資產(chǎn)的價(jià)值影響因素。
本文將百度搜索引擎包括瀏覽量、訪客數(shù)、IP數(shù)、跳出率、平均訪問(wèn)時(shí)長(zhǎng)、轉(zhuǎn)換次數(shù)6個(gè)指標(biāo)作為百度搜索引擎數(shù)據(jù)資產(chǎn)的價(jià)值影響因素,將6個(gè)指標(biāo)數(shù)值歸一化處理作為神經(jīng)網(wǎng)絡(luò)輸入層。搜集了百度搜索引擎一個(gè)月的股票單價(jià),根據(jù)股票單價(jià)和股數(shù)計(jì)算預(yù)測(cè)值,將預(yù)測(cè)值作為神經(jīng)網(wǎng)絡(luò)輸出層的訓(xùn)練樣本,價(jià)值預(yù)測(cè)計(jì)算表達(dá)式如下:
其中:
V:百度搜索引擎市場(chǎng)價(jià)值;
C:百度搜索引擎價(jià)值預(yù)測(cè)當(dāng)日股數(shù);
Smax:百度日最高股價(jià);
Smin:百度日最低股價(jià);
T:美元與人民幣換算匯率。
本文從百度統(tǒng)計(jì)網(wǎng)站統(tǒng)計(jì)了百度搜索引擎相關(guān)指標(biāo)樣本值,選取2021年10月—11月共計(jì)32天的數(shù)據(jù),確定了3216個(gè)自變量樣本數(shù)據(jù)和32個(gè)因變量數(shù)據(jù)值進(jìn)行后續(xù)的處理。
3.4.1 傳遞函數(shù)
神經(jīng)網(wǎng)絡(luò)的傳遞函數(shù)一般選purelin、tansig、logsig三種傳遞函數(shù),將其組合成9種不同形式,經(jīng)過(guò)程序處理得到相對(duì)應(yīng)的均方誤差,均方誤差越小,BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的效果最優(yōu),因此選擇均方誤差最小的tansig、purelin的組合作為神經(jīng)網(wǎng)絡(luò)的傳遞函數(shù)。
3.4.2 神經(jīng)網(wǎng)絡(luò)層數(shù)
神經(jīng)網(wǎng)絡(luò)隱藏層個(gè)數(shù)決定了其結(jié)構(gòu)的復(fù)雜程度,本文選擇一個(gè)相同的網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練迭代50次,比較網(wǎng)絡(luò)運(yùn)行時(shí)間和結(jié)果精度,通過(guò)預(yù)測(cè)結(jié)果得出在誤差百分比相近的情況下,雙層網(wǎng)絡(luò)結(jié)構(gòu)均方誤差和訓(xùn)練時(shí)間最為合適。
3.4.3 各層神經(jīng)元節(jié)點(diǎn)數(shù)
本文選取了瀏覽量、訪客數(shù)、IP數(shù)、跳出率、平均訪問(wèn)時(shí)長(zhǎng)、轉(zhuǎn)換次數(shù)6個(gè)指標(biāo)作為神經(jīng)網(wǎng)絡(luò)輸入層,即輸入層神經(jīng)元節(jié)點(diǎn)數(shù)為6。被解釋變量為百度輸出層節(jié)點(diǎn)數(shù)為1,表示百度搜索引擎數(shù)據(jù)資產(chǎn)的市值。神經(jīng)元隱藏層節(jié)點(diǎn)的多少?zèng)Q定了神經(jīng)網(wǎng)絡(luò)模型擬合的效果,因此確定合適的隱藏層節(jié)點(diǎn)數(shù)至關(guān)重要。最優(yōu)的隱藏層節(jié)點(diǎn)數(shù)確定方式公式如下:
其中:
l:隱藏層節(jié)點(diǎn)數(shù);
m:輸出單元神經(jīng)元數(shù);
n:輸入單元神經(jīng)元數(shù);
a:0~10的調(diào)節(jié)常數(shù);
本文經(jīng)過(guò)查閱相關(guān)文獻(xiàn)及測(cè)試,將第一層隱藏層神經(jīng)元個(gè)數(shù)設(shè)置為10,第二層神經(jīng)元個(gè)數(shù)設(shè)置為1。
3.4.4 學(xué)習(xí)率
本文將學(xué)習(xí)率初始值確定為0.001,在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中,用梯度下降法不斷調(diào)整,直至收斂達(dá)到局部最優(yōu),得到最終的學(xué)習(xí)率。
3.5.1 聲明全局變量
(1)確定訓(xùn)練集輸入數(shù)據(jù)p和訓(xùn)練集輸出數(shù)據(jù)t
訓(xùn)練集輸入數(shù)據(jù)選取樣本數(shù)據(jù)中前29組數(shù)據(jù),即確定一個(gè)629的矩陣p。訓(xùn)練集輸出數(shù)據(jù)也就是預(yù)測(cè)的百度搜索引擎的市值,確定一個(gè)129的矩陣t。
(2)輸入層、隱藏層、輸出層神經(jīng)元的個(gè)數(shù)
輸入神經(jīng)元個(gè)數(shù)R=6,隱藏層神經(jīng)元個(gè)數(shù)S1=10,輸出神經(jīng)元個(gè)數(shù)S2=1。
(3)編碼長(zhǎng)度
3.5.2 數(shù)據(jù)歸一化
根據(jù)歸一化數(shù)學(xué)原理,在Matlab R2018a中運(yùn)用premnmx()函數(shù)進(jìn)行初始數(shù)值的歸一化。表達(dá)如下:
其中:
3.5.3 確定種群個(gè)數(shù)并初始化種群
設(shè)定種群個(gè)數(shù)popu=50,初始化種群借用功能函數(shù)確定過(guò)程如下:
通過(guò)運(yùn)行上述程序,得到最優(yōu)的權(quán)值和閾值如下:
3.5.8 計(jì)算隱藏層和輸出層的輸出
用A1表示隱藏層的輸出,A2表示輸出層的輸出
隱藏層tansig函數(shù)表達(dá)式為:
輸出層purelin函數(shù)表達(dá)式為:
將上述計(jì)算的具體數(shù)值帶入求解,即可得到輸出層的輸出值。
上述計(jì)算在Matlab中表示為:
運(yùn)行后得出:A1為由1和-1組成的1029的矩陣,A2為129的矩陣。
3.5.9 計(jì)算誤差平方和
在Matlab中表示為:
運(yùn)行得誤差平方和SE=5.7460*106。
3.5.10 計(jì)算適應(yīng)度值
在matlab中運(yùn)行得val=1.7403*10-7,適應(yīng)度值越小,說(shuō)明尋出來(lái)的結(jié)果越好,因此用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)評(píng)估出來(lái)的值是可信的。
在Matlab中用postmnmx()函數(shù)將輸出的數(shù)據(jù)反歸一化得到預(yù)測(cè)數(shù)據(jù),同時(shí)輸出測(cè)試數(shù)據(jù)作為真實(shí)值,表示如下:
得出的預(yù)測(cè)值和真實(shí)值匯總?cè)绫?所示。
表1 預(yù)測(cè)值和真實(shí)值對(duì)比
通過(guò)表1中預(yù)測(cè)值和真實(shí)值的比較,計(jì)算的誤差百分比大部分在5%以?xún)?nèi),說(shuō)明GA-BP神經(jīng)網(wǎng)絡(luò)模型擬合效果良好,預(yù)測(cè)的結(jié)果可信,因此用該模型預(yù)測(cè)的結(jié)果作為百度搜索引擎數(shù)據(jù)資產(chǎn)的價(jià)值是可行的。
根據(jù)設(shè)置的參數(shù),在軟件MATLABR2018a中進(jìn)行模型的構(gòu)建和訓(xùn)練,得出遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)值與實(shí)際值效果如圖1所示。
圖1 GA-BP神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)擬合圖
圖1反映兩種模型預(yù)測(cè)結(jié)果的大體走勢(shì),本文給出了GA-BP神經(jīng)網(wǎng)絡(luò)模型評(píng)估百度搜索引擎31組數(shù)據(jù)資產(chǎn)價(jià)值的預(yù)測(cè)值和真實(shí)值,因百度公司目前市場(chǎng)份額及財(cái)務(wù)狀況較為穩(wěn)定,可將31組數(shù)據(jù)的平均值作為最終確定的搜索引擎數(shù)據(jù)資產(chǎn)預(yù)測(cè)的價(jià)值,最終計(jì)算確定的百度搜索引擎數(shù)據(jù)資產(chǎn)的價(jià)值為452.6萬(wàn)元。通過(guò)計(jì)算我們可以看出最終確定的預(yù)測(cè)值與真實(shí)值的平均值差值較小,說(shuō)明模型訓(xùn)練的預(yù)測(cè)值和真實(shí)值的曲線(xiàn)圖的擬合效果較好,得出的結(jié)論真實(shí)可靠,具有較大的參考性。