楊心博
摘 要:在全網(wǎng)頁(yè)搜索的強(qiáng)大技術(shù)支撐下,眾多互聯(lián)網(wǎng)企業(yè)推出了一系列優(yōu)質(zhì)互聯(lián)網(wǎng)產(chǎn)品。這些不同形態(tài)不同數(shù)據(jù)所組成的產(chǎn)品,對(duì)于數(shù)據(jù)的需求也是差異非常大的。獲得這些數(shù)據(jù)可以開(kāi)展很多方面的工作,通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行分析來(lái)總結(jié)出大量的算法策略,可以更加快速的提升搜索引擎搜索質(zhì)量,但是這種方式會(huì)需要大量的數(shù)據(jù)樣本量,由于內(nèi)部人力有限且成本控制不下來(lái),無(wú)法滿足這些數(shù)據(jù)的需求。
關(guān)鍵詞:搜索引擎;數(shù)據(jù)管理;系統(tǒng)測(cè)試
1 關(guān)鍵業(yè)務(wù)流程梳理
人民搜索數(shù)據(jù)管理業(yè)務(wù)主要是圍繞著搜索數(shù)據(jù)展開(kāi)的,從數(shù)據(jù)需求的產(chǎn)生,到數(shù)據(jù)分析任務(wù)創(chuàng)建,到數(shù)據(jù)抓取、解析、存儲(chǔ)和分析,再到任務(wù)驗(yàn)收,最終到數(shù)據(jù)產(chǎn)出結(jié)算。中間會(huì)涉及到對(duì)分析人員的管理、權(quán)限管理等與業(yè)務(wù)結(jié)合很緊密的基礎(chǔ)管理工作。主要的業(yè)務(wù)流程分為兩塊:數(shù)據(jù)分析任務(wù)管理以及數(shù)據(jù)分析任務(wù)驗(yàn)收結(jié)算管理。下面是這兩塊的業(yè)務(wù)流程詳細(xì)介紹。
(1)數(shù)據(jù)分析任務(wù)管理業(yè)務(wù)流程。
數(shù)據(jù)分析任務(wù)管理業(yè)務(wù)流程主要進(jìn)行的工作是制定數(shù)據(jù)分析任務(wù)計(jì)劃、創(chuàng)建數(shù)據(jù)分析任務(wù)、數(shù)據(jù)抓取、數(shù)據(jù)處理、以及數(shù)據(jù)分配和分析人員進(jìn)行數(shù)據(jù)分析。部門經(jīng)理的職責(zé):對(duì)相應(yīng)的計(jì)劃進(jìn)行審批,進(jìn)行相應(yīng)的把關(guān)。內(nèi)部管理員的工作職責(zé):首先內(nèi)部管理員需要確定對(duì)哪些類型的主題數(shù)據(jù)進(jìn)行分析,對(duì)數(shù)據(jù)分析任務(wù)匯總編制相應(yīng)的數(shù)據(jù)分析任務(wù)計(jì)劃,把相應(yīng)的計(jì)劃報(bào)部門經(jīng)理進(jìn)行審批,如果審核不通過(guò),則需要重新對(duì)數(shù)據(jù)任務(wù)計(jì)劃進(jìn)行編制,直到通過(guò)為止。任務(wù)創(chuàng)建好后,提交到服務(wù)器中,服務(wù)器按照管理員的要求去進(jìn)行數(shù)據(jù)調(diào)用或者抓取,若抓取不成功,則提示給管理員重新提交任務(wù)進(jìn)行抓取,若抓取成功,系統(tǒng)根據(jù)設(shè)定的數(shù)據(jù)處理規(guī)則進(jìn)行數(shù)據(jù)預(yù)處理,處理完畢后管理員就可以根據(jù)數(shù)據(jù)分析的情況來(lái)進(jìn)行任務(wù)分配,將合適的任務(wù)分配給相應(yīng)的分析人員去進(jìn)行分析。
(2)任務(wù)驗(yàn)收結(jié)算管理業(yè)務(wù)流程。
數(shù)據(jù)分析任務(wù)驗(yàn)收結(jié)算管理業(yè)務(wù)流程參與者相對(duì)比較多,管理員、財(cái)務(wù)人員以及分析人員都會(huì)有比較多的參與。首先分析人員在接收到由管理員發(fā)出的分析任務(wù)后,開(kāi)始進(jìn)行任務(wù)分析,分析完成后,提交分析任務(wù),若不成功,則需要去查看是否有遺漏的數(shù)據(jù)沒(méi)有分析到。若提交通過(guò),管理員收到來(lái)自分析人員發(fā)出的待驗(yàn)收分析任務(wù),開(kāi)始進(jìn)行驗(yàn)收標(biāo)準(zhǔn)的制定,完成后依據(jù)驗(yàn)收標(biāo)準(zhǔn)要求來(lái)抽取相應(yīng)的任務(wù)進(jìn)行驗(yàn)收。若驗(yàn)收通過(guò),則給相應(yīng)的分析人員發(fā)送驗(yàn)收通過(guò)通知單,若沒(méi)有通過(guò),則需要分析人員進(jìn)行返工,值到通過(guò)為止。
(3)功能性需求。
功能性需求主要分為:數(shù)據(jù)分析任務(wù)需求、數(shù)據(jù)抓取需求、任務(wù)分析需求、分析人員管理需求、數(shù)據(jù)驗(yàn)收需求和結(jié)算需求等幾大部分,下面主要以數(shù)據(jù)分析任務(wù)需求、數(shù)據(jù)抓取需求、數(shù)據(jù)驗(yàn)收需求和結(jié)算需求來(lái)做詳細(xì)介紹。
(4)數(shù)據(jù)分析任務(wù)管理。
數(shù)據(jù)分析任務(wù)管理主要的工作是能夠錄入數(shù)據(jù)分析任務(wù),編制數(shù)據(jù)分析任務(wù)計(jì)劃表,提交數(shù)據(jù)分析任務(wù)計(jì)劃表給相應(yīng)的部門經(jīng)理審批,并反饋審批結(jié)果,根據(jù)通過(guò)的審批結(jié)果創(chuàng)建數(shù)據(jù)分析任務(wù),并提交抓取。
2 數(shù)據(jù)分析任務(wù)計(jì)劃管理
數(shù)據(jù)分析任務(wù)計(jì)劃管理主要的工作是滿足管理員錄入數(shù)據(jù)需求分析任務(wù)計(jì)劃、制定數(shù)據(jù)分析任務(wù)計(jì)劃,提交給相應(yīng)的部門經(jīng)理審批。錄入數(shù)據(jù)分析任務(wù)計(jì)劃:數(shù)據(jù)分析任務(wù)計(jì)劃名稱、數(shù)據(jù)量、數(shù)據(jù)截止時(shí)間、具體要求、錄入時(shí)間、錄入人信息。制定數(shù)據(jù)分析任務(wù)計(jì)劃:匯總數(shù)據(jù)分析任務(wù)數(shù)據(jù)數(shù)量、任務(wù)類別、編制人信息、編制時(shí)間、計(jì)劃審核狀態(tài)。
(1)數(shù)據(jù)分析任務(wù)管理。
數(shù)據(jù)分析任務(wù)管理管理主要的工作是根據(jù)審批過(guò)的數(shù)據(jù)分析任務(wù)計(jì)劃,創(chuàng)建數(shù)據(jù)分析任務(wù),并提交服務(wù)器抓取相應(yīng)任務(wù)的數(shù)據(jù),對(duì)數(shù)據(jù)分析人物進(jìn)行分配,最后進(jìn)行數(shù)據(jù)分析任務(wù)進(jìn)度管理。創(chuàng)建數(shù)據(jù)分析任務(wù):數(shù)據(jù)分析任務(wù)名稱、創(chuàng)建時(shí)間、截止時(shí)間、創(chuàng)建人、主題規(guī)范、分析規(guī)則。
(2)分析規(guī)范管理。
分析規(guī)范管理是對(duì)數(shù)據(jù)分析進(jìn)行的一個(gè)詳細(xì)說(shuō)明,在用戶進(jìn)行數(shù)據(jù)分析的時(shí)候,能夠看到應(yīng)該怎樣分析。主要包括的內(nèi)容包含分析規(guī)范名稱、規(guī)范說(shuō)明、規(guī)范詳細(xì)內(nèi)容、創(chuàng)建人和創(chuàng)建時(shí)間。
(3)任務(wù)驗(yàn)收管理。
分析人員在完成分析任務(wù)后,需要由任務(wù)創(chuàng)建者來(lái)對(duì)其結(jié)果進(jìn)行驗(yàn)收,保證數(shù)據(jù)產(chǎn)出的質(zhì)量。驗(yàn)收需要有驗(yàn)收的標(biāo)準(zhǔn),需要能夠在系統(tǒng)中完成,同時(shí)驗(yàn)收一般都是抽樣處理,需要有一個(gè)抽樣驗(yàn)收的功能,驗(yàn)收完成后將驗(yàn)收?qǐng)?bào)告發(fā)給相應(yīng)的分析人員。收管理。詳細(xì)的需求如下:
a.驗(yàn)收標(biāo)準(zhǔn)管理驗(yàn)收標(biāo)準(zhǔn)在管理員開(kāi)啟驗(yàn)收任務(wù)之前給予提示,驗(yàn)收標(biāo)準(zhǔn)主要是一個(gè)文字說(shuō)明,在制定驗(yàn)收標(biāo)準(zhǔn)時(shí),能夠?qū)⒅皵?shù)據(jù)需求的主體規(guī)范、分析規(guī)則展現(xiàn)出來(lái),供新建驗(yàn)收標(biāo)準(zhǔn)使用。
b.任務(wù)驗(yàn)收管理驗(yàn)收標(biāo)準(zhǔn)制定完成后就可以開(kāi)始任務(wù)驗(yàn)收了,任務(wù)驗(yàn)收需要能夠輸入抽取數(shù)據(jù)的比例,并按照數(shù)據(jù)樣本量的情況分層均勻抽取,抽取完成后創(chuàng)建一個(gè)任務(wù)驗(yàn)收表,管理員可以在任務(wù)驗(yàn)收表中進(jìn)行數(shù)據(jù)驗(yàn)收。
(4)結(jié)算管理。
在驗(yàn)收完成后,需要對(duì)數(shù)據(jù)分析人員進(jìn)行結(jié)算,同時(shí)需要能夠在系統(tǒng)中編制報(bào)表和對(duì)賬單,對(duì)支出以及任務(wù)的總體情況進(jìn)行管理,主要的負(fù)責(zé)人為財(cái)務(wù)人員,這一塊主要的需求點(diǎn)為:對(duì)賬單管理、付款管理、報(bào)表管理。
a.付款管理:財(cái)務(wù)人員根據(jù)之前收到的任務(wù)驗(yàn)收?qǐng)?bào)告,并查看相應(yīng)的合同規(guī)定,來(lái)編制付款單。所以需要能夠在系統(tǒng)中編制付款單,包括付款單號(hào)、編制人、編制時(shí)間、付款明細(xì)、收款人、驗(yàn)收?qǐng)?bào)告編號(hào)等,編制完成后可以講此提交給財(cái)務(wù)主管處審核,完成后進(jìn)行付款操作,將付款單發(fā)送一份給數(shù)據(jù)分析人員和管理員。
b.對(duì)賬單管理:對(duì)賬單管理主要是將單個(gè)的數(shù)據(jù)分析人員每月任務(wù)完成情況和付款情況匯總后生成的一個(gè)單據(jù)。需要能夠在線編制完成,完成后確認(rèn)就可以直接發(fā)放給相應(yīng)的分析用戶。
(5)非功能性需求。
人民搜索數(shù)據(jù)管理系統(tǒng)是一個(gè)整個(gè)內(nèi)部各類數(shù)據(jù)及處理的系統(tǒng),會(huì)涉及到調(diào)用各類數(shù)據(jù),抓取、解析、存儲(chǔ)、展現(xiàn)等,同時(shí)由于搜索引擎內(nèi)部的策略比較多,對(duì)數(shù)據(jù)的依賴度比較大,因而使用頻率數(shù)據(jù)并發(fā)處理等方面要求都比較高。
3 總結(jié)
本文主要描述了人民搜索數(shù)據(jù)管理系統(tǒng)需要達(dá)到的技術(shù)指標(biāo)和預(yù)期,將整個(gè)系統(tǒng)的需求、各個(gè)模塊的流程和用例、以及系統(tǒng)在安全性等非功能性需求方面進(jìn)行相近的闡述,對(duì)后面做詳細(xì)的系統(tǒng)設(shè)計(jì)作支撐。
參考文獻(xiàn):
[1]施佺,王恒山,肖仰華,丁衛(wèi)平.面向主題的垂直搜索引擎系統(tǒng)的研究與實(shí)現(xiàn)[J],微電子學(xué)與計(jì)算機(jī), 201107.
[2]張敏.基于WEB的學(xué)科資源垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J],華中師范大學(xué), 2012.