單懷榮
摘 要:隨著經(jīng)濟的發(fā)展和社會的進步,互聯(lián)網(wǎng)視聽節(jié)目呈現(xiàn)遍地開花的態(tài)勢?;ヂ?lián)網(wǎng)視聽節(jié)目監(jiān)測系統(tǒng)技術(shù)也越來越重要。通過介紹互聯(lián)網(wǎng)視聽節(jié)目監(jiān)測系統(tǒng)及其相關(guān)技術(shù),以期能夠為同仁提供參考。
關(guān)鍵詞:互聯(lián)網(wǎng)視聽節(jié)目;網(wǎng)頁;監(jiān)測系統(tǒng);技術(shù)
中圖分類號:TP393.02 文獻標識碼:A 文章編號:2095-6835(2014)04-0129-02
1 系統(tǒng)架構(gòu)及其主要功能
1.1 未審批網(wǎng)站搜索
1.1.1 未審批站點(非法站點)的發(fā)現(xiàn)
未審批站點搜索引擎(專用搜索引擎)可以通過互聯(lián)網(wǎng)進行全方位、快速的掃描,以發(fā)現(xiàn)網(wǎng)絡(luò)傳播視、音頻節(jié)目的站點。對發(fā)現(xiàn)的視、音頻站點,系統(tǒng)要通過統(tǒng)一的接口將信息上傳至信息處理層,處理層對這些信息進行分析和組織后,將站點信息存入中央數(shù)據(jù)庫中。未審批站點搜索可以將搜索范圍限定在指定領(lǐng)域內(nèi)(某省份、某地區(qū)、某個IP地址段)。以杭州市為例,搜索范圍主要集中在杭州市內(nèi),并且能夠略過已通過廣電部門審批可以合法通過互聯(lián)網(wǎng)傳播視、音頻節(jié)目的站點,最大程度地降低了資源浪費和用戶處理工作量。網(wǎng)站信息包含站點域名、IP地址、物理地址、是否為直播站點等相關(guān)信息。
1.1.2 未審批站點節(jié)目信息分析
搜索引擎能夠快速地在網(wǎng)絡(luò)上搜索信息,智能分析系統(tǒng)可以有效地分析出網(wǎng)站中播放的各種節(jié)目的信息,例如,哪些站點提供了直播的節(jié)目,站點播放節(jié)目的名稱等;也可以對站點進行分類,分析出色情、反動等信息的存在。
1.1.3 未審批站點搜索結(jié)果信息審核
提供對信息結(jié)果的查看和查詢功能,查詢功能靈活、高效,可根據(jù)多種條件進行查詢。對搜索到的各種結(jié)果和數(shù)據(jù)提供修改功能,除了域名IP等固定信息外,都可以通過修改功能進行信息校準,并補充現(xiàn)有信息。
1.2 審批網(wǎng)站搜索
智能分析系統(tǒng)可以分析出網(wǎng)站中播放節(jié)目的各種信息;可以對站點靈活分類,識別節(jié)目內(nèi)容是否存在違規(guī)情況;可以對節(jié)目進行類似的可配置分類。通過搜索引擎,可以準確地發(fā)現(xiàn)網(wǎng)站上播放的視、音頻節(jié)目。
1.3 重點網(wǎng)站搜索
系統(tǒng)可以對產(chǎn)生影響較大、訪問量較高、節(jié)目數(shù)量多的視聽網(wǎng)站進行重點監(jiān)控。監(jiān)控結(jié)果可查看重點網(wǎng)站監(jiān)控的數(shù)據(jù),結(jié)果中會顯示網(wǎng)站名稱、網(wǎng)站域名、所在省份、所在城市、節(jié)目數(shù)等信息。節(jié)目信息包括節(jié)目標題、節(jié)目統(tǒng)一資源定位符(URL)、節(jié)目類別、節(jié)目網(wǎng)頁快照和節(jié)目下載情況等信息。重點網(wǎng)站的信息,可靈活地根據(jù)不同條件進行查詢,靈活制訂分類策略,對站點進行分類。
1.4 其他功能介紹
1.4.1 網(wǎng)頁快照
提供基于網(wǎng)頁數(shù)據(jù)快照的數(shù)據(jù)取證功能。系統(tǒng)將搜索時發(fā)現(xiàn)的視、音頻節(jié)目的網(wǎng)頁內(nèi)容中的有效信息存儲到本地(去掉大量的圖片信息),用戶可以將這些網(wǎng)絡(luò)快照作為歷史留存和處罰的證據(jù)。
1.4.2 IP地址定位
系統(tǒng)通過國內(nèi)IP地址信息庫提供準確的非法網(wǎng)站物理地址的定位信息,也可以基于非法站點的域名、IP地址發(fā)現(xiàn)網(wǎng)站服務(wù)器所在的省份、城市,部分可以精確到提供服務(wù)器的公司名稱。
1.4.3 非法站點警告及反饋
系統(tǒng)提供一個簡單的電子郵件自動發(fā)送平臺,用戶可以根據(jù)需求對情節(jié)非常嚴重的站點進行電子郵件警告。同時,系統(tǒng)會提供技術(shù)手段記錄警告內(nèi)容,并且通過日程安排模塊提供警告追蹤和提醒,綜合、全面地進行站點警告、反饋和處理等管理操作,簡化管理流程。用戶可以通過該模塊記錄對網(wǎng)站的警告、網(wǎng)站的反饋和與其溝通的過程,有效了解網(wǎng)絡(luò)的歷史遺存問題,掌握第一手管理資料。
互聯(lián)網(wǎng)視聽節(jié)目系統(tǒng)架構(gòu)如圖1所示。
2 相關(guān)技術(shù)淺析
2.1 搜索引擎技術(shù)基本原理
2.1.1 網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲是基于HTTP協(xié)議的網(wǎng)絡(luò)應(yīng)用程序。通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站上的某一個頁面(通常是首頁)開始讀取網(wǎng)頁內(nèi)容,并抽取網(wǎng)頁中的其他鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,一直循環(huán),直到把這個網(wǎng)站所有網(wǎng)頁抓取完為止。
增量式網(wǎng)絡(luò)爬蟲是對已下載網(wǎng)頁采取增量式更新或只爬行新產(chǎn)生的、已經(jīng)發(fā)生變化的網(wǎng)頁,有效減少了下載量,減少了時間和空間的耗費,提高了視聽節(jié)目監(jiān)測系統(tǒng)的效率。
2.1.2 索引器
索引器的主要功能是分析收集的信息,按照一定的結(jié)構(gòu)將信息組織成有序文件進行存儲,并建立相應(yīng)的URL、網(wǎng)頁內(nèi)容和網(wǎng)頁內(nèi)容偏移等索引。它主要用到的技術(shù)有分詞、索引詞選取、停用詞過濾、索引歸并、索引壓縮、索引更新和倒排文件緩存。
2.1.3 查詢器
查詢器的主要功能是通過用戶接口界面,在本地數(shù)據(jù)庫中查找與用戶要查詢的內(nèi)容相匹配的信息,并進行文檔與查詢相關(guān)度的計算,將排序結(jié)果以一定的形式返給用戶。
2.2 網(wǎng)頁分析技術(shù)
2.2.1 視頻網(wǎng)頁搜索和判斷
在互聯(lián)網(wǎng)視聽節(jié)目監(jiān)測系統(tǒng)中,搜索引擎的作用就是在網(wǎng)絡(luò)上搜尋視、音頻網(wǎng)頁,因為網(wǎng)絡(luò)上的數(shù)據(jù)是不斷更新的,種類也是不斷變化的。搜索引擎首先負責(zé)的就是將網(wǎng)絡(luò)上各種格式(avi,mp3,ram等)的視、音頻節(jié)目的具體信息搜索下來,其中包括網(wǎng)頁地址、瀏覽量、用戶評論和作者信息等。
一般情況下,互聯(lián)網(wǎng)部分視頻網(wǎng)站的視頻網(wǎng)頁的URL都有較明顯的規(guī)律可循,通過這些規(guī)律,可以簡單、快速地判斷網(wǎng)頁中是否包含視頻。例如,土豆網(wǎng)中包含視頻的網(wǎng)頁主要分為兩大類,由單個視頻和專輯中的視頻組成,其網(wǎng)頁URL格式表示如下:
單個視頻:http://www.tudou.com/albumplay/……=.html.
專輯:http://www.tudou.com/list/……=.html.endprint
還有一類視頻網(wǎng)頁有統(tǒng)一的、有規(guī)則的網(wǎng)站,通過正則表達式就可以簡單、快速、方便地判斷出對應(yīng)網(wǎng)站內(nèi)包含的網(wǎng)頁是否是視頻網(wǎng)頁。以土豆網(wǎng)為例,系統(tǒng)可以使用下面定義的正則表達式進行判斷:
單個視頻:http://www.tudou.com/albumplay/_(.*)=.html.
專輯:http://www.tudou.com/list/_(.*)=.html.
通過網(wǎng)頁的URL,使用上述正則表達式匹配成功,則可以認為該網(wǎng)頁中包含視頻。
2.2.2 網(wǎng)頁內(nèi)容分析
互聯(lián)網(wǎng)上的大部分資源是主要是超文本標記語言(HTML)網(wǎng)頁資源,HTML網(wǎng)頁必須通過網(wǎng)頁分析、處理后才能用于索引和檢索,很多相關(guān)的計算都需要解析后的HTML網(wǎng)頁,比如網(wǎng)頁內(nèi)容相關(guān)度計算、關(guān)鍵詞頻率計算,等等。HTML網(wǎng)頁的分析和處理,主要是初步完成網(wǎng)頁格式的解析,去掉網(wǎng)頁中顯示格式的控制元素和無意義的標簽信息。網(wǎng)頁中的多媒體、圖片等文件有許多不同的編碼格式, 一般都是通過鏈接的錨文本(即鏈接文本)和相關(guān)的文件注釋來判斷這些文件內(nèi)容的。另外, 還可以通過多媒體文件中的文件屬性了解文件的內(nèi)容。
系統(tǒng)對網(wǎng)頁內(nèi)容、編碼、類別等作相應(yīng)的分析、處理:對網(wǎng)頁內(nèi)容進行編碼轉(zhuǎn)換,自動對中文編碼進行識別、轉(zhuǎn)化,將其他種類的編碼類型轉(zhuǎn)換成GBK(即漢字編碼“國標”);將繁體字轉(zhuǎn)換成簡體字;并取頁面的標題、關(guān)鍵詞、摘要和其中的超鏈(Hyper Link)等關(guān)鍵數(shù)據(jù)生成摘要。
2.2.3 中文分詞技術(shù)
該系統(tǒng)主要采用基于詞典的中分分詞算法、基于統(tǒng)計的分詞算法和基于語義的分詞算法。
基于詞典的中文分詞算法包含三個要素,即分詞詞典、字符串匹配原則和文本掃描方向。詞典匹配法通常作為初分手段,其步驟簡單,易于實現(xiàn),且可以正確地切分出包含在詞典中的詞語,在現(xiàn)實中被廣泛使用。
基于統(tǒng)計的中文分詞算法是以相鄰的字之間共同出現(xiàn)的頻率或概率作為基于統(tǒng)計分詞方法構(gòu)建詞的基本依據(jù)。
基于語義的分詞算法是把語言學(xué)的相關(guān)知識加入到分詞規(guī)則庫中,它是模擬人腦對語言和句子的理解,達到識別詞匯單元的效果。要建立完整的分詞規(guī)則庫還是存在很大困難的,目前這種分詞方法還沒有得到廣泛應(yīng)用。
〔編輯:白潔〕
Abstract: With the development of economy and the progress of the society, the trend of blossoming over Internet audio-visual program. Internet video monitoring system technology is also more and more important. By introducing the Internet audio-visual program monitoring system and its related technology, in order to provide reference for colleagues.
Key words: internet audio-visual program; web page; monitoring system; technologyendprint