• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      互聯(lián)網(wǎng)視聽節(jié)目監(jiān)測系統(tǒng)及相關(guān)技術(shù)淺析

      2014-05-19 14:19:12單懷榮
      科技與創(chuàng)新 2014年4期
      關(guān)鍵詞:監(jiān)測系統(tǒng)網(wǎng)頁技術(shù)

      單懷榮

      摘 要:隨著經(jīng)濟的發(fā)展和社會的進步,互聯(lián)網(wǎng)視聽節(jié)目呈現(xiàn)遍地開花的態(tài)勢?;ヂ?lián)網(wǎng)視聽節(jié)目監(jiān)測系統(tǒng)技術(shù)也越來越重要。通過介紹互聯(lián)網(wǎng)視聽節(jié)目監(jiān)測系統(tǒng)及其相關(guān)技術(shù),以期能夠為同仁提供參考。

      關(guān)鍵詞:互聯(lián)網(wǎng)視聽節(jié)目;網(wǎng)頁;監(jiān)測系統(tǒng);技術(shù)

      中圖分類號:TP393.02 文獻標識碼:A 文章編號:2095-6835(2014)04-0129-02

      1 系統(tǒng)架構(gòu)及其主要功能

      1.1 未審批網(wǎng)站搜索

      1.1.1 未審批站點(非法站點)的發(fā)現(xiàn)

      未審批站點搜索引擎(專用搜索引擎)可以通過互聯(lián)網(wǎng)進行全方位、快速的掃描,以發(fā)現(xiàn)網(wǎng)絡(luò)傳播視、音頻節(jié)目的站點。對發(fā)現(xiàn)的視、音頻站點,系統(tǒng)要通過統(tǒng)一的接口將信息上傳至信息處理層,處理層對這些信息進行分析和組織后,將站點信息存入中央數(shù)據(jù)庫中。未審批站點搜索可以將搜索范圍限定在指定領(lǐng)域內(nèi)(某省份、某地區(qū)、某個IP地址段)。以杭州市為例,搜索范圍主要集中在杭州市內(nèi),并且能夠略過已通過廣電部門審批可以合法通過互聯(lián)網(wǎng)傳播視、音頻節(jié)目的站點,最大程度地降低了資源浪費和用戶處理工作量。網(wǎng)站信息包含站點域名、IP地址、物理地址、是否為直播站點等相關(guān)信息。

      1.1.2 未審批站點節(jié)目信息分析

      搜索引擎能夠快速地在網(wǎng)絡(luò)上搜索信息,智能分析系統(tǒng)可以有效地分析出網(wǎng)站中播放的各種節(jié)目的信息,例如,哪些站點提供了直播的節(jié)目,站點播放節(jié)目的名稱等;也可以對站點進行分類,分析出色情、反動等信息的存在。

      1.1.3 未審批站點搜索結(jié)果信息審核

      提供對信息結(jié)果的查看和查詢功能,查詢功能靈活、高效,可根據(jù)多種條件進行查詢。對搜索到的各種結(jié)果和數(shù)據(jù)提供修改功能,除了域名IP等固定信息外,都可以通過修改功能進行信息校準,并補充現(xiàn)有信息。

      1.2 審批網(wǎng)站搜索

      智能分析系統(tǒng)可以分析出網(wǎng)站中播放節(jié)目的各種信息;可以對站點靈活分類,識別節(jié)目內(nèi)容是否存在違規(guī)情況;可以對節(jié)目進行類似的可配置分類。通過搜索引擎,可以準確地發(fā)現(xiàn)網(wǎng)站上播放的視、音頻節(jié)目。

      1.3 重點網(wǎng)站搜索

      系統(tǒng)可以對產(chǎn)生影響較大、訪問量較高、節(jié)目數(shù)量多的視聽網(wǎng)站進行重點監(jiān)控。監(jiān)控結(jié)果可查看重點網(wǎng)站監(jiān)控的數(shù)據(jù),結(jié)果中會顯示網(wǎng)站名稱、網(wǎng)站域名、所在省份、所在城市、節(jié)目數(shù)等信息。節(jié)目信息包括節(jié)目標題、節(jié)目統(tǒng)一資源定位符(URL)、節(jié)目類別、節(jié)目網(wǎng)頁快照和節(jié)目下載情況等信息。重點網(wǎng)站的信息,可靈活地根據(jù)不同條件進行查詢,靈活制訂分類策略,對站點進行分類。

      1.4 其他功能介紹

      1.4.1 網(wǎng)頁快照

      提供基于網(wǎng)頁數(shù)據(jù)快照的數(shù)據(jù)取證功能。系統(tǒng)將搜索時發(fā)現(xiàn)的視、音頻節(jié)目的網(wǎng)頁內(nèi)容中的有效信息存儲到本地(去掉大量的圖片信息),用戶可以將這些網(wǎng)絡(luò)快照作為歷史留存和處罰的證據(jù)。

      1.4.2 IP地址定位

      系統(tǒng)通過國內(nèi)IP地址信息庫提供準確的非法網(wǎng)站物理地址的定位信息,也可以基于非法站點的域名、IP地址發(fā)現(xiàn)網(wǎng)站服務(wù)器所在的省份、城市,部分可以精確到提供服務(wù)器的公司名稱。

      1.4.3 非法站點警告及反饋

      系統(tǒng)提供一個簡單的電子郵件自動發(fā)送平臺,用戶可以根據(jù)需求對情節(jié)非常嚴重的站點進行電子郵件警告。同時,系統(tǒng)會提供技術(shù)手段記錄警告內(nèi)容,并且通過日程安排模塊提供警告追蹤和提醒,綜合、全面地進行站點警告、反饋和處理等管理操作,簡化管理流程。用戶可以通過該模塊記錄對網(wǎng)站的警告、網(wǎng)站的反饋和與其溝通的過程,有效了解網(wǎng)絡(luò)的歷史遺存問題,掌握第一手管理資料。

      互聯(lián)網(wǎng)視聽節(jié)目系統(tǒng)架構(gòu)如圖1所示。

      2 相關(guān)技術(shù)淺析

      2.1 搜索引擎技術(shù)基本原理

      2.1.1 網(wǎng)絡(luò)爬蟲

      網(wǎng)絡(luò)爬蟲是基于HTTP協(xié)議的網(wǎng)絡(luò)應(yīng)用程序。通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站上的某一個頁面(通常是首頁)開始讀取網(wǎng)頁內(nèi)容,并抽取網(wǎng)頁中的其他鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,一直循環(huán),直到把這個網(wǎng)站所有網(wǎng)頁抓取完為止。

      增量式網(wǎng)絡(luò)爬蟲是對已下載網(wǎng)頁采取增量式更新或只爬行新產(chǎn)生的、已經(jīng)發(fā)生變化的網(wǎng)頁,有效減少了下載量,減少了時間和空間的耗費,提高了視聽節(jié)目監(jiān)測系統(tǒng)的效率。

      2.1.2 索引器

      索引器的主要功能是分析收集的信息,按照一定的結(jié)構(gòu)將信息組織成有序文件進行存儲,并建立相應(yīng)的URL、網(wǎng)頁內(nèi)容和網(wǎng)頁內(nèi)容偏移等索引。它主要用到的技術(shù)有分詞、索引詞選取、停用詞過濾、索引歸并、索引壓縮、索引更新和倒排文件緩存。

      2.1.3 查詢器

      查詢器的主要功能是通過用戶接口界面,在本地數(shù)據(jù)庫中查找與用戶要查詢的內(nèi)容相匹配的信息,并進行文檔與查詢相關(guān)度的計算,將排序結(jié)果以一定的形式返給用戶。

      2.2 網(wǎng)頁分析技術(shù)

      2.2.1 視頻網(wǎng)頁搜索和判斷

      在互聯(lián)網(wǎng)視聽節(jié)目監(jiān)測系統(tǒng)中,搜索引擎的作用就是在網(wǎng)絡(luò)上搜尋視、音頻網(wǎng)頁,因為網(wǎng)絡(luò)上的數(shù)據(jù)是不斷更新的,種類也是不斷變化的。搜索引擎首先負責(zé)的就是將網(wǎng)絡(luò)上各種格式(avi,mp3,ram等)的視、音頻節(jié)目的具體信息搜索下來,其中包括網(wǎng)頁地址、瀏覽量、用戶評論和作者信息等。

      一般情況下,互聯(lián)網(wǎng)部分視頻網(wǎng)站的視頻網(wǎng)頁的URL都有較明顯的規(guī)律可循,通過這些規(guī)律,可以簡單、快速地判斷網(wǎng)頁中是否包含視頻。例如,土豆網(wǎng)中包含視頻的網(wǎng)頁主要分為兩大類,由單個視頻和專輯中的視頻組成,其網(wǎng)頁URL格式表示如下:

      單個視頻:http://www.tudou.com/albumplay/……=.html.

      專輯:http://www.tudou.com/list/……=.html.endprint

      還有一類視頻網(wǎng)頁有統(tǒng)一的、有規(guī)則的網(wǎng)站,通過正則表達式就可以簡單、快速、方便地判斷出對應(yīng)網(wǎng)站內(nèi)包含的網(wǎng)頁是否是視頻網(wǎng)頁。以土豆網(wǎng)為例,系統(tǒng)可以使用下面定義的正則表達式進行判斷:

      單個視頻:http://www.tudou.com/albumplay/_(.*)=.html.

      專輯:http://www.tudou.com/list/_(.*)=.html.

      通過網(wǎng)頁的URL,使用上述正則表達式匹配成功,則可以認為該網(wǎng)頁中包含視頻。

      2.2.2 網(wǎng)頁內(nèi)容分析

      互聯(lián)網(wǎng)上的大部分資源是主要是超文本標記語言(HTML)網(wǎng)頁資源,HTML網(wǎng)頁必須通過網(wǎng)頁分析、處理后才能用于索引和檢索,很多相關(guān)的計算都需要解析后的HTML網(wǎng)頁,比如網(wǎng)頁內(nèi)容相關(guān)度計算、關(guān)鍵詞頻率計算,等等。HTML網(wǎng)頁的分析和處理,主要是初步完成網(wǎng)頁格式的解析,去掉網(wǎng)頁中顯示格式的控制元素和無意義的標簽信息。網(wǎng)頁中的多媒體、圖片等文件有許多不同的編碼格式, 一般都是通過鏈接的錨文本(即鏈接文本)和相關(guān)的文件注釋來判斷這些文件內(nèi)容的。另外, 還可以通過多媒體文件中的文件屬性了解文件的內(nèi)容。

      系統(tǒng)對網(wǎng)頁內(nèi)容、編碼、類別等作相應(yīng)的分析、處理:對網(wǎng)頁內(nèi)容進行編碼轉(zhuǎn)換,自動對中文編碼進行識別、轉(zhuǎn)化,將其他種類的編碼類型轉(zhuǎn)換成GBK(即漢字編碼“國標”);將繁體字轉(zhuǎn)換成簡體字;并取頁面的標題、關(guān)鍵詞、摘要和其中的超鏈(Hyper Link)等關(guān)鍵數(shù)據(jù)生成摘要。

      2.2.3 中文分詞技術(shù)

      該系統(tǒng)主要采用基于詞典的中分分詞算法、基于統(tǒng)計的分詞算法和基于語義的分詞算法。

      基于詞典的中文分詞算法包含三個要素,即分詞詞典、字符串匹配原則和文本掃描方向。詞典匹配法通常作為初分手段,其步驟簡單,易于實現(xiàn),且可以正確地切分出包含在詞典中的詞語,在現(xiàn)實中被廣泛使用。

      基于統(tǒng)計的中文分詞算法是以相鄰的字之間共同出現(xiàn)的頻率或概率作為基于統(tǒng)計分詞方法構(gòu)建詞的基本依據(jù)。

      基于語義的分詞算法是把語言學(xué)的相關(guān)知識加入到分詞規(guī)則庫中,它是模擬人腦對語言和句子的理解,達到識別詞匯單元的效果。要建立完整的分詞規(guī)則庫還是存在很大困難的,目前這種分詞方法還沒有得到廣泛應(yīng)用。

      〔編輯:白潔〕

      Abstract: With the development of economy and the progress of the society, the trend of blossoming over Internet audio-visual program. Internet video monitoring system technology is also more and more important. By introducing the Internet audio-visual program monitoring system and its related technology, in order to provide reference for colleagues.

      Key words: internet audio-visual program; web page; monitoring system; technologyendprint

      猜你喜歡
      監(jiān)測系統(tǒng)網(wǎng)頁技術(shù)
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
      電子制作(2018年10期)2018-08-04 03:24:38
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      基于數(shù)據(jù)融合的掘進機截齒磨損狀態(tài)監(jiān)測
      行波故障指示器在500kV線路故障診斷中的研究與應(yīng)用
      基于廣播模式的數(shù)據(jù)實時采集與處理系統(tǒng)
      軟件工程(2016年8期)2016-10-25 15:54:18
      淺談鋼筋混凝土結(jié)構(gòu)建筑應(yīng)用外包粘鋼加固技術(shù)
      探討電力系統(tǒng)中配網(wǎng)自動化技術(shù)
      科技視界(2016年21期)2016-10-17 20:00:58
      移動應(yīng)用系統(tǒng)開發(fā)
      科技視界(2016年21期)2016-10-17 19:38:30
      北京市中小企業(yè)優(yōu)化升級
      商(2016年27期)2016-10-17 04:13:28
      GIS設(shè)備局部放電監(jiān)測系統(tǒng)的研究
      类乌齐县| 襄汾县| 兴国县| 五河县| 富阳市| 博客| 乐至县| 南京市| 万宁市| 鹤岗市| 宁都县| 五指山市| 罗田县| 车致| 通山县| 马公市| 德清县| 沅江市| 灌云县| 嘉禾县| 宕昌县| 清河县| 方正县| 建德市| 中超| 行唐县| 荥阳市| 咸宁市| 蒙城县| 缙云县| 竹山县| 分宜县| 儋州市| 华阴市| 双桥区| 普陀区| 红河县| 汾阳市| 嘉鱼县| 高青县| 攀枝花市|