張斌和
(美豐農業(yè)科技(上海)有限公司,上海 200000)
隨著互聯(lián)網的迅速發(fā)展和數字化內容的日益增加,圖片中所包含的文字信息對于網頁搜索、文本分析和信息抽取等任務變得越來越重要。然而,傳統(tǒng)的文本搜索方法無法直接從圖片中檢索關鍵信息,這給利用圖像進行準確的文字搜索和定位帶來了挑戰(zhàn)。
為了解決這一問題,光學字符識別(OCR)技術被廣泛應用于將圖像中的文字提取為可供計算機處理的文本形式。然而,傳統(tǒng)的OCR方法在應用上存在一些限制,如需要專門的硬件設備和繁重的前期處理。為了提供更方便和高效的圖像文字搜索定位工具,近年來在Web 瀏覽器中進行圖像識別和OCR 的研究引起了廣泛關注。
將[0,xm]區(qū)間等分為m1個子區(qū)間,并設每一個小區(qū)間為[xri-1,xri],(i=1,2,…,m1).因此,每個小區(qū)間端點xri=i·2-N/m1,(i=0,1,…,m1).設幅度修正因子函數Kc在區(qū)間[xri-1,xri],(i=1,2,…,m1)上的最佳一致逼近一階多項式為
本研究旨在設計和開發(fā)一種基于tesseract.js的瀏覽器擴展,旨在為用戶提供一種在Web瀏覽器中準確搜索和定位圖片中的文字的便捷工具[1-3]。該擴展利用tesseract.js 作為OCR 引擎,結合瀏覽器擴展的功能,實現了直接在瀏覽器中識別圖片中的文字、提供搜索定位功能的能力。
與傳統(tǒng)的OCR 方法相比,基于tesseract.js 的瀏覽器擴展具有以下優(yōu)勢。首先,通過借助現有的瀏覽器平臺,消除了對專門硬件設備和前期處理的依賴,提供了一種輕量級的圖像文字搜索與定位解決方案。其次,擴展程序運行在用戶的瀏覽器環(huán)境中,可以在保護用戶隱私的同時提供本地化的圖像文字處理。同時,基于tesseract.js 引擎的高性能和可靠性可以保證文字識別的準確性和效率。
在本研究中,將詳細介紹基于tesseract.js 的瀏覽器擴展的設計與實現,并進行實驗評估。將討論擴展程序的功能、準確性和性能,并與相關方法進行比較。最后,探討該擴展程序在實際應用領域的潛在價值,并提出改進的建議和未來的研究方向。
本節(jié)將詳細介紹基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴展的設計和實現方法。首先介紹系統(tǒng)架構,包括背景腳本、內容腳本和相關的JavaScript 文件。接著解釋tesseract.js 的作用和OCR 引擎的組成。最后詳細描述瀏覽器擴展的關鍵功能和實現細節(jié)。
基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴展的系統(tǒng)架構包括背景腳本(background.js) 、內容腳本(content.js) 和相關的JavaScript 文件(tesseract.js、worker.js、tesseract-core-simd.wasm.js) 。背景腳本負責處理擴展程序的安裝、右鍵菜單的創(chuàng)建和消息傳遞,而內容腳本則負責與當前網頁進行交互和執(zhí)行圖像文字搜索定位的實際操作。
然而,需要認識到基于tesseract.js 的Web 圖片文字搜索定位的瀏覽器擴展存在一些局限性。首先,擴展程序可能受到圖像質量和復雜度的影響,對于低質量或含有干擾元素的圖像,識別和定位準確性可能會降低。其次,擴展程序仍然依賴于tesseract.js 作為OCR引擎,其性能和準確性受到引擎本身的限制。進一步的改進和優(yōu)化可能需要考慮更先進的OCR 技術和算法。
tesseract.js 是基于JavaScript 的OCR 庫,利用Web-Assembly技術加載和運行一個OCR引擎的二進制文件(tesseract-core-simd.wasm.js)。該OCR 引擎是基于tesseract 項目的開源引擎,經過優(yōu)化以便在瀏覽器中進行高性能的文字識別。
利用采集到的數據,當相關參數發(fā)生變化時,研究系統(tǒng)的EER是如何變化的,并且在分析測試結果的工作中,將相鄰時間段內波動比較大的數據剔除掉。為了盡量避免其他條件的影響,選擇機組運行正常2017年6月27日的數據進行分析。
普通本科院校的建設歸根結底是應用型本科專業(yè)的建設。旅游管理專業(yè)的特點要求在教學環(huán)節(jié)及人才培養(yǎng)過程中加大實踐教學力度,增加實踐教學內容,構建系統(tǒng)的實踐教學體系。
右鍵菜單創(chuàng)建:在圖像上右鍵點擊時,通過背景腳本創(chuàng)建一個右鍵菜單項,使用戶能夠觸發(fā)圖像文字搜索定位功能。
圖像文字搜索觸發(fā):當用戶選擇右鍵菜單中的搜索圖片選項時,內容腳本將發(fā)送消息給背景腳本,請求顯示一個輸入框以接收用戶輸入的搜索內容。
1.冬奧會的成功申辦為冰雪產業(yè)帶來了廣闊的發(fā)展前景。北京冬奧會助推了冰雪運動在中國的推廣與普及,同時也帶動了冰雪旅游、冰雪文化、冰雪裝備制造業(yè)等產業(yè)的發(fā)展。預計到2025年,我國冰雪產業(yè)總規(guī)模將達到萬億元,直接參加冰雪運動的人數可達5000萬人,并帶動3億人參與冰雪運動。冰雪產業(yè)無疑有著廣闊的發(fā)展前景。
圖像處理與OCR實現:當用戶在輸入框中輸入搜索內容并點擊搜索按鈕時,內容腳本將獲取所選圖像的URL,并利用tesseract.js 庫和OCR 引擎對圖像進行文字識別。識別的結果將與搜索內容進行匹配和定位,以便進行進一步操作。
搜索定位結果展示:搜索定位結果將以標注的方式展示在頁面上,例如在識別出的文本區(qū)域周圍繪制邊框或標記搜索關鍵詞。此外,還可以提供關閉按鈕,供用戶隨時關閉搜索定位結果的顯示。
基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴展具有以下關鍵功能:
背景腳本(background.js) :負責處理擴展程序的安裝和更新以及監(jiān)聽消息傳遞。通過與內容腳本進行通信,接收來自內容腳本的搜索請求,并與圖片文本識別模塊進行交互。
1997年,丹麥外科教授Henrik Kehlet首先提出加速康復外科(Fast Track surgery)的理念,目前,學術界對加速康復外科普遍采用的名稱為ERAS(Enhanced Recovery After Surgery)。2005年,歐洲臨床營養(yǎng)與代謝學會(ESPEN)首先提出圍術期ERAS整體管理方案。2007年,在黎介壽院士指導下,南京軍區(qū)總醫(yī)院全軍普通外科研究所首先開展ERAS的研究應用,并發(fā)表世界首篇有關胃切除術后加速康復外科的臨床結果。
基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴展包括以下關鍵部分:
本節(jié)將詳細介紹基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴展的具體實現和實驗過程。首先介紹實現細節(jié),包括代碼中的各個部分的作用和互動。然后描述實驗設置,包括實驗環(huán)境、測試網頁和相關的圖像和文本數據集。最后展示實驗結果,并對系統(tǒng)功能和性能進行評估。
圖1 background.js核心代碼
內容腳本(content.js):在當前網頁加載時注入,負責與網頁進行交互和執(zhí)行OCR 搜索定位操作。通過與背景腳本通信,觸發(fā)搜索請求并接收識別結果,并將結果展示到網頁上。
圖2 content.js核心代碼創(chuàng)建OCR識別對象
圖3 content.js根據關鍵字搜索圖片并定位
tesseract.js:作為核心庫文件,負責加載和運行OCR 引擎。它與worker.js 和tesseract-core-simd.wasm.js進行交互,并提供文字識別的功能。
tesseract-core-simd.wasm.js:包含了基于WebAssembly的高性能OCR引擎。它與tesseract.js和worker.js協(xié)同工作,提供準確和高效的文字識別功能。
worker.js:作為后臺工作器,運行在瀏覽器后臺,通過與tesseract-core-simd.wasm.js文件的交互執(zhí)行實際的圖像處理和OCR操作。
圖像和文本數據集:從網絡上獲取不同類型的圖片,并給這些圖片添加文字,構建用于實驗的圖像和文本數據集。這些數據集被用來模擬真實的網頁環(huán)境,以檢驗擴展程序對不同類型圖像的識別和搜索能力。
實驗環(huán)境:使用了一臺配備現代Web瀏覽器的計算機作為實驗平臺。運行Google Chrome 瀏覽器,并確保所使用的擴展程序在該環(huán)境下正常運行。
測試網頁:選擇了一組包含圖片中包含文字的網頁作為測試對象。這些網頁包括新聞文章、購物頁面和博客等不同類型的內容,以保證實驗的多樣性。
為了評估基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴展的性能和功能,本文進行了以下實驗設置:
對基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴展進行了一系列實驗,并評估了其功能和性能。實驗結果表明,該擴展程序在不同類型的網頁環(huán)境下能夠準確地識別圖片中的文字,并根據用戶的搜索內容進行定位和框選。
在功能方面,擴展程序能夠成功創(chuàng)建右鍵菜單,并將搜索請求和識別結果傳遞給后臺處理。對于搜索功能,擴展程序能夠根據用戶的輸入快速搜索并定位感興趣的文本區(qū)域,并進行標注展示。在性能方面,擴展程序能夠在合理的時間內完成圖像處理和文字識別,并以可接受的速度呈現搜索定位結果。
圖4 瀏覽器擴展程序創(chuàng)建“搜索圖片”右鍵菜單
圖5 響應菜單創(chuàng)建搜索框
圖6 根據關鍵字完成圖片文字搜索并彈出顯示
本節(jié)將對基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴展進行討論,包括功能評估和局限性、實際應用場景以及與相關工作的比較。
針對擴展程序的功能,進行了評估。擴展程序在準確性方面表現出色,能夠有效識別和定位圖像中的文字。在搜索功能上也取得了良好的效果,能夠根據用戶的搜索內容快速定位感興趣的文本區(qū)域。此外,擴展程序提供了用戶友好的界面和交互方式,例如標記搜索關鍵詞,提升了用戶體驗。
在投入資金、治理標準、政策法規(guī)、建設模式、運行管理等方面,北京市明顯走在最前列,其將生態(tài)清潔小流域作為生態(tài)建設的重要抓手,大規(guī)模實施并取得了顯著成效。而津冀兩地停留在傳統(tǒng)的小流域綜合治理,生態(tài)清潔小流域建設仍處在摸索階段,投入資金和治理標準也遠低于北京市。
基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴展在實際應用中具有廣泛的潛在價值。首先,它可以為用戶提供網頁圖像中文字的直接搜索和定位能力,方便用戶從圖片中獲取所需的信息。其次,它還可以用于圖像文檔的搜索和整理,提高文檔管理的效率和準確性[4]。
還有一些國際組織也在制定相關的標準,以推動綠色節(jié)能數據中心的建設,其中最成功的是綠色網格組織(GreenGrid)。該組織是致力于降低全球數據中心能源消耗的非營利性組織,由IBM、微軟等幾家知名IT公司聯(lián)合建立。而創(chuàng)立了全球最權威的綠色建筑LEED認證體系的美國綠色建筑委員會(USGBC),也針對數據中心建筑增加了綠色認證標準。綠色網格組織已成功開發(fā)出一套提高數據中心能效的指標,包括PUE、DCiE等,這些指標都在世界范圍內被廣泛使用,成功地為大量數據中心的建設和運營提供能源效率比對標準[4]。
基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴展與其他類似的圖像文字搜索和定位工具相比具有一些獨特的優(yōu)勢。首先,與傳統(tǒng)的OCR 技術相比,它不需要額外的硬件設備和復雜的前期處理,用戶可以直接在瀏覽器中完成圖片文字識別和搜索。其次,基于tesseract.js的引擎和WebAssembly技術,擴展程序提供了高性能的文字識別功能,能夠快速和準確地處理圖像中的文字。
然而,與其他類似擴展和工具相比,基于tesseract.js的瀏覽器擴展仍然存在一些局限性。例如,某些專用的OCR 軟件和服務可能提供更高級的文字識別和定位功能,但它們通常需要付費或在計算能力方面更為要求嚴格。此外,一些商業(yè)化的圖像處理和OCR解決方案可能在擴展程序中尚未完全覆蓋的領域中具有一定的競爭力。
在WIFI熱點較少的地方,定位精度較低,筆者用高德地圖開啟WIFI定位,精度只有74m。但是現在城市每個地方都充斥著WIFI熱點信號,尤其是各大商場、高層建筑等WIFI熱點充分的地方,像室內位置服務商WIFI SLAM能夠通過重力感應和指南針功能,同步腳步的移動,可定位的精確度在10m以內。
設計和實現基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴展,旨在為用戶提供在Web瀏覽器中準確搜索和定位圖片中文字的便捷工具。該擴展利用tesseract.js 作為OCR 引擎,并通過借助WebAssembly 技術實現了高準確性的文字識別和搜索定位功能,提供了直接從圖像中獲取所需信息的方式。
Optimization of Aeroengine Shop Visit Cost in its Service Life Cycle
本研究的主要貢獻如下:
首先,提出了基于tesseract.js 的Web 圖片文字搜索定位的瀏覽器擴展的概念和設計。通過結合現有的OCR 技術和Web 瀏覽器技術,實現了一個輕量級、方便和高效的圖像文字搜索定位工具,使用戶能夠在瀏覽器中直接操作圖像并提取其中的文字信息。
其次,詳細介紹了擴展程序的架構和關鍵功能。通過背景腳本、內容腳本和相關的JavaScript 文件的協(xié)同工作,擴展程序能夠與瀏覽器平臺和OCR引擎進行交互,實現圖像處理、文字識別和搜索定位等功能。
實驗結果展示了基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴展在不同類型的網頁環(huán)境下的準確性和性能。實驗評估表明,該擴展程序能夠快速識別圖片中的文字,并提供準確的搜索定位結果,為用戶提供了一個方便和高效的圖像文字搜索定位工具。
盡管基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴展在實驗中展現出了良好的功能和性能,但也存在一些局限性和改進空間。改進方向可以包括優(yōu)化圖像處理算法、提高識別準確性,以及擴展更多實際應用場景的適用性。
SHT11的初始化時序如下:當時鐘SCK高電平時信號DATA翻轉為低電平,緊接著 SCK 變?yōu)榈碗娖剑S后是在SCK時鐘高電平時DATA翻轉為高電平,如圖3所示。后續(xù)命令包括3個地址位和5個命令位,主要命令包括溫度測量命令(03H),濕度測量命令(05H),讀狀態(tài)寄存器指令(07H),和寫狀態(tài)寄存器指令(06H)。
其中,2010-2016年鄭州、開封、洛陽、新鄉(xiāng)和焦作5個城市的接近中心度均高于平均值,這些城市因經濟實力強、基礎設施完善、交通網絡完善,與其他節(jié)點城市的旅游經濟距離較近,旅游經濟交流阻礙較少,聯(lián)系較為緊密。在2010年漯河、信陽、駐馬店3個城市的接近中心度全省最低為51.51,但在2013-2016年漯河、信陽和駐馬店與網絡中其他節(jié)點城市的旅游經濟距離不斷縮短,逐漸擺脫中心城市的控制。而商丘和濟源因旅游發(fā)展動力不足等原因,與其他節(jié)點城市間的旅游經濟距離增大,逐漸被鄭州、開封、洛陽等中心城市所控制,在2013-2016年接近中心度達全省最低值。
未來工作可以進一步探索基于深度學習的OCR技術和算法,以提高文字識別的準確性和效率[5]。此外,可以考慮進一步優(yōu)化擴展程序的用戶界面和交互體驗,使其更加友好和易用。
基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴展在圖像文字處理領域具有廣泛的應用潛力,可以在網頁搜索、文本分析和信息抽取等任務中發(fā)揮重要作用。未來的研究可以進一步拓展應用場景,并深入探索該領域的技術創(chuàng)新和改進方向。