郭俊修,柳有權(quán),王松雪
基于普通紙筆的投影交互方法研究
郭俊修,柳有權(quán),王松雪
(長(zhǎng)安大學(xué)信息工程學(xué)院 陜西 西安 710064)
投影交互使交互空間不再局限于屏幕,與其他方式相比具有更好的用眼舒適度,能夠?qū)崿F(xiàn)豐富的交互效果,而筆式書寫交互則有著與生俱來的自然性和高效性。結(jié)合二者優(yōu)點(diǎn),提出了一種基于普通紙筆的投影交互方法,通過普通紙筆與計(jì)算機(jī)進(jìn)行交互,攝像頭用于采集手寫內(nèi)容,投影儀則用于識(shí)別效果呈現(xiàn)。另外,通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)和KNN結(jié)合使系統(tǒng)可自動(dòng)適應(yīng)用戶的手寫風(fēng)格,提高了針對(duì)不同用戶的手寫體識(shí)別率。在此基礎(chǔ)上,針對(duì)教育領(lǐng)域設(shè)計(jì)了單詞拼寫和算式計(jì)算2個(gè)典型應(yīng)用。經(jīng)實(shí)驗(yàn)和用戶調(diào)查,該交互方法與其他交互方法相比,更舒適自然,具有較強(qiáng)的實(shí)用性。
普通紙筆;投影交互;手寫體識(shí)別;筆式交互
人機(jī)交互是實(shí)現(xiàn)用戶與計(jì)算機(jī)之間進(jìn)行信息交換的通路[1]。廣泛應(yīng)用的基于鼠標(biāo)鍵盤的交互借助了鼠標(biāo)鍵盤完成了信息從用戶到計(jì)算機(jī)的流動(dòng),然而給用戶帶來了學(xué)習(xí)鼠標(biāo)鍵盤使用的負(fù)擔(dān);其次,在交互過程中形成了顯示器向用戶、用戶向鼠標(biāo)鍵盤以及鼠標(biāo)鍵盤向顯示器的信息流通冗余環(huán)路,大大影響了交互過程的直觀性和主動(dòng)性?;谟|屏的交互較好地解決了上述問題,但存在著“胖手指”問題,即由于用戶手指相對(duì)于UI控件臃腫而導(dǎo)致的誤觸、遮擋等問題,且將交互過程局限在屏幕上,一定程度上限制了人機(jī)交互的自由性。
隨著投影儀的尺寸越來越小、價(jià)格越來越低,越來越多的研究人員對(duì)投影交互進(jìn)行探索。投影交互的優(yōu)點(diǎn)在于投影平面大、投影位置靈活,且經(jīng)過漫反射后光線變得柔和,比LED 顯示屏對(duì)人眼的舒適度影響更小[2]。除此之外,投影交互可以直接在實(shí)物上投影內(nèi)容,實(shí)現(xiàn)增強(qiáng)現(xiàn)實(shí)的效果。在教育和娛樂領(lǐng)域,投影交互得到了廣泛地應(yīng)用,但目前投影交互仍以內(nèi)容顯示為主,用戶與計(jì)算機(jī)的交互不足且方式單一,多以模擬觸控交互為表現(xiàn)。
筆式交互是Post-WIMP時(shí)代人機(jī)交互的研究重點(diǎn)。筆式交互基于傳統(tǒng)的紙筆隱喻,有著與生俱來的自然性和舒適性[3]。筆尖比手指更加精細(xì),可解決觸屏交互中的“胖手指”問題。筆式交互還可實(shí)現(xiàn)多維度的信息輸入,為更高的輸入帶寬和更準(zhǔn)確的交互體驗(yàn)提供了可能。但其需要數(shù)位板及配套的電子筆作為硬件,且價(jià)格較昂貴,使用體驗(yàn)與普通紙筆有一定差距。同時(shí),作為筆式交互中最常用交互手段的筆手勢(shì)存在著難以記憶、表達(dá)的交互內(nèi)容有限等問題。
本文提出了一種基于普通紙筆的投影交互方法。該方法降低了筆式交互對(duì)硬件的要求,僅需要普通紙筆就可以與計(jì)算機(jī)進(jìn)行交互,交互信息的采集及效果的呈現(xiàn)分別由攝像頭和投影儀完成。同時(shí)借助深度學(xué)習(xí)技術(shù),該交互方式能夠自動(dòng)適應(yīng)用戶的手寫體風(fēng)格,隨著用戶的使用,對(duì)手寫體的識(shí)別精度不斷提高,使交互過程不再是用戶單向適應(yīng)計(jì)算機(jī),而是用戶與計(jì)算機(jī)相互適應(yīng)。本文交互方式通過增加交互命令字能夠?qū)崿F(xiàn)更復(fù)雜、更豐富的交互行為;與現(xiàn)有的筆式交互相比,本交互方式使用的是普通紙筆而非數(shù)位板和電子筆,硬件成本低廉且能夠提供更自然舒適的交互體驗(yàn)。經(jīng)實(shí)驗(yàn)和用戶調(diào)查,本文方法在幾乎不增加學(xué)習(xí)成本的情況下,能夠?yàn)橛脩籼峁┳匀弧⑹孢m、高效的交互體驗(yàn)。
隨著投影儀的廣泛使用,基于投影交互的研究也越來越多。HATANAKA等[4]提出了基于手寫識(shí)別的Dream Board系統(tǒng),在用戶圈選白板上的單詞后,系統(tǒng)會(huì)在其上方投影與單詞匹配的圖像,通過圖文結(jié)合的方式讓用戶快速了解單詞的含義從而幫助用戶學(xué)習(xí)單詞。WELLNER[5]提出了DigitalDesk系統(tǒng),其利用計(jì)算機(jī)視覺完成紙張識(shí)別、定位,然后將圖像投影到紙張上,用戶通過筆或手指在紙張上與計(jì)算機(jī)交互。受文獻(xiàn)[5]的啟發(fā),ROBINSON和ROBERTSON[6]利用LivePaper系統(tǒng)跟蹤普通紙張上的手寫字符來定位紙張,然后在紙張上投影多媒體內(nèi)容,并通過手指完成一系列操作。WILSON[7]提出了基于計(jì)算機(jī)視覺的PlayAnywhere系統(tǒng),其由相機(jī)和投影儀組成,通過計(jì)算機(jī)視覺實(shí)現(xiàn)了指尖懸停、點(diǎn)擊的檢測(cè)以及紙張定位和基于光流法的動(dòng)作檢測(cè),最終實(shí)現(xiàn)了一種緊湊的交互桌面投影交互系統(tǒng)。王修暉等[8]探索了投影模式下的手勢(shì)交互,設(shè)計(jì)并實(shí)現(xiàn)了基于計(jì)算機(jī)視覺和數(shù)據(jù)手套的手勢(shì)交互系統(tǒng)。LU等[9]從中國(guó)皮影戲中獲得靈感,通過手持定向傳感器操控投影的虛擬角色,啟發(fā)人們用硬件來實(shí)現(xiàn)更加豐富、復(fù)雜的投影交互。上述基于投影交互的系統(tǒng)大多數(shù)是通過定位投影平面來投影內(nèi)容,難以靈活完成復(fù)雜的交互行為。
筆式交互憑借著符合人的認(rèn)知習(xí)慣、以及人對(duì)紙筆的偏好,成為未來用戶界面的一種重要發(fā)展方向[10]。陳若輕等[11]提出了手寫譜曲系統(tǒng)Prelude,通過手繪音符識(shí)別同時(shí)引入紙帶放大鏡和自由書寫2套模式,最大限度地還原了執(zhí)筆創(chuàng)作的自然度和流暢度。孟珊等[12]提出了面向?qū)W習(xí)者的筆式幾何學(xué)習(xí)系統(tǒng),其通過幾何屬性動(dòng)態(tài)展示幫助學(xué)習(xí)者學(xué)習(xí)幾何知識(shí),并通過筆手勢(shì)來完成刪除、選擇、拖動(dòng)等交互行為。徐禮爽等[13]提出了在線雙向適應(yīng)的筆手勢(shì)界面框架,當(dāng)筆手勢(shì)需要進(jìn)行糾錯(cuò)和模糊消解時(shí),用戶既可以選擇學(xué)習(xí)系統(tǒng)也可以選擇適應(yīng)用戶,從而實(shí)現(xiàn)了系統(tǒng)與用戶的雙向?qū)W習(xí)。馮海波等[14]利用基于手勢(shì)的手寫公式編輯系統(tǒng)實(shí)現(xiàn)了手寫公式字符的識(shí)別,并加入選擇、取消、刪除等筆手勢(shì)方便用戶對(duì)手寫公式進(jìn)行修改。CABRAL和CORREIA[15]實(shí)現(xiàn)了基于筆式用戶界面的視頻編輯技術(shù),對(duì)視頻幀的圈選、涂抹、裁剪、壓力感應(yīng)縮放等功能。上述基于筆式交互的系統(tǒng)依賴數(shù)位板及電子筆,使用體驗(yàn)與普通紙筆還有一定差距。隨著計(jì)算機(jī)硬件的發(fā)展和高質(zhì)量數(shù)據(jù)的積累,深度學(xué)習(xí)在很多領(lǐng)域得到了廣泛的應(yīng)用[16-18]。借助深度學(xué)習(xí),只需通過視覺技術(shù)就可完成光學(xué)字符的定位識(shí)別等任務(wù)。
綜上,投影交互和筆式交互是Post-WIMP用戶界面的研究熱點(diǎn)。相比現(xiàn)有工作,本文將投影交互與筆式交互結(jié)合,提出的基于普通紙筆的投影交互方法結(jié)合了投影交互和筆式交互的優(yōu)點(diǎn),交互方式有很大不同,既保留了投影的用眼舒適度特性,又有筆式交互的靈活性。
本文提出的基于普通紙筆的投影交互方法框架如圖1所示,實(shí)際交互效果如圖2所示。首先,計(jì)算機(jī)投影初始界面,用戶使用普通紙筆書寫交互命令字(如#menu、#exit等),攝像頭采集用戶在紙張上的手寫體,經(jīng)手寫檢測(cè)傳遞給交互決策模塊,并依據(jù)當(dāng)前狀態(tài)和用戶輸入做出決策后將響應(yīng)結(jié)果(場(chǎng)景切換及3D模型等)通過投影儀反饋給用戶,用戶根據(jù)響應(yīng)結(jié)果再做出進(jìn)一步的交互命令。整個(gè)交互過程在一個(gè)平面(即投影面和紙張所在的平面)內(nèi)完成,用戶幾乎不需要預(yù)先學(xué)習(xí)如何使用該用戶界面,只需要依據(jù)計(jì)算機(jī)投影內(nèi)容書寫相應(yīng)的交互命令字即可。
圖1 系統(tǒng)框架
圖2 用戶交互示意圖
如圖2所示,投影區(qū)域位于操作平臺(tái)的上方,這樣可以減少用戶在手寫時(shí)遮擋投影內(nèi)容;用戶手寫區(qū)域位于操作平臺(tái)下方,也允許手寫區(qū)域與投影區(qū)域重合,從而方便用戶依據(jù)的投影內(nèi)容書寫需要的交互命令字。
為了實(shí)現(xiàn)該用戶界面,需要完成4方面的工作:①硬件系統(tǒng);②自適應(yīng)的手寫體檢測(cè)及識(shí)別;③交互命令字的設(shè)計(jì);④交互內(nèi)容的設(shè)計(jì)。
根據(jù)需要,自制硬件系統(tǒng)如圖3所示,由高清攝像頭和微型投影儀組成,通過支架安裝在操作平臺(tái)上方且光軸垂直于操作平臺(tái),通過數(shù)據(jù)線與計(jì)算機(jī)相連。微型投影儀采用DLP技術(shù),具備自動(dòng)梯形矯正功能,減少了矯正投影儀的工作。微型投影儀與高清攝像頭緊密連接,分別負(fù)責(zé)投影區(qū)域和用戶書寫區(qū)域。
圖3 自制投影系統(tǒng)硬件
要檢測(cè)和識(shí)別紙張上的手寫體,首先要定位紙張,以方便進(jìn)行手寫體字符分割并識(shí)別??紤]到紙張檢測(cè)的魯棒性和實(shí)時(shí)性,本文通過檢測(cè)預(yù)先打印的位置探測(cè)標(biāo)識(shí)來定位紙張。為了實(shí)現(xiàn)手寫體識(shí)別能夠自動(dòng)適應(yīng)不同用戶的手寫風(fēng)格,本文采用了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)+ KNN (K-NearestNeighbor)的識(shí)別算法,既利用了CNN強(qiáng)大的自動(dòng)提取特征的能力,也利用了KNN不需要訓(xùn)練的特點(diǎn),較好地實(shí)現(xiàn)了自適應(yīng)用戶的手寫風(fēng)格。
2.2.1 基于位置探測(cè)標(biāo)識(shí)的紙張定位及字符分割
對(duì)于缺少顯著紋理細(xì)節(jié)的空白紙張的定位和跟蹤一直是計(jì)算機(jī)視覺領(lǐng)域的難題,主要原因在于空白紙張包含的特征(如顏色、邊界、角點(diǎn))等容易受到背景、光照、遮擋等因素的影響。為了保證系統(tǒng)的魯棒性與實(shí)時(shí)性,本文在空白紙張的左下角、右上角和右下角各添加了一個(gè)位置探測(cè)標(biāo)識(shí)用以紙張定位,如圖4所示。所用位置探測(cè)標(biāo)識(shí)具有以下約束條件:
(1) 3個(gè)同心鑲嵌的正方形;
(2) 3個(gè)正方形的面積比為25﹕16﹕9。
圖4 位置探測(cè)標(biāo)識(shí)
通過在圖像中尋找滿足以上約束條件的輪廓確定3個(gè)位置探測(cè)標(biāo)識(shí)的位置,即紙張左下角、右上角和右下角的位置,從而完成紙張定位。右下角標(biāo)識(shí)同時(shí)用來根據(jù)手的遮擋情況觸發(fā)手寫過程的狀態(tài)切換,以避免重復(fù)識(shí)別降低了程序效率。
得到的紙張區(qū)域圖像進(jìn)行裁剪并透視變換后,使用投影法進(jìn)行字符分割:首先對(duì)圖像縱向投影,統(tǒng)計(jì)橫向方向上黑色像素個(gè)數(shù),得到字符橫向位置;然后對(duì)圖像進(jìn)行橫向投影,統(tǒng)計(jì)縱向方向上黑色像素個(gè)數(shù),得到字符縱向位置。最終得到用戶書寫的字符串。
如圖5所示,經(jīng)過紙張定位、透視變換、圖像二值化及投影法分割后,最終得到每個(gè)字符圖像。
圖5 中間結(jié)果
2.2.2 基于CNN+KNN的手寫體分類
CNN[19]強(qiáng)大的自動(dòng)提取特征的能力使其成為解決手寫體識(shí)別問題的主流方法。
考慮到交互命令字所使用的小寫英文字母的類別較少、字符的結(jié)構(gòu)相對(duì)簡(jiǎn)單、不含高級(jí)的語義特征等,本文借鑒結(jié)構(gòu)簡(jiǎn)單、運(yùn)算量小的經(jīng)典CNN——VGG-16[20]的設(shè)計(jì)構(gòu)建了CNN。本文使用NIST SD 19[21]中的小寫英文字符類訓(xùn)練的測(cè)試CNN。在經(jīng)過12 epochs訓(xùn)練后,本文CNN在訓(xùn)練集上取得了99.36%的準(zhǔn)確率,可完美擬合訓(xùn)練集;此外,在測(cè)試集上取得了99.15%的準(zhǔn)確率,說明該神經(jīng)網(wǎng)絡(luò)具備良好的泛化能力。
雖然CNN已能精準(zhǔn)識(shí)別手寫體,但卻無法及時(shí)適應(yīng)用戶風(fēng)格迥異的手寫風(fēng)格。這是因?yàn)榧幢阋呀?jīng)得到了帶有用戶風(fēng)格的手寫體,CNN只有重新訓(xùn)練才能學(xué)習(xí)其特征,而該過程十分耗時(shí),這是由Softmax分類層決定的。Softmax分類層的計(jì)算為
其中,(i)為第個(gè)樣本;(i)為第個(gè)樣本的類別,共有種類別;為用于計(jì)算類別的參數(shù);((i)=|(i);)為在參數(shù)為時(shí),將(i)的類別預(yù)測(cè)為的概率。
從式(1)可以看出,當(dāng)新樣本出現(xiàn)時(shí),需要重新訓(xùn)練CNN來更新參數(shù),從而才能對(duì)新樣本進(jìn)行正確分類,但這一過程需要大量的時(shí)間和計(jì)算資源。同時(shí),當(dāng)需要增加新的類別時(shí),需要對(duì)CNN重新訓(xùn)練,以使CNN獲得識(shí)別新類別的能力。
使用KNN取代Softmax層可以很好地解決上述2個(gè)問題,因?yàn)镵NN完成分類不需要任何訓(xùn)練,也不需要學(xué)習(xí)任何參數(shù)。當(dāng)出現(xiàn)新樣本時(shí),只需要將新樣本的特征加入到特征庫(kù)中即可。當(dāng)需要加入新類別時(shí),只需要在特征數(shù)據(jù)庫(kù)中加入該新類別即可。
KNN的使用需要決定3個(gè)要素:值的選取、距離度量的選擇、分類決策依據(jù)。值通過交叉驗(yàn)證得到;分類決策采用少數(shù)服從多數(shù)的原則。距離度量采用余弦距離,即
其中,和為2個(gè)維向量,D(,)的取值范圍為[0,1],2個(gè)向量越接近,表示其余弦距離越小,反之越大。與歐氏距離相比,余弦距離受維數(shù)的影響更小,更適合用于相似度的衡量。
采用CNN提取特征、KNN進(jìn)行分類構(gòu)架使手寫體識(shí)別有更好的拓展性和用戶自適應(yīng)性,其識(shí)別算法流程如圖6所示。
圖6 基于CNN+KNN手寫體識(shí)別算法
相關(guān)筆式用戶界面[10-14]的研究中均使用了筆手勢(shì)作為與計(jì)算機(jī)交互的重要手段,例如用“○”表示放大界面,“∧”表示向上翻頁(yè),“∨”表示向下翻頁(yè),“η”表示批注等[12]。
通過筆手勢(shì)可以簡(jiǎn)單地完成與計(jì)算機(jī)的交互,但是筆手勢(shì)也存在一些問題。首先,在與計(jì)算機(jī)進(jìn)行交互前,用戶需要學(xué)習(xí)系統(tǒng)定義的筆手勢(shì),給用戶帶來了額外的學(xué)習(xí)成本和負(fù)擔(dān)。其次,筆手勢(shì)難于記憶和容易混淆的問題,如用“η”表示批注操作,會(huì)讓用戶在記憶時(shí)感到疑惑和不解,增加了記憶的困難。除此之外,筆手勢(shì)能夠表達(dá)的交互指令很有限,當(dāng)筆手勢(shì)過多時(shí),用戶難以記憶和正確書寫筆手勢(shì)。
為了解決以上問題和補(bǔ)充筆式自然書寫的交互手段,本文提出了基于交互命令字的筆式自然書寫交互手段。一個(gè)交互命令字由一個(gè)“#”和一個(gè)表明操作的英文單詞組成,“#”表明后面的英文單詞是一個(gè)交互指令,與一般的英文單詞區(qū)別。用戶在紙張上書寫的交互命令字經(jīng)識(shí)別后,被交互決策模塊執(zhí)行并響應(yīng)結(jié)果以投影的方式呈現(xiàn)給用戶,完成了一次基于交互命令字的交互。本文目前設(shè)計(jì)的交互命令字見表1,該模式可以通過增加命令字來擴(kuò)展交互能力。同時(shí)還可以將命令字寫在卡片上,交互時(shí)放置需要的命令卡片即可完成交互,以實(shí)現(xiàn)更加自然、高效的交互。
表1 交互命令字及其含義
在手寫體識(shí)別的基礎(chǔ)上,針對(duì)兒童幼教學(xué)習(xí)領(lǐng)域,本文設(shè)計(jì)了2個(gè)場(chǎng)景,即單詞拼寫和算式計(jì)算場(chǎng)景,分別幫助用戶記憶單詞和學(xué)習(xí)算式計(jì)算。在該類場(chǎng)景下手寫內(nèi)容被識(shí)別后,直接作為輸入字符串傳遞給相應(yīng)的處理單元,如單詞比較以判斷拼寫是否正確;算式計(jì)算以判斷計(jì)算結(jié)果是否正確。
這部分具有良好的可擴(kuò)展性,可根據(jù)需要設(shè)計(jì)相應(yīng)的內(nèi)容。由于采用投影模式,將改善用眼舒適度,在目前電子產(chǎn)品泛濫的情況下,需更好地保護(hù)兒童視力。
整個(gè)實(shí)驗(yàn)環(huán)境基于本文自制硬件系統(tǒng),操作系統(tǒng)為Windows 10,程序使用C++/C#和Python編寫,深度學(xué)習(xí)框架采用Tensorflow,呈現(xiàn)采用Unity平臺(tái),使用普通記號(hào)筆和印有位置探測(cè)標(biāo)識(shí)的普通紙張進(jìn)行實(shí)驗(yàn)。
實(shí)驗(yàn)首先驗(yàn)證了基于CNN+KNN的手寫體識(shí)別算法的自適應(yīng)性,然后在本文提出的基于普通紙筆的投影交互方法的基礎(chǔ)上,實(shí)現(xiàn)了2個(gè)學(xué)習(xí)場(chǎng)景:單詞拼寫場(chǎng)景和算式計(jì)算場(chǎng)景,用以驗(yàn)證交互方式的自然性、舒適性和趣味性。
一共有20名實(shí)驗(yàn)者(13名男性,7名女性)被邀請(qǐng)參加實(shí)驗(yàn),平均年齡24.6歲(標(biāo)準(zhǔn)偏差0.7歲),平均受教育17.3年。所有實(shí)驗(yàn)者均有觸摸設(shè)備使用經(jīng)驗(yàn),均沒有筆式設(shè)備使用經(jīng)驗(yàn)。實(shí)驗(yàn)者的手寫風(fēng)格有較大差異,其中比較有代表性的5位實(shí)驗(yàn)者的手寫風(fēng)格如圖7所示。
圖7 實(shí)驗(yàn)者的手寫風(fēng)格(每行對(duì)應(yīng)一個(gè)實(shí)驗(yàn)者)
每個(gè)實(shí)驗(yàn)者需要連續(xù)完成15輪次單詞拼寫,每輪拼寫包含5個(gè)英文單詞。實(shí)驗(yàn)者每完成一次單詞拼寫后,記錄當(dāng)前輪拼寫字符的平均余弦距離,并由程序?qū)⒈据喥磳懙氖謱戵w特征加入到該實(shí)驗(yàn)者的數(shù)據(jù)特征庫(kù)中。最后,取20名實(shí)驗(yàn)者的每輪拼寫平均余弦距離的平均值,得到本文識(shí)別算法余弦距離隨拼寫輪數(shù)的關(guān)系曲線如圖8所示。
圖8 余弦距離與拼寫輪數(shù)的關(guān)系
從圖8可以看出,隨著拼寫輪數(shù)的增加,平均余弦距離先迅速減小,然后穩(wěn)定在一個(gè)較小的數(shù)值附近,表明本文基于CNN+KNN的手寫體識(shí)別算法隨著用戶的拼寫而越來越準(zhǔn)確,具有較好的自適應(yīng)性。
同時(shí),將CNN+KNN和CNN+Softmax的識(shí)別準(zhǔn)確率進(jìn)行對(duì)比(圖9)。從圖9可以看出,隨著拼寫輪數(shù)的增加,CNN+KNN的識(shí)別準(zhǔn)確率有小幅增加;而CNN+Softmax有所下降。
圖9 CNN+KNN與CNN+Softmax識(shí)別結(jié)果
本文實(shí)現(xiàn)了一個(gè)原型系統(tǒng)用以驗(yàn)證本文交互系統(tǒng)的有效性,同時(shí)設(shè)計(jì)了2個(gè)學(xué)習(xí)場(chǎng)景進(jìn)一步評(píng)估提出的用戶界面。
當(dāng)系統(tǒng)啟動(dòng)時(shí),界面如圖10(a)所示。用戶在紙張上書寫“#word”后進(jìn)入單詞拼寫場(chǎng)景如圖10(b)所示,拼寫“#math”后進(jìn)入算式計(jì)算場(chǎng)景,如圖10(c)所示。
進(jìn)入單詞拼寫場(chǎng)景后,計(jì)算機(jī)將生動(dòng)形象的3D模型投影在投影區(qū)域,用戶根據(jù)投影內(nèi)容拼寫對(duì)應(yīng)的單詞。如果拼寫正確,則展示相應(yīng)代表成功的動(dòng)畫效果同時(shí)響起勝利的音效(圖11(a));如果拼寫錯(cuò)誤,則將觸發(fā)代表失敗的動(dòng)畫效果同時(shí)響起失敗的音效(圖11(b))。用戶在這種自然、有趣的交互下學(xué)習(xí)、記憶單詞。
圖10 主要用戶界面((a)初始界面;(b)單詞拼寫模式;(c)算式計(jì)算模式)
圖11 單詞拼寫場(chǎng)景((a)拼寫正確;(b)拼寫錯(cuò)誤)
進(jìn)入算式計(jì)算場(chǎng)景后,計(jì)算機(jī)將擬計(jì)算的算式任務(wù)投影到投影區(qū)域,用戶將計(jì)算結(jié)果手寫到紙張上。如果用戶計(jì)算正確,則將出現(xiàn)對(duì)號(hào)提示同時(shí)響起勝利的音效(圖12(a));如果用戶計(jì)算錯(cuò)誤,則將觸發(fā)爆炸效果同時(shí)響起失敗的音效(圖12(b))。
圖12 算式計(jì)算場(chǎng)景((a)計(jì)算正確;(b)計(jì)算錯(cuò)誤)
為了對(duì)比本文方法與現(xiàn)有交互方式,20名實(shí)驗(yàn)者被要求使用如圖13所示的常見的單詞測(cè)試作為對(duì)比(本文采用金山詞霸的“愛詞吧”程序)。對(duì)于“愛詞吧”,實(shí)驗(yàn)者需要用鍵盤輸入釋義對(duì)應(yīng)的單詞,然后用鼠標(biāo)點(diǎn)擊提交。
圖13 鼠標(biāo)鍵盤輸入的單詞測(cè)試
在完成實(shí)驗(yàn)后,實(shí)驗(yàn)者對(duì)使用鼠標(biāo)鍵盤和本文投影下的紙筆交互完成單詞拼寫的容易度、舒適度、可靠性、趣味性以及滿意度按照7級(jí)李克特量表進(jìn)行了評(píng)價(jià)(1為最消極,7為最積極)。結(jié)果見表2。
表2 交互方式的主觀評(píng)價(jià)
從表2可知,本文交互方式在容易度、舒適度、趣味性及滿意度方面明顯優(yōu)于鼠標(biāo)鍵盤的交互方式,但在可靠性方面仍與鼠標(biāo)鍵盤的交互方式存在差距。從表3可以看出,本文提出的交互命令字在便捷性方面不及筆手勢(shì),但在記憶難度和可拓展性得分明顯高于筆手勢(shì)。本文以調(diào)查問卷的形式進(jìn)一步調(diào)查了投影交互的趣味性,問卷中的相關(guān)問題如下:
Q1:你認(rèn)為投影交互有趣嗎?
Q2:與鍵盤鼠標(biāo)相比,投影交互更有趣嗎?
Q3:你是否希望再次使用投影交互?
表3 筆手勢(shì)與交互命令字主觀評(píng)價(jià)
圖14為問卷中有關(guān)趣味性問題的統(tǒng)計(jì)結(jié)果。趣味性相關(guān)3個(gè)問題的平均分為6.65(=0.47),6.55(=0.58),6.30(=0.78)。統(tǒng)計(jì)結(jié)果表明,問卷結(jié)果顯著高于問卷中值,說明用戶認(rèn)為本文方式有很強(qiáng)的趣味性。
圖14 趣味性用戶體驗(yàn)統(tǒng)計(jì)
本文提出了一種基于普通紙筆的投影交互方法。利用CNN+KNN實(shí)現(xiàn)了手寫體識(shí)別,在幾乎不損失識(shí)別準(zhǔn)確率的情況下可自動(dòng)適應(yīng)用戶的手寫風(fēng)格,用戶手寫體的識(shí)別誤差隨著使用次數(shù)的增加逐漸減小。結(jié)合了投影交互和自然書寫,實(shí)現(xiàn)了一種自然、舒適、高效的交互方式,使用交互命令字完成了常用的交互任務(wù);并實(shí)現(xiàn)了2個(gè)學(xué)習(xí)場(chǎng)景驗(yàn)證交互方式有效性和可用性。
本文所提的手寫體識(shí)別算法仍存在不足,如當(dāng)用戶的手寫風(fēng)格與訓(xùn)練樣本差別很大時(shí),算法可能會(huì)識(shí)別錯(cuò)誤。為了解決該問題,一種可行的做法是設(shè)計(jì)一個(gè)錯(cuò)誤消解界面,由用戶來告知系統(tǒng)正確結(jié)果,幫助算法學(xué)習(xí)新的書寫風(fēng)格。
未來將進(jìn)一步優(yōu)化手寫體識(shí)別,提高準(zhǔn)確度和響應(yīng)效率,完善交互內(nèi)容的設(shè)計(jì),針對(duì)兒童教育設(shè)計(jì)更多具有針對(duì)性的交互內(nèi)容。
[1] 張鳳軍, 戴國(guó)忠, 彭曉蘭. 虛擬現(xiàn)實(shí)的人機(jī)交互綜述[J]. 中國(guó)科學(xué): 信息科學(xué), 2016, 46(12): 1711-1736.
ZHANG F J, DAI G Z, PENG X L. A survey of human computer interaction in virtual reality[J]. Scientia Sinica: Informationis, 2016, 46(12): 1711-1736 (in Chinese).
[2] 蔡建奇, 楊帆, 杜鵬, 等. 不同亮度大尺寸顯示屏對(duì)視覺健康舒適度的影響——以LED與DLP顯示屏比較研究為例[J]. 照明工程學(xué)報(bào), 2015, 26(1): 94-98.
CAI J Q, YANG F, DU P, et al. Effect of visual comfort by large size displays in different iuminance—example for comparative research on LED and DLP displays[J]. China Illuminating Engineering Journal, 2015, 26(1): 94-98 (in Chinese).
[3] 田豐. Post WIMP軟件界面研究[D]. 北京: 中國(guó)科學(xué)院軟件研究所, 2003.
TIAN F. Research on Post-WIMP software interface[D]. Beijing: Institude of Software Chinese Academy of Sciences, 2003 (in Chinese).
[4] HATANAKA T, HAYASHI T, SUZUKI K, et al. Dream board: a visualization system by handwriting recognition[M]. SIGGRAPH Asia 2013 Posters. New York: ACM Press, 2013: 1-1.
[5] WELLNER P. Interacting with paper on the DigitalDesk[J]. Communications of the ACM, 1993, 36(7): 87-96.
[6] ROBINSON J A, ROBERTSON C. The LivePaper system: augmenting paper on an enhanced tabletop[J]. Computers & Graphics, 2001, 25(5): 731-743.
[7] WILSON A D. PlayAnywhere: a compact interactive tabletop projection-vision system[C]//The 18th annual ACM symposium on User interface software and technology. New York: ACM Press, 2005: 83-92.
[8] 王修暉, 華煒, 鮑虎軍. 面向多投影顯示墻的手勢(shì)交互系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2007(3): 318-322, 328.
WANG X H, HUA W, BAO H J. Design and development of a gesture-based interaction system for multi-projector tiled display wall[J]. Journal of Computer-Aided Design & Computer Graphics, 2007(3): 318-322, 328 (in Chinese).
[9] LU F, TIAN F, JIANG Y Y, et al. ShadowStory: creative and collaborative digital storytelling inspired by cultural heritage[C]//The SIGCHI Conference on Human Factors in Computing Systems. New York: ACM Press, 2011: 1919-1928.
[10] 戴國(guó)忠, 田豐. 筆式用戶界面[M]. 合肥: 中國(guó)科學(xué)技術(shù)大學(xué)出版社, 2014: 16-17.
DAI G Z, TIAN F. Pen based interaction in- terface[M]. Hefei: University of Science and Techmology of China Press, 2014: 16-17 (in Chinese).
[11] 陳若輕, 陳泉, 宋笑寒, 等. Prelude: 手寫譜曲系統(tǒng)的交互方法[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2016, 28(8): 1358-1364.
CHEN R Q, CHEN Q, SONG X H, et al. Prel ude: interaction approach of a handwriting composing system[J]. Journal of Computer-Aided Design & Computer Graphics, 2016, 28(8): 1358-1364 (in Chinese).
[12] 孟珊, 姜映映, 田豐, 等. 筆式幾何學(xué)習(xí)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2009, 30(16): 3846-3867 (in Chinese).
MENG S, JIANG Y Y, TIAN F, et al. Pen-based geometry learning system[J]. Computer Engineering and Design, 2009, 30(16): 3846-3867 (in Chinese).
[13] 徐禮爽, 田豐, 呂菲, 等. 在線雙向適應(yīng)的筆手勢(shì)界面框架研究[J]. 計(jì)算機(jī)學(xué)報(bào), 2010, 33(6): 1100-1109.
XU L S, TIAN F, LV F, et a1. Research on on-line two-way adaptive pen gesture interface framework[J]. Chinese Journal of Computers, 2009, 30(16): 3846-3867 (in Chinese).
[14] 馮海波, 李昭陽(yáng), 戴國(guó)忠. 基于手勢(shì)的手寫公式編輯系統(tǒng)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2003, 40(35): 97-99.
FENG H B, LI Z Y, DAI G Z. Gesture-based handwriting mathematics editing system[J]. Computer Engineering and Applications, 2003, 40(35): 97-99 (in Chinese).
[15] CABRAL D, CORREIA N. Video editing with pen-based technology[J]. Multimedia Tools and Applications. 2017, 76(5): 6889-6914.
[16] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//The 25th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2012: 1097-1105.
[17] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society Press, 2015: 1-9.
[18] HUANG G, LIU Z, VAN DER Maaten L, et al. Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society Press, 2017: 2261-2269.
[19] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[20] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2018-07-30]. https://arxiv.org/abs/1409.1556.
[21] GROTHER P, HANAOKA K. Nist special database 19 handprinted forms and characters 2nd edition[EB/OL]. [2020-01-15]. https://www.nist.gov/srd/nist-special-database-19.
Research on projector interaction method with common pen and paper
GUO Jun-xiu, LIU You-quan, WANG Song-xue
(School of Information Engineering, Chang’an University, Xi’an Shaanxi 710064, China)
Projector interaction has freed the interaction space from the electronic screen, which is more eye-friendly than other display modes and can produce abundant interesting interaction effects. In addition,the interaction with pen-writing is inherently natural and efficient. With the integration of the advantages of both, a projection interactive method was proposed based on common pen and paper. Users can interact with the computer through common paper and pen, while the camera was employed to collect the handwriting images, and projector was utilized to present recognition result. Moreover, with the integration of CNN and KNN, the present method can automatically adapt to users’ handwriting style,so as to increase the recognition accuracy. Based on this, two typical applications are designed, including English-word remembering and simple mathematical calculation. The experiments and user surveys verified that the proposed interaction method is more natural, convenient and practical than other interaction methods.
common pen and paper; projector interaction; handwriting recognition; pen based user interface
TP 391.41
10.11996/JG.j.2095-302X.2021030470
A
2095-302X(2021)03-0470-08
2020-12-10;
2021-01-20
10 December,2020;
20 January,2021
載人航天預(yù)研項(xiàng)目(030101)
Advance Research Program of Space (030101)
郭俊修(1995-),男,山東濰坊人,碩士研究生。主要研究方向?yàn)樘摂M現(xiàn)實(shí)與人機(jī)交互技術(shù)。E-mail:2018124055@chd.edu.cn
GUO Jun-xiu (1995-), male, master student. His main research interests cover virtual reality and human-computer Interaction. E-mail:2018124055@chd.edu.cn
柳有權(quán)(1976-),男,湖北宜昌人,教授,博士。主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)、虛擬現(xiàn)實(shí)。E-mail:youquan@chd.edu.cn
LIU You-quan (1976-), male, professor, Ph.D. His main research interests cover computer graphics and virtual reality. E-mail:youquan@chd.edu.cn