張承云 謝菠蓀
(華南理工大學聲學研究所,廣東廣州510640)
自Wightman等[1]用頭相關傳輸函數(shù)(HRTF)進行信號處理并通過耳機重放出虛擬的三維空間聲源以來,虛擬聽覺技術得到快速發(fā)展,現(xiàn)已廣泛應用于科學研究、工程技術等領域[2].為滿足不同的應用需求,虛擬聽覺信號處理發(fā)展出了穩(wěn)態(tài)和動態(tài)兩種方法.虛擬聽覺重放的一個重要性能指標是虛擬聲源位置(包括方向和距離)的準確度.為驗證和評價虛擬聽覺重放的性能,常用的方法是通過主觀心理聲學實驗進行虛擬聲源定位,包括方向定位和距離定位.定位實驗一般采用絕對判斷法,即由受試者直接判斷出虛擬聲源的空間位置.
受試者報告虛擬聲源方向的方法有多種,如口頭直接報告、在計算機中用鼠標點擊二維或三維圖形、將跟蹤器探頭放在球體模型上、鼻子朝向虛擬聲源(有動態(tài)處理的情況)等[1,3-6].
對于虛擬聲源距離,可采用直接口頭報告、量值估計、成對比較以及傾聽者走到感知到的虛擬聲源位置等方法進行判斷[7].由于虛擬聲源距離指的是虛擬聲源到受試者頭部中心的距離,所以需要受試者對數(shù)據(jù)進行估計,實驗難度較大.也有的研究只對虛擬聲源距離作定性判斷,比如頭內(nèi)/頭外,或判斷虛擬聲源落在哪個區(qū)域[8-9],這樣降低了實驗難度,但不能得到定量的實驗數(shù)據(jù).
上述各種方法在進行虛擬聲源定位時,需將虛擬聲源方向與距離分開判斷,因此虛擬聲源定位實驗需花費大量的時間和精力,實驗難度大.文獻[10]中提出了一種用跟蹤器直接指向虛擬聲源的方法,可大大縮短實驗時間,但只能得到虛擬聲源方向數(shù)據(jù),不報告虛擬聲源距離,且文獻中沒有詳細說明該方法的實現(xiàn)流程,也沒有對該方法的精度及重復性進行分析.實際上虛擬聲源定位的實驗誤差有兩個來源:一是受試者的感知誤差,二是虛擬聲源定位方法帶來的誤差.實驗前應明確定位方法帶來的誤差.文中設計了一種采用跟蹤器的虛擬聲源定位方法,并對實驗數(shù)據(jù)的精度和重復性進行了分析和驗證.該方法能同時得到虛擬聲源方向和距離的定量數(shù)據(jù),使用簡便,實驗時間短,可用于各種虛擬聲源定位實驗.
以受試者的頭部中心位置為原點建立圖1所示的Oxyz坐標系,虛擬聲源位置可用直角坐標(x,y,z)或球坐標(r,θ,φ)來表示,其中r為虛擬聲源與原點的距離,仰角φ的范圍為-90°≤φ≤90°,方位角θ的范圍為 0°≤θ<360°,(θ,φ)=(0°,0°)代表水平面正前方向,(90°,0°)代表水平面正右方向,(0°,90°)代表正上方向.若圖1中虛擬聲源I的直角坐標為(xI,yI,zI),則其球坐標(r,θ,φ)可通過式(1)計算得到:
圖1 傾聽者頭部的坐標系統(tǒng)Fig.1 Coordinate system of listener's head
頭部中心位置不易確定,因此(xI,yI,zI)難以直接測量,但可以通過坐標變換的方法來獲取.構建如圖2所示的系統(tǒng),其中跟蹤器為 Polhemus FASTRAK,包括處理單元、發(fā)射器各1個,接收器2個.兩個接收器獨立工作,均可提供其相對于發(fā)射器的平移自由度和轉動自由度各3個(精度分別為0.8mm、0.15°),每個接收器的數(shù)據(jù)刷新率均為60Hz.跟蹤器處理單元和聲卡都通過通用串行總線(USB)與計算機連接.
圖2 測試系統(tǒng)組成框圖Fig.2 Block diagram of measurement system
接收器1用于跟蹤受試者的頭部轉動情況,接收器2用于指示虛擬聲源所在位置.設跟蹤器默認的坐標系用O'x'y'z'來表示,接收器2所在位置的坐標為(x',y',z'),如圖 3 所示.
圖3 測試系統(tǒng)的兩個坐標系Fig.3 Two coordinate systems used in measurement system
將接收器2指到虛擬聲源所在位置,則虛擬聲源在跟蹤器坐標系中的坐標(x'I,y'I,z'I)可由計算機直接讀出.受試者頭部中心的坐標值則需通過間接的方法測量,如圖4所示,用接收器2分別測出左、右耳及鼻子上與頭部中心齊高位置的坐標(x'L,y'L,z'L)、(x'R,y'R,z'R)、(x'F,y'F,z'F),則根據(jù)左右耳的坐標可以計算出頭部中心位置O的坐標(x'O,y'O,z'O)為其中分別代表圖1中x、y軸的方向.
圖4 坐標校準圖Fig.4 Coordinate calibration diagram
由于目前得到的虛擬聲源坐標值(x'I,y'I,z'I)是相對于O'x'y'z'坐標系的,因而需通過坐標平移和旋轉將其變換到Oxyz坐標系中的(xI,yI,zI).
先考慮坐標平移,虛擬聲源的坐標變?yōu)?x″I=x'I-x'O,y″I=y'I-y'O,z″I=z'I-z'O.再考慮坐標旋轉,設α、β、γ分別為繞z'、x'、y'軸旋轉的角度,令x=x'F-x'O,y=y'F-y'O,z=z'F-z'O,z1=z'R-z'O,x1=x'R-x'O,則有利用式(3) -(5)進行坐標旋轉,計算出(xI,yI,zI):
其中x*、y*、z*為中間變量.最后由式(1)算出虛擬聲源的方位(r,θ,φ).
其實上述方法只適合虛擬聽覺的動態(tài)處理,由于虛擬聲源位置固定不變,實驗初始時刻建立的Oxyz坐標系也不用變,因此實驗過程中受試者頭部轉動不會影響測量結果.但對于穩(wěn)態(tài)處理,由于實驗時受試者的頭部難免會轉動,而虛擬聲源也會隨著一起動,相當于Oxyz坐標系會改變,這時式(3)-(5)需考慮圖2中接收器1的旋轉自由度的變化量.
通過Visual C++軟件實現(xiàn)跟蹤器數(shù)據(jù)的接收與處理,圖5為軟件流程圖.
為方便實驗人員監(jiān)控實驗數(shù)據(jù),虛擬聲源方位(r,θ,φ)實時顯示在軟件界面上,同時以文件的形式保存到計算機硬盤,方便后續(xù)的實驗數(shù)據(jù)處理.保存數(shù)據(jù)時需調(diào)用fflush()函數(shù)進行刷新,以免數(shù)據(jù)丟失.
為驗證上述方法的準確性,利用一個半徑為0.0875m的剛球來模擬人頭,以球心為原點建立坐標系,如圖6所示.圖6中,x1、y1軸分別為x、y軸在地面上的投影.空間中某點A的坐標用激光測距儀(Leica DISTO A3)測定,測量精度為3mm,則A點的方位(r,θ,φ)可通過其坐標計算得到.然后再用文中方法測量A點的方位(r,θ,φ),并將其與計算結果進行對比,以驗證測量結果的準確性.
對于三維空間的虛擬聲源,經(jīng)常采用球統(tǒng)計法對定位實驗結果進行分析.用坐標原點指向(θ,φ)方向的單位矢量rS表示虛擬聲源方向的理論值,用rI表示其實驗值,則平均的感知虛擬聲源方向可用N個實驗值的矢量之和來表示:
圖5 軟件流程圖Fig.5 Software flow chart
圖6 實驗驗證方案圖Fig.6 Diagram of experimental verification scheme
虛擬聲源方向的平均角度錯誤定義為虛擬聲源方向的實驗值與理論值之間夾角的無符號平均:矢量的長度R=可用于表示感知虛擬聲源方向數(shù)據(jù)離散性,而實際的球統(tǒng)計中大多采用κ-1來表示實驗數(shù)據(jù)的離散性,對于小樣本(N<16),近似計算公式為
κ-1越小表示實驗數(shù)據(jù)的離散性越?。?,11].
取15個點進行實驗,這些點分布在右半空間上,包括高、中、低仰角,每個點重復測量6次,實驗結果見表1,其中測量結果對應的(r,θ,φ)數(shù)據(jù)指的是6次測量的平均值,它們的標準差分別用σ(r)、σ(θ)、σ(φ)表示.根據(jù)激光測距計算的結果只列出了平均值,并將其(θ,φ)作為虛擬聲源方向的理論值,用于計算平均角度錯誤.
表1 實驗測量與激光測距得出的結果Table 1 Results of experimental measurement and laser ranging
為分析采用文中方法測量與根據(jù)激光測距的坐標進行計算兩種方法得到的結果是否有明顯差異,對實驗數(shù)據(jù)進行方差分析[12],將顯著性水平設為0.05.結果表明,對于距離(r)、水平角(θ)及仰角(φ),兩種方法得出的結果均無顯著差異,對應的P值分別為0.894、0.966及0.978,說明文中方法準確有效.
設計一個虛擬聲源定位實驗,對采用文中跟蹤器方法及傳統(tǒng)的口頭報告法的實驗結果進行比較.實驗分為穩(wěn)態(tài)與動態(tài)信號處理兩種情況,受試者共需判斷16個聲源方向,這些方向均分布在右半球,φ= -30°,0°,30°,60°,每個φ對應的緯度面都取4 個方位角(θ=0°,45°,135°,180°).實驗信號為一段20s的管弦樂(J.Strauss,《藍色多瑙河》),通過耳機(Sennheiser HD250)循環(huán)播放,用美國麻省理工學院(MIT)媒體實驗室的KEMAR人工頭HRTF數(shù)據(jù)[13]進行信號處理.
實驗分為4組:(1)穩(wěn)態(tài)處理,口頭報告;(2)動態(tài)處理,口頭報告;(3)穩(wěn)態(tài)處理,跟蹤器報告;(4)動態(tài)處理,跟蹤器報告.
對每組實驗,每個虛擬聲源方位受試者需判斷3次,共需判斷48次,實驗中各方向的信號按隨機順序進行播放.實驗在一間混響時間為0.15 s、本底噪聲不大于30dBA的聽音室內(nèi)進行,受試者坐在聽音室中心位置的椅子上.參加實驗的受試者共8名,其中聲學專業(yè)的研究生6名,男女各3名,光電專業(yè)本科生2名,男女各1名.
使用文中跟蹤器方法進行虛擬聲源定位,每位受試者都能較快地完成對虛擬聲源方位的判斷,實驗過程中受試者較為輕松,只需將跟蹤器的接收器2放到虛擬聲源所在位置;方位參數(shù)(r,θ,φ)由計算機處理得到并保存到文件中,實驗人員只需監(jiān)控系統(tǒng)是否正常工作.而采用口頭報告時,受試者較緊張,除了需判斷虛擬聲源在什么位置外,更難的是要將此空間位置的方向和距離估計出來,受試者需花費較大的精力和較長的時間,并且實驗人員的工作量也更大,需人工記錄實驗結果.
表2列出了虛擬聲源方向的實驗統(tǒng)計結果,表中的數(shù)據(jù)均為所有方向的平均值,其中每次判斷時間指的是判斷一次虛擬聲源(包括方向和距離)需要的時間.實驗結果顯示:兩種報告虛擬聲源的方法對應的虛擬聲源混亂率(包括前后、上下)基本相同,顯著性水平為0.05的方差分析對應的P值分別為0.894、0.961;而采用跟蹤器報告方法對應的角度錯誤及實驗數(shù)據(jù)離散性均稍小一些,但并不顯著(顯著性水平為0.05的方差分析對應的P值分別為0.752、0.578),對于平均每次判斷的時間則明顯低于采用口頭報告的方法.
由表3可見,對于虛擬聲源距離,兩種報告方法所得數(shù)據(jù)有明顯差別,采用口頭報告時數(shù)據(jù)離散性大,表明采用跟蹤器方法報告虛擬聲源距離的結果一致性更好.由于動態(tài)與穩(wěn)態(tài)處理的情況有類似的特性,因此表3只列出了動態(tài)處理的實驗結果,其中設定的虛擬聲源方向用(θ,φ)表示.
表2 虛擬聲源方向?qū)嶒灁?shù)據(jù)統(tǒng)計結果Table 2 Statistical results of the experimental data of virtual sound source direction
表3 虛擬聲源距離實驗數(shù)據(jù)統(tǒng)計結果Table 3 Statistical results of the experiment data of virtual sound source distance
文中設計的跟蹤器方法只需受試者將跟蹤器的接收器指到虛擬聲源位置,計算機即可實時顯示其方向和距離,同時將數(shù)據(jù)保存到文件中.經(jīng)驗證文中提出的方法重復性好,虛擬聲源方位(r,θ,φ)數(shù)據(jù)對應的標準差最大值分別為0.4 cm、0.6°、0.5°,方差分析表明測量結果準確有效.與口頭報告法相比,采用文中提出的方法大大縮短了實驗花費的時間,每次判斷虛擬聲源位置的時間由19.8 s降至7.2 s(穩(wěn)態(tài)與動態(tài)處理的平均結果),降低了實驗難度.
[1]Wightman F L,Kistler D J.Headphone simulation of freefield listening,II:psycho-physical validation [J].Journal of the Acoustical Society of America,1989,85(2):868-878.
[2]謝菠蓀.頭相關傳輸函數(shù)與虛擬聽覺[M].北京:國防工業(yè)出版社,2008:313-324.
[3]石蓓,謝菠蓀.虛擬聽覺重放與聽覺聲源寬度的擴展[J].華南理工大學學報:自然科學版,2009,38(3):148-155.Shi Bei,Xie Bo-sun.Virtual auditory replay and broadening of auditory source width [J].Journal of South China University of Technology:Natural Science Edition,2009,38(3):148-155.
[4]Bronkhorst A W.Localization of real and virtual sound sources[J].Journal of the Acoustical Society of America,1995,98(5):2542-2553.
[5]Wenzel.Effect of increasing system latency on localization of virtual sounds with short and long duration[C]∥Proceedings of the 2001 International Conference on Auditory Display.Espoo:ICAD,2001:185-190.
[6]Djelani T,P?rschmann C,Sahrhage J,et al.An interactive virtual-environment generator for psychoacoustic research II:collection of head related impulse responses and evaluation of auditory localization [J].Acta Acustica,2000,86(6):1046-1053.
[7]Zahorik P.Auditory display of sound source distance[C]∥Proceedings of the 2002 International Conference on Auditory Display.Kyoto:ICAD,2002:1-7.
[8]Kim S M,Choi W.On the externalization of virtual sound images in headphone reproduction:a Wiener filter approach [J].Journal of the Acoustical Society of America,2005,117(6):3657-3665.
[9]Begault D R,Wenzel E M,Anderson M R.Direct comparison of the impact of head tracking,reverberation,and individualized head-related transfer functions on the spatial perception of a virtual speech source[J].Journal of the Audio Engineering Society,2001,49(10):904-916.
[10]Pernaux J M,Emerit M,Nicol R.Perceptual evaluation of binaural sound synthesis:the problem of reporting localization judgments[C]∥114th Convention.Amsterdam:AES,2003.
[11]Fisher N I,Lewis T,Embleton B J J.Statistical analysis
of spherical data[M].Cambridge:Cambridge University Press,1993:86-94.
[12]譚榮波,梅曉仁.SPSS統(tǒng)計分析實用教程[M].北京:科學出版社,2007:92-98.
[13]Gardner W G,Martin K D.HRTF measurements of a KEMAR [J].Journal of the Acoustical Society of America,1995,97(6):3907-3908.