近日,標(biāo)貝科技推出一項(xiàng)可商業(yè)落地的聲音轉(zhuǎn)換解決方案,可將任何一種聲音的音色,精準(zhǔn)遷移至目標(biāo)聲音的音色,實(shí)現(xiàn)聲音的轉(zhuǎn)換。
據(jù)介紹,上述聲音轉(zhuǎn)換解決方案是基于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),應(yīng)用語音信號(hào)處理和語音識(shí)別技術(shù),可將原說話人的音色轉(zhuǎn)換成目標(biāo)人音色。
目前,該解決方案已達(dá)到商業(yè)場景落地要求,如有聲閱讀、兒童教育、媒體、泛娛樂等多場景均可使用。
標(biāo)貝科技語音技術(shù)相關(guān)負(fù)責(zé)人表示,聲音轉(zhuǎn)換和變聲器存在顯著不同,具體表現(xiàn)在4個(gè)方面。
一是聲音轉(zhuǎn)換效果。無論是變聲器軟件還是傳統(tǒng)變聲技術(shù),合成的效果都存在機(jī)械味偏重問題,整體聽感不自然。而新聲音轉(zhuǎn)換方案,依托智能語音技術(shù)和深度學(xué)習(xí)技術(shù),可以高度還原原說話人的語氣和韻律等。
二是交互體驗(yàn)。傳統(tǒng)的變聲軟件輸出的聲音音色轉(zhuǎn)換較單調(diào),缺乏個(gè)性化的聲音表達(dá)。新聲音轉(zhuǎn)換技術(shù)方案能夠很好地解決傳統(tǒng)變聲的問題,可以達(dá)到高辨識(shí)度、高自然度、高流暢度的變聲效果,同時(shí)能夠保留原發(fā)音人的語氣、韻律節(jié)奏等特征,讓變換后的聲音更有層次,更有個(gè)性。
三是應(yīng)用場景。為了適應(yīng)不同場景需要,聲音轉(zhuǎn)換技術(shù)有針對性地進(jìn)行輸出聲音的優(yōu)化訓(xùn)練,進(jìn)而可以更好地滿足用戶差異化的需求。
四是轉(zhuǎn)換價(jià)值。傳統(tǒng)變聲器輸出的效果很不穩(wěn)定,需要大量人工的調(diào)節(jié),整體音質(zhì)質(zhì)量只能滿足部分娛樂場景的需求。而新變聲技術(shù),提供一站式轉(zhuǎn)換,無需人工參與,便可獲得穩(wěn)定的自然聲音效果。