• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于區(qū)塊鏈技術(shù)的語音識別

      2019-01-11 17:40:17楊雪梅
      價值工程 2019年36期
      關(guān)鍵詞:語音識別區(qū)塊鏈深度學(xué)習(xí)

      楊雪梅

      摘要:由于具有去中心化、抗腐蝕以及加密算法等先進(jìn)性質(zhì),區(qū)塊鏈技術(shù)給科學(xué)技術(shù)領(lǐng)域帶來了一場前所未有的變革。本文探索了將區(qū)塊鏈技術(shù)中的去中心化的思想與深度學(xué)習(xí)相結(jié)合并應(yīng)用于語音識別領(lǐng)域的可行性,提出了一種適用于處理大規(guī)模的聲學(xué)數(shù)據(jù)的融合分布式的深度學(xué)習(xí)模型,分析了該模型良好的學(xué)習(xí)潛能,它將成為語音識別領(lǐng)域的嶄新技術(shù)。

      Abstract: Blockchain is changing science and technology in a revolutionary way for its decentralized, incorruptible computing mechanism. This work explores blockchain applications in speech recognition via investigating decentralized deep learning models. The decentralized deep learning models demonstrate a good potential to handle large scale acoustic data by fusing distributed deep learning models to achieve better learning results.? To the best of our knowledge, it is a pioneering work to explore blockchain technologies in speech recognition.

      關(guān)鍵詞:區(qū)塊鏈;語音識別;深度學(xué)習(xí)

      Key words: blockchain;speech recognition;deep learning

      中圖分類號:TP391.4? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2019)36-0281-03

      0? 引言

      語音識別的任務(wù)是通過計算機(jī)程序?qū)⒄Z音轉(zhuǎn)換成一系列單詞,包括編碼和解碼過程。首先將輸入的音頻波形轉(zhuǎn)換為固定大小的聲學(xué)矢量序列,這個過程本質(zhì)上是進(jìn)行特征提取的編碼過程;然后,解碼器使用聲學(xué)和語言模型來找到使得輸入序列的后驗(yàn)概率最大的單詞序列。傳統(tǒng)的語音識別系統(tǒng)采用隱馬爾可夫模型(HMMs)來描述,HMMs具有直觀性和計算可行性。然而,它在對輸入空間中非線性流形上的數(shù)據(jù)進(jìn)行建模時具有局限性[2]。

      自20世紀(jì)80年代以來,研究者引入了由反向傳播算法或其變體訓(xùn)練的神經(jīng)網(wǎng)絡(luò)進(jìn)行語音識別,與HMMs相比,神經(jīng)網(wǎng)絡(luò)對特征統(tǒng)計特性不需要任何假設(shè)。然而,盡管神經(jīng)網(wǎng)絡(luò)在識別短期單元方面很有效,但在連續(xù)識別任務(wù)中卻很少成功,這是因?yàn)樗鼈內(nèi)狈r間依賴性的能力[3]。

      為了克服這些缺陷,學(xué)者們又引入了深度神經(jīng)網(wǎng)絡(luò)模型(如DBN)[4-7]。由受限玻爾茲曼機(jī)(RBM)組成的深度信任網(wǎng)絡(luò)(DBN)以其強(qiáng)大的特征提取能力在語音識別的某些子領(lǐng)域取得了非常成功的應(yīng)用[8-10]。另一個典型例子是卷積神經(jīng)網(wǎng)絡(luò)(CNN)[11-12],CNN包含一對或多對卷積層(C層)、最大池化層(S層)和完全連接層,它同樣展示了強(qiáng)大的特征提取功能。

      盡管如此,目前主流的語音識別系統(tǒng)仍嚴(yán)重依賴于訓(xùn)練數(shù)據(jù)的數(shù)量,在數(shù)據(jù)有限的情況下,識別性能急劇下降。因此,語言資源不足的語音識別成為一個備受關(guān)注的難題。對于低資源語音識別,典型的特征提取方法包括凸非負(fù)矩陣分解(CNMF)和瓶頸特征提取[13]。一些科學(xué)家還提出了一種在卷積神經(jīng)網(wǎng)絡(luò)(CNN)中包含多分支特征的聲學(xué)模型,其中多分支特征包括濾波器組特征、譜圖、Mel頻率倒譜系數(shù)和基音特征[14]。

      近年來有很多研究工作致力于通過在機(jī)器學(xué)習(xí)中集成區(qū)塊鏈技術(shù)來開發(fā)分布式的人工智能系統(tǒng)[1]。語音識別 作為深度學(xué)習(xí)的重要應(yīng)用領(lǐng)域,必將也成為區(qū)塊鏈技術(shù)發(fā)揮關(guān)鍵作用的重要場所。然而,在現(xiàn)有的文獻(xiàn)中,尚未發(fā)現(xiàn)相關(guān)的研究。在本研究中,我們將探討區(qū)塊鏈在語音識別中的可能應(yīng)用,包括:區(qū)塊鏈能給現(xiàn)代語音識別帶來哪些優(yōu)勢?如何在語音識別中實(shí)現(xiàn)區(qū)塊鏈?我們可能面臨哪些理論和實(shí)踐上的挑戰(zhàn),如何應(yīng)對這些挑戰(zhàn)?

      我們將通過介紹區(qū)塊鏈及分布式機(jī)器學(xué)習(xí),并討論語音識別中可能的區(qū)塊鏈模型,來回答這些問題。據(jù)我們所知,這是首次探索語音識別中的區(qū)塊鏈技術(shù),它將激勵未來該領(lǐng)域更多的工作。

      1? 區(qū)塊鏈及協(xié)作分布式深度學(xué)習(xí)

      1.1 區(qū)塊鏈

      區(qū)塊鏈的應(yīng)用起源于數(shù)字貨幣,是分布式的數(shù)據(jù)結(jié)構(gòu),能夠?qū)崿F(xiàn)節(jié)點(diǎn)間的一致性協(xié)議和密碼學(xué)算法,以其去中心化、抗腐蝕性以及加密算法的計算機(jī)制越來越受到各個領(lǐng)域的關(guān)注[15-16]。例如,IBM區(qū)塊鏈提供分布式的金融服務(wù),將交易時間從幾小時縮短到幾秒[17],同時,由于它的分布式和抗腐蝕的計算能力,增強(qiáng)了金融安全性。區(qū)塊鏈技術(shù)正在以革命性的方式改變著數(shù)據(jù)的處理和存儲方式。

      1.2 去中心化的深度學(xué)習(xí)模型

      為了將區(qū)塊鏈的分布式思想應(yīng)用到語音識別中,首先必須提到分布式深度學(xué)習(xí)。分布式深度學(xué)習(xí)是一種基于數(shù)據(jù)隱私保護(hù)的機(jī)器學(xué)習(xí)方法,通常應(yīng)用于金融服務(wù)領(lǐng)域。如圖1所示,分布式深度學(xué)習(xí)體系結(jié)構(gòu)由多個共享模型(貢獻(xiàn)者)和一個中央控制代理(其任務(wù)是融合共享深度學(xué)習(xí)模型)組成。分布式深度學(xué)習(xí)過程不是在中心服務(wù)器中處理數(shù)據(jù),而是由各個貢獻(xiàn)者獨(dú)立處理。在實(shí)現(xiàn)分布式學(xué)習(xí)時,各計算貢獻(xiàn)者利用本地數(shù)據(jù)獨(dú)立地訓(xùn)練自己的深度學(xué)習(xí)模型,然后將模型參數(shù)分享給中央控制代理。中央控制代理將每個貢獻(xiàn)者共享的參數(shù)進(jìn)行融合,形成一個綜合模型。由于深度學(xué)習(xí)模型是在具有較小數(shù)據(jù)集的分布式單元中進(jìn)行訓(xùn)練的,因此與中央服務(wù)器相比,單個計算貢獻(xiàn)者所需的計算能力要低得多。然而,在這個解決方案中,深度學(xué)習(xí)體系結(jié)構(gòu)完全由一個集中式代理控制。因此,融合模型易受單點(diǎn)失效的影響[18-21]。為了克服這一缺點(diǎn),提出了一種協(xié)作分布式的深度學(xué)習(xí)體系結(jié)構(gòu)。

      1.3 協(xié)作分布式深度學(xué)習(xí)

      如圖2所示,協(xié)作分布式的深度學(xué)習(xí)構(gòu)架由一個應(yīng)用程序發(fā)起者、幾個計算貢獻(xiàn)者和驗(yàn)證貢獻(xiàn)者組成。在這個構(gòu)架中,每個單元都有自己的決策界面,可以獨(dú)立做決策。應(yīng)用程序發(fā)起者負(fù)責(zé)定義計算任務(wù),例如輸入數(shù)據(jù)的屬性和預(yù)期的輸出。它們還為驗(yàn)證貢獻(xiàn)者提供了一組樣本數(shù)據(jù)(包括培訓(xùn)和驗(yàn)證數(shù)據(jù)),定義了預(yù)期的準(zhǔn)確率。計算貢獻(xiàn)者負(fù)責(zé)構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型;每個計算貢獻(xiàn)者可以根據(jù)其性能參與或離開整個計算架構(gòu)。根據(jù)發(fā)起者給出的任務(wù),計算貢獻(xiàn)者將使用本地數(shù)據(jù)設(shè)計和訓(xùn)練適當(dāng)?shù)臋C(jī)器學(xué)習(xí)模型,并將其發(fā)布給驗(yàn)證貢獻(xiàn)者。在接收到計算模型之后,驗(yàn)證貢獻(xiàn)者負(fù)責(zé)評估計算貢獻(xiàn)者的性能,并將結(jié)果報告給發(fā)起者。發(fā)起者決定要融合哪些計算貢獻(xiàn)者以及如何融合[22-25]。

      2? 語音識別中的區(qū)塊鏈技術(shù)

      語音識別的最大挑戰(zhàn)是通過模型識別來處理大量的數(shù)據(jù)并達(dá)到最佳的識別精度。識別的準(zhǔn)確性取決于模型對各種變化的適應(yīng)性。基于區(qū)塊鏈技術(shù)的協(xié)作分布機(jī)器學(xué)習(xí)可以很好地解決這些問題。

      如引言所述,語音識別的系統(tǒng)架構(gòu),一個重要的步驟是使用聲學(xué)和語言模型嘗試解碼。然而,在聲學(xué)模型中存在著許多不確定因素,如說話人特征、語音風(fēng)格和速率、噪聲干擾、口音、麥克風(fēng)和環(huán)境變異、性別和方言等,受到協(xié)作學(xué)習(xí)和分布學(xué)習(xí)的啟發(fā),可以設(shè)計一個語音識別的融合模型,將不同速率、不同噪聲、不同麥克風(fēng)、不同性別、不同方言的數(shù)據(jù)作為每個共享模型的訓(xùn)練數(shù)據(jù)。

      如圖3所示,我們有五個卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型作為計算貢獻(xiàn)者;它們分別使用具有不同速率、噪聲、麥克風(fēng)、性別和方言特征的數(shù)據(jù)進(jìn)行訓(xùn)練。對五個共享模型進(jìn)行充分訓(xùn)練后,得到五個特征向量fi(i=1、2、3、4、5)。從訓(xùn)練好的模型中移除輸出層,并融合每個共享模型的特征??紤]用兩層策略來連接,每一層通過計算前一層的相應(yīng)值的加權(quán)和來實(shí)現(xiàn)。假設(shè)fi是第i個模型的上層特征向量,它們被連接起來形成連接的特征fc。隱藏層h和輸出層y是基于完全連接層的權(quán)矩陣A和B計算的,權(quán)矩陣A和B隨機(jī)初始化,由反向傳播算法的變體(例如Adam)計算權(quán)重矩陣A和B的最佳值[26]。我們還可以考慮梯度融合策略,該策略通過一種特殊的方法初始化權(quán)重矩陣A和B,從而學(xué)習(xí)不同計算模型之間的相關(guān)性,同時保持每個計算模型的唯一性。由于融合模型考慮了聲學(xué)模型中的各種不確定因素,因此協(xié)作分布式深度學(xué)習(xí)模型的整體性能有望提高。

      3? 結(jié)論與展望

      通過對分布式深度學(xué)習(xí)模型的研究,探討了區(qū)塊鏈在語音識別中的應(yīng)用。它不僅能夠處理復(fù)雜的語音識別分析,維護(hù)數(shù)據(jù)隱私,還顯示了強(qiáng)大的大規(guī)模數(shù)據(jù)處理能力。然而,一些重要問題仍有待解決。如,融合模型中的權(quán)值矩陣可能會使得從單個深度學(xué)習(xí)模型中提取的一些關(guān)鍵隱藏特征變得模糊;由于在區(qū)塊鏈節(jié)點(diǎn)中提取的某些特征是重疊或重復(fù)的,從而造成連接特征的冗余;如何通過融合保證在這種分布式學(xué)習(xí)系統(tǒng)下的魯棒特征提取?

      此外,分布式深度學(xué)習(xí)系統(tǒng)中存在大量的參數(shù)。如何避免過擬合也是一個具有挑戰(zhàn)性的問題。由于不同的節(jié)點(diǎn)可能具有不同的dropout率,因此不確定dropout在該系統(tǒng)下是否仍能正常工作。此外,在這種分布式深度學(xué)習(xí)系統(tǒng)下,該系統(tǒng)是否能實(shí)現(xiàn)實(shí)時語音識別,尚不清楚。

      盡管存在挑戰(zhàn),但由于將人工智能和區(qū)塊鏈技術(shù)整合到語音識別及其密切相關(guān)的領(lǐng)域,我們已經(jīng)看到了區(qū)塊鏈技術(shù)應(yīng)用于語音識別領(lǐng)域的潛在優(yōu)勢。一些區(qū)塊鏈初創(chuàng)公司正在開發(fā)具體的區(qū)塊鏈語音識別系統(tǒng)。我們未來的工作將致力于改進(jìn)分布式深度學(xué)習(xí)模型中的魯棒特征提取、學(xué)習(xí)泛化以及潛在的安全問題。

      參考文獻(xiàn):

      [1]Gihan J. Mendis, Moein Sabounchi, Jin Wei(2018) Blockchain as a Service: An Autonomous, Privacy Preserving, Decentralized Architecture for Deep Learning. https://arxiv.org/abs/1807.02515.

      [2]Bengio Y(2009) Learning deep architectures for AI, in Foundations and Trends in Machine Learning. Vol. 2, No. 1,? pp. 1-127.

      [3]Bengio Y(2013) Deep learning of representations: looking forward. Statistical Language and Speech Processing, pp. 1-37, Springer.

      [4]Bengio Y., Courville, A., and Vincent, P(2013) Representation learning: A review and new perspectives. IEEE Trans. PAMI.

      [5]Li Deng(2014) “A Tutorial Survey of Architectures, Algorithms, and Applications for Deep Learning” to appear in APSIPA Transactions on Signal and Information Processing, Cambridge University Press.

      [6]Mohamed, A., Dahl, G., and Hinton, G(2009) Deep belief networks for phone recognition. Proc. NIPS Workshop Deep Learning for Speech Recognition and Related Applications, 2009.

      [7]L. Deng, M. Seltzer, D. Yu, et al(2010) Binary coding of speech spectrograms using a deep auto-encoder. Interspeech.

      [8]G. Dahl, D. Yu, L. Deng, and A. Acero(2011) Large vocabulary continuous speech recognition with context-dependent DBN-HMMs. ICASSP.

      [9]G. Dahl, D. Yu, L. Deng, and A. Acero(2012) Context-dependent pre-trained deep neural networks for large vocabulary speech recognition. IEEE Trans. Audio, Speech, Lang Proc. Vol. 20, pp. 30-42.

      [10]Mohamed, A., Dahl, G. and Hinton, G(2012) Acoustic modeling using deep belief networks. IEEE Trans. Audio, Speech, & Language Proc. Vol. 20 (1).

      [11]I. Goodfellow, Y. Bengio, and A. Courville(2016) Deep Learning. MIT Press, http://www.deeplearningbook.org.

      [12]Li Deng, Jinyu Li, Jui-Ting Huang, et al(2013) Recent Advances in Deep Learning for Speech Research at Microsoft, in Proc. of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP).

      [13]Wu Weilan, Cai Meng, et al(2015) Bottleneck features and supspace Gaussian mixture models for low-resource speech recognition. Journal of University of Chinese Academy of Sciences, 32(1): 97-102.

      [14]A. Graves, A.-r. Mohamed, and G. Hinton(2013) “Speech recognition with deep recurrent neural networks,” in Acoustics, speech and signal processing (icassp), 2013 ieee international conference on. IEEE, pp. 6645-6649.

      [15]Nitin Indurkhya, Fred J. Damerau(2010) Handbook of natural Language Processing (2nd Edition). Chapman and Hall/CRC Press,? pp339-365.

      [16]Yan Zhang(2013) Speech Recognition Using Deep Learning Algorithms. http://cs229.stanford.edu/proj2013.

      [17]I. Konstantinidis(2018) Blockchain for Business applications: a systematic literature review, LNBIP, Vol. 320.

      [18]Y. Zhang, M. Pezeshki, P. Brakel, et al(2017) Towards end-to-end speech recognition with deep convolutional neural networks,? arXiv preprint arXiv:1701.02720.

      [19]O. Abdel-Hamid, A. r. Mohamed, H. Jiang, et al(2014) Convolutional eural networks for speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing,? 22(10): 1533-1545.

      [20]T. Young, D. Hazarika, S. Poria, and E. Cambria(2017) Recent trends in deep learning based natural language processing, arXiv preprint arXiv:1708.02709.

      [21]J. Schmidhuber(2015)? Deep learning in neural networks: An overview. Neural networks,? Vol. 61, pp. 85-117.

      [22]X. Xu, C. Pautasso, L. Zhu, et a(2016). The blockchain as a software connector, 13th Working IEEE/IFIP Conference on Software Architecture (WICSA),? pp. 182-191.

      [23]R. Dennis and G. Owen(2015) Rep on the block: A next generation reputation system based on the blockchain. Internet Technology and Secured Transactions (ICITST), International Conference for. IEEE, pp. 131–138.

      [24]H. Watanabe, S. Fujimura, A. Nakadaira, et al(2015) Blockchain contract: A complete consensus using blockchain,? IEEE 4th Global Conference on Consumer Electronics (GCCE),? pp. 577-578.

      [25]R. Shokri and V. Shmatikov(2015)? Privacy-preserving deep learning, Proceedings of the 22nd ACM SIGSAC conference on computer and communications security.? pp. 1310-1321.

      猜你喜歡
      語音識別區(qū)塊鏈深度學(xué)習(xí)
      通話中的語音識別技術(shù)
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      區(qū)塊鏈技術(shù)的應(yīng)用價值分析
      商情(2016年40期)2016-11-28 11:24:12
      “區(qū)塊鏈”的茍且、詩和遠(yuǎn)方
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于區(qū)塊鏈技術(shù)的數(shù)字貨幣與傳統(tǒng)貨幣辨析
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      面向移動終端的語音簽到系統(tǒng)
      用“區(qū)塊鏈”助推中企走出去
      临漳县| 如皋市| 新平| 郓城县| 顺义区| 新田县| 宝鸡市| 阿拉善右旗| 南郑县| 社旗县| 南康市| 靖州| 兴业县| 孙吴县| 新巴尔虎左旗| 漳浦县| 台山市| 中超| 安岳县| 资阳市| 商南县| 卓尼县| 庆元县| 松阳县| 呼和浩特市| 米林县| 顺昌县| 汉中市| 永定县| 扎鲁特旗| 双柏县| 花莲市| 博兴县| 扬州市| 昭觉县| 夏津县| 阿克陶县| 宁强县| 平顶山市| 秦皇岛市| 仁怀市|