時間:2023-03-23 15:22:39
導言:作為寫作愛好者,不可錯過為您精心挑選的10篇語音識別技術,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內容能為您提供靈感和參考。
中圖分類號:TN912 文獻標識碼:A 文章編號:1007-3973 (2010) 03-062-02
1應用領域
如今,一些語音識別的應用已經應用到實際生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系統等。語音識別的應用領域非常廣泛,幾乎涉及到日常生活的方方面面。如語音撥號系統、、家庭服務、訂票系統、聲控智能玩具、醫療服務、銀行服務、聽寫機、計算機控制、工業控制、語音通信系統等。預計在不遠的將來,語音識別技術將在工業、家電、通信、、醫療、家庭服務等各個領域深刻改變人類現有的日常生活方式。語音識別聽寫機在一些領域的應用被美國新聞界評為1997年計算機發展十件大事之一。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重要的科技發展技術之一。
2發展歷史
語音識別的研究工作開始于50年代,Bell實驗室實現了第一個可識別十個英文數字的語音識別系統―Audry系統。但真正取得實質性進展,并將其作為一個重要的課題開展研究則是在60年代末70年代初。60年代,提出了動態規劃(DP)和線性預測分析技術(LP),其中后者較好地解決了語音信號產生模型的問題,極大地促進了語音識別的發展。70年代,動態時間歸正技術(DTW)解決了語音特征不等長匹配問題,對特定人孤立詞語音識別十分有效,在語音識別領域取得了突破。在此期間還提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
80年代語音識別研究進一步深入,HMM模型和人工神經網絡(ANN)在語音識別中成功應用。1988年,FULEE Kai等用VQ/I-IMM方法實現了997個詞匯的非特定人連續語音識別系統SPHINX。這是世界上第1個高性能的非特定人、大詞匯量、連續語音識別系統。人們終于在實驗室突破了大詞匯量、連續語音和非特定人這三大障礙,并以此確定了統計方法和模型在語音識別和語言處理中的主流地位。使得借助人工智能中的啟發式搜索和語音模型自身的特點,高效、快捷的算法使得建立實時的連續語音識別系統成為可能。
90年代,人們開始進一步研究語音識別與自然語言處理的結合,逐步發展到基于自然口語識別和理解的人機對話系統。人工神經元網絡(ANN)也開始應用于語音識別,它和HMM模型建立的語音識別系統性能相當,在很多系統中還被結合在一起使用以提高識別率及系統的魯棒性。小波分析也開始用于特征提取,但目前性能不理想,其研究還在進一步深入中。
現在語音識別系統已經開始從實驗室走向實用,出現了比較成熟的已推向市場的產品。許多發達國家如美國、日本、韓國以及IBM、Apple、Microsoft、AT&T等著名公司都為語音識別系統的實用化開發研究投以巨資。
3研究的熱點與難點
目前語音識別領域的研究熱點包括:穩健語音識別(識別的魯棒性)、語音輸入設備研究 、聲學HMM模型的細化、說話人自適應技術、大詞匯量關鍵詞識別、高效的識別(搜索)算法研究 、可信度評測算法研究、ANN的應用、語言模型及深層次的自然語言理解。
目前研究的難點主要表現在:(1)語音識別系統的適應性差。主要體現在對環境依賴性強。(2)高噪聲環境下語音識別進展困難,因為此時人的發音變化很大,像聲音變高,語速變慢,音調及共振峰變化等等,必須尋找新的信號分析處理方法。(3)如何把語言學、生理學、心理學方面知識量化、建模并有效用于語音識別,目前也是一個難點。(4)由于我們對人類的聽覺理解、知識積累和學習機制以及大腦神經系統的控制機理等方面的認識還很不清楚,這必將阻礙語音識別的進一步發展。
4語音識別系統
一個典型的語音識別系統如圖所示:
輸入的語言信號首先要進行反混疊濾波、采樣、A/D轉換等過程進行數字化,之后要進行預處理,包括預加重、加窗和分幀、端點檢測等。我們稱之為對語音信號進行預處理。
語音信號的特征參數主要有:短時能量En,反映語音振幅或能量隨著時間緩慢變化的規律;短時平均過零率Zn,對于離散信號來講,簡單的說就是樣本改變符號的次數,可以粗略分辨清音和濁音;短時自相關函數;經過FFT或LPC運算得到的功率譜,再經過對數運算和傅里葉反變換以后得到的倒譜參數;根據人耳聽覺特性變換的美爾(MEL);線性預測系數等。通常識別參數可選擇上面的某一種或幾種的組合。
語音識別是語音識別系統最核心的部分。包括語音的聲學模型(訓練學習)與模式匹配(識別算法)以及相應的語言模型與語言處理2大部分。聲學模型用于參數匹配,通常在模型訓練階段按照一定的準則,由用語音特征參數表征的大量已知模式中通過學習算法來獲取代表該模式本質特征的模型參數而產生。在識別(模式匹配)時將輸入的語音特征同聲學模型(模式)根據一定準則進行匹配與比較,使未知模式與模型庫中的某一個模型獲得最佳匹配以得到最佳的識別結果。語言模型一般指在匹配搜索時用于字詞和路徑約束的語言規則,它包括由識別語音命令構成的語法網絡或由統計方法構成的語言模型,語言處理則可以進行語法、語義分析。
聲學模型是語音識別系統中最關鍵的一部分。目前最常用也最有效的幾種聲學識別模型包括動態時間歸整模型(DTW)、隱馬爾可夫模型(HMM)和人工神經網絡模型(ANN)等。
DTW是較早的一種模式匹配和模型訓練技術,它把整個單詞作為識別單元,在訓練階段將詞匯表中每個詞的特征矢量序列作為模板存入模板庫,在識別階段將待識別語音的特征矢量序列依次與庫中的每個模板進行相似度比較,將相似度最高者作為識別結果輸出。DTW應用動態規劃方法成功解決了語音信號特征參數序列比較時時長不等的難題,在小詞匯量、孤立詞語音識別中獲得了良好性能。但因其不適合連續語音大詞匯量語音識別系統,目前已逐漸被HMM和ANN模型替代。
HMM模型是語音信號時變特征的有參表示法。它由相互關聯的兩個隨機過程共同描述信號的統計特性,其中一個是隱蔽的(不可觀測的)具有有限狀態的Markor鏈,另一個是與Markor鏈的每一狀態相關聯的觀察矢量的隨機過程(可觀測的)。HMM很好的模擬了人得語言過程,目前應用十分廣泛。HMM模型的模型參數包括HMM拓撲結構(狀態數目N、狀態之間的轉移方向等)、每個狀態可以觀察到的符號數M(符號集合O)、狀態轉移概率A及描述觀察符號統計特性的一組隨機函數,包括觀察符號的概率分布B和初始狀態概率分布 ,因此一個HMM模型可以由{N,M,A,B, }來確定,對詞匯表中的每一個詞都要建立相應的HMM模型。
模型參數得到后可以用Viterbi算法來確定與觀察序列對應的最佳的狀態序列。建好模型后,在識別階段就是要計算每個模型產生觀察符號序列的輸出概率,輸出概率最大的模型所表示的詞就是我們的識別結果。這個過程計算量很大,有人提出了前向-后向算法,大大減少了計算量,已經被廣泛采用,關于它們的各種改進方法也被大量提出。
ANN在語音識別中的應用是現在研究的又一熱點。ANN本質上是一個自適應非線性動力學系統,是由結點互連組成的計算網絡,模擬了人類大腦神經元活動的基本原理,具有自學習能力、記憶、聯想、推理、概括能力和快速并行實現的特點,同時還具備自組織、自適應的功能。這些能力是HMM模型不具備的,可用于處理一些環境信息十分復雜,背景知識不清楚,推理規則不明確的問題,允許樣品有較大的缺損、畸變,因此對于噪聲環境下非特定人的語音識別問題來說是一種很好的解決方案。目前大部分應用神經網絡的語音識別系統都采用了BP網并取得了較好的識別效果。
將ANN與HMM結合分別利用各自優點進行識別將是今后的一條研究途徑。二者結合的混合語音識別方法的研究開始于上世紀90年代,目前已有一些方法將ANN輔助HMM進行計算和學習概率參數。
語言模型主要分為規則模型和統計模型兩種。統計語言模型是用概率統計的方法來揭示語言單位內在的統計規律,其中N-Gram簡單有效,被廣泛使用。N-Gram模型基于這樣一種假設:第n個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料庫中統計N個詞同時出現的次數得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
5總結
盡管語音識別技術已經取得了長足的進步,而語音識別系統也層出不窮,不斷的改變人類現有的生活方式,但其比較成功的應用也只是在某些特定的領域,談不上大規模廣泛的應用。只有建立從聲學、語音學到語言學的知識為基礎、以信息論、模式識別數理統計和人工智能為主要實現手段的語音處理機制,把整個語音識別過程從系統工程的高度進行分析構建,才有可能獲得能與人類相比的高性能的、完整的計算機語音識別系統。
參考文獻:
[1]易克初,田斌.付強.語音信號處理[M].國防工業出版社,2000.
[2]胡航.語音信號處理[M].哈爾濱工業大學出版社,2000.
語音識別是一門交叉學科。語音識別研究經歷了50多年的研究歷程,經過50多年的積累研究,獲得了巨大的進展。特別是近20年來,語音識別技術取得了顯著的進步,并逐步的走向市場。在未來的日子里,語音識別技術將應用更為廣泛。
一、語音識別技術概述
語音識別是解決機器“聽懂”人類語言的一項技術。作為智能計算機研究的主導方向和人機語音通信的關鍵技術,語音識別技術一直受到各國科學界的廣泛關注。如今,隨著語音識別技術研究的突破,其對計算機發展和社會生活的重要性日益凸現出來。以語音識別技術開發出的產品應用領域非常廣泛,如聲控電話交換、信息網絡查詢、家庭服務、賓館服務、醫療服務、銀行服務、工業控制、語音通信系統等,幾乎深入到社會的每個行業和每個方面。
廣泛意義上的語音識別按照任務的不同可以分為4個方向:說話人識別、關鍵詞檢出、語言辨識和語音識別。說話人識別技術是以話音對說話人進行區別,從而進行身份鑒別和認證的技術。關鍵詞檢出技術應用于一些具有特定要求的場合,只關注那些包含特定詞的句子,例如對一些特殊人名、地名的電話監聽等。語言辨識技術是通過分析處理一個語音片斷以判別其所屬語言種類的技術,本質上也是語音識別技術的一個方面。語音識別就是通常人們所說的以說話的內容作為識別對象的技術,它是4個方面中最重要和研究最廣泛的一個方向,也是本文討論的主要內容。
二、語音識別的研究歷史
語音識別的研究工作始于20世紀50年代,1952年Bell實驗室開發的Audry系統是第一個可以識別10個英文數字的語音識別系統。
1959年,Rorgie和Forge采用數字計算機識別英文元音和孤立詞,從此開始了計算機語音識別。
60年代,蘇聯的Matin等提出了語音結束點的端點檢測,使語音識別水平明顯上升;Vintsyuk提出了動態編程,這一提法在以后的識別中不可或缺。60年代末、70年代初的重要成果是提出了信號線性預測編碼(LPC)技術和動態時間規整(DTW)技術,有效地解決了語音信號的特征提取和不等長語音匹配問題;同時提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
80年代語音識別研究進一步走向深入:HMM模型和人工神經網絡(ANN)在語音識別中成功應用。1988年,FULEE Kai等用VQ/I-IMM方法實現了997個詞匯的非特定人連續語音識別系統SPHINX。這是世界上第1個高性能的非特定人、大詞匯量、連續語音識別系統。
進入90年代后,語音識別技術進一步成熟,并開始向市場提品。許多發達國家如美國、日本、韓國以及IBM、Apple、AT&;T、Microsoft等公司都為語音識別系統的實用化開發研究投以巨資。同時漢語語音識別也越來越受到重視。IBM開發的ViaVoice和Microsoft開發的中文識別引擎都具有了相當高的漢語語音識別水平。
進入21世紀,隨著消費類電子產品的普及,嵌入式語音處理技術發展迅速[2]。基于語音識別芯片的嵌入式產品也越來越多,如Sensory公司的RSC系列語音識別芯片、Infineon公司的Unispeech和Unilite語音芯片等,這些芯片在嵌入式硬件開發中得到了廣泛的應用。在軟件上,目前比較成功的語音識別軟件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及開源軟件HTK,這些軟件都是面向非特定人、大詞匯量的連續語音識別系統。
三、語音識別技術的發展現狀
語音識別技術通過全球科學家的共同努力,經歷半個多世紀的研究,目前已經發展到了接近實用的階段。在實驗室環境下,大詞匯量的朗讀式連續說話的寬帶語音信號的平均識別率可以達到90%以上。正式有了如此高的識別率之后,語音識別技術慢慢地從實驗室演示系統逐步走向實用化商品。以IBM Via Voice和Dragon Dictation為代表的兩個聽寫機系統的出現,使“語音識別”逐步進入大眾視線,引起了廣泛的社會關注。
由于校對和更正識別的錯誤很麻煩和浪費時間,這樣便降低語音識別的優勢。同時,由于使用的環境或講話口音習慣等因素的影響,語音識別的內容大大降低,識別的內容不能達到100%的正確,所以很多人認為目前的語音識別系統還無法滿足實用要求。
目前,AT&T和MIT等將語音識別技術應用在一些有限詞匯的特定任務上,如電話自動轉接、電話查詢、數字串識別的任務中,當講話的內容是系統所存儲的內容存在的,且使用環境的聲學特性與訓練數據的聲學特性相差不太大時,語音識別的正確識別率可以接近100%。但是,在實際使用中如果這些條件被破壞,則會對識別系統造成一定的影響。
我國的語音識別研究一直緊跟國際水平,國家也很重視。國內中科院的自動化所、聲學所以及清華大學等科研機構和高校都在從事語音識別領域的研究和開發。國家863智能計算機專家組為語音識別技術研究專門立項,并取得了高水平的科研成果。我國中科院自動化所研制的非特定人、連續語音聽寫系統和漢語語音人機對話系統,其準確率和系統響應率均可達90%以上。
四、語音識別技術發展趨勢
語音作為當前通信系統中最自然的通信媒介,語音識別技術是非常重要的人機交互技術。隨著計算機和語音處理技術的發展,語音識別系統的實用性將進一步提高。應用語音的自動理解和翻譯,可消除人類相互交往的語言障礙。國外已有多種基于語音識別產品的應用,如聲控撥號電話、語音記事本等,基于特定任務和環境的聽寫機也已經進入應用階段。這預示著語音識別技術有著非常廣泛的應用領域和市場前景。隨著語音技術的進步和通信技術的飛速發展,語音識別技術將為網上會議、商業管理、醫藥衛生、教育培訓等各個領域帶來極大的便利,其應用和經濟、社會效益前景非常良好.
雖然語音識別在過去的20年里有了很大的發展,但是,仍然存在很多的不足,有待于進一步的探索,具體可分為以下幾個方面:
1.提高可靠性。語音識別技術需要能排除各種聲學環境因素的影響。在比較嘈雜的公共環境中,人的意識會有意識的排除非需要的聲學環境因素,這對語音識別系統而言,是很難做到的。另外,在日常生活中,人類的語言常常具有較大的不確定性,比較隨意,并帶有明顯的言語習慣。這同樣會給語音識別系統很大的識別麻煩。目前,在提高語音系統在不同環境中的可靠性,同時要應用現代技術讓語音識別系統更加智能化,掌握人們語言隨意性的部分規律,以達到最佳的識別效果。
2.增加詞匯量。系統可以識別的詞匯的數量是系統能夠做什么事情的一個重要度量。一個語音識別系統使用的聲學模型和語音模型如果太過于局限,當用戶所講的詞匯超出系統已知的范圍時,則語音識別系統不能準確的識別出相應的內容,比如,當突然從中文轉為英文、法文、俄文時,計算機就會常常輸出混亂奇怪的結果。但是,隨著系統建模方法的不斷改進、搜索算法效率的提高以及硬件資源的發展,未來的語音識別系統可能會做到詞匯量無限制和多種語言混合,這樣用戶在使用的時候可以不必在語種之間來回切換,這樣就能大大減少詞匯量的對語音識別系統的限制。
中圖分類號:TP391.42 文獻標識碼:A 文章編號:1007-9599 (2012) 19-0000-02
近年來,隨著科學技術的進步,語音識別技術的發展,通過語言操縱機器的夢想正在逐步變為現實。語音識別是語音信號處理的一個重要的研究方向,經過50多年的積累研究,尤其是近20年來,語音識別技術取得了顯著進步,并且廣泛應用于商業,比如蘋果的siri系統。本文從語音識別的發展歷史、發展方向來著重分析未來語音識別技術的發展趨勢。
1 語音識別技術的發展歷史
1.1 語音識別技術在國際的發展
早在三四十年前,美國的一些大學和實驗室就開始了語音識別技術的研究,50年代的AT& T Bell實驗室研發的Audry系統第一個實現了可識別十個英文數字。60和70年代,提出了線性預測分析技術(LP)等相關理論并深入研究,創造出可以實現特定人孤立語音識別系統;80年代和90年代是語音識別技術應用研究方向的,HMM模型和人工神經元網絡(ANN)的成功應用,使得語音識別系統的性能比以往更優異;伴隨著多媒體時代的來臨,微軟,Apple等著名公司都研發出相當成功的商業應用語音識別系統,比如,Apple的Siri系統,微軟的Phone Query (電話語音識別)引擎等。
1.2 語音識別技術在國內的發展
我國的語音識別研究工作雖然起步較晚,但由于國家的重視,研究工作進展順利,相關研究緊跟國際水平。由于中國有不可忽視的龐大市場,國外對中國的語音識別技術也非常重視,漢語語音語義的特殊性也使得中文語音識別技術的研究更具有挑戰。但是,國內研究機構在進行理論研究的同時,應注重語音識別系統在商業中的應用,加快從實驗室演示系統到商品的轉化。
現如今,許多用戶已經能享受到語音識別技術帶來的方便,比如智能手機的語音操作等。但是,這與實現真正的人機交流還有相當遙遠的距離。目前,計算機對用戶語音的識別程度不高,人機交互上還存在一定的問題,語音識別技術還有很長的一段路要走,必須取得突破性的進展,才能做到更好的商業應用,這也是未來語音識別技術的發展方向。
2 語音識別技術的技術實現及困難
語音識別技術的實現方式是聲音通過轉換裝置進入機器,而機器配有“語音辨識”程序,程序將得到的聲音樣本與數據庫存儲的樣本進行比對,輸出最匹配的結果,轉化為機器語言,進而執行命令。真正建立辨識率高的語音辨識程序組,是非常困難而專業的,專家學者們研究出許多破解這個問題的方法,如傅立葉轉換、倒頻譜參數等,使目前的語音辨識系統已達到一個可接受的程度,并具有較高辨識度。
2.1 語音識別的技術實現方式
語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面,其中,最基礎的就是語音識別單元的選取。
(1)語音識別單元的選取。語音識別研究的基礎是選擇語音識別單元。語音識別單元有單詞(句)、音節和音素三種,具體選擇哪一種語音識別單元由具體研究任務的類型決定:
單詞(句)單元在中小詞匯語音識別系統中應用廣泛,但由于模型庫過于龐大,模型匹配算法復雜,實時性不強,所以不適合大詞匯系統;
音節單元主要應用于漢語語音識別,因為漢語是單音節結構的語言,雖然有大約1300個音節,但無調音節共408個,相對較少,所以音節單元在中、大詞匯量的漢語語音識別系統上是可行的。
音素單元之前曾廣泛應用于英語語音識別,也越來越多的應用于中、大詞匯量漢語語音識別系統中。原因在于漢語音節僅由22個聲母和28個韻母構成,把聲母細化,雖然增加了模型數量,但是提高了易混淆音節的區分能力
(2)特征參數提取技術。特征提取就是對語音信號進行分析處理,把豐富的語音信息中的冗余信息去除,獲得對語音識別有用的信息。這是一個對語音信號進行信息壓縮的過程,目前經常采用的特征參數提取技術是線性預測(LP)分析技術。基于LP技術提取的倒譜參數再加上Mel參數和基于感知線性預測(PLP)分析提取的感知線性預測倒譜對人耳處理聲音的模擬,進一步提高了語音識別系統的性能。
(3)模式匹配及模型訓練技術。早期的語音識別應用的模式匹配和模型訓練技術是動態時間歸正技術(DTW),它在孤立詞語音識別中獲得了良好性能,但是由于對大詞匯量以及連續語音識別的不準確,目前已經被隱馬爾可夫模型(HMM)和人工神經元網絡(ANN)所取代。
2.2 語音識別遇到的困難
目前,語音識別研究工作進展緩慢,困難具體表現在:
(一)語音識別系統對環境敏感,采集到的語音訓練系統只能應用于與之對應的環境,而且當用戶輸入錯誤時不能正確響應,應用起來相對困難;(二)必須采取新的新號處理方法來處理人在高噪聲環境下的發音變化的問題;(三)語言模型、語法及詞法模型在中、大詞匯量連續語音識別中無法正確、合理的運用,需要有效地利用語言學、心理學及生理學等方面的研究成果;現階段的科學技術對人類生理學諸如聽覺系統分析理解功能、大腦神經系統的控制功能等還不夠,更無法應用于語音識別;語音識別系統從實驗室演示系統向商品的轉化過程中還有許多具體細節技術問題需要解決。
3 語音識別技術的發展趨勢
3.1 進一步提高可靠性
目前語音識別系統很難做到排除各種聲學環境因素的影響,而人類語言在日常生活中的隨意性和不確定性給語音識別系統造成極大的識別困難。所以,要應用現代技術智能化語音識別系統,以達到更好的識別效果;
3.2 增加詞匯量
目前語音識別系統使用的聲學模型和語音模型過于局限,需要通過改進系統建模方法、提高搜索算法的效率來做到詞匯量無限制和多重語言混合,減少詞匯量對語音識別系統的限制;
3.3 微型化并降低成本
語音識別系統在商業上的用途相當廣泛,利用先進的微電子技術,將具有先進功能和性能的語音識別應用系統固化到更加微小的芯片或模塊上,可以縮減成本,更方便的推廣和使用。語音識別系統和微電子芯片技術的發展將引領信息技術革命到一個新的臺階。語音識別系統使人溝通更加自由,使人可以方便地享受到更多的社會信息資源和現代化服務。這必然會成為語音識別技術研究和應用的重要發展趨勢。
4 結束語
21世紀,信息和網絡飛速發展,信息和網絡的時代已經來臨,人與人之間的距離隨著Internet和移動電話網的連接和普及變得越來越近,信息資源擴散的越來越迅速,人與機器的交互顯得尤為重要。語音識別技術的研究和應用可以讓人無論何時何地都可以通過語音交互的方式實現任何事,可以使人更方便的享受更多的社會信息資源和現代化服務,所以,如何將這一技術可靠的、低成本的應用于商業和日常生活,是語音識別技術的發展方向和趨勢。
參考文獻:
[1]劉鈺.語音識別技術概述[J].計算機光盤軟件與應用,2010:14-17.
[2]盛青.語音自動識別技術及其軟件實時實現[J].西北工業大學,2001:45-47.
[3]廖锎.淺析語音識別技術的發展及趨勢[J].科技傳播,2010:34-36.
語音芯片的應用
近年來語音芯片應用越來越廣泛,主要包括:
1.電話通信中的語音撥號。特別是在中、高檔移動電話上,現已普遍具有語音撥號的功能。隨著語音識別芯片的價格降低,普通電話上也將具備語音撥號的功能。
2. 汽車的語音控制。由于在汽車的行駛過程中,駕駛員的手必須放在方向盤上,因此在汽車上撥打電話,需要使用具有語音撥號功能的免提電話通信方式。此外,對汽車的門、窗、空調、照明以及音響等設備,同樣也可以由語音來方便地進行控制。
3. 工業控制及醫療領域。當操作人員的眼或手已經被占用的情況下,在增加控制操作時,最好的辦法就是增加人與機器的語音交互界面。由語音對機器發出命令,機器用語音做出應答。
4. 個人數字助理(Personal Digital Assistant,PDA)的語音交互界面。PDA的體積很小,人機界面一直是其應用和技術的瓶頸之一。由于在PDA上使用鍵盤非常不便,因此,現多采用手寫體識別的方法輸入和查詢信息。但是,這種方法仍然讓用戶感到很不方便。現在業界一致認為,PDA的最佳人機交互界面是以語音作為傳輸介質的交互方法,并且已有少量應用。隨著語音識別技術的提高,可以預見,在不久的將來,語音將成為PDA主要的人機交互界面。
5. 智能玩具。通過語音識別技術,我們可以與智能娃娃對話,可以用語音對玩具發出命令,讓其完成一些簡單的任務,甚至可以制造具有語音鎖功能的電子看門狗。智能玩具有很大的市場潛力,而其關鍵在于語音芯片價格的降低。
6. 家電遙控。用語音可以控制電視機、VCD、空調、電扇、窗簾的操作,而且一個遙控器就可以把家中的電器皆用語音控制起來,這樣,可以讓令人頭疼的各種電器的操作變得簡單易行。
語音識別專用芯片系統有如下幾個特點: 1. 多為中、小詞匯量的語音識別系統,即只能夠識別10~100詞條。只有近一兩年來,才有連續數碼或連續字母語音識別專用芯片實現。2. 一般僅限于特定人語音識別的實現,即需要讓使用者對所識別的詞條先進行學習或訓練,這一類識別功能對語種、方言和詞條沒有限制。有的芯片也能夠實現非特定人語音識別,即預先將所要識別的語句碼本訓練好而裝入芯片,用戶使用時不需要再進行學習就可直接應用。但這一類識別功能只適用于規定的語種和方言,而且所識別的語句只限于預先已訓練好的語句。3. 由此芯片組成一個完整的語音識別系統。因此,除了語音識別功能以外,為了有一個好的人機界面和識別正確與否的驗證,該系統還必須具備語音提示(語音合成)及語音回放(語音編解碼記錄)功能。4. 多為實時系統,即當用戶說完待識別的詞條后,系統立即完成識別功能并有所回應,這就對電路的運算速度有較高的要求。5. 除了要求有盡可能好的識別性能外,還要求體積盡可能小、可靠性高、耗電省、價錢低等特點。
語音識別技術發展
在發達國家各種各樣基于語音識別技術的產品已經可以買到,如具有聲控撥號電話,語音記事本等等。語音電話服務、數據查詢服務也已經部分實現。基于特定任務和環境的聽寫機也已經進入應用階段。語音識別技術是非常重要的人機交互技術,有著非常廣泛的應用前景。
說話者自適應技術近年在語音識別系統的研究中也備受重視,這是由于與人有關的語音識別系統比與人無關的語音識別系統的識別率要高很多。通過有效的自適應手段可以很快地提高系統的識別能力。實際上說話人自適應技術和穩健語音自適應技術是相通的。由于不同的說話人在聲道長度,說話口音方式都很不一樣。說話者自適應技術也主要是從以下兩方面著手。
靜態處理方法。從特征提取或訓練階段就盡可能減少來自說話人的變化因素對模型的貢獻。可以進行聲道參數的歸一化處理或對說話人進行分類處理,如分男女聲的識別系統就是其中的一個典型,但實際上僅僅從男女聲上對模型分類還是太粗,可以通過有效的聚類方法進行分類。這類方法統稱為聲學歸一化處理方法。
動態處理方法。對預先訓練好的與人無關識別系統,通過臨時得到的特定人語音數據對系統的模板或特征參數進行自適應修正,從而在原有系統基礎上建立一個用于特定任務、特定環境或特定說話人的系統,這類方法統稱為自適應方法。自適應方法可分為: 批模式、累進模式、即時模式; 按自適應學習策略又分為無監督學習和有監督學習。從用戶使用的方便程度來看是由難到易,而算法實現則是由易到難。采用何種策略取決于應用背景,對識別率的要求等因素。對于聽寫機等應用來說,最具吸引力的是累進、無監督的自適應方式,也稱在線自適應。
語言模型也是目前研究的一個重要方面。目前的語言模型是與任務有關的,典型的統計語言模型是通過大量任務特定的語料訓練出來的。通過新聞語料訓練出來的模型不能很好地工作于法律方面的文件語音識別。有幾種方法用于解決這些問題。一種是使用自適應語言模型。在靜態語言模型的基礎上,通過一個高速緩沖存儲器對語言模型進行動態的修正; 另一種是先訓練多領域語言模型,然后通過混合高斯模型將這些模型結合在一起; 還有一種比較好的辦法是使用大顆粒的語言模型,如基于類的語言模型,而不是基于詞的語言模型,類可以是詞性類,詞義類,以及由一定的數據驅動的聚類算法產生的各種類。
由于不同詞可以屬于同一類,這樣類比較大,構成的語言模型就比較穩健。其關鍵的問題是如何決定詞的分類,由于詞的分類比較復雜,同一詞可能屬于不同的類,特別是解決如何通過計算機實現自動分類的算法,即使用數據驅動算法也還沒有很好地解決。基于統計技術的計算語言學已經越來越受到重視,它解決了單獨規則語言模型不能解決的一些問題。當然統計語言模型也不能解決全部問題,因此如何把統計語言模型和基于規則的語言模型結合也是語言模型研究的重點之一。
目前不同快速語音識別算法都在開發中。其中包括對HMM狀態輸出的概率分布進行矢量量化,縮小搜索空間算法,減少計算機的內存需求方法,以及結合計算機結構特點的編程技術的應用。
與機器進行語音交流,讓機器明白你說什么,這是我們長期以來夢寐以求的事情。而提起語音識別.我們最容易想到的還要數不會講笑話的Siri。
作為世界上第一家上市的語音識別公司,Siri的“娘家”Nuance有著輝煌的歷史,曾經在語音領域一統江湖。蘋果iPhone手機的虛擬語音助手Siri、三星的語音助手S-Voice.各大航空公司和頂級銀行的自動呼叫中心和虛擬在線語音助手,都采用了Nuance的技術。近年來,Nuance的語音識別技術已經從實驗室走向市場,將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。
在智能車載領域,Nuance定制的汽車級語音平臺Dragon Drive獲得了201 5CES創新大獎,通過將車載平臺與手機連接,Nuance可以幫用戶實現語音控制GPS導航、信息收發、電話接打、社交網絡更新等等。
在前一段時間,Nuance在其官方博客上,公布了將發力醫療領域的消息。消息中說,Nuance在醫療領域進軍,不僅僅通過智能手表追蹤運動情況和心率,還將會直接根據人的身體狀況匹配相應的服務,如合適的餐廳或食物等,當然這些大多是基于可穿戴設備的。另外他們還考慮到更多場景.諸如緊急語音求助、醫患對話存檔、呼叫中心的對話聽寫等。
隨著互聯網技術的快速發展,以及手機等移動終端的普及應用,目前可以從多個渠道獲取大量文本或語音方面的語料,這為語音識別中的語言模型和聲學模型的訓練提供了豐富的資源,使得構建通用大規模語言模型和聲學模型成為可能。在語音識別中,訓練數據的匹配和豐富性是推動系統性能提升的最重要因素之一,但是語料的標注和分析需要長期的積累和沉淀,隨著大數據時代的來臨,大規模語料資源的積累將提到戰略高度。從Nuance向醫療領域發力看出,由于醫療領域詞匯庫專業性強演變性弱,只要建立完整的數據庫,就可以做到對疾病名稱、藥品名稱相對精確的識別。
如今國內也有了相應的應用如支持語音搜索功能的病歷夾與珍立拍,致力于為醫生提供一個安全存儲病歷資料的云空間,方便查找病例。而科大訊飛、云知聲、盛大、捷通華聲、中科信利、尚科語音、搜狗語音助手、紫冬口譯、騰訊語音、百度語音等都日漸被用戶習慣的系統,都采用了最新的語音識別技術,市面上其他相關的產品也直接或間接嵌入了類似的技術。
從打字到語音的習慣改變
隨著語音識別在移動終端上的應用越來越火熱,借助機器學習領域深度學習研究的發展,以及大數據語料的積累,語音識別技術得到突飛猛進的發展。
騰訊、百度都建立了自己的語音團隊,在移動搜索領域發力 隨著吳恩達加盟,擔任首席科學家,負責百度研究院,百度看起來更加高大上了許多。吳恩達的研究領域就是機器學習和人工智能,研究重點是深度學習。深度學習被認為是當前的機器學習算法里最接近人腦思維的一種。在語音識別方面,會對互聯網、家用電器帶來很大的改革在百度Big Talk2015年第一期公開課上,吳恩達說,“語音會是改革互聯網的很大一個因素。語音識別會推動物聯網的革命,比如汽車界面、家用設備,以及可穿戴設備。在這方面,特別是在移動互聯網方面,中國其實領先于美國和其他國家很多。”
中圖分類號:TN912 文獻標識碼:A 文章編號:1007-9416(2012)02-0082-01
由于生活節奏的加快,汽車已經成為了人們生活中重要的工具,人們在車內的時間也更多。同時也希望能夠在車內接收到外界的信息繼續進行工作,還要求汽車有娛樂功能,因此促進了車載多媒體的發展。而車載多媒體傳統的人機交互方式會增加潛在的駕駛危險,為此將語音識別應用于車載多媒體系統中,將會是車載多媒體發展的重要方向。端點檢測、特征參數提取以及識別是語音識別的主要內容,本文也將從這三個方向對車在多媒體系統的語音識別進行研究。
1、端點檢測
在進行語音識別時,首先需要通過端點檢測來對語音信號中的無聲片段和有聲片段進行分割。目前,語音端點識別已經從開始的單一門限發展到了基于模糊理論的判決。但是對于車載多媒體而言,計算量較大、識別響應時間較長端點檢測的方法顯然不使用,所以主要采用基于短平均過零率和短時間平均幅度的方法來進行語音端點檢測,這種方法利用短時間內幅度的檢測和過零率來作為語音端點的檢測。
首先,利用短時幅度可以有效判斷語音端點,同時語音的濁音部分平均幅度會明顯大于噪聲的平均幅度,然后同時再輔以短時過零率的方法來判斷語音開始的濁音,從而進一步對端點檢測進行校準,兩者的結合能夠更加精確的判斷語音端點,并且兩種算法都較為簡單,能夠滿足車在多媒體的需求。
2、特征參數提取
在完成語音的端點檢測之后,需要提取語音的特征參數,然后進行語音識別。目前用于語音特征參數提取的算法主要有LPCC(線性預測倒譜系數)和MFCC(Mel頻率倒譜),由于MFCC具有更強的抗干擾能力等特點,更適合與噪聲較多、司機不能離輸入設備很近的車載環境。
分析MFCC的語音特征參數提取可以分成預加重、加窗、FFT(快速傅里葉變換)、濾波、自然對數提取、自然對數DCT計算這六個步驟。由于MFCC其計算精度以及計算量都較大,因此,使用MFCC作為車載系統的語音特征參數提取時,需要進行相應的改進:
(1)在MFCC實現的六個步驟中,例如加窗等步驟就可以實現進行計算,然后存儲在數組中,在使用時進行查表提取,從而避免每一次語音識別時重復計算,從而加快了計算速度。
(2)FFT需要花費大量的時間(據統計,FFT需要花費MFCC56.32%的時間[2]),由于FFT算法是對復數進行處理,而語音信號的處理只涉及到實數部分,其虛數部分為零,因此增加了運算時間,因此可以利用文獻3所提出的FFT運算方法,將長度為N的FFT預算降低到長度為N/2的FFT運算,從而提高了語音特征參數提取效率。
3、識別模式
語音識別的原理是模式匹配,通過計算現有語音模式與語音模板庫中的模板的距離,來獲得最佳的匹配模式。匹配的方法主要有DTW(動態時間規整)、HMM(隱馬爾科夫模型)和ANN(人工神經元網絡)。由于ANN計算量較大,因此不適合用于車載多媒體系統中,HMM需要繁雜的程序結構,包含眾多功能模塊,需要大量的計算。因此, DTW模式更適合用于車載多媒體系統中。能夠滿足車載系統孤立詞、小詞匯量的語音識別。
為了更好的在車在多媒體系統中的嵌入式平臺上實現DTW,對DTW進行進一步的改進:
(1)由于在語音識別匯總,對音頭和音尾的判斷存在一定的誤差,因此,使用傳統DTW方法在進行固定端點匹配時會存在一定的誤差,從而降低了語音匹配成功率。為此,可以采用放寬端點限制的方法來使用DTW進行語音識別。其主要的思路是取消傳統DTW中對音頭和音尾嚴格對其的限制。從而,只要兩次語音在開始的W幀內能夠匹配成功,同時在結束的W幀內匹配成功,即認為兩次語音匹配成功。在降低了對端點檢測的精度要求,符合車載系統小詞匯量的特點,不會降低車載系統語音識別效率。
(2)在使用DTW進行語音模板匹配時,需要計算兩個模板各幀的距離來計算模板之間的距離。加入模板庫中的某個模板T有N幀,待識別的語音R有M幀,那么通常需要申請M×N長度的空間,再根據兩個模板所有幀間距離計算整體長度。但是在實際的應用中,只需要M長度的空間來存放模板T第n-1幀與模板R中M幀之間的距離,在計算完第n幀與模板R中M幀之間的距離對M長度空間的數據進行替換,從而進行模板T第n+1幀與模板R中M幀之間的距離,從而節省了(N-1)×M的存儲空間,這對車載系統有限存儲空間的系統中有著非常重要的意義。
4、結語
相比于傳統的按鈕式、觸摸屏式人機交互系統,語音識別對于車載多媒體系統有著非常重要的意義,將是車載多媒體系統重要的發展方向,本文針對車載多媒體系統對低CPU運算時間和地存儲空間的特點,對語音識別中的端點檢測、語音特征參數提取以及識別模式的實現和優化進行了研究。
參考文獻
[1]方敏,浦劍濤,李成榮.嵌入式語音識別系統的研究和實現[J].中國信息學報,2004,(6):73~78.
[2]萬春,黃杰圣,曹煦暉.基于DTW的孤立詞語音識別研究和算法改進[J].計算機與現代化,2005,(13):4~6.
中圖分類號:TP242 文獻標識碼:A
1語音識別技術的研究意義
人們使用的聲音語言是一種人在特定高度思維和意識活動下的產品。語言是人類最直接以及最理想的交流方式,也是人機通信是最方便的方式。在機器人發展的高級發展階段中,機器人的智能語音識別與人類的活動是密切相關的,有聲語言的人機交互信息成為重要的手段。例如,語音識別獲取外界信息很自然,沒有特殊的訓練方法,隨著機器人技術的發展和廣泛應用,有越來越多的機會來接觸人類和機器人,所以人們希望通過語音識別和機器人去處理,不管誰能能準確安全,方便地操縱機器人。機器人和人類之間的信息交互,表現在兩個方面,一是對更高層次的機器人操作,方便軟件的設計開發,這種多為教學機器人,另一種是在實際操作的要求下完成信息交互任務的機器人。智能機器人作為機器人技術發展的高級階段,其發展趨勢是:不僅要求機器人具有高度的自治能力,還要使機器人和人類之間的協調也具有一定的智能性。這就要求機器人具有不同的高性能主動做事能力,而不是被動地接受任務,為了實現這一目標,自然語言作為人機信息交換將發揮越來越重要的作用。目前,智能機器人已成為機器人研究領域的一個熱點。工業機器人是智能機器人的一個重要研究領域。當今,工業機器人的發展方興未艾,巨大的市場潛力,使真正的工業機器人的已經在市場上嶄露頭角,以滿足人們日益增長的需求,我們不能沒有一個高性能的語音識別系統。由于工業機器人是面向生產實際的需要,最好的工作方式是讓機器人能顧聽懂最常見的人類語言,完成指定的工作,并能與人交流。機器人語音識別是機器人研究領域中的語音識別應用,最終的目標是讓機器人了解人們的口頭語言,然后按照人們的命令來行動或反應,從而形成一個良好的人機對話系統。為了能夠進一步推動智能機器人的開發應用,因此,在語音識別機器人的研究領域中,機器人語音識別系統是工業機器人的實際推廣應用,具有重要的意義。
語音識別技術在智能機器人中的應用已經有很多年的歷史,作為智能機器人的一個分支,工業機器人得到了迅速發展,工業機器人通過語音識別從工業噪聲中提取有效的語音命令。為了實現機器人在一些特殊工業環境中工作的目的,機器人要能夠識別命令意圖。語音識別技術,可以實現人機對話,從而讓機器能模仿人類完成所有工作的分配,使其在各行各業中能夠得以應用。目前所面臨的實際問題是:噪聲和干擾環境下對大型工業機器人的語音識別有嚴重的影響。在機器人識別領域,工業環境中的實時性是一個非常重要的任務。機器人在工業環境下應用的聽覺識別是使智能機器人發展速率低的瓶頸。
2語音識別系統的發展
2.1語音識別系統的發展方向
語音識別系統是基于一套應用軟件系統的硬件平臺和操作系統的一些。語音識別一般分為兩個步驟。第一步是學習或培訓。這一階段的任務是建立基本單元的聲學模型來進行識別和模型的語音語法分析等。第二步是識別或測試。根據識別系統的類型可以滿足一個識別方法的要求,使用語音分析的方法來分析語音特征參數,并建立了比較和測量系統模型,根據一定的標準,鑒定結果。
語音識別系統的應用可分為兩個發展方向,其中一個是大詞匯連續語音識別系統,主要應用于計算機的聽寫機,以及結合電話網或互聯網的語音信息服務系統,這些系統是在計算機平臺上的一個重要發展方向。其次是應用的小型化,便攜式音頻產品,如無線移動電話的撥號,語音控制車載設備,智能玩具,家用電器和其他方面的應用的遠程控制,這些應用系統大多采用特殊的硬件系統來實現,特別是語音信號處理芯片和語音識別芯片,最近幾年快速發展,為其廣泛應用創造了極為有利的條件。
2.2語音識別系統的模型與模式
語音識別系統的核心是聲學模型和模式分類。首先通過學習算法,訓練語音聲學模型的特點是通過學習過程來生成聲學模型,這是識別潛在的模型的前提,是最關鍵的語音識別系統的一部分。聲學模型的目的是提供一種有效的方法來計算特征向量的聲音序列和每個發音模板之間的距離。人的發音在每一刻發音之前和之后都會受到影響。
為了模仿自然連續的協同發音和識別不同的發音,通常需要使用復雜的聲學模型。聲學模型和語言的發音特點的設計是密切相關的。聲學模型單元大小與單詞發音,音節模式和音位語音訓練數據大小有關,故要求其系統識別具有很大的靈活性。大詞匯量語音識別系統,通常采用較小的單元和少量的計算,該模型只有較小的存儲容量,減少訓練數據的數量,但相應的聲音定位和分割問題就顯得更加困難,規則識別模型變得越來越復雜。通常大型模型中識別單元包括協同發音,這有利于提高系統的識別率,但訓練數據也相對增加。必須根據不同語言的特點來識別詞匯,詞匯量大小決定單位大小。
無線通信網絡在創造移動電子商務時,也帶來一系列不安全的因素,例如黑客竊聽、盜取信息、篡改用戶信息等。同時,有關法律法規的不夠完善也嚴重制約著移動電子商務的快速發展。
1.竊聽用戶信息
過去的電子商務中,入侵者可以運用有線網絡,進一步實施有關的竊聽工作,因此,極易判定入侵者的具置和信息。在無線網絡環境下,進行追蹤比較困難,因此在無線網絡環境下,入侵者如果具備網卡或相關的無線設備從任何地點都能進入無線網絡中。
2.黑客篡改用戶信息
篡改用戶信息的情況在無線電子商務中非常普遍,如果非法用戶采用無線通信網絡獲取用戶的交易信息,可以隨意把篡改或刪除信息發送出去,這會給用戶帶來很大的損失。黑客也可以截取用戶的登陸名稱或密碼,從而竊取用戶的合法賬號。
二、語音識別技術在移動電子商務中的應用
1.創建安全模型
本文設計的安全模式,是以語音識別技術為基礎,創建移動電子商務安全模型。該系統包含移動設備用戶、語音服務提供商、移動電子商務企業三個部分組合而成。客戶端輸入的語音信息先讓移動電子商務企業接收,隨之傳送至語音服務提供商進行處理。設計的模型主要表現在儲存語音信息、進行語音識別、及時更新、傳輸安全四個方面,從而有效保障電子商務交易的安全運行。
2.安全模型的各項功能
(1)存儲語音信息
在無線電子商務實際交易時,全部的語音信息會先存在移動電子商務企業的語音數據庫內,移動電子商務企業把用戶讀入的信息轉換為數字符號,存入專業的語音數據內并標明用戶名稱、時間等信息,從而更好的標識語音信息。移動電子商務企業把新增加的語音信息發送到語音服務提供商,由他們對這一段語音信息給予相應的處理,成功獲取這段語音特征之后,自行把特征信息輸送到移動電子商務企業的語音特征數據庫內,并標明相對應的用戶名稱、時間等信息,隨之進一步展開語音識別。從上述的分析可知,對用戶輸入的語音信號進行去噪、提取特征先是由語音服務提供商進程處理。語音服務提供商把語音信息傳輸給電子商務企業的語音特征數據庫之后,電子商務企業系統會先對語音特征是否已經出現在數據庫中,如果查詢獲知該用戶名存在,表明數據庫已經詳細記錄該用戶的語音信息;隨后把新錄入的語音特征與上一次最新的語音特征展開比較。若兩次語音特征一致,表明該語音順利通過系統識別,證明用戶的身份合法。同時,由于語音并不是獨特或唯一的,進行語音識別時極易受到外界環境的干擾,對確定語音識別發生源非常困難。此時,可以使用相關技術在服務器端設置聲吶裝置,當用戶進行語音識別驗證過程中,憑借超聲波判定發生源體積的大小。但該設備無法安裝在客戶端上,如果這樣非法用戶可以把客戶端的聲吶設備拆卸下來,從而致使發生源可信度降低。
(2)及時更新語音特征
移動電子商務企業不僅僅要接受輸入的語音信息,同時要及時更新語音特征,從而提升語音識別的準確度。具體實施步驟如下:首先必須具備充足的歷史信息才能有效總結新的規律。移動電子商務企業可以建立定時查看用戶語音特征的系統,如果系統檢測到語音特征數據庫共出現30余條相同用戶名的語音特征,系統會自動對語音特征展開比較,從而找尋其中的差別,最后獲取新的語音特征。把新的語音特征作為21條語音特征輸入語音特征數據庫內,之后發送到相關企業數據庫內。若看到某一用戶名下語音特征多于20條,運用這一信息數除以20,如果得出的余數是0,在采用最新的20條信息按照上述的步驟進行處理。運用上述方法對語音特征進行更新。
(3)傳輸語音信息
1 項目建設目標
1.1 項目背景
目前,固網用戶撥打電話,必須先查出被叫的號碼,并按鍵進行撥叫。而隨著通信業的發展,要記的電話號碼越來越多,而目前大部分的固定電話都沒有號碼存儲的功能,所以很多時候使用固話打電話時,要么從手機上查找被叫的電話,或者是從紙制電話簿去查找,既不方便,又浪費時間。
“語音電話本”完全可以幫助用戶解決以上問題,用戶只需撥打一個號碼接入系統平臺,說出聯系人的姓名,系統就可以自動將話路轉到該人的電話上。整個過程通過自然的語音方式交互,即感到親切自然方便快捷,又節省時間,提高工作效率。
從服務管理的角度來看,隨著信息通信客服業務受理的不斷發展,座席客服話務量越來越多,用戶對服務的質量要求也越來越高,傳統客服系統在傳統語音信息處理上的局限性制約了系統服務和管理能力的提升。
服務方面,由于業務的多樣性和復雜性帶來的海量數據信息不能得到快速、有效的關聯處理而產生的問題,影響了客戶服務體驗。
運營管理方面,雇傭人工座席每天接聽大量的信息查詢電話,座席業務人員的更替帶來的培訓,消耗了部分運維成本,影響了服務質量。
1.2 建設目標
本項目通過研究智能語音技術在國網遼寧公司信息通信客服系統中的應用,將語音識別及客服查號業務相結合,使用先進的語音識別技術來代替繁重的人工勞動,提高省公司內部溝通的效率。目前,語音電話本技術實現主要包含:ASR 、TTS 、IVR 三項技術,其中TTS和IVR技術對于語音電話本業務來說已經非常成熟。
ASR語音識別技術近年來發展十分迅速,其應用也逐步得到推廣,佳都新太也一直開發、調試、應用這項重要的語音技術,自2001年以來佳都新太先后在廣西、天津、廣東、河北、湖北、江蘇、遼寧等省的多個項目中使用了ASR 自動語音識別系統,佳都新太通過對ASR測試、改進,自動語音識別率達到95%以上。
語音電話本業務可以說是CTI平臺上的典型應用,佳都新太把ASR語音自動識別技術、TTS語音合成技術與CTI 的IVR技術三者融合為一體,為語音電話本業務的技術實現提供了可靠的保障。
本項目可以達到目標:
1.2.1 對語音信息的自動化處理
通過建立具備智能語音分析能力的語音識別平臺,實現對用戶查號業務的語音實時識別及關聯處理,同時實現對語音文件的統一分析,提供支撐客服業務受理的有效工具。
1.2.2 文件分析處理
通過語音分析引擎對送入的語音進行文字轉寫、維度結合后生成索引文件,這些結構化的索引文件中包含了語音中的所有信息。索引文件存儲到數據倉庫中,通過對有效的海量錄音文件、音頻文件進行分析處理。
1.2.3 實現自助查號功能
通過實現語音中的知識挖掘和語音文件的快速檢索,實現自動語音查號功能。
2 項目技術方案
2.1 項目設計原則
本次項目是對省公司固定電話語音自動查號系統的功能完善,使用先進的語音識別技術來代替繁重的人工勞動,提高省公司內部溝通的效率。
本次項目的關鍵點和技術難點在于語音識別,因此在方案設計過程中我們著重考慮了這個問題,選用了國內領先的智能語音技術來作為語音識別引擎,結合座席客服系統的需求提供定制化專業服務。
2.2 整體架構設計
如圖1,用戶通過撥打查號服務電話,系統為用戶播放自動語音并引導用戶按鍵選擇功能和需要查號的人名,系統根據語音分析出內容,并在數據庫中查詢對應的號碼,系統將查到的號碼以自動語音方式播報給用戶。
系統部署需新增接入網關1臺,用于與電力內部電話程控交換機對接,實現平臺電話呼入呼出。采用電信級語音接入網關Dialogic DMG2030,接入規模1E1(即30路通話),PRI信令,通過電路中繼上聯到遼寧電力內部程控交換機。遼寧電力內部程控交換系統為語音電話本系統分配一個內部接入服務號碼和一個外部接入服務號碼。同時網關接入虛擬資源池虛機網絡。
新增虛擬資源池虛機1臺,用于部署媒體處理軟件、CTI平臺、語音電話本業務應用軟件、科大訊飛ASR軟件和TTS軟件、Oracle數據庫。
新增核心網絡交換機1臺,用于系統組網。
2.3 系統邏輯結構
IVR與TTS、ASR通過語音引擎實現整個語音交互過程的自動識別、自動播放功能。系統采用B/S結構,方便用戶對電話本的修改,也便于各營業網點的開戶、受理以及對用戶的電話本進行維護等。整個系統采用模塊化結構,具有很高的可靠性和可擴充性。
邏輯結構見圖2。
2.4 系統建設方案
新建“語音電話本”業務平臺,其網絡拓撲結構如圖3所示。
設備組成說明:
系統平臺需要以下設備:
(1)IPS數字排隊機;
(2)信令網關節點;
(3)數據庫服務器: 實現用戶數據的存儲和系統認證等功能;
(4)TTS服務器: 通過IPS平臺的MS模塊來實現資源調用;
(5)ASR服務器:通過IPS平臺的MS模塊來實現資源調用;
(6)WEB服務器:實現用戶通過互聯網對電話簿的維護管理功能;
(7)業務處理服務器:用于處理個人語音電話本業務流程;
(8)管理維護節點;
(9)路由器和防火墻等網絡設備;
2.5 配置計算依據
2.5.1 中繼和語音的配置比例
語音電話本業務,用戶報出要找的人的姓名后,ASR進行識別,系統根據ASR識別出的名字,找出對應的電話號碼并進行外呼,被叫接通后,主被叫進行通話的過程中,語音資源即可釋放。整個業務實現和呼叫卡類業務的資源配置非常相似,根據200業務的實際運行經驗數據,建議中繼和語音的比例為4:1。
2.5.2 中繼和ASR的配置比例
在一個呼叫的過程中,用戶說出要找人的姓名,ASR資源進行識別,在識別完成系統呼通被叫后,ASR資源釋放,主被叫雙方進行通話,按平均呼叫時長為150秒,其中ASR識別的時間大概為30秒,而在一次通話中占用一入一出兩個通道,按上面的估算數據,中繼和ASR的配比大約為 2×150/30=10:1。
2.5.3 中繼容量和所能支持的用戶數的比例
假設一些呼叫參數如下:
系統中繼容量A
用戶數 B
每用戶每天使用次數C:8次
每次呼叫時長D:150秒
忙時集中系統E:10%
忙時中繼Erl數F:0.8
根據公式:A=B*C*D*E/F/3600
則 A:B=8×150×10%/0.8/3600=1:24
因為語音電話本業務每次呼叫要占用一入一出兩個端口,所以中繼容量和所支持的用戶數的比例約為1:10。
2.5.4 數據庫處理能力計算
忙時TPMC=(忙時呼叫次數×(平均每次呼叫數據庫訪問次數+其他應用模塊平均每次呼叫事務訪問處理次數))/60
按4.3.3假設的數據,當使用語音電話本的用戶數為10,000用戶時,系統的忙時呼叫次數為 10000×8×10%=8000次/小時
按每次呼叫對數據庫的訪問操作次數為10次來計算,則10,000用戶時,對數據庫的TPMC值的要求為:
TPMC=8000×10/60=1333
2.6 業務系統功能
2.6.1 業務流程(如圖4)
2.6.2 聲控撥號
用戶使用綁定電話撥打接入號碼“***”進入系統后,系統直接會提示用戶報出用戶想找的人的姓名,并進行呼叫。
(1)“聯系人名字” 選中默認呼叫號碼:
(2)用戶撥打“語音電話本”服務號碼;
(3)說出對方姓名,如:張三;
(4)系統識別語音,查詢對應的默認電話號碼;
(5)系統通過語音播報查詢到的電話號碼。
(6)“聯系人名字+電話類型” 精確查詢:
(7)用戶撥打“語音電話本”服務號碼;
(8)說出對方姓名+電話類型,如:張三 手機;
(9)系統識別語音,查詢對應的電話類型的號碼;
系統通過語音播報查詢到的電話號碼。用戶通過綁定電話使用語音電話本業務流程如圖5所示。
用戶使用非綁定電話使用語音電話本業務時,必須先通過輸入帳號和密碼,經過系統鑒權后才能使用。
2.6.3 原始通訊錄的錄入
語音電話業務開展的一個關鍵問題,就是用戶申請該業務后首批通訊錄的錄入問題,首批通訊錄相對來說量比較大,錄入的方式建議采用營業廳前臺填表錄入、通過WEB錄入的方式,也可以采用電話、傳真、信函的方式進行錄入。在首批通訊錄錄入后,用戶在使用過程中做一些號碼本的修改和維護,維護量都比較小,可以通過WEB方式、電話、短消息、傳真等多種方式進行修改。
批量導入電話本:
通過Excel文件導入企業通訊錄,可以參考如表1格式。
可以根據實際需求增加其他列。
2.6.4 電話本維護(Web)
系統提供后臺管理界面,管理員登錄后臺對電話本進行管理,如圖6。
個人電話本資料可通過Web、人工坐席、電話、傳真、短消息等多種方式進行電話本資料的維護管理,包括修改用戶密碼等。
業務流程如圖7所示。
“增加、刪除、修改”用戶記錄:
系統提供對單個記錄的“增加”、“刪除”、“修改”功能,方便對電話本進行靈活管理。
2.6.5 多個號碼優先呼功能
當用戶錄入的某個聯系人有多個通訊號碼時,如有手機、小靈通、固定電話,可以把這些號碼都錄入在系統中,在呼叫時,用戶可以自行設置優先呼叫的號碼,在號碼不通時再按設置的優先策略逐一呼叫被叫其他的聯系方式。
2.6.6 信息查詢(Web)
系統提供電話本查詢界面給座席和管理員使用。
座席和管理員可根據聯系人姓名,查詢聯系人對應的所有電話信息。
該功能主要在座席提供人工服務時使用。
3 技術創新點
本次項目采用國內領先的智能語音識別技術(ASR)結合客服后臺定制化查詢需求,在滿足用戶傳統的查詢基礎上,語音定制化為用戶報出相關信息,由用戶按鍵選擇即可,大大方便了用戶的操作和客服的工作時間。
4 總體性能指標
通過研究智能語音技術在信息通信客服系統中的應用,實現客服查號業務的自能化,實現語音的自動識別及數據分析,減少人工運維成本,提高客服服務質量及服務效率。
5 技術展望
中圖分類號:TP391.6 文獻標識碼:A 文章編號:1674-7712 (2014) 12-0000-02
隨著全球化的發展,越來越多的人想掌握一門外語,而傳統的語言教學已不能滿足人們的這一需求。計算機輔助語言學習(Computer Assisted Language Learning,縮寫CALL)伴隨著這一時代背景應運而生。CALL是在一定的語言學和心理學的理論基礎之上,利用計算機技術和信息技術輔助、推進語言學習。目前,許多CALL學習軟件大多是把各類資料集成在一起,基本上不能對學習者給出有效的反饋信息。語音識別技術的應用使得CALL系統可以具有發音評測的功能,能夠幫助學習者及時發現和糾正錯誤發音,避免重復錯誤發音形成習慣,從而極大提高了學習者的學習效率。
一、計算機輔助語言學習(CALL)及其特點
(一)計算機輔助語言學習(CALL)簡介
語言作為我們的日常交流工具,在經濟全球化發展的今天,它的社會功能也越來越凸顯。隨著國際交流的日益頻繁,越來越多的人想掌握一門第二語言,語言學習也成為了教育領域的一大熱點。
語言學習的直接目的就是提高學生的交際能力,而這一能力最直接的體現就是口語表達。傳統的師生教學是語言學習的主要方式,在這種教學方式下口語的教學主要是采用教師講解發音方式和發音演示,學生跟讀訓練的方法。可以說這樣的學習方式在口語學習中是至關重要且卓有成效的,但卻是不夠的。隨著計算機技術和信息技術的迅猛發展,CALL已成為當今外語教學發展的一個新趨勢。作為一種新的學習方式,它主要是在一定的語言學和心理學的理論基礎之上,利用計算機和信息技術輔助和推進外語的教學。
CALL是外語學習的新趨勢,它在中國的應用已經有近20年的歷史,但直到多媒體技術的出現,它才真正進入外語教學的課堂。可以預見CALL作為一種教育技術在教學中的運用是外語學習發展的必然趨勢。
(二)計算機輔助語言學習(CALL)的應用及其特點
CALL始于二十世紀五十年代的美國,在語言教學中的應用始于二十世紀六十年代。其發展大致經歷了行為主義階段、交際法階段、綜合法階段[1]。
1.行為主義階段(Behavioristic CALL)
60年代,當時的應用主要為CAI(Computer-Aided Instruction)課件(courseware)的開發與利用,課件以行為主義(behaviorism)為理論基礎。按照該理論,斯金納設計了便于及時強化的程序教學機器和便于進行程序教學的程序[2]。程序教學主張把教學目標和內容分解成很小的單元,按照嚴格的邏輯順序編制程序,將教學信息轉換成一系列問題與答案,電腦呈現一個問題(S),學生提供一個答案(R),答對給予獎勵,答錯給予懲罰,獎勵或懲罰緊隨反應之后,這樣通過一步步地強化使學生掌握教學內容,最終達到預期的目標。
這時CALL軟件的特點是:計算機僅作為提供素材和指令的工具,將各知識點以固定方式組織起來;允許學生根據自己的步調自定學習進度和速度,但學習過程完全由計算機程序控制;計算機向學生提供大量的練習,練習的答案往往是唯一的,學生的回答沒有自主性和靈活性。
2.交際法階段(Communicative CALL)
20世紀80年代,計算機的功能大大加強,微機(microcomputer,或稱個人電腦 personal computer)開始應用于教育。CAI課件的設計原則轉向以認知心理學為主導,強調學習者的心理特征和認知規律,遵循認知的信息加工理論,把學習看作是學習者根據自己的態度、興趣、愛好和需要,利用原有的認知結構,對當前外部刺激所提供的信息做出主動、有選擇的信息加工。這一時期CALL軟件的代表是著名學者安德遜(Aderson)根據認知學習理論,研制出的”高中幾何智能輔助教學系統”,它實現了對學生求解幾何問題思維過程的自動跟蹤和控制。
這一時期CALL軟件的特點是:計算機能夠根據學習者的需求和特點進行個別教學,但由于心理學對人類學習規律認識不全面和人工智能技術的發展不成熟,CALL軟件離個別化教學還有一段距離。
3.綜合法階段(Integrative CALL)
80年代后期并持續至今,多媒體技術與網絡技術取得突破性發展,尤其是因特網的出現及其迅猛發展不僅改變了傳統的生產方式、生活方式和思維方式,也改變了人們的教育觀念和學習方式,引起了一場教育革命。
同時期崛起的建構主義(constructivism)學習理論成為這場教育革命中革新傳統教學的理論基礎。建構主義學習理論與認知語言學、社會語言學、第二語言習得的理論等構成綜合法的理論基礎。其中社會語言學的影響尤為明顯,它強調在語言學習中要為學生提供真實的社會交際,使他們能夠掌握社會所需要的語言技能(Warshauer&Meskill,1998)。而實現這一目的的最好方法是使學生參與有意義的任務型學習(task-based learning)。通過專題學習(thematic learning)、項目型學習(project-based learning)、協作式學習(collaborative learning)、跨文化學習(cross-cultural learning)等多種方法,在兼學知識、文化的同時學習語言。
這一時期CALL軟件的特點是:(1)計算機作為認知工具、情感交流及協作學習工具,起到導師、伙伴的作用;(2)提倡為外語學習創造真實的情境,開展有意義的、有創造性的語言交際活動;(3)提倡將語言的學習與計算機技能的學習及使用結合起來,培養學生具有21世紀網絡時代所需要的外語交際能力(Warshauer,1996;Warshauer,Shetzer,&Meloni,2000)。
由此可以看出,CALL經歷的三個階段伴隨著教育學、心理學、計算機技術和信息技術的發展而發展,CALL系統的設計也向著交互性、個性化、針對性和創造性的方向發展。
二、語音識別技術在CALL系統的應用
(一)語音識別技術簡介
語音識別技術,也被稱為自動語音識別技術(Automatic Speech Recognition,ASR),其目標是讓機器也能夠像人一樣具有聽覺功能,直接接受人的語言,能理解人的意圖,并做出相應的反應。
最早的基于電子計算機的語音識別系統是50年代由AT&T貝爾實驗室開發的Audrey語音識別系統,它能夠識別10個英文數字[3];60和70年代,線性預測編碼(Linear Predictive Coding LPC)及動態時間規整(Dynamic Time Warp DTW)技術的提出有效的解決了語音信號的特征提取和不等長的匹配問題[4],實現了特定人孤立詞語音識別系統;80年代和90年代,隱馬爾科夫(HMM)模型和人工神經元網絡(ANN)的成功應用,使得語音識別系統的性能比以往更優異,實現了大詞匯量、連續語音和非特定人的語音識別。隨著多媒體時代的到來,語音識別技術逐漸從實驗室走向應用,其代表有:Via Voice、Whisper、Voice Tone、Voice Action、Siri等。
21世紀,互聯網和移動通信技術的發展給語音識別帶來了新的契機,語音識別應用已經延伸到各個方面,如通訊領域、計算機語音檢索系統、自動化控制等。語音識別技術已經成為一個具有競爭性的新興高技術產業,是一門既有理論價值又有實際意義的重要學科。
(二)語音識別技術的基本原理
從技術上看,語音識別屬于模式識別的范疇,其系統結構與模式識別具有相似之處。不同的語音識別系統在具體實現細節上有所不同,但所采用的原理基本是相似的。首先要對輸入的語音信號進行預處理,并抽取所需的語音特征,在此基礎上建立語音識別所需的語音模板。在識別過程中,將輸入的語音信號的特征與己存在的語音模板進行比較,并根據一定的搜索,找出最優的與輸入的語音相匹配的模板。最后,給出計算機的識別結果。其識別過程如圖1:
圖1
(三)語音識別技術在CALL中的應用
隨著計算機技術和信息技術的發展,CALL已成為現代教育技術在教育領域一個重要應用。但最初的CALL主要應用在文字閱讀和語言理解能力的訓練,現存的CALL系統也大多側重單詞、語法的學習[5],很少關注語言發音訓練。語音技術的不斷發展和成熟為學習者發音練習提供了可能,它在CALL中最直接的應用就是幫助用戶更好地練習語言發音。
CALL中引入語音識別技術,改變了傳統的語言學習方式,使得學習者能夠對自己的發音做出客觀的評價。基于語音識別技術的CALL已成為計算機輔助語言學習系統研究的熱點,不少公司和科研機構也投入了大量的人力、物力、財力在研究開發相關的發音學習系統,并且出現了一些較為成熟的產品。如“Pronunciation”、“Tell Me More”等,這些系統采用提供語音信號波形圖的方式讓學習者進行模仿,這種方式只是給學習者技術上的沖擊感,對改善他們的發音并沒有實際的幫助。國內許多英語學習軟件都是把各類英語資料(文本、圖片、音頻、視頻)累積在一起,基本上不能對學習者給出有效的反饋信息,即便加入了語音識別功能,其功能類似于復讀機,即只能給學習者提供發音演示、錄音跟讀的功能,如“說寶堂”、“e百分”等產品。由于很少有軟件會對學習者的發音做出一個整體的評分,也不能準確定位和檢測學習者的發音錯誤,更沒有對學習者的錯誤發音做出一個反饋和矯正,加之學習者因為自身水平限制,很難完全發現錯誤、糾正不正確的發音。故此,軟件發音錯誤矯正的功能顯得尤為重要。基于語音識別技術的CALL系統對于語言學習者來說是一個有效的輔助語言學習的平臺,為了有效的促進語言學習,它應該具備如圖2所示的功能。
圖2
通過分析我們可以發現,目前語音識別技術在CALL中的應用取得了一些進展,但是仍然有一些問題等待解決和克服。目前的一些困難和問題主要集中在產品設計理念和技術實現上兩個方面。
在產品設計理念上我們需要考慮以下幾個問題:(1)教育軟件的設計和開發應該應考慮學習者的需求,以學習者為中心;(2)教育軟件的設計應該考慮教育學和教育心理學的相關理論,避免書本知識的搬家;(3)考慮學習者認知的個體差異性,為學生提供多元化學習的認知工具。
在技術實現上我們需要考慮以下幾個問題:(1)選擇合適的識別基元以提高識別率;(2)對語音信號的端點更加精確的檢測,即判斷語音信號的開始和結尾以提高識別的準確率;(3)對給定的發音進行錯誤檢測和糾正,尋找合理的評分機制,并對學習者的發音進行及時、客觀的反饋;(4)提高預處理階段語音信號的信噪比;(5)選擇高效的識別算法以減少識別時的搜索范圍,提高識別速度。
四、結束語
本文分別介紹了語音識別技術和CALL,然后對語音識別技術在CALL中的應用進行了綜述,并探討了設計基于語音識別技術的CALL系統時需要考慮的問題。語音識別技術作為一種逐漸成熟的技術,它是基于語音識別技術的CALL系統的基礎與核心。基于語音識別技術的CALL是一種新的、有效的學習方式,它能夠有效的促進學習者口語水平的提高,也是CALL系統的一個重要發展方向。
參考文獻:
[1]楊芳,曹揚波.計算機輔助語言學習的發展與前景[J].中國科技信息,2011(02).
[2]何克抗,李文光.教育技術學[M].北京:北京師范大學出版社,2009.
[3]詹新明,黃南山,楊燦.語音識別技術研究進展[J].現代計算機,2008(09).