
月初,Daniel 團隊的新一代 Kaldi 語音項目獲得了小米2023百萬美金技術(shù)大獎評選的二等獎。近日,兩位《超腦少年團》成員“小孩哥”高培淇和宮一森來到小米祝賀偶像Daniel 獲獎。
01
繼往開來:
站在 Kaldi 的肩膀上
Kaldi 是一款開源的語音識別工具包,主要用于語音識別、說話人識別、自然語言處理等領(lǐng)域。
在智能語音方面,大到微軟、蘋果、騰訊這樣的巨頭,小到各種初創(chuàng)企業(yè),幾乎都曾或在使用 Kaldi 的技術(shù)進行研發(fā)及開發(fā)產(chǎn)品。而小米首席語音科學家Daniel Povey正是 Kaldi 的創(chuàng)始人。

Kaldi之父、小米集團首席語音科學家 Daniel Povey
說到為什么還要研發(fā)新一代 Kaldi,也是隨著深度學習技術(shù)的發(fā)展以及硬件算力的提升,智能語音領(lǐng)域也進入到一個新的發(fā)展階段,Kaldi 也需要不斷更新以適應新的應用場景和技術(shù)趨勢。
Daniel 博士在2019年注意到了 Transformer 架構(gòu)的潛力,并判斷構(gòu)建通用基礎(chǔ)模型的時機已經(jīng)到來,加入小米后,他就開始實施這一藍圖,研發(fā)新一代 Kaldi 語音基礎(chǔ)引擎。
02
深耕底層:
新一代 Kaldi 的技術(shù)突破
新一代 Kaldi是一個開源的智能語音技術(shù)工具集,包含核心算法庫k2、通用語音數(shù)據(jù)處理工具包Lhotse、解決方案集合 Icefall 以及服務端引擎 Sherpa 四個子項目,開發(fā)者可以基于這些工具集輕松定制自己的智能語音應用。

如果把一個AI應用比喻為一座冰山,那用戶所能感知到的應用界面就是暴露在“海平面”之上的冰峰,強有力地托起這些應用的核心和龐大的技術(shù)基底,則是被深埋在“海平面”之下。

深藏在“海平面”之下的新一代 Kaldi 通用技術(shù)基底有哪些?它們又能夠帶來怎樣的作用?下面就為大家介紹。
▍全新聲學編碼器:zipformer
Zipformer是一個應用 Attention 機制的通用聲學編碼器,不僅可以用在語音領(lǐng)域,初步實驗驗證其在文本和圖像任務上同樣適用。
Zipformer 具有效果更好、計算更快、更省內(nèi)存等優(yōu)點,這使得 Zipformer 模型非常適合于低資源設(shè)備端部署。

▍首創(chuàng)神經(jīng)網(wǎng)絡(luò)優(yōu)化器: ScaledAdam
全新升級的神經(jīng)網(wǎng)絡(luò)優(yōu)化器——ScaledAdam是新一代 Kaldi 團隊在業(yè)界最知名的優(yōu)化器 Adam 的基礎(chǔ)上,引入了可學習的縮放因子,實現(xiàn)了網(wǎng)絡(luò)訓練時間大幅縮短。而且ScaledAdam與Adam一樣,是一個通用的網(wǎng)絡(luò)訓練優(yōu)化器。

▍業(yè)界最快Transducer 損失函數(shù):Pruned RNN-T
新一代 Kaldi 團隊還研發(fā)了業(yè)界最快的 Transducer 損失函數(shù)—— Pruned RNN-T。
實驗數(shù)據(jù)顯示,相比 PyTorch 中實現(xiàn)的 RNN-T 損失函數(shù),Pruned RNN-T 損失函數(shù)在僅使用 1/5 顯存的基礎(chǔ)上,取得了約 10 倍的速度提升。
▍有限狀態(tài)轉(zhuǎn)換器:可微分 FST
可微分FST(Finite State Transducer)是一個有限狀態(tài)轉(zhuǎn)換器,可以構(gòu)建復雜的語言處理模型。
新一代 Kaldi 團隊創(chuàng)造性的實現(xiàn)了運行于 GPU 的可微分有限狀態(tài)機,使開發(fā)者只需要在外部構(gòu)建好圖的拓撲結(jié)構(gòu),將其他的一切計算和訓練的部分交給 k2 引擎, 從而降低建模的工作量,提高靈活性。此外,新一代 Kaldi 團隊還實現(xiàn)了基于 GPU 的狀態(tài)機解碼方法,實現(xiàn)了語音識別解碼的全鏈路 GPU 加速。

新一代 Kaldi 還有眾多杰出的成果,如:近乎零成本的知識蒸餾技術(shù),讓小模型也能學習到大模型的本領(lǐng);基于時延懲罰的低時延端到端模型的訓練方法;PromptASR 語音識別系統(tǒng);高效數(shù)據(jù)集構(gòu)建方案 textsearch ; 全平臺語音任務服務引擎 sherpa 等等。集眾多優(yōu)質(zhì)技術(shù)于一身的新一代 Kaldi ,也將會在未來給大家?guī)砀鄬嵱玫捏@喜,敬請期待吧!
03
開源共享:
我為人人,人人為我
新一代 Kaldi 作為一個基礎(chǔ)引擎,不僅推動了公司的技術(shù)發(fā)展,更對業(yè)界產(chǎn)生了深刻的影響。
首先,它可以在語音交互層面有力賦能小米「人車家全生態(tài)」新戰(zhàn)略。以座艙為例,使用新一代 Kaldi 引擎后,座艙的語音識別的性能進一步提升, jira 解決率提升45%,服務器成本也降低一半。

其次,新一代 Kaldi 作為一個基礎(chǔ)引擎,不僅可以服務于語音任務,還可以廣泛地適用于各種 AI 任務。目前,團隊首創(chuàng)的 ScaledAdam 優(yōu)化器已經(jīng)用在了小米自研大模型中。
最后,在智能家居領(lǐng)域中,通過使用新一代 Kaldi 技術(shù),人們可以通過語音指令控制家電設(shè)備、查詢天氣、播放音樂等;在教育行業(yè)中,可以對學生進行口語測試和糾正,提高學生的口語表達和聽力理解能力;在醫(yī)療行業(yè)中,可以實現(xiàn)自動化的病歷記錄和診斷,提高醫(yī)療行業(yè)的效率。可以說,新一代 Kaldi 的出現(xiàn)正在對各行各業(yè)產(chǎn)生積極的影響。

堅持開源是新一代 Kaldi 與前一代一脈相承的底色。“我為人人,人人為我”,這是 Daniel 堅持 Kaldi 開源的期望,也是小米積極擁抱開源的初心。
“人因夢想而偉大,又因堅持夢想而成長。”Daniel借用雷軍的話,寄語和高培淇、宮一森一樣懷揣著編程夢想的科技少年。今日的科技少年也一定會成長為未來科研事業(yè)中的棟梁。

最后,讓我們把目光再次聚焦到獲獎的新一代 Kaldi 團隊,這是一個創(chuàng)新和經(jīng)驗的結(jié)合體,正是因為他們,新?代 Kaldi 取得了眾多世界領(lǐng)先的成果。期待新一代 Kaldi 在未來,給大家?guī)砀鄻O致、好用的技術(shù),讓開源普惠大眾。

關(guān)鍵詞:
營業(yè)執(zhí)照公示信息