魚羊 發自 凹非寺 量子位 報道 | 公眾號 QbitAI
一個成立不到兩年的團隊,兩個初入職場的新人,殺入頂會挑戰賽能拿下怎樣的成績?
時限是,10天。
近日,全球語音頂會INTERSPEECH 2020「口音英語語音識別挑戰賽」結果公布,一支名叫「大耳朵圖圖喵喵喵」的團隊摘下了兩大賽道的第二名和第三名。
(資料圖片)
參賽選手是這位:
△大耳朵圖圖本喵
啊不,其實來自他們當中。
說起網易有道與AI語音技術相關的產品,大家或許都不陌生,比如丁磊多次安利、上市都帶著的有道詞典筆……
相比在市場上取得的認可,許多人可能不會想到,有道AI語音背后的團隊非常年輕:成立不到兩年,大部分都是應屆生,來自知名語音實驗室,或者海外高校深造項目。
「參賽其實是驗證技術方案」
此次拿獎的時來和Harry Wu(均為花名),就是今年7月剛剛加入網易有道的應屆生。
事實上,打這場比賽,對于他們而言更像是一次對工作成果的「突擊測驗」:被通知要參賽時,距離提交測試結果的截至日期只剩下10天了。
時間緊迫,兩人臨時組隊,又是代表團隊第一次出征算法賽事,但在心態上他們倒還真一點也不慌。
用有道之前積累的技術去參賽,10天也足夠了。攻堅克難了這么久,是時候拿出來檢驗一下了。
INTERSPEECH 2020「口音英語語音識別挑戰賽」由中國計算機學會、西北工業大學、上海交通大學、新加坡南洋理工大學等多家重量級機構聯合舉辦,共分為兩個賽道:
Track1是口音種類識別,參賽者需要使用官方提供的各種口音英語訓練數據,訓練語種分類模型。
Track2則是口音英語語音識別,參賽者需要使用規則限定的訓練數據,訓練語音識別模型。
簡單來說,一方面是要做英語口音的分類,另一方面是要做語音識別,把帶口音的英語語音轉成文字。
時來和Harry的工位就挨在一起,兩人當即一合計,覺得在語音識別方面,基本可以原封不動地用上現成的技術——有道詞典、精品課、云筆記等一系列產品里都有ASR技術的身影,平時的研發工作中,早已經考慮到了復雜口音的情況,識別準確率和響應速度都是經過實戰檢驗的。
而在口音分類這個比較新穎的任務上,他們正在研究中的多語種技術方案正好能夠派上用場:
原來會覺得相關的技術方案還處在實驗室階段,要實際應用起來還需要學術界進一步驗證。但既然比賽有這個機會,正好可以拿這個方法試驗一下。
程序員打比賽,就是直接開干,效率拉滿——就在工位上隨時討論。而事后兩人回想起來,印象最深的不是時間有多緊、加了多少班,恰恰是設計算法、測試結果的這個過程:
一開始,在口音分類這個全新的任務上,兩人想到這會跟說話人的特征有比較強的相關性。而在引入這一信息之后,他們的方案還真在開發集上取得了令人驚喜的效果。
但在測試集開放之后,進一步的驗證結果卻差強人意。直到比賽結束,測試集公布,他們才發現測試集里說話人的數目,是訓練集和開發集加起來的差不多10倍,即一個說話人非常復雜的場景。
雖說碰上了這樣那樣的小波折,但其實對于兩位語音算法工程師而言,這反而更加堅定了他們攻關AI語音技術的決心:語音領域技術相對成熟,但遠沒有到「做完了」的程度,現實的復雜場景、各種各樣的噪音、方言口音,都仍有值得鉆研之處。
至于最后的結果,其實可以說是「兩全其美」。
雖然準備還是有些倉促,沒能拿下冠軍,但對初出茅廬的網易有道語音團隊而言,面對強勁的業內對手,首次「出擊」能拿到頂會挑戰賽的二等獎,還是證明了現有技術方案可行、新的設想值得進一步推動。
另一方面,團隊組長孫艷慶也坦承,參與比賽對整個語音團隊來說,學習到了行業中新的想法和技術,打開了后續開發的新思路。
「秘訣」:技術以落地為導向
其實比起單純去打比賽、發論文,如果和一線的開發者們多聊聊,就能明顯地感覺到,網易有道的這支語音團隊是非常務實的——以技術落地為導向,以用戶反饋為指標。
孫艷慶談到,在內部,技術方案的推動一般有兩種途徑。
一種是來自業務端的需求。技術團隊要做的,是去評估現有的技術是否能夠解決問題,并真正落地到產品中,給用戶帶來優質的體驗。
另一種則來自于工程師們對新技術、新用戶需求的敏感度。如果判斷一種新技術會被大規模地應用,技術團隊也會提前進行相應的布局。
而評價成果的指標則更為直接:用戶體驗。
這種腳踏實地的作風,也給時來、Harry這樣的職場新人留下了深刻的印象。
我們大部分的技術,最終都會聚焦到非常具體的產品上面。不會去做在將來一段時間看來,意義不是很大的一些事情。技術如果只是停留在學術層面上,就沒辦法真正流行、發展起來。落地對于技術而言是一個非常非常核心的點。
解決用戶切實的問題,解決產品中的痛點,或許正是在這樣的導向之下,雖然團隊僅成立了不到兩年的時間,但在產品層面,網易有道在語音方面的許多技術點已經躋身行業前列。
比如語音識別(ASR)。以網易有道詞典為例,對話翻譯、發音指導,各種功能的實現都離不開精準的語音識別。而經過測試,有道語音識別技術在一些場景上識別準確率超過98%,并且,不止支持中文、英文,還支持日、韓、法、德等多種語言。
在語音合成(TTS)方面,有道語音合成引擎音色逼近真人,同樣支持中、英、日、韓、葡等多種語言。在過硬的技術基礎之上,今年9月,有道詞典還用TTS技術實現了王源明星語音的上線,效果受到了用戶的廣泛好評。
并且,為了更好地服務于產品,這支規模并不算大的團隊,覆蓋的技術點卻很全面:從錄音、拾音環節開始,到中間的語義理解,再到語音識別合成,都有涉及。可以說,在技術上已經形成了比較完整的鏈條。
把「腳踏實地」寫進價值觀的團隊
事實上,能以一支小而精的團隊支撐起復雜業務背后的核心算法,團隊內部的氛圍是技術實力之外的另一個重要影響因素。
如果你問有道語音團隊的工程師們這支團隊的特點是什么,就能獲得這樣幾個關鍵詞:年輕、活潑、腳踏實地。
因為年輕、活潑,即使是新人融入起來也完全沒有壓力,不管是技術的交流還是平時的相處,都可以暢所欲言。
另一方面,雖然團隊成員們普遍年紀不大,卻個個「身懷絕技」。作為組長,孫艷慶認為,一個腳踏實地的團隊,應該給每個人充分的才華施展空間,而在這個空間之下,大家潛心鉆研技術,在專注于自己側重點的情況下,去突破個人的局限。
腳踏實地的價值觀延續在整個有道AI團隊。不僅是在語音方面,有道的AI能力還覆蓋神經網絡翻譯(NMT)、圖像識別(OCR)和自適應教育等等。
并且,其發力深耕的這些AI技術,都切切實實落在了產品上,讓C端用戶有了最直觀的體驗:
NMT翻譯準確率行業領先,支持12種語言的中文互譯,9種語言的英文互譯。
OCR可以幫助實現線下學習資料在線化。對中文文本的識別準確度達到97.5%,對英語文字的識別準確度為95.3%,對中英文混合文本的識別準確度為96.2%,已經支持102種主流語言文字識別。
AI行業已經過了“風口飛豬”的時代,愈加務實的市場更加看重技術的落地。當泡沫散去,唯有腳踏實地的團隊才能在一代代產品的穩定推出中,扎實生根。
也正是因為這樣的氛圍,在畢業之際,時來、Harry等人毫不猶豫地拒絕了其他offer,選擇加入網易有道。
嗯,一定不是因為這里經常聚眾吸貓。
— 完—
本文系網易新聞?網易號特色內容激勵計劃簽約賬號【量子位】原創內容,未經賬號授權,禁止隨意轉載。
量子位QbitAI · 頭條號簽約作者
?"?" ? 追蹤AI技術和產品新動態
喜歡就點「在看」吧 !
關鍵詞: