更新時間:2024-08-09 08:36:24作者:佚名
在回答問題時,男孩低頭看向左側,壓低聲音,回答非常簡短。系統立刻意識到,“他走神了”。男孩的這種反應往往是求職面試中的大忌,而系統可以實時觀察到這種行為變化,幫助他在以后的面試中避免出現此類問題。
這套系統名叫 HALEF,基于實時多模態對話系統,通過接收不同模態的信息,實現更好的人機交互。這套系統的發明者是加州大學戴維斯分校(UC Davis)助理教授、語言、多模態與交互實驗室主任周宇。就在 11 月,周宇博士入選了福布斯 30 位 30 歲以下科學界杰出人物榜單,這是福布斯表彰年輕人的重要榜單,入選率一般不超過 5%。
在余博士獲獎后,機器之心聯系上了她并對她進行了專訪,我們談到了余博士求學的心路歷程、在卡內基梅隆大學攻讀博士學位期間對多模態對話系統的研究,以及她對未來職業的展望。
機器之心:恭喜您入選《福布斯》雜志 30 位 30 歲以下科學界杰出人士。這次入選對您近期的工作和生活有什么影響嗎?
于宙:因為我剛從卡內基梅隆大學(CMU)畢業,1月份加入了UC Davis,從某種意義上來說,這給我帶來了很多合作的機會。比如其他公司的人認識我之后,會邀請我去講課,進一步合作。其他院系的老師認識我之后,比如媒體系的老師,也會對這些計算模型很感興趣,跟我交流。另外,這對我招收學生也帶來了一些好處,其實也增加了一些宣傳,讓大家知道我的一些工作。
機器之心:入選這個榜單的概率應該不到 5%,整個評選過程是怎樣的?
于宙:其他人可以提名你,然后通過電子郵件向你發送一份調查問卷,讓你填寫你的成就和背景。收集信息后,內部委員會將進行評估并做出最終決定。
機器之心:您目前擔任加州大學戴維斯分校語言、多模態和交互實驗室主任,能和我們分享一下您最近的研究項目嗎?
余舟:我一直在研究多模態對話系統。對話系統中有不同的模式,從不同的輸入模型來看,系統可以是簡單的基于文本的聊天機器人,也可以是像 Amazon Alexa 這樣的基于語音的系統,也可以是具有更多模式(比如視覺)的系統,比如機器人。輸出模型可以只是文本,語音,也可以是多模態。比如虛擬人,游戲中也會有這種由計算模型驅動的交互,虛擬角色可以做各種各樣的事情,比如教小朋友英語。輸出模式也可以是物理交互,也就是機器人。人與機器人如果進行交流,也可以通過自然語言完成更多的任務。物理協作可以帶來更多的實用性,比如人可以指揮機器人去哪里,通過交流,機器人可以更好地完成任務,比如抓東西,搬運等。
我的主要工作是做交互,但是這個交互是多模態的,可以是自然語言,語音,或者基于視覺。比如我們之前做過面試的場景,我們很看重對話技巧。其中,engagement 非常重要。我們通過多模態效應來預測這個 engagement,比如他是否經常看你;他的聲音有沒有起伏(prosidy,比如音調變化)。根據 engagement 的高低或者他是否 intention,我們的系統可以不斷實時調整目標的行動規劃。比如你在某一部分 intention 不夠,我們會給你一些鼓勵,每個人的對話都會不一樣。所以我的很多工作是針對不同的用戶,每個人會有獨特的交互方案。我的很多對話模型也用到了強化學習。
機器之心:據我了解,您在浙江大學本科期間修的是計算機科學和語言學雙學位。為什么會做出這樣的選擇?
于舟:其實是這樣的,2007年我本科就讀于浙江大學竺可楨學院,當時我選修了外國語學院的一些課程,對語言也很感興趣,而竺可楨學院正好有英語雙學位班,我是全班唯一一個選修計算機和英語雙學位的(我選的是語言學,浙江大學沒有單獨的語言學專業,是英語專業的一個分支)。
機器之心:您什么時候開始對計算機科學產生興趣的?
于宙:我從小學開始就喜歡這個,所以很早就有了編程的經驗。
機器之心:您來到卡內基梅隆大學攻讀博士學位后,是什么啟發您開始研究多模式對話系統呢?
于舟:我本科大三進實驗室的時候,跟著何曉飛教授和蔡登教授做,他們一直在做機器學習、計算機視覺、數據挖掘的工作,所以很早就接觸到了 ML 和 CV。后來讀雙學位英語系的時候,我選擇做機器翻譯,和外語系的曲云華教授一起做中英翻譯,這個也是我非常感興趣的。
我申請 PhD 的時候,CMU 有個專門的學院叫語言技術學院,屬于計算機科學的范疇,主要研究計算語言學和自然語言處理。應該是做 NLP 的最大的最好的一個團體,有 20 多位教授。我當時申請了,但是當時并沒有抱太大的希望,因為我覺得我當時只是個本科生,雖然我有一篇發表過的論文。不過 CMU 最終錄取了我,我的本科導師何曉飛教授也很驚訝我被錄取了。
來到 CMU 之后,我意識到自己的背景非常獨特。除了計算機科學之外,沒有多少人會選擇學習語言學,而且這兩個學科也有很大不同。后來我發現這個背景對 NLP 非常有用,因為我既懂語言學又懂計算機科學,而且可以把語言學應用到各種計算模型中。因為我之前做過 CV,也有 NLP 經驗,所以我想把這些結合起來。
你到了CMU之后才能找到導師。我找導師的時候,找到了Alan W Black教授和Alexander I. Rudnicky教授。他們之前沒有做過CV,但是做了很多口語對話系統。我去了之后,我們開始做多模態對話系統,慢慢的就成了我論文的題目。這也是當時的一個機會。我去CMU的時候,蘋果的Siri還沒有發布,大眾還不明白這個對話系統是什么。然后慢慢到現在,大家才開始明白。那時候深度學習還沒有起飛(Pre-Deep Learning),我們很多自動語音識別(Automatic Speech Recognition)還不準確。所以,這是一個非常好的機會。隨著底層技術的成熟,這種更高級的東西就有更大的空間。
在隨后接受 Alan W Black 采訪時,這位著名的 CMU 教授告訴《機器之心》:周宇最初從事基于視覺和語音的對話研究,但后來她專注于“非任務導向對話”(俗稱聊天機器人)中的用戶參與。在過去,“非任務導向對話”并不是一個真正的研究領域,只是一個有趣的方面,但她對這個領域很感興趣,我們幫助她找到資金來完成這項研究。現在,這項研究慢慢成為主流,也有很多人投身其中,但她是最早定義這個研究領域的人之一,發表了許多論文。
機器之心:所以正如你所說,2013 年,每個人都意識到深度學習非常有效。這種變化會對你自己的研究產生什么影響嗎?
余舟:不能說是正面還是負面,對于我們來說,深度學習只是一個模型,并沒有什么特別的。神經網絡現在應用到不同的領域,但從機器學習的角度看,沒有本質的區別。現在深度學習的工具更好了,門檻也變低了。當然在這個轉型過程中,有的人接受深度學習比較早,有的人接受得比較晚。在CMU,我們接受深度學習比較早,也沒有什么大的(轉型)障礙。
機器之心:那么在多模態對話系統領域有沒有比較主流、成熟的前沿系統呢?
于舟:其實對話系統本身沒有這樣的體系,因為還有很多問題。在我們的對話系統中,對話本身是有內容的,每個事件都是不同的。比如訂機票和找酒店不一樣,教孩子英語和教孩子數學也不一樣。我們也有自己不同的工具和傳遞渠道。基本上每個做對話系統的研究組都會宣揚自己的體系。你如果要我遵循你的體系,會有很大壁壘。你得給我一個很大的理由讓我相信你為什么比我好,不然我們互相都說服不了。
世界上在多模態對話系統方面做得好的人不多,就五六個研究組,每個系統都有不同的約束,比如之前有一個遺留系統,組里不愿意更新或者遷移到其他系統。我們的受眾比較小,做的人也不多。系統本身的工程壁壘就很大。不像深度學習,現在很多公司都有這些工具,比如亞馬遜 Alexa,也有技能套件。這完全不符合學術界要求的靈活性,甚至連 ASR 都不提供給你,有各種各樣的問題。所以現在有很多人創業就是為了做這些工具包,但這其實有很大的問題。我們這個領域有很多東西,就是任務之間變化很大,各個部分的技術更新比較快,所以要達到很好的可維護性是相當困難的。我們要做很多多模態感知和分析,這些東西要結合起來,最終才能完成一個策略。雖然我們現在可以做端到端的訓練,但是很多時候,很多系統需要根據不同的數據重新進行調整。
機器之心:總體來說,和基于語音或者文本的對話系統相比,這個多模態對話系統最大的結構性區別是什么?
余舟:比如語音就只有一個模態,所以就用一個頻率采樣。當你有視覺圖像、視頻的時候,采樣頻率和語音不一樣,而且視頻計算量比較大。你如何實時地把這些不同模態的信息融合起來?你需要做很多融合的工作,這在技術上是比較難的。比如你的系統必須實現很好的消息傳遞,否則根本做不到。
同時,多模態對話系統可以根據情境提供更多的信息,比如可以獲取更多的用戶信息,比如用戶是否在笑,多加一個模態的效果會好很多,包括了解情境,比如一個人、兩個人、三個人的關系,這些都可以用。
機器之心:您認為目前多模態對話面臨的最大研究挑戰是什么?
余舟:三點,因為我們的對話是一個動態的交互,需要和人交互,但是這種交互是無法重復的,因為每個人的交互方式都不一樣。所以從某種意義上來說,我們的實驗是不可重復的,而且你也不能在現有的數據集上進行訓練,否則就變成了簡單的模擬。所以很多情況下,我們要做真實的用戶研究,也就是我們建好系統之后,要有真實的人和我們交互。但是招人的時候會有一個很大的問題,比如我們做深度學習的話,有一千個數據點,是不是要雇一千個人來做?這個效率很低,所以我們用強化學習來做很多的模擬,來降低這個數據的成本。
還有一點就是如何盡量降低多模態對話系統的數據收集和模型評估難度。我們的一個系統加入了視頻會議,比如 Skype。我們的系統可以實時錄制對話,關注視頻和音頻兩端,我們在云端實時處理。這樣在收集數據的時候可以減少一些人力成本(目前是在亞馬遜旗下的在線眾包平臺 Amazon Mechanical Turk 上收集的)。這些是我們最近對系統做的一些改進。
最后一個問題是隱私。人臉是可以識別的,你必須獲得用戶的許可。另一個問題是用戶的意圖。例如,當我們做教育時,我們測試的人真的愿意學習這個領域。但我在 AMT 上找到的人可能并不是真的想學習,所以這里仍然存在不匹配的情況。
機器之心:那么強化學習具體能做什么呢?
余舟:強化學習就是優化這種交互的一個范例。從某種意義上來說,我和你的系統對話是一個連續的決策,我每一步的下一步決策都是基于你們之前的對話歷史。這樣我才能達到最好的效果,這也是為什么強化學習在交互中如此重要。
另外,如果我此時做出決策A,原本計劃做出決策B,那么我后續的數據就沒法用了,因為一旦我在后續的事件中選擇了另一個決策,情況就完全不一樣了。但我們可以做一些用戶模擬,假設他如果做出決策B,很可能也會這樣,這在某種意義上也降低了數據的成本。很多時候,兩方面都達到了。
機器之心:在您的研究中,您是如何將技術研究和應用場景結合起來的?未來多模態對話系統會廣泛應用于哪些應用場景?
余舟:我覺得這個多模態對話系統有很多應用,包括現在的亞馬遜 Alexa,它現在能做的事情很多都是單輪的,比如播放音樂。如果它能做多輪的事情,比如推薦電影或者商品,那它就取代銷售人員、客服了。我們現在做的是把你的用戶情緒納入到這個對話系統中,重新規劃。比如我知道你不開心,我會選擇安慰你或者馬上切換到人工,用多模態對話系統來更好地完善系統。
例如在教育領域,當你觀看在線教育課程時,它可以實時向你提問。培訓選項也更多,例如培訓銷售技能和駕駛技能。我們之前的求職面試培訓系統甚至可以幫助對面試者進行初步篩選,收集更多信息,并為您的面試評分。
在醫療領域,我們創造了虛擬角色到目前為止英語的英文,可以和用戶進行半建設性的對話計劃,了解用戶是否有心理問題,比如抑郁癥、創傷后應激障礙(PTSD)等;也可以讓虛擬人與自閉癥兒童互動,讓他們通過與這些虛擬角色的交流,提高社交能力;對于老人的護理,我們可以讓虛擬人監測老人的健康狀況,詢問老人是否吃藥,與他們聊天,了解老人的精神狀態如何。
另一件事是路徑規劃。我最近和卡內基梅隆大學的一位教授合作,讓操作員和機器人在搜救中合作。人們可以有一些先驗知識,機器人可以提出問題,然后他們可以合作完成不同的任務。
我們之前也做過一個指路機器人,為什么做這個機器人呢?因為之前的交互界面很混亂,如果有手勢就很清楚了,左就是左。
機器之心:您在研究多模態對話系統,在用戶參與度方面也做了很多研究,我想知道您是如何研究和量化這個問題的?
于宙:我們之所以關注這個問題,是因為我們的定義是,你愿不愿意繼續這個對話,所有的對話都是需要參與的。
具體來說,我們會請專家做標注貝語網校,我們會設置各種調查和標注方案,我們也會請人們自己寫報告。在完成互動之后,他們會看視頻,并說出當時是否非常投入。我們會根據這些標注來訓練計算模型。
機器之心:據我了解,您在研究這個多式聯運對話系統時,創造了 TickTock、指路機器人和 HALEF,這些都是您在攻讀博士期間的主要成果。能一一介紹一下這些系統嗎?
余舟:第一個系統是社交聊天機器人,我們把它部署在 Amazon Alexa 上。在任務方面,我們現在對其進行了擴展,將它與任務導向系統結合起來,做一些前沿的任務,比如電影推薦(見 Yu et al.,IJCAI 2017)。
第二是人機交互,這里面用到了很多注意力機制,這取決于用戶是否在注意。因為在這種引導任務中,沒有注意力就不會有認知上的變化。比如我們用一些畫圖策略來獲得注意力,比如說“不好意思”、“重啟”、“你能告訴我嗎”,效果比較好。
第三個就是前面提到的面試系統,可以幫助人們提高會話能力。比如說,如果這個人是非母語人士,他就需要通過機器人互動來訓練他的會話能力。比如說,如果我發現他在不投入的時候缺乏自信,我可以給他一些鼓勵,“我覺得你做得很好。”,這樣他就能更好地訓練他的會話能力。
機器之心:目前為止您最滿意的研究論文是什么?
于宙:這個很難說(笑),應該是我最近的一個研究,我最滿意的永遠是最新的一個。
機器之心:多模態對話系統會成為您終生的研究目標嗎?
于宙:那肯定是終身的,其實就是解決用不同的方式去利用信息,去更好的互動的問題,這是我們要解決的問題。
機器之心:基于文本和語音的對話系統已經在工業領域得到廣泛應用,您認為多模態對話系統什么時候會在工業領域得到廣泛應用?
于舟:大概五到十年吧。比如說亞馬遜Alexa出現的時機,因為它還是一個音箱,比如說,大家花那么多錢買一個音箱,還不如買一個亞馬遜Alexa。市場和調研是兩碼事,你需要找到一個非常好的切入點。
機器之心:據我了解,亞馬遜最近給你 10 萬美元,用于為 Echo 平臺開發一款社交聊天機器人。能和我們講講這個項目背后的故事嗎?
于宙:我是去年11月拿到這個項目的,是我在CMU的時候就在做的一個項目,今年我在戴維斯,每年都可以續簽研究合同。
機器之心:那么你會開發什么類型的社交聊天機器人?
余舟:其實它是一個非常全面的系統,可以跟你聊任何事情,它唯一的目標就是讓對話者參與到對話中。我的論文很大一部分是開放域社交聊天,更偏向 NLP,比如如何利用知識庫來做更好的自然語言理解,如何利用計算語言學來實現對話,如何提升對話的效果。
我們最近在 IJCAI 2017 上發表的一項研究將社交聊天與任務結合起來,幫助人們更好地完成任務。這是因為具有社交屬性的任務具有很大的靈活性,可以幫助人們更好地理解和適應對話。同時,加入社交成分可以更容易地影響對話者,增加更多的技能。
機器之心:語音識別的錯誤率實際上已經下降到 5% 左右,但仍然存在很多挑戰,例如如何區分噪音和語音,如何區分多個聲音,比如在雞尾酒會上。多模態對話系統中的語音識別有什么獨特的挑戰嗎?
余舟:語音識別在交互上是非常難的,人不是一句話就說完的,說話中有很多不流暢的部分,比如說錯了,要重復,很多句子都是不符合語法的。這給語音識別帶來很多挑戰。我也做一些語音的工作,但我主要做增量語音識別。為什么這個很重要?因為在對話系統中,人跟機器交互的時候,你希望機器盡快給你回答。語音識別是需要時間的,我們希望盡快解碼,你說幾句話,我們就解碼幾句話。
對于我們來說,我們也想研究聲音事件,了解你的環境,比如學校、聚會、火車等的聲音,在語音識別之前把這些東西的噪音降低掉。包括說話人識別,這也是我們的研究方向。
Synced:自然語言理解中的非語法問題又如何呢?
余舟:我們做了很多語法分析。NLU在對話中非常重要。比如在意圖識別中,你只需要知道幾個詞就可以知道用戶的意圖。如果你在開放領域工作,這也是非常必要的。這也是我未來的研究方向:如何實現語義分析和意圖分析。比如“我有一只貓,我很喜歡它。”這是貓,對吧?再比如“我有一只貓,我很喜歡它。”我不知道賓語是什么,但是從上下文中我能理解我指的是貓。第一是共指,第二是省略的問題。這個語法分析非常難。
機器之心:增加對話系統的輪數,讓機器與人類進行多輪長期交流是非常困難的。這一研究領域面臨哪些挑戰?
余舟:回合長度和對話系統的質量是兩回事,這取決于設計過程的目標。比如我們通常所說的獎勵函數,我的目標是讓你跟機器人對話的時間越來越長,所以我建議優化目標是回合數盡量多一些;如果我想完成一個簡單的任務,其實你的目標是盡可能有效。
機器之心:多模態對話系統是一個非常跨學科的領域。對于想要學習多模態對話系統的學生,您有什么好的建議嗎?
余舟:我的建議是先學對話,從單模開始學。我們這個專業是理工并重,有非常好的落地場景。而且你要做好準備。這個專業的內容很多,你不僅要設計和開發算法,還要在和人進行真實對話的時候測試算法是否有效。
機器之心:您有什么參考資料或者書籍想要推薦給讀者嗎?
余舟:這個是挺讓人郁悶的一件事,就是這個領域一直沒有好的教材,因為發展得太快了。我其實很想寫一本書,但是沒時間,可能要兩年才能寫完。不過你可以從最基礎的學習開始,可以從 NLP 開始。比如 Daniel Jurafsky 和 ??James H. Martin 合著的《語音和語言處理》這本書,第三版草稿已經在網上可以找到。
機器之心:哪些機構和大學在該領域處于領先地位?
于宙:比如我曾經實習過的微軟研究院,南加州大學創意技術研究院到目前為止英語的英文,KTH,歐洲的比勒費爾德等。
機器之心:在學術界工作了這么多年,有沒有想過將來加入工業界?
于宙:現在機會很多,但是最重要的是做自己感興趣的事。
機器之心:就您個人而言,由于從事多模態對話系統的工作可能需要您非常注重社交、交流和與他人打交道,那么您是一個善于社交的人嗎?
于宙:(笑)應該還行吧,哈哈。我不是一個很外向的人,但是我覺得跟人交流能讓我得到很多信息,而且能從中感受到快樂。
機器之心:在學術界做研究項目時,尋求資金支持是一個非常重要的話題。您覺得這個任務相對容易還是困難?
余舟:其他人我不太清楚,但我覺得是有可能的。并不是說我做的事情超出了這個范圍。業界非常支持,包括 NSF 和 DARPA。他們也看到這是未來,這種互動對未來會有很大的影響。
機器之心:除了學術之外,您還有什么興趣和愛好?
于宙:我會看Youtube視頻,很喜歡看小動物的視頻(笑)。因為我覺得看小動物的視頻很解壓,而且很可愛。我很想養一只小動物,但是我經常出差,沒辦法。我也會看書。
機器之心:你希望招收什么樣的學生?
首先我先說一下為什么想來我組讀Postdoc或者PhD。我們這個領域很有前景,我也花了很多時間指導學生做項目。我的組還在發展,現在有兩位博士生,四位碩士生。業界也很支持多模態對話系統的推進,所以我很希望有能力的學生能進入這個領域。我希望有博士后能來我的組里呆一兩年,現在組里有個空缺,在這個過程中,你總能接觸到前沿的研究,而且未來兩年會有很好的學術或者創業機會。至于學生的背景,我希望他有機器學習、自然語言處理、語音識別等相關專業的基礎,也有很好的工程能力。
機器之心:最后一個問題,您如何評價自己的作品?
我覺得我們的工作,包括我和我的博士,就是把這個方向往前推一點點,希望能夠做出更有意義的研究。因為我們的工作是非常跨學科的,所以我們也在慢慢的推進我們的研究。我也經常開學術會議,把不同領域的人聚集在一起工作,希望通過我們的努力,能夠把這個領域往前推一點點。