VUI 與 GUI,不同場景下的優劣對比

筆者從事自然語言處理已經超過了一年半的時間,對語音交互有了自己的理解,本文以封閉五官的極端狀態為各位讀者帶來一種特別的體驗,以便大家熟悉和掌握其特點和優勢,以便將來大家應用到自己的產品設計中。

為方便討論,先做一下定義。市面上關于交互的常見的幾個詞匯,GUI、VUI、DUI。

一、三種基本概念

1. GUI

GUI(Graphical UserInterface)圖形界面,市面上最常見的交互方式。點觸,滑動,作為主要輸入方式。圖像顯示作為主要輸出方式。

2. VUI

VUI(Voice User Interface)語音界面,常見沒有屏幕的智能音箱/耳機,靠音軌輸入,音軌輸出。

VUI還有一個前身,即IVR(Interactive Voice Response)交互式語音應答,類似我們撥打營業廳電話,通過選擇數字,來選擇進入某某業務。

3. DUI

DUI(Dialogue User Interface)對話界面,當然還有另外一種說法叫做CUI(Conversational User Interface),舉例子就是蘋果的SIRI,或者某種對話機器人,以對話式窗口作為主要功能界面。這種方式是混合式方案,故而不在討論范圍之內。

二、交互形態

為方便理解,更容易代入角色,理解交互形態,大家需要在限制的條件下體會。

只有封閉了自己的功能,如此才能做到設身處境,繼而理解兩種不同交互形態的差異。不妨把自己想象成:聽力正常且發音標準的盲人,以及視力正常且四肢健全的聾啞人。

GUI(Graphical UserInterface)圖形界面

特性:使用鼠標鍵盤、手指點觸,作為主要輸入方式,以圖形展示作為輸出方式。通俗來說:動眼動手與硬件進行交互。當前市面上最為常見的交互方式。

VUI(Voice User Interface)語音界面

特性:使用語音作為輸入,語音作為輸出。能聽見,能發音,那么就能使用VUI。通俗來說:動耳動嘴與硬件進行交互。未來一定會走入我們生活的交互方式。

日常生活中有很多場景,雙手是被占用的,如果有好的VUI的解決方案,那么就存在交互空間。

解放雙手是一個特性,不足以成為優點,是一種特定情況下的解決方案。

VUI的缺點,只能在安靜和隱私的環境下進行,在公共場合使用,必然引起他人的圍觀,繼而造成自己的心里壓力。GUI則不存在輸入壓力問題,僅依賴光線。

輸入速度,是VUI的一個巨大優勢,需要什么說就好了,然后通過ASR轉化為文字,由計算機理解,并執行命令。

GUI的界面上顯示了太多的信息,如果不熟悉的話,需要判斷點哪里(如果你教老人使用智能手機就能懂得其痛苦)有些時候還需要調用鍵盤,輸入速度就很慢。

播放周杰倫的《煙花易冷》如果用點觸的話,操作成本非常高(打開APP,尋找搜索框,輸入指定信息,搜尋,選擇列表中的一個播放)。而使用VUI,成本就非常低。

VUI可以無視層級,一句話直達目標。例如:播放2020年NBA全明星正賽第4節,或者是打開APP的簽到功能/活動頁面這類話術,可以直達熟悉的位置。

而GUI則是預設路徑的交互方式,強迫用戶沿著單一路徑去完成操作的人機交互方式。每一步操作正確或者錯誤都會給予反饋,通過信息結構層級去展示指定內容,這非常方便人們學習和摸索規律,故而不是缺點而是特點。

VUI的缺點,由于人類的輸入不可控,導致計算機難以理解——

  • 用戶本身發音模糊;依賴ASR(語音識別:Automatic Speech Recognition)技術的表現。
  • 人類表述差異化較大,無邏輯,上下文表述會使用指代關系,會歧義或者雙關。而計算機推理較難,此處考驗NLP(自然語言處理:Natural Language Processing)的能力。

GUI的優點就是輸入精準,任何操作都有著邊界約束,流程可控,選擇明確,計算機容易理解。

交互是一個雙向的過程,語音作為輸入動作確實很快,而純語音輸出的話,效率非常低。幾乎沒有人愿意做太多的等待行為。且語音輸出攜帶的信息量非常少。

比如展示2020福布斯前10名的結果,語音輸出的效率就是悲劇。而視覺層面展示的內容可以無限多,可以使用表格圖形的方式進行展示,眼睛接受效率也非常高。

在計算機輸出的過程中,語音輸出要求人不可分心,需消耗注意力,視覺展示則沒有,即使走神,也無壓力。

在語音交互的過程,如果是多輪交互,當計算機說完之后,立刻留給人決策,注定會給人壓力。GUI則不存在這個過程。

比如一個簡單的機票業務查詢結果,為你找到從[城市]到[城市],[幾月幾日][幾點幾時幾分]出發[航空公司][飛機倉位][機票價格],是否需要定這張票?

當語音播放完畢后,我是不是要思考和比較一下?如果我想更新下查詢條件,語音應該如何處理?而這交給GUI,就非常容易處理。

基于此,我們整體來看一下兩種交互形式的優劣表現:

由于GUI的特性大家非常熟悉,所以本文偏重于總結提煉純VUI的特性。

三、VUI的特性

1. 基本特性

VUI語音交互的特性是解放雙手,動嘴就可以搞定。在某些業務場景下,是存在于雙手被占用,通過語音指令完成目標的需求。(作者吐槽:GUI交互總不能寫,不用動嘴且不依賴光線就能解決問題吧,這很奇怪)

VUI語音交互依賴安靜、隱私環境,公共場合有使用壓力。聲音輸入,和聲音輸出都可以通過空氣這個介質傳播。即使是耳機可以管理計算機的輸出行為,但是人類的輸入行為也會引起他人的圍觀。這一點就局限了VUI的使用場景。

當【基本特性】掌握后,對尋找VUI的使用場景有了方向,即

  • 光線不太好,不方便點觸操作
  • 雙手被占用,不方便點觸操作
  • 隱私,安全,的無場景
  • 使用語音無壓力的場景

所以目前看來,臥室、客廳和車內這種相對隱私的空間是VUI的主要交互場合。

  • 開車的時候,雙手被占用,VUI有發揮空間
  • 騎車或者跑步鍛煉的時候,VUI有發揮空間
  • 晚上都關燈了,不想睜眼睛,VUI有發揮空間
  • 快遞員/外賣小哥在送東西的時候,VUI有發揮空間

2. 輸入表現

GUI是一種預設路徑的交互方式,VUI則聚焦于如何發揮語言和表意的強大力量,采用人們日常的語言來交流。

GUI需要人類適應工具。VUI則是由工具適應人。

語音輸入門檻非常低,只要會說話,就能模仿,輸入速度快捷,相比GUI擁有巨大的優勢。而圖形界面則具備相當的學習門檻,難點就是在于,用老年人學習手機的委屈狀態“這個上面字那么多,按鈕那么多,我不知道點哪里”以及“這個太多了記不住”。

VUI另外一個特性優勢是沒有UI層級,可以一句話直達,這點對于熟悉的事物具備巨大的優勢。不需要像GUI依照層級關系一路點過去。而GUI的特性是流程明確,對于復雜的流程,明確交代了層級關系。

VUI的巨大劣勢是,用戶的輸入表述不可控,這是自然語言處理的核心,即,如何讓計算機理解人類的各種表述。而圖形界面則輸入非常可控,計算機易于理解。

3. 交互表現

VUI語音輸出的效率非常低,且依賴注意力。這是巨大的劣勢。而對GUI而言,則是巨大的優勢,不要求人類過于集中注意力。

VUI反饋設計,注定無法輸出大量內容,最好的表現還是GUI。多輪對話中,盡量控制用戶的表述范圍,才能夠得到更好的體驗。

基于輸入表現和交互表現,我們對處理VUI交互有了方向,即

  • 一句話能搞定的用戶熟悉的任務
  • 決策壓力低的的任務
  • 管理用戶輸出,讓其做選擇題或填空題
  • 語音輸出的內容不應該太長
  • 不讓用戶做挑挑揀揀的任務

綜上,只有理解其優勢和劣勢,才方便展開業務。

附一張當前智能音箱的技能列表,筆者已經就自己的理解做了歸納,這是當前市面上,相對比較成熟的語音交互技能。

我們還是回歸正常,未來一定是多模態交互的場景。

人類與計算機打交道的方式不斷演變,隨著科學技術的發展,從最早的命令行,鼠標鍵盤,到如今最為主流的點擊和觸摸,到未來的語音交互以及手勢交互。

想做好交互設計,只有了解各種交互形式的優缺點,硬件相關知識,技術相關知識,才能夠做好選擇,然后疊加出多模態交互方案。

生活中,帶屏幕的音箱越來越多,而且耳機也是搭配各種屏幕的硬件使用的,而且在未來,就跟科幻電影里面一樣,幾乎每一塊屏幕都可以用來操作。

從實際的發展趨勢上來看,未來注定是萬物互聯的世界,幾乎任何硬件都可以搭配麥克風、揚聲器和WIFI模塊三件套,由于其硬件成本低,普及極其容易。各方數據表現,可穿戴智能硬件出貨量巨大……語音又是最為自然的交互形態,一定會在我們生活中占據一席之地。

語音交互,將會給我們的產品設計帶來極大的改變,提供更為豐富立體的交互樂趣。在即將到來的萬物互聯時代,對各位交互設計師/產品經理而言,也是一種進步和挑戰。

做好語音交互,不需要掌握任何畫圖技巧,上下文對話,就是UI本身,如何管理用戶輸入,全憑內容結構。

本文旨在討論,GUI和VUI的區別,相關設計不做展開,相關的VUI設計心得,會在后續文章中,為大家介紹。

 

作者:飯大官人,不折騰會死星人,微信公眾號:fanfan19860403《游戲運營:高手進階之路》作者。熟悉游戲領域、人工智能-自然語言處理領域。

本文由 @飯大官人 原創發布于人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基于 CC0 協議

給作者打賞,鼓勵TA抓緊創作!

1人打賞

文章若有侵權請來信告知:品牌行銷策略,產品行銷與設計,各類型行銷推廣案例分享-品牌行銷點點讚 » VUI 與 GUI,不同場景下的優劣對比