2 為什麼要創立該專案
2. 為什麼要創立該專案
❓ 要解決的問題
必須面對現實的是,在相當長的時間裡,以什麼樣的方式與用戶接觸是由端側開發者(或公司)決定的。在現有的大多數商業模式下,用戶本人參與交互是產品價值體現和盈利的基礎,比如活躍用戶數和廣告收入。沒有人可以強制要求端側必須開放足夠多的權限,放任在無人介入的情況下完全由 AI 執行操作。
如果 AI 足夠聰明,人類確實沒必要每次都從首頁開始使用產品。因此,我們可以看到人機對話成為下一代的交互主界面幾乎已經成為共識。
然而,自然語言表現力的天然缺陷,原本是寄希望於通過設計好的交互來彌補,現在卻被對話框取代了。對話框的局限性一下子就暴露出來了:
(1) 游標的指示作用缺失
交互形式從「螢幕+焦點操作」模式轉向自然語言模式。傳統焦點操作通過鍵盤、滑鼠和觸控螢幕實現,具有精準的指示性。而自然語言交互帶來以下影響:
-
喪失指示的精準性:表達和理解的難度增大,歧義增多,我們稱之為「游標缺失效應」。
例如,用戶說「刪除這個」時,系統難以確定「這個」具體指向哪個對象,而傳統界面中滑鼠點擊可以精確定位。
-
資訊表達效率受限:純粹語音的資訊表達效率不高,語音輸入的優勢主要體現在逐字表達場景。
例如,當你想放大一個縮圖時,你可能要說「放大」或者打字「放大」,而傳統的交互只需要點擊一下。
-
語言表達能力的門檻高:自然語言交互對用戶的文字表達能力要求很高,製造了人機交互的難度。
例如,不擅長文字表達的用戶可能無法準確描述需求,導致系統理解偏差,而傳統界面通過按鈕、選單等視覺元素降低了表達門檻。
-
資訊讀取效率低:文字流閱讀和聲音的閱讀都不如結構化資訊讀取效率高。
例如,系統用語音播報一長串資料列表時,用戶需要聽完整個列表才能找到目標資訊,而傳統界面可以通過表格、卡片等結構化形式讓用戶快速掃描定位。
-
受制於語輪回合:受制於語輪回合的交互,對快速連續性操作不夠友好。
例如,用戶需要連續執行多個操作時,必須等待每輪對話完成才能進行下一步,而傳統界面可以快速連續點擊多個按鈕完成批量操作。
(2) 資訊碎片氾濫
會話的流式資訊結構缺乏條理,並不像傳統軟體以頁面為單元組織資訊架構,通過可視化的圖形界面構建視覺友好的資訊呈現層次。這就會有以下衍生的問題:
-
不同資訊難以隔離:在單個會話內連續的資訊流很難辨別不同話題的邊界,甚至多個完全不相干的話題會混雜在一起。
例如,用戶在一個會話中先詢問「幫我查一下明天的天氣」,接著又問「上次那個項目進度怎麼樣了」,然後又問「推薦幾本好書」,這些完全不相關的話題混在一起,難以快速定位和回顧。
-
殭屍會話爆炸:當人為通過會話隔離資訊時,會話內的資訊被摺疊在以會話為單位的黑盒內,最終因為可見性低而淪為殭屍會話。
例如,用戶創建了「工作相關」、「學習筆記」、「購物清單」等多個會話,但每個會話中只有零散的幾條訊息,時間一長這些會話就被遺忘,成為無法有效利用的殭屍會話。
-
無法多維度管理:散落在無數會話中的同類資訊組織不起來,因為無法同某個特定維度管理資訊。
例如,用戶在不同會話中分別詢問過「Python 教程」、「JavaScript 教程」、「React 教程」等學習資源,但無法按照「學習資源」這個維度統一查看和管理,只能逐個會話查找。
-
缺少可指示的對象:資訊溶解在文字資訊中,當我們需要有所指時,沒有具體的對象可指稱。
例如,用戶說「把剛才那個方案再優化一下」,但「剛才那個方案」只是文字流中的一段話,沒有獨立的標識和結構,系統難以精確定位和操作。
(3) 不同終端人機界面差異很大
未來更多終端設備將由 Agent 驅動,通過螢幕、攝像頭、麥克風、揚聲器等設備與人的知覺對應,完成人機交互。但是,不同終端因為其物理特徵本身就有差異,不可能強行使用同樣的交互模式。因而在與AI融合上存在難度:
-
媒介斷層:當AI反饋的資訊結構對終端不友好,那麼必然會造成資訊表達的缺失或混亂。相反,終端提供的資訊結構也不一定是對AI友好的。
例如,把一段原本為大屏儀表盤設計的複雜資料可視化,直接用語音在智能音箱上「念出來」,用戶幾乎無法建立整體認知;反過來,智能手錶上僅有的一行提示資訊,也很難完整承載 AI 期望表達的複雜語義。
-
AI不夠掌握終端特性:人類為了增強表現力,在複雜語境中或者要表達複雜邏輯時,常常使用多個軟體和終端配合演示。而AI似乎還只會「說」。
例如,產品經理講方案時,會一邊放投影片、一邊在白板上畫結構圖、再配合 Demo 頁面點擊操作;而當前的 AI 往往只能用一段長文字或一串語音來解釋,很難利用投屏、標註、動畫等終端能力來增強表達。
-
虛擬與現實的鴻溝:目前的AI所使用的語境(或上下文)是基於預設和記憶的知識,而真實場景下的語境往往是動態的、與現實環境相關。
例如,AI 可以「記住」用戶的個人資料和歷史對話,卻很難實時感知用戶此刻坐在會議室、正在翻看哪一頁紙質文件、指向哪一塊實體展板,從而無法像真人助手一樣基於現場情境做出自然的指示和補充。
💡 改善思路和目標
以往產品經理最主要的工作就是設計易學易用的界面和操作動線。而在 AI 加持下,用戶不需要再學習軟體的交互界面和操作邏輯,AI 有能力根據用戶的問題和指令只提供給用戶用戶必要的資訊,用戶也只需要做最少的介入操作。
但是只要用戶本人介入,就存在交互友好性、準確性和效率的問題。Interactive Conversation Protocol 正是在人機接觸時發揮作用:
增強自然語言的意義表現力(人 → AI)
這裡說增強意義的表現力,指的是針對自然語言做增強。彌補以上提到的問題(游標指示的缺失、資訊碎片氾濫和不同終端的人機界面的差異)。至少可以對原始自然語言做以下加工:
-
針對表述資訊做標記:在需要做特別處理的資訊上做標記,這裡所說的特別處理包括採用結構化資訊、組裝界面、運行輔助程式等等。你可以想像成在一段文字上通過圈點來做筆記。標記的形式上我們參考 Markdown,使用特殊的字元表示特定含義,而輔助功能的解釋和觸發參考 Java 開發中的註解原理。通過這種方式,我們可以在原有的闡述性內容中補充說話的語氣、指出什麼是重點、什麼需要特殊的展現形式、什麼需要做前置操作(如認證是本人才可見)。
例如,用戶說「幫我整理下這週的待辦」,在句子裡對日期、優先級、負責人做輕量標記,AI 就可以直接生成一個可勾選的待辦清單,而不是只返回一段描述性的文字。
-
增加語境資訊:將必要的虛擬的資訊和現實環境補充到敘述的資訊中,以便於重現說話者的真實處境。傳統的交互界面,往往在界面中預置了可選的上下文資訊,以便於從用戶簡單的點擊中就能捕獲用戶的準確意圖,而自然語言如果要完整地描述上下文需要組織冗長的文字。通過在協定中補充時間、地點、設備狀態、參與者身份等語境資訊,AI 可以更精準地理解「此時此地」的真實語義。
例如,用戶只說「在附近訂一家Marry喜歡的餐廳」,則補充定位、預算偏好和歷史訂單等作為語境資訊。語境資訊的應用很廣泛,我們之後還會專門就場景進行討論。
-
轉譯成標準中間語言:在對原始資訊加工後(添加了註解和語境資訊)後,為了能夠完整且準確地進行解讀,必然需要一個約定好的資料標識系統。為了適應所有終端的表現力,這個標識系統可以建立在 JSON 的規範上,提供約定好的參數表和結構體。這樣以來,各個接收端的 AI 可以調動所有可用的終端展現最大化的表現力,重現表達者的完整意義。
例如,一句「把這段話發給項目群並讓大家在今天下班前確認」最終被轉譯成一個包含訊息體、接收人列表、截止時間、確認按鈕配置的標準 JSON 結構,聊天工具、Web 後台或移動 App 都可以據此渲染出各自適配的界面。
按需定制界面(AI → 人)
我們的前提是人們會更喜歡通過「說」與AI交互,這是最接近於人的溝通方式。因此,人們會越來越覺得通過點擊尋找自己需要的功能界面太麻煩。而人們需要的資訊也好,界面也好都是應該被直接推到用戶「眼前」。為了有這樣的效果,在接收端應該有一定的解讀能力:
-
解讀中間語言:由於中間語言是 JSON 格式,所有接收端都可以讀取到完整的語義,至少不會在資訊接收上產生斷層。
例如,同一份「報銷單審核請求」的中間語言資料,桌面端可以渲染為帶有表格和附件預覽的大屏界面,手機端只展示關鍵資訊和兩個按鈕(通過/退回),而智能音箱可以用語音念出摘要並等待語音確認。
-
動態構建訊息界面:根據完整的語境和註解,選擇交互最為友好的方案,動態地拼裝一個有資訊層次的交互界面(當然也可以忽略與終端不適配的註解)。這個界面不一定是只讀的多模態資訊,也可以是一個可以交互的小程式體。
例如,當 AI 理解到「這是一次資訊收集」時,可以自動在聊天界面中插入一個可填寫的小表單卡片,而不是讓用戶在純文字中逐條回答問題。
-
重現語境:有能力指示或支配語境中的一些元素。這通常需要調動多個應用或終端設備。我們已經看到,可以通過眼鏡上的攝像頭重現第一視角,通過伴飛無人機充當第三視角,利用投影或者 VR 圖標指向實物上的某個位置……等等。
例如,在遠程設備維修場景中,AI 可以一邊在工程師眼前的 AR 視野中高亮需要拆卸的螺絲位置,一邊在大屏上同步顯示電路圖和步驟說明,讓「語境」在多個終端之間被共同重現出來。
❗️❗️ 特別說明:中間語言真的必要麼
很多人都認為其實不需要中間語言,一般有兩個理由:
(1)長遠來看,AGI 有「察言觀色」的能力,然後理解用戶的隱含意圖。並不需要為了讓 AI 更好地理解,人為地對自然語言做多餘的加工。
(2)設計對人友好的交互界面未來也是 AGI 的本分,甚至在每一次互動中 AI 都可能會針對性設計一個可運行的交互界面。因此,更加不需要把 AI 的話再翻譯成某個中間語言。
我們最終仍然在 iFay 的體系中設計了 ICP 協定,我們有以下 3 個顧慮,並且認為短期內很難解決,因而選擇設計一個註解式的中間語言:
(1)AI 對環境的掌控力沒那麼大
一般人會把人跟 AI 的交互類比為一個人跟助理的溝通。認為一個聰明的助理會為了達到好的溝通效果主動調整環境的條件,比如光線不夠的時候會主動打開燈;在文件重要的地方做記號。但是助理的權限和能力並不總是可以做所有事,比如大樓突然停電了,沒辦法播放演示文稿。
因此,一個更穩妥的做法是準備好所有的必要資料,展示的事隨機應變(或者說交給物業的管理者)。這就像我們帶上所有資料去見客戶,至於客戶有沒有會議室,能不能播放演示文稿,還是要看紙質報告,由對方決定。
(2)AI 跟人可能沒那麼親近
因為 AI 對環境掌控力有限,以至於 AI 在很多情況下實際上並沒有真的讀懂人的意思。就好像你指著幻燈片上的一組資料問 AI:「這資料是什麼意思?」 其實 AI 並不知道你指在哪裡。理想狀況下,這個時候就需要動作捕捉設備將這個資訊告訴 AI。你還可以想像另一個場景,老闆開閉門會議,開完後跟助理說:「跟進一下會議決議。」 這時候助理實際上並沒有獲得第一手資訊,而是經過會議記錄員整理的會議紀要。會議紀要就類似中間語言加工後的資訊。
因此,很多時候人明示的資訊本身就不足以做判斷。這個時候就需要補充語境的資訊,但這並不是某個特定 AI 的職權。
(3)可能根本就沒有萬能的 AGI
未來 AI 一定會遇到跟人類社會一樣的分工問題。會存在個體的 AI(類似 iFay),也會存在具有社會公共職能的 AI(類似 coFay)。他們之間必然會產生權限邊界。
我們很難預測在未來的 AI 生態裡,AI 的職責是僅對提供的(系統輸入的)資訊做處理,還是 AI 也要負責主動的去收集更多的「言外之意」。
所以我們選擇穩妥的做法,我們假設 AI 只對已獲知的資訊做處理。只不過這個資訊每次都走一個加工流程,這個加工動作可能是某個軟體、終端設備或者 AI 完成的。這也是現在工程技術方案中很成熟的做法,比如使用瀏覽器訪問網站,服務端能夠獲知一部分用戶的上下文資訊。
🌟 願景
ICP(Interactive Conversation Protocol) 旨在構建一種跨人機的中間語言形態,實現人機之間的高效、準確、豐富的雙向溝通:
人 → 機器:全面複刻表達意義和語境
- 盡可能全面地捕獲人表達的意義和語境
- 將自然語言和交互意圖轉化為機器可準確理解的結構化要素
- 保留交互的精準性和上下文資訊
機器 → 人:動態組裝可交互方式
- 將概念註解與當前語境融合
- 根據設備能力和用戶偏好,動態組裝最適合的交互方式
- 支援多知覺資訊呈現(文字、語音、視覺、觸覺、嗅覺等)
