10. 互動層 — 動作
互動層的動作子系統是 iFay 的「運動系統」——它讓 iFay 能像人一樣操作介面、呼叫服務、主動行動,是 iFay 對外部世界施加影響的三種方式。
10.1 模擬操作
一句話定義
模擬操作是 iFay 的雙手——它能像人一樣點擊、拖曳、捲動、打字,操作任何現有的軟體介面,不需要軟體專門為 AI 做任何改造。
為什麼需要它
模擬操作讓 iFay 不需要等待世界上所有的軟體都為 AI 重新設計,現在就能幫你幹活。它和傳統的「自動化腳本」(比如 RPA)有本質區別——iFay 的模擬操作是感知驅動的:它透過第一人稱追蹤器「看」螢幕,理解當前介面的狀態,然後決定下一步該怎麼做。
它是怎麼工作的
1. 感知——先看,再動手
在執行任何操作之前,iFay 先透過第一人稱追蹤器「看」當前介面。它像人一樣看螢幕上顯示了什麼。
2. 操作——像人一樣互動
iFay 支持人類在介面上能做的所有操作:點擊、拖曳、捲動、打字、邊緣手勢、多指手勢。
3. 回饋——做完之後看結果
每次操作之後,iFay 都會透過第一人稱追蹤器重新「看」一下介面,確認操作是否成功。這種「操作→觀察→調整」的循環,就是模擬操作與 RPA 腳本的根本區別。
與其他模組的關係
| 相關模組 | 關係 | 人體類比 |
|---|---|---|
| 第一人稱追蹤器 | 模擬操作的「眼睛」,每次操作前後都透過它感知介面狀態 | 手 ↔ 眼睛(手眼協調) |
| 技能調用 | 同屬動作子系統,但方式不同:模擬操作透過介面操作,技能調用直接呼叫 API | 用手操作 vs 打電話辦事 |
| 自驅行為 | 自驅行為決定「什麼時候動手」,模擬操作負責「怎麼動手」 | 意志決定行動 → 手執行動作 |
| 憑證管理 | 模擬操作在登入時需要使用憑證管理提供的帳號密碼 | 手拿鑰匙開門 |
對開發者
模擬操作屬於 階段 1(模擬人類操作) 的核心模組。
- 需求編號:需求 5(模擬操作)
- 介面規範:
SimulatedOperation介面,包含execute()、explore()和getPostActionState()三個核心方法 - 支持的操作類型:
click、drag、scroll、gesture(邊緣手勢和多指手勢)、type - 關聯模組:第一人稱追蹤器(
FirstPersonTracer)提供視覺回饋,憑證管理(CredentialManager)提供登入憑證 - 核心設計:感知驅動而非腳本驅動;每次操作後透過追蹤器感知狀態變化,形成「操作→感知→調整」閉環;支持未知介面的自適應探索
- 合規性測試:iFACTS L1 驗證各操作類型的執行能力,L2 驗證與第一人稱追蹤器的手眼協調介面
10.2 技能調用
一句話定義
技能調用是 iFay 的嘴巴和電話——如果模擬操作是 iFay 用手操作介面,技能調用就是 iFay 直接「打電話」給服務——不需要操作介面,直接呼叫 API 或觸發任務。
為什麼需要它
很多時候,操作介面是多餘的中間環節。技能調用讓 iFay 跳過介面,直接完成你的目標。技能調用有一個硬性前提:只能呼叫已註冊的技能。
它是怎麼工作的
1. 匹配——找到對的技能
從已註冊的技能清單中找到最匹配的技能。
2. 呼叫——執行技能
找到匹配的技能後,iFay 透過預授權的憑證直接呼叫它。六種技能類型的呼叫方式各有不同:API、工作流、Bot、Agent、APP、微服務。
3. 記錄——貢獻追蹤
每次技能呼叫完成後,結果會被記錄。在完整生態中(階段 5),這些記錄會透過 GMChain 轉化為貢獻度記錄。
與其他模組的關係
| 相關模組 | 關係 | 人體類比 |
|---|---|---|
| 註冊技能 | 技能調用只能呼叫已註冊的技能,註冊是呼叫的前提 | 只能打通訊錄裡的電話 |
| 模擬操作 | 同屬動作子系統,但方式不同 | 用手操作 vs 打電話辦事 |
| 自驅行為 | 自驅行為決定「什麼時候呼叫」,技能調用負責「怎麼呼叫」 | 意志決定行動 → 嘴巴執行 |
| 憑證管理 | 技能調用在執行時需要憑證進行認證 | 打電話需要報上身份 |
| 內部技能 | 內部技能會審核技能調用的輸出,確保符合人類原型風格 | 直覺審核外部建議 |
對開發者
技能調用屬於 階段 2(直接接管用戶端) 的核心模組。
- 需求編號:需求 10(技能調用)
- 介面規範:
InvokeSkillService介面,包含matchSkill()(意圖匹配技能)、invoke()(呼叫技能)和getInvocationLog()(取得呼叫日誌)三個核心方法 - 呼叫前提:技能必須已在
RegisteredSkillManager中註冊且預授權有效 - 六種技能類型的呼叫方式:API(HTTP 請求)、Workflow(觸發流程)、Bot(啟動對話)、Agent(下達指令)、APP(啟動應用)、Microservice(呼叫端點)
- 合規性測試:iFACTS L1 驗證意圖匹配和技能呼叫能力,L2 驗證與註冊技能模組的介面對接,L3 驗證「意圖表達→技能呼叫→貢獻記錄」的完整鏈路
10.3 自驅行為
一句話定義
自驅行為是 iFay 的自主意志——模擬操作是手,技能調用是嘴,自驅行為是 iFay 自己決定「什麼時候動手、什麼時候開口」。它讓 iFay 從被動執行者變成主動行動者。
為什麼需要它
真正好的助手會主動做事:排程任務到點就做、察言觀色後行動、持續執行的習慣。自驅行為讓 iFay 擁有了「自主意志」——不再只是等你開口,而是自己判斷什麼時候該做什麼。
三種觸發方式
1. 排程任務——到點了就做
就像你設的鬧鐘。
2. 自我感知推斷——察覺到你需要,就主動做
iFay 透過自我感知模組觀察你的狀態和環境,推斷出你可能需要什麼,然後主動行動。
3. 持久技能——一直在背景運行的習慣
有些技能不是一次性的,而是持續運行的。這些持久技能來自註冊技能和內部技能。
安全閥:暫停並確認
當 iFay 發現自主行為的結果和你的意圖不一致時,它會暫停所有後續自主動作,然後問你確認。
與其他模組的關係
| 相關模組 | 關係 | 人體類比 |
|---|---|---|
| 自我感知 | 自我感知推斷人類原型意圖,觸發自驅行為 | 內心感受 → 驅動行動 |
| 模擬操作 | 自驅行為決定「做什麼」,模擬操作負責「用手做」 | 意志 → 手 |
| 技能調用 | 自驅行為決定「做什麼」,技能調用負責「打電話做」 | 意志 → 嘴 |
| 註冊技能 | 持久技能是自驅行為的觸發源之一 | 長期習慣驅動行動 |
| 內部技能 | 內部技能是自驅行為的另一個觸發源 | 本能驅動行動 |
| 對齊意識 | 對齊意識提供人類原型畫像,幫助自驅行為判斷「該不該做」 | 對你的了解決定行動邊界 |
對開發者
自驅行為屬於 階段 4(iFay + coFay 全面擬人化) 的核心模組。
- 需求編號:需求 14(自驅行為)
- 介面規範:
SelfDrivenBehavior介面,包含scheduleTask()(排程任務)、handleInference()(處理自我感知推斷)、pauseAndConfirm()(暫停確認)和getLoopStatus()(循環狀態)四個核心方法 - 三種觸發源:
scheduled(排程任務)、self_awareness(自我感知推斷)、registered_skill/internal_skill(持久技能) - 核心機制:動作→回饋→再動作的持續循環;執行結果與人類原型意圖不一致時暫停並請求確認
- 合規性測試:iFACTS L1 驗證三種觸發源的回應能力,L2 驗證與自我感知模組的介面對接,L4 驗證自主行為的安全約束(暫停確認機制)
