BLUEPRINT

10. 互動層 — 動作

互動層的動作子系統是 iFay 的「運動系統」——它讓 iFay 能像人一樣操作介面、呼叫服務、主動行動，是 iFay 對外部世界施加影響的三種方式。

10.1 模擬操作

一句話定義

模擬操作是 iFay 的雙手——它能像人一樣點擊、拖曳、捲動、打字，操作任何現有的軟體介面，不需要軟體專門為 AI 做任何改造。

為什麼需要它

模擬操作讓 iFay 不需要等待世界上所有的軟體都為 AI 重新設計，現在就能幫你幹活。它和傳統的「自動化腳本」（比如 RPA）有本質區別——iFay 的模擬操作是感知驅動的：它透過第一人稱追蹤器「看」螢幕，理解當前介面的狀態，然後決定下一步該怎麼做。

它是怎麼工作的

1. 感知——先看，再動手

在執行任何操作之前，iFay 先透過第一人稱追蹤器「看」當前介面。它像人一樣看螢幕上顯示了什麼。

2. 操作——像人一樣互動

iFay 支持人類在介面上能做的所有操作：點擊、拖曳、捲動、打字、邊緣手勢、多指手勢。

3. 回饋——做完之後看結果

每次操作之後，iFay 都會透過第一人稱追蹤器重新「看」一下介面，確認操作是否成功。這種「操作→觀察→調整」的循環，就是模擬操作與 RPA 腳本的根本區別。

與其他模組的關係

相關模組	關係	人體類比
第一人稱追蹤器	模擬操作的「眼睛」，每次操作前後都透過它感知介面狀態	手 ↔ 眼睛（手眼協調）
技能調用	同屬動作子系統，但方式不同：模擬操作透過介面操作，技能調用直接呼叫 API	用手操作 vs 打電話辦事
自驅行為	自驅行為決定「什麼時候動手」，模擬操作負責「怎麼動手」	意志決定行動 → 手執行動作
憑證管理	模擬操作在登入時需要使用憑證管理提供的帳號密碼	手拿鑰匙開門

對開發者

模擬操作屬於 階段 1（模擬人類操作） 的核心模組。

需求編號：需求 5（模擬操作）
介面規範：SimulatedOperation 介面，包含 execute()、explore() 和 getPostActionState() 三個核心方法
支持的操作類型：click、drag、scroll、gesture（邊緣手勢和多指手勢）、type
關聯模組：第一人稱追蹤器（FirstPersonTracer）提供視覺回饋，憑證管理（CredentialManager）提供登入憑證
核心設計：感知驅動而非腳本驅動；每次操作後透過追蹤器感知狀態變化，形成「操作→感知→調整」閉環；支持未知介面的自適應探索
合規性測試：iFACTS L1 驗證各操作類型的執行能力，L2 驗證與第一人稱追蹤器的手眼協調介面

10.2 技能調用

一句話定義

技能調用是 iFay 的嘴巴和電話——如果模擬操作是 iFay 用手操作介面，技能調用就是 iFay 直接「打電話」給服務——不需要操作介面，直接呼叫 API 或觸發任務。

為什麼需要它

很多時候，操作介面是多餘的中間環節。技能調用讓 iFay 跳過介面，直接完成你的目標。技能調用有一個硬性前提：只能呼叫已註冊的技能。

它是怎麼工作的

1. 匹配——找到對的技能

從已註冊的技能清單中找到最匹配的技能。

2. 呼叫——執行技能

找到匹配的技能後，iFay 透過預授權的憑證直接呼叫它。六種技能類型的呼叫方式各有不同：API、工作流、Bot、Agent、APP、微服務。

3. 記錄——貢獻追蹤

每次技能呼叫完成後，結果會被記錄。在完整生態中（階段 5），這些記錄會透過 GMChain 轉化為貢獻度記錄。

與其他模組的關係

相關模組	關係	人體類比
註冊技能	技能調用只能呼叫已註冊的技能，註冊是呼叫的前提	只能打通訊錄裡的電話
模擬操作	同屬動作子系統，但方式不同	用手操作 vs 打電話辦事
自驅行為	自驅行為決定「什麼時候呼叫」，技能調用負責「怎麼呼叫」	意志決定行動 → 嘴巴執行
憑證管理	技能調用在執行時需要憑證進行認證	打電話需要報上身份
內部技能	內部技能會審核技能調用的輸出，確保符合人類原型風格	直覺審核外部建議

對開發者

技能調用屬於 階段 2（直接接管用戶端） 的核心模組。

需求編號：需求 10（技能調用）
介面規範：InvokeSkillService 介面，包含 matchSkill()（意圖匹配技能）、invoke()（呼叫技能）和 getInvocationLog()（取得呼叫日誌）三個核心方法
呼叫前提：技能必須已在 RegisteredSkillManager 中註冊且預授權有效
六種技能類型的呼叫方式：API（HTTP 請求）、Workflow（觸發流程）、Bot（啟動對話）、Agent（下達指令）、APP（啟動應用）、Microservice（呼叫端點）
合規性測試：iFACTS L1 驗證意圖匹配和技能呼叫能力，L2 驗證與註冊技能模組的介面對接，L3 驗證「意圖表達→技能呼叫→貢獻記錄」的完整鏈路

10.3 自驅行為

一句話定義

自驅行為是 iFay 的自主意志——模擬操作是手，技能調用是嘴，自驅行為是 iFay 自己決定「什麼時候動手、什麼時候開口」。它讓 iFay 從被動執行者變成主動行動者。

為什麼需要它

真正好的助手會主動做事：排程任務到點就做、察言觀色後行動、持續執行的習慣。自驅行為讓 iFay 擁有了「自主意志」——不再只是等你開口，而是自己判斷什麼時候該做什麼。

三種觸發方式

1. 排程任務——到點了就做

就像你設的鬧鐘。

2. 自我感知推斷——察覺到你需要，就主動做

iFay 透過自我感知模組觀察你的狀態和環境，推斷出你可能需要什麼，然後主動行動。

3. 持久技能——一直在背景運行的習慣

有些技能不是一次性的，而是持續運行的。這些持久技能來自註冊技能和內部技能。

安全閥：暫停並確認

當 iFay 發現自主行為的結果和你的意圖不一致時，它會暫停所有後續自主動作，然後問你確認。

與其他模組的關係

相關模組	關係	人體類比
自我感知	自我感知推斷人類原型意圖，觸發自驅行為	內心感受 → 驅動行動
模擬操作	自驅行為決定「做什麼」，模擬操作負責「用手做」	意志 → 手
技能調用	自驅行為決定「做什麼」，技能調用負責「打電話做」	意志 → 嘴
註冊技能	持久技能是自驅行為的觸發源之一	長期習慣驅動行動
內部技能	內部技能是自驅行為的另一個觸發源	本能驅動行動
對齊意識	對齊意識提供人類原型畫像，幫助自驅行為判斷「該不該做」	對你的了解決定行動邊界

對開發者

自驅行為屬於 階段 4（iFay + coFay 全面擬人化） 的核心模組。

需求編號：需求 14（自驅行為）
介面規範：SelfDrivenBehavior 介面，包含 scheduleTask()（排程任務）、handleInference()（處理自我感知推斷）、pauseAndConfirm()（暫停確認）和 getLoopStatus()（循環狀態）四個核心方法
三種觸發源：scheduled（排程任務）、self_awareness（自我感知推斷）、registered_skill / internal_skill（持久技能）
核心機制：動作→回饋→再動作的持續循環；執行結果與人類原型意圖不一致時暫停並請求確認
合規性測試：iFACTS L1 驗證三種觸發源的回應能力，L2 驗證與自我感知模組的介面對接，L4 驗證自主行為的安全約束（暫停確認機制）