9. 互動層 — 感知
互動層的感知子系統是 iFay 的「感官」——它讓 iFay 能看到螢幕、感知環境、讀懂你的意圖,為後續的動作和認知提供資訊輸入。
9.1 第一人稱追蹤器
一句話定義
第一人稱追蹤器是 iFay 的眼睛和耳朵——它讓 iFay 看到你看到的畫面、聽到你聽到的聲音,擁有和你一模一樣的第一人稱視角。
為什麼需要它
想像一下,你請了一位助手幫你填寫一份網頁表單。如果這位助手是個盲人——看不到螢幕上的輸入框、按鈕和錯誤提示——他怎麼幫你?
這就是沒有第一人稱追蹤器的 iFay。
人類操作電腦和手機時,靠的是眼睛看螢幕、耳朵聽提示音。iFay 也需要同樣的能力。第一人稱追蹤器就是賦予 iFay 這種能力的模組——它讓 iFay 像你一樣看螢幕,而不是像程式設計師一樣去讀程式碼。
這裡有一個關鍵區別:iFay 看到的是你肉眼看到的畫面,而不是網頁背後隱藏的程式碼(比如 HTML 標籤、SEO 關鍵詞這些你根本看不到的東西)。就像你看一本書,你看到的是文字和圖片,而不是印刷廠的排版檔案。iFay 也是如此——它優先用「視覺」去理解介面,而不是去解析結構化文件。
它在架構中的位置
iFay 四層架構
├── 社交層
├── 互動層 ← 第一人稱追蹤器在這裡
│ ├── 感知(Sense)
│ │ ├── 👉 第一人稱追蹤器 ← 向外看,看螢幕
│ │ ├── 感測器 ← 感知環境
│ │ └── 自我感知 ← 向內看,讀懂你
│ └── 動作(Action)
│ ├── 模擬操作
│ ├── 技能調用
│ └── 自驅行為
├── 認知層
└── 自我層
第一人稱追蹤器位於互動層的感知子系統中。如果把 iFay 比作一個人,互動層就是 iFay 與外部世界打交道的「身體」,而第一人稱追蹤器就是這個身體上的眼睛和耳朵。
它是怎麼工作的
第一人稱追蹤器的工作方式很直覺——就像你自己看螢幕一樣:
1. 看到畫面 iFay 會擷取你螢幕上當前顯示的內容——文字、圖片、按鈕、輸入框、彈窗……所有你能看到的東西,iFay 都能看到。
2. 聽到聲音 如果介面有提示音、語音播報或影片聲音,iFay 也能擷取到。
3. 即時追蹤變化 這是最重要的部分。當 iFay 在螢幕上執行操作(比如點擊一個按鈕),它需要立刻看到操作的結果——頁面跳轉了嗎?出現錯誤提示了嗎?載入動畫還在轉嗎?
就像你用滑鼠點了「提交」按鈕後,你的眼睛會自動盯著螢幕看結果。iFay 的第一人稱追蹤器做的是同樣的事情:
- 追蹤游標移動後的畫面變化
- 追蹤視窗切換後新暴露的區域
- 追蹤頁面動態更新(比如即時重新整理的資料)
4. 手眼協調 第一人稱追蹤器和模擬操作模組是緊密配合的「搭檔」——就像人的眼睛和手。眼睛看到按鈕在哪裡,手才能準確點擊;手點擊之後,眼睛再看結果。這種「看→做→再看」的循環,就是 iFay 的手眼協調能力。
5. 報告「看不見」 如果因為某些原因(比如螢幕被鎖定、應用崩潰、權限不足),第一人稱追蹤器無法取得畫面,它不會假裝什麼都沒發生——它會老老實實地向 iFay 的認知層報告:「我看不見了。」認知層收到報告後,會決定下一步怎麼辦(比如等待、重試或通知你)。
與其他模組的關係
| 相關模組 | 關係 | 人體類比 |
|---|---|---|
| 模擬操作 | 緊密耦合,手眼協調 | 眼睛 ↔ 手 |
| 認知層 | 報告感知狀態(正常/降級/失敗) | 眼睛 → 大腦(「我看到了」或「我看不清」) |
| 感測器 | 同屬感知子系統,但分工不同:第一人稱追蹤器看螢幕,感測器感知環境 | 眼睛 vs 皮膚上的神經 |
| 自我感知 | 同屬感知子系統,但方向不同:第一人稱追蹤器向外看,自我感知向內看 | 眼睛 vs 情商 |
對開發者
第一人稱追蹤器屬於 階段 1(模擬人類操作) 的核心模組,是 iFay 最早需要實作的部件之一。
- 需求編號:需求 4(第一人稱追蹤器)
- 介面規範:
FirstPersonTracer介面,包含captureVisual()、captureAudio()、trackChanges()和getPerceptionStatus()四個核心方法 - 關聯協議:階段 1 暫不依賴 CAP/DTP 協議,直接透過作業系統級別的螢幕擷取實作;階段 2 起可透過 CAP 協議取得更深層的介面資訊
- 合規性測試:iFACTS L1(單部件合規)驗證視覺擷取能力,L2(介面合規)驗證與模擬操作模組的手眼協調介面
- 設計要點:優先視覺感知而非結構化文件解析;感知失敗必須上報認知層;與模擬操作模組形成閉環回饋
9.2 感測器
一句話定義
感測器是 iFay 的神經系統——它讓 iFay 能感知周圍環境的一切變化,從溫度、位置到心率、光線,就像你身體裡遍布全身的神經末梢。
為什麼需要它
如果第一人稱追蹤器是 iFay 的眼睛和耳朵,那感測器就是 iFay 的整個神經網路。
想想你的身體:你不只靠眼睛和耳朵感知世界。你的皮膚能感受溫度和觸碰,你的內耳能感知平衡和加速度,你的身體能告訴你餓了、累了、冷了。這些感覺不是來自眼睛或耳朵,而是來自遍布全身的神經系統。
iFay 的感測器模組,就是把所有這些裝置上的感測器統一接入,讓 iFay 擁有一個完整的神經系統。而且,這個神經系統是可以不斷擴展的——未來出現任何新型感測器,都可以接入進來。
它是怎麼工作的
感測器的工作方式可以用三個關鍵詞概括:橋接、調節、擴展。
1. 橋接——連接裝置上的感測器
感測器模組就像一個「翻譯官」,把所有不同裝置、不同類型的感測器資料,統一翻譯成 iFay 能理解的格式。它基於 CAP(控制權限協議) 和 DTP(資料隧道協議) 來實現這種橋接。
2. 調節——動態靈敏度
iFay 的感測器會根據當前的場景和需求,自動調節每個感測器的靈敏度。比如你在辦公室安靜工作時,GPS 不需要每秒更新一次位置;但當你在開車導航時,GPS 需要高頻更新。
3. 擴展——未來的感測器也能接入
感測器模組的設計是開放的——當新的感測器類型出現時,只需要透過設備驅動中樞註冊新的驅動,感測器模組就能管理它的靈敏度。
與其他模組的關係
| 相關模組 | 關係 | 人體類比 |
|---|---|---|
| 設備驅動中樞 | 感測器的實際硬體介面由設備驅動中樞管理 | 神經末梢 → 神經傳導通路 |
| 個人資料堆 | 感測器採集的資料最終儲存在個人資料堆中 | 感覺訊號 → 記憶儲存 |
| 第一人稱追蹤器 | 同屬感知子系統,但分工不同:追蹤器看螢幕,感測器感知物理環境 | 眼睛 vs 全身神經 |
| 自我感知 | 感測器提供環境資料,自我感知利用這些資料推斷人類原型狀態 | 神經系統提供感覺 → 大腦解讀情緒 |
| CAP / DTP 協議 | 感測器基於這兩個協議實現資料橋接 | 神經訊號的傳輸協議 |
對開發者
感測器模組屬於 階段 2(直接接管用戶端) 的核心模組,依賴 CAP 和 DTP 協議。
- 需求編號:需求 7(感測器模組)
- 介面規範:
SensorModule介面,包含registerSource()、adjustSensitivity()、getDataStream()和getActiveStatus()四個核心方法 - 關聯協議:CAP(控制權限協議)用於接管感測器硬體,DTP(資料隧道協議)用於雙向資料傳輸
- 關聯模組:設備驅動中樞(
DeviceDriverHub)管理實際硬體介面,個人資料堆(PersonalDataHeap)儲存感測器資料 - 合規性測試:iFACTS L1 驗證靈敏度調節能力,L2 驗證與設備驅動中樞和個人資料堆的介面對接
- 設計要點:感測器模組僅作為靈敏度調節器,不直接管理硬體介面;支持動態靈敏度調節;新感測器類型透過設備驅動中樞整合
9.3 自我感知
一句話定義
自我感知是 iFay 的情商——它不看螢幕、不感知環境,而是向內觀察你,透過你的反應推斷你的感受和意圖,就像一個善於察言觀色的老朋友。
為什麼需要它
自我感知讓 iFay 從「你說我做」升級為「你不說我也懂」。它觀察你的微表情、你的操作習慣變化、你的情緒波動,然後推斷出你可能需要什麼——甚至在你自己意識到之前。
它是怎麼工作的
1. 觀察你的反應
自我感知會持續監測你與 iFay 互動時的各種訊號:操作速度變化、瀏覽行為、表情和語氣、對建議的接受或拒絕模式、日常習慣是否出現異常。
2. 推斷你的意圖
基於觀察到的訊號,自我感知會推斷出你當前的狀態和可能的意圖。這不是簡單的「如果 A 則 B」的規則,而是綜合多種訊號的智能推斷。
3. 傳遞推斷結果
當自我感知推斷出一個新的意圖時,它會做兩件事:
- 告訴自驅行為模組:觸發主動行動
- 告訴對齊意識模組:更新人類原型畫像
4. 即時調整
自我感知不是一次性的判斷,而是持續運行的。它會根據你的最新反應不斷修正自己的推斷。
與其他模組的關係
| 相關模組 | 關係 | 人體類比 |
|---|---|---|
| 自驅行為 | 自我感知的推斷觸發自驅行為的主動行動 | 情商 → 主動關心 |
| 對齊意識 | 自我感知即時調整對齊意識中的人類原型畫像 | 對你的了解隨著相處不斷加深 |
| 認知層 | 推斷結果傳遞給認知層進行更深層的理解和決策 | 直覺 → 理性思考 |
| 第一人稱追蹤器 | 第一人稱追蹤器向外看,自我感知向內看,互補 | 眼睛看世界 vs 心靈讀懂人 |
| 感測器 | 感測器提供的環境資料可以輔助自我感知的推斷 | 身體感覺輔助情緒判斷 |
對開發者
自我感知模組屬於 階段 4(iFay + coFay 全面擬人化) 的核心模組,是 iFay 從「工具」進化為「夥伴」的關鍵。
- 需求編號:需求 13(自我感知)
- 介面規範:
SelfAwareness介面,包含inferIntent()(推斷意圖)、monitorHostReaction()(監測人類原型反應)和adjustAlignment()(調整對齊意識)三個核心方法 - 關聯模組:自驅行為模組(
SelfDrivenBehavior)接收推斷結果並觸發主動行動;對齊意識模組(AlignedConsciousness)接收推斷結果並更新人類原型畫像 - 合規性測試:iFACTS L1 驗證意圖推斷能力,L2 驗證與自驅行為和對齊意識的介面對接,L4 驗證推斷準確性和隱私保護
- 設計要點:推斷結果必須同時傳遞給自驅行為模組和認知層;支持即時調整對齊意識;推斷錯誤時應能從人類原型回饋中學習修正
