9. 互動層 — 感知

互動層的感知子系統是 iFay 的「感官」——它讓 iFay 能看到螢幕、感知環境、讀懂你的意圖,為後續的動作和認知提供資訊輸入。


9.1 第一人稱追蹤器

一句話定義

第一人稱追蹤器是 iFay 的眼睛和耳朵——它讓 iFay 看到你看到的畫面、聽到你聽到的聲音,擁有和你一模一樣的第一人稱視角。

為什麼需要它

想像一下,你請了一位助手幫你填寫一份網頁表單。如果這位助手是個盲人——看不到螢幕上的輸入框、按鈕和錯誤提示——他怎麼幫你?

這就是沒有第一人稱追蹤器的 iFay。

人類操作電腦和手機時,靠的是眼睛看螢幕、耳朵聽提示音。iFay 也需要同樣的能力。第一人稱追蹤器就是賦予 iFay 這種能力的模組——它讓 iFay 像你一樣看螢幕,而不是像程式設計師一樣去讀程式碼。

這裡有一個關鍵區別:iFay 看到的是你肉眼看到的畫面,而不是網頁背後隱藏的程式碼(比如 HTML 標籤、SEO 關鍵詞這些你根本看不到的東西)。就像你看一本書,你看到的是文字和圖片,而不是印刷廠的排版檔案。iFay 也是如此——它優先用「視覺」去理解介面,而不是去解析結構化文件。

它在架構中的位置

iFay 四層架構
├── 社交層
├── 互動層          ← 第一人稱追蹤器在這裡
│   ├── 感知(Sense)
│   │   ├── 👉 第一人稱追蹤器   ← 向外看,看螢幕
│   │   ├── 感測器             ← 感知環境
│   │   └── 自我感知           ← 向內看,讀懂你
│   └── 動作(Action)
│       ├── 模擬操作
│       ├── 技能調用
│       └── 自驅行為
├── 認知層
└── 自我層

第一人稱追蹤器位於互動層的感知子系統中。如果把 iFay 比作一個人,互動層就是 iFay 與外部世界打交道的「身體」,而第一人稱追蹤器就是這個身體上的眼睛和耳朵

它是怎麼工作的

第一人稱追蹤器的工作方式很直覺——就像你自己看螢幕一樣:

1. 看到畫面 iFay 會擷取你螢幕上當前顯示的內容——文字、圖片、按鈕、輸入框、彈窗……所有你能看到的東西,iFay 都能看到。

2. 聽到聲音 如果介面有提示音、語音播報或影片聲音,iFay 也能擷取到。

3. 即時追蹤變化 這是最重要的部分。當 iFay 在螢幕上執行操作(比如點擊一個按鈕),它需要立刻看到操作的結果——頁面跳轉了嗎?出現錯誤提示了嗎?載入動畫還在轉嗎?

就像你用滑鼠點了「提交」按鈕後,你的眼睛會自動盯著螢幕看結果。iFay 的第一人稱追蹤器做的是同樣的事情:

  • 追蹤游標移動後的畫面變化
  • 追蹤視窗切換後新暴露的區域
  • 追蹤頁面動態更新(比如即時重新整理的資料)

4. 手眼協調 第一人稱追蹤器和模擬操作模組是緊密配合的「搭檔」——就像人的眼睛和手。眼睛看到按鈕在哪裡,手才能準確點擊;手點擊之後,眼睛再看結果。這種「看→做→再看」的循環,就是 iFay 的手眼協調能力。

5. 報告「看不見」 如果因為某些原因(比如螢幕被鎖定、應用崩潰、權限不足),第一人稱追蹤器無法取得畫面,它不會假裝什麼都沒發生——它會老老實實地向 iFay 的認知層報告:「我看不見了。」認知層收到報告後,會決定下一步怎麼辦(比如等待、重試或通知你)。

與其他模組的關係

相關模組關係人體類比
模擬操作緊密耦合,手眼協調眼睛 ↔ 手
認知層報告感知狀態(正常/降級/失敗)眼睛 → 大腦(「我看到了」或「我看不清」)
感測器同屬感知子系統,但分工不同:第一人稱追蹤器看螢幕,感測器感知環境眼睛 vs 皮膚上的神經
自我感知同屬感知子系統,但方向不同:第一人稱追蹤器向外看,自我感知向內看眼睛 vs 情商

對開發者

第一人稱追蹤器屬於 階段 1(模擬人類操作) 的核心模組,是 iFay 最早需要實作的部件之一。

  • 需求編號:需求 4(第一人稱追蹤器)
  • 介面規範FirstPersonTracer 介面,包含 captureVisual()captureAudio()trackChanges()getPerceptionStatus() 四個核心方法
  • 關聯協議:階段 1 暫不依賴 CAP/DTP 協議,直接透過作業系統級別的螢幕擷取實作;階段 2 起可透過 CAP 協議取得更深層的介面資訊
  • 合規性測試:iFACTS L1(單部件合規)驗證視覺擷取能力,L2(介面合規)驗證與模擬操作模組的手眼協調介面
  • 設計要點:優先視覺感知而非結構化文件解析;感知失敗必須上報認知層;與模擬操作模組形成閉環回饋

9.2 感測器

一句話定義

感測器是 iFay 的神經系統——它讓 iFay 能感知周圍環境的一切變化,從溫度、位置到心率、光線,就像你身體裡遍布全身的神經末梢。

為什麼需要它

如果第一人稱追蹤器是 iFay 的眼睛和耳朵,那感測器就是 iFay 的整個神經網路

想想你的身體:你不只靠眼睛和耳朵感知世界。你的皮膚能感受溫度和觸碰,你的內耳能感知平衡和加速度,你的身體能告訴你餓了、累了、冷了。這些感覺不是來自眼睛或耳朵,而是來自遍布全身的神經系統。

iFay 的感測器模組,就是把所有這些裝置上的感測器統一接入,讓 iFay 擁有一個完整的神經系統。而且,這個神經系統是可以不斷擴展的——未來出現任何新型感測器,都可以接入進來。

它是怎麼工作的

感測器的工作方式可以用三個關鍵詞概括:橋接、調節、擴展

1. 橋接——連接裝置上的感測器

感測器模組就像一個「翻譯官」,把所有不同裝置、不同類型的感測器資料,統一翻譯成 iFay 能理解的格式。它基於 CAP(控制權限協議)DTP(資料隧道協議) 來實現這種橋接。

2. 調節——動態靈敏度

iFay 的感測器會根據當前的場景和需求,自動調節每個感測器的靈敏度。比如你在辦公室安靜工作時,GPS 不需要每秒更新一次位置;但當你在開車導航時,GPS 需要高頻更新。

3. 擴展——未來的感測器也能接入

感測器模組的設計是開放的——當新的感測器類型出現時,只需要透過設備驅動中樞註冊新的驅動,感測器模組就能管理它的靈敏度。

與其他模組的關係

相關模組關係人體類比
設備驅動中樞感測器的實際硬體介面由設備驅動中樞管理神經末梢 → 神經傳導通路
個人資料堆感測器採集的資料最終儲存在個人資料堆中感覺訊號 → 記憶儲存
第一人稱追蹤器同屬感知子系統,但分工不同:追蹤器看螢幕,感測器感知物理環境眼睛 vs 全身神經
自我感知感測器提供環境資料,自我感知利用這些資料推斷人類原型狀態神經系統提供感覺 → 大腦解讀情緒
CAP / DTP 協議感測器基於這兩個協議實現資料橋接神經訊號的傳輸協議

對開發者

感測器模組屬於 階段 2(直接接管用戶端) 的核心模組,依賴 CAP 和 DTP 協議。

  • 需求編號:需求 7(感測器模組)
  • 介面規範SensorModule 介面,包含 registerSource()adjustSensitivity()getDataStream()getActiveStatus() 四個核心方法
  • 關聯協議:CAP(控制權限協議)用於接管感測器硬體,DTP(資料隧道協議)用於雙向資料傳輸
  • 關聯模組:設備驅動中樞(DeviceDriverHub)管理實際硬體介面,個人資料堆(PersonalDataHeap)儲存感測器資料
  • 合規性測試:iFACTS L1 驗證靈敏度調節能力,L2 驗證與設備驅動中樞和個人資料堆的介面對接
  • 設計要點:感測器模組僅作為靈敏度調節器,不直接管理硬體介面;支持動態靈敏度調節;新感測器類型透過設備驅動中樞整合

9.3 自我感知

一句話定義

自我感知是 iFay 的情商——它不看螢幕、不感知環境,而是向內觀察你,透過你的反應推斷你的感受和意圖,就像一個善於察言觀色的老朋友。

為什麼需要它

自我感知讓 iFay 從「你說我做」升級為「你不說我也懂」。它觀察你的微表情、你的操作習慣變化、你的情緒波動,然後推斷出你可能需要什麼——甚至在你自己意識到之前。

它是怎麼工作的

1. 觀察你的反應

自我感知會持續監測你與 iFay 互動時的各種訊號:操作速度變化、瀏覽行為、表情和語氣、對建議的接受或拒絕模式、日常習慣是否出現異常。

2. 推斷你的意圖

基於觀察到的訊號,自我感知會推斷出你當前的狀態和可能的意圖。這不是簡單的「如果 A 則 B」的規則,而是綜合多種訊號的智能推斷。

3. 傳遞推斷結果

當自我感知推斷出一個新的意圖時,它會做兩件事:

  • 告訴自驅行為模組:觸發主動行動
  • 告訴對齊意識模組:更新人類原型畫像

4. 即時調整

自我感知不是一次性的判斷,而是持續運行的。它會根據你的最新反應不斷修正自己的推斷。

與其他模組的關係

相關模組關係人體類比
自驅行為自我感知的推斷觸發自驅行為的主動行動情商 → 主動關心
對齊意識自我感知即時調整對齊意識中的人類原型畫像對你的了解隨著相處不斷加深
認知層推斷結果傳遞給認知層進行更深層的理解和決策直覺 → 理性思考
第一人稱追蹤器第一人稱追蹤器向外看,自我感知向內看,互補眼睛看世界 vs 心靈讀懂人
感測器感測器提供的環境資料可以輔助自我感知的推斷身體感覺輔助情緒判斷

對開發者

自我感知模組屬於 階段 4(iFay + coFay 全面擬人化) 的核心模組,是 iFay 從「工具」進化為「夥伴」的關鍵。

  • 需求編號:需求 13(自我感知)
  • 介面規範SelfAwareness 介面,包含 inferIntent()(推斷意圖)、monitorHostReaction()(監測人類原型反應)和 adjustAlignment()(調整對齊意識)三個核心方法
  • 關聯模組:自驅行為模組(SelfDrivenBehavior)接收推斷結果並觸發主動行動;對齊意識模組(AlignedConsciousness)接收推斷結果並更新人類原型畫像
  • 合規性測試:iFACTS L1 驗證意圖推斷能力,L2 驗證與自驅行為和對齊意識的介面對接,L4 驗證推斷準確性和隱私保護
  • 設計要點:推斷結果必須同時傳遞給自驅行為模組和認知層;支持即時調整對齊意識;推斷錯誤時應能從人類原型回饋中學習修正