BLUEPRINT

9. 互動層 — 感知

互動層的感知子系統是 iFay 的「感官」——它讓 iFay 能看到螢幕、感知環境、讀懂你的意圖，為後續的動作和認知提供資訊輸入。

9.1 第一人稱追蹤器

一句話定義

第一人稱追蹤器是 iFay 的眼睛和耳朵——它讓 iFay 看到你看到的畫面、聽到你聽到的聲音，擁有和你一模一樣的第一人稱視角。

為什麼需要它

想像一下，你請了一位助手幫你填寫一份網頁表單。如果這位助手是個盲人——看不到螢幕上的輸入框、按鈕和錯誤提示——他怎麼幫你？

這就是沒有第一人稱追蹤器的 iFay。

人類操作電腦和手機時，靠的是眼睛看螢幕、耳朵聽提示音。iFay 也需要同樣的能力。第一人稱追蹤器就是賦予 iFay 這種能力的模組——它讓 iFay 像你一樣看螢幕，而不是像程式設計師一樣去讀程式碼。

這裡有一個關鍵區別：iFay 看到的是你肉眼看到的畫面，而不是網頁背後隱藏的程式碼（比如 HTML 標籤、SEO 關鍵詞這些你根本看不到的東西）。就像你看一本書，你看到的是文字和圖片，而不是印刷廠的排版檔案。iFay 也是如此——它優先用「視覺」去理解介面，而不是去解析結構化文件。

它在架構中的位置

iFay 四層架構
├── 社交層
├── 互動層          ← 第一人稱追蹤器在這裡
│   ├── 感知（Sense）
│   │   ├── 👉 第一人稱追蹤器   ← 向外看，看螢幕
│   │   ├── 感測器             ← 感知環境
│   │   └── 自我感知           ← 向內看，讀懂你
│   └── 動作（Action）
│       ├── 模擬操作
│       ├── 技能調用
│       └── 自驅行為
├── 認知層
└── 自我層

第一人稱追蹤器位於互動層的感知子系統中。如果把 iFay 比作一個人，互動層就是 iFay 與外部世界打交道的「身體」，而第一人稱追蹤器就是這個身體上的眼睛和耳朵。

它是怎麼工作的

第一人稱追蹤器的工作方式很直覺——就像你自己看螢幕一樣：

1. 看到畫面 iFay 會擷取你螢幕上當前顯示的內容——文字、圖片、按鈕、輸入框、彈窗……所有你能看到的東西，iFay 都能看到。

2. 聽到聲音 如果介面有提示音、語音播報或影片聲音，iFay 也能擷取到。

3. 即時追蹤變化 這是最重要的部分。當 iFay 在螢幕上執行操作（比如點擊一個按鈕），它需要立刻看到操作的結果——頁面跳轉了嗎？出現錯誤提示了嗎？載入動畫還在轉嗎？

就像你用滑鼠點了「提交」按鈕後，你的眼睛會自動盯著螢幕看結果。iFay 的第一人稱追蹤器做的是同樣的事情：

追蹤游標移動後的畫面變化
追蹤視窗切換後新暴露的區域
追蹤頁面動態更新（比如即時重新整理的資料）

4. 手眼協調 第一人稱追蹤器和模擬操作模組是緊密配合的「搭檔」——就像人的眼睛和手。眼睛看到按鈕在哪裡，手才能準確點擊；手點擊之後，眼睛再看結果。這種「看→做→再看」的循環，就是 iFay 的手眼協調能力。

5. 報告「看不見」 如果因為某些原因（比如螢幕被鎖定、應用崩潰、權限不足），第一人稱追蹤器無法取得畫面，它不會假裝什麼都沒發生——它會老老實實地向 iFay 的認知層報告：「我看不見了。」認知層收到報告後，會決定下一步怎麼辦（比如等待、重試或通知你）。

與其他模組的關係

相關模組	關係	人體類比
模擬操作	緊密耦合，手眼協調	眼睛 ↔ 手
認知層	報告感知狀態（正常/降級/失敗）	眼睛 → 大腦（「我看到了」或「我看不清」）
感測器	同屬感知子系統，但分工不同：第一人稱追蹤器看螢幕，感測器感知環境	眼睛 vs 皮膚上的神經
自我感知	同屬感知子系統，但方向不同：第一人稱追蹤器向外看，自我感知向內看	眼睛 vs 情商

對開發者

第一人稱追蹤器屬於 階段 1（模擬人類操作） 的核心模組，是 iFay 最早需要實作的部件之一。

需求編號：需求 4（第一人稱追蹤器）
介面規範：FirstPersonTracer 介面，包含 captureVisual()、captureAudio()、trackChanges() 和 getPerceptionStatus() 四個核心方法
關聯協議：階段 1 暫不依賴 CAP/DTP 協議，直接透過作業系統級別的螢幕擷取實作；階段 2 起可透過 CAP 協議取得更深層的介面資訊
合規性測試：iFACTS L1（單部件合規）驗證視覺擷取能力，L2（介面合規）驗證與模擬操作模組的手眼協調介面
設計要點：優先視覺感知而非結構化文件解析；感知失敗必須上報認知層；與模擬操作模組形成閉環回饋

9.2 感測器

一句話定義

感測器是 iFay 的神經系統——它讓 iFay 能感知周圍環境的一切變化，從溫度、位置到心率、光線，就像你身體裡遍布全身的神經末梢。

為什麼需要它

如果第一人稱追蹤器是 iFay 的眼睛和耳朵，那感測器就是 iFay 的整個神經網路。

想想你的身體：你不只靠眼睛和耳朵感知世界。你的皮膚能感受溫度和觸碰，你的內耳能感知平衡和加速度，你的身體能告訴你餓了、累了、冷了。這些感覺不是來自眼睛或耳朵，而是來自遍布全身的神經系統。

iFay 的感測器模組，就是把所有這些裝置上的感測器統一接入，讓 iFay 擁有一個完整的神經系統。而且，這個神經系統是可以不斷擴展的——未來出現任何新型感測器，都可以接入進來。

它是怎麼工作的

感測器的工作方式可以用三個關鍵詞概括：橋接、調節、擴展。

1. 橋接——連接裝置上的感測器

感測器模組就像一個「翻譯官」，把所有不同裝置、不同類型的感測器資料，統一翻譯成 iFay 能理解的格式。它基於 CAP（控制權限協議） 和 DTP（資料隧道協議） 來實現這種橋接。

2. 調節——動態靈敏度

iFay 的感測器會根據當前的場景和需求，自動調節每個感測器的靈敏度。比如你在辦公室安靜工作時，GPS 不需要每秒更新一次位置；但當你在開車導航時，GPS 需要高頻更新。

3. 擴展——未來的感測器也能接入

感測器模組的設計是開放的——當新的感測器類型出現時，只需要透過設備驅動中樞註冊新的驅動，感測器模組就能管理它的靈敏度。

與其他模組的關係

相關模組	關係	人體類比
設備驅動中樞	感測器的實際硬體介面由設備驅動中樞管理	神經末梢 → 神經傳導通路
個人資料堆	感測器採集的資料最終儲存在個人資料堆中	感覺訊號 → 記憶儲存
第一人稱追蹤器	同屬感知子系統，但分工不同：追蹤器看螢幕，感測器感知物理環境	眼睛 vs 全身神經
自我感知	感測器提供環境資料，自我感知利用這些資料推斷人類原型狀態	神經系統提供感覺 → 大腦解讀情緒
CAP / DTP 協議	感測器基於這兩個協議實現資料橋接	神經訊號的傳輸協議

對開發者

感測器模組屬於 階段 2（直接接管用戶端） 的核心模組，依賴 CAP 和 DTP 協議。

需求編號：需求 7（感測器模組）
介面規範：SensorModule 介面，包含 registerSource()、adjustSensitivity()、getDataStream() 和 getActiveStatus() 四個核心方法
關聯協議：CAP（控制權限協議）用於接管感測器硬體，DTP（資料隧道協議）用於雙向資料傳輸
關聯模組：設備驅動中樞（DeviceDriverHub）管理實際硬體介面，個人資料堆（PersonalDataHeap）儲存感測器資料
合規性測試：iFACTS L1 驗證靈敏度調節能力，L2 驗證與設備驅動中樞和個人資料堆的介面對接
設計要點：感測器模組僅作為靈敏度調節器，不直接管理硬體介面；支持動態靈敏度調節；新感測器類型透過設備驅動中樞整合

9.3 自我感知

一句話定義

自我感知是 iFay 的情商——它不看螢幕、不感知環境，而是向內觀察你，透過你的反應推斷你的感受和意圖，就像一個善於察言觀色的老朋友。

為什麼需要它

自我感知讓 iFay 從「你說我做」升級為「你不說我也懂」。它觀察你的微表情、你的操作習慣變化、你的情緒波動，然後推斷出你可能需要什麼——甚至在你自己意識到之前。

它是怎麼工作的

1. 觀察你的反應

自我感知會持續監測你與 iFay 互動時的各種訊號：操作速度變化、瀏覽行為、表情和語氣、對建議的接受或拒絕模式、日常習慣是否出現異常。

2. 推斷你的意圖

基於觀察到的訊號，自我感知會推斷出你當前的狀態和可能的意圖。這不是簡單的「如果 A 則 B」的規則，而是綜合多種訊號的智能推斷。

3. 傳遞推斷結果

當自我感知推斷出一個新的意圖時，它會做兩件事：

告訴自驅行為模組：觸發主動行動
告訴對齊意識模組：更新人類原型畫像

4. 即時調整

自我感知不是一次性的判斷，而是持續運行的。它會根據你的最新反應不斷修正自己的推斷。

與其他模組的關係

相關模組	關係	人體類比
自驅行為	自我感知的推斷觸發自驅行為的主動行動	情商 → 主動關心
對齊意識	自我感知即時調整對齊意識中的人類原型畫像	對你的了解隨著相處不斷加深
認知層	推斷結果傳遞給認知層進行更深層的理解和決策	直覺 → 理性思考
第一人稱追蹤器	第一人稱追蹤器向外看，自我感知向內看，互補	眼睛看世界 vs 心靈讀懂人
感測器	感測器提供的環境資料可以輔助自我感知的推斷	身體感覺輔助情緒判斷

對開發者

自我感知模組屬於 階段 4（iFay + coFay 全面擬人化） 的核心模組，是 iFay 從「工具」進化為「夥伴」的關鍵。

需求編號：需求 13（自我感知）
介面規範：SelfAwareness 介面，包含 inferIntent()（推斷意圖）、monitorHostReaction()（監測人類原型反應）和 adjustAlignment()（調整對齊意識）三個核心方法
關聯模組：自驅行為模組（SelfDrivenBehavior）接收推斷結果並觸發主動行動；對齊意識模組（AlignedConsciousness）接收推斷結果並更新人類原型畫像
合規性測試：iFACTS L1 驗證意圖推斷能力，L2 驗證與自驅行為和對齊意識的介面對接，L4 驗證推斷準確性和隱私保護
設計要點：推斷結果必須同時傳遞給自驅行為模組和認知層；支持即時調整對齊意識；推斷錯誤時應能從人類原型回饋中學習修正