BLUEPRINT

9. 交互层 — 感知

交互层的感知子系统是 iFay 的"感官"——它让 iFay 能看到屏幕、感知环境、读懂你的意图，为后续的动作和认知提供信息输入。

9.1 第一人称追踪器

一句话定义

第一人称追踪器是 iFay 的眼睛和耳朵——它让 iFay 看到你看到的画面、听到你听到的声音，拥有和你一模一样的第一人称视角。

为什么需要它

想象一下，你请了一位助手帮你填写一份网页表单。如果这位助手是个盲人——看不到屏幕上的输入框、按钮和错误提示——他怎么帮你？

这就是没有第一人称追踪器的 iFay。

人类操作电脑和手机时，靠的是眼睛看屏幕、耳朵听提示音。iFay 也需要同样的能力。第一人称追踪器就是赋予 iFay 这种能力的模块——它让 iFay 像你一样看屏幕，而不是像程序员一样去读代码。

这里有一个关键区别：iFay 看到的是你肉眼看到的画面，而不是网页背后隐藏的代码（比如 HTML 标签、SEO 关键词这些你根本看不到的东西）。就像你看一本书，你看到的是文字和图片，而不是印刷厂的排版文件。iFay 也是如此——它优先用"视觉"去理解界面，而不是去解析结构化文档。

它在架构中的位置

iFay 四层架构
├── 社交层
├── 交互层          ← 第一人称追踪器在这里
│   ├── 感知（Sense）
│   │   ├── 👉 第一人称追踪器   ← 向外看，看屏幕
│   │   ├── 传感器             ← 感知环境
│   │   └── 自我感知           ← 向内看，读懂你
│   └── 动作（Action）
│       ├── 模拟操作
│       ├── 技能调用
│       └── 自驱行为
├── 认知层
└── 自我层

第一人称追踪器位于交互层的感知子系统中。如果把 iFay 比作一个人，交互层就是 iFay 与外部世界打交道的"身体"，而第一人称追踪器就是这个身体上的眼睛和耳朵。

它是怎么工作的

第一人称追踪器的工作方式很直觉——就像你自己看屏幕一样：

1. 看到画面 iFay 会捕获你屏幕上当前显示的内容——文字、图片、按钮、输入框、弹窗……所有你能看到的东西，iFay 都能看到。

2. 听到声音 如果界面有提示音、语音播报或视频声音，iFay 也能捕获到。

3. 实时追踪变化 这是最重要的部分。当 iFay 在屏幕上执行操作（比如点击一个按钮），它需要立刻看到操作的结果——页面跳转了吗？出现错误提示了吗？加载动画还在转吗？

就像你用鼠标点了"提交"按钮后，你的眼睛会自动盯着屏幕看结果。iFay 的第一人称追踪器做的是同样的事情：

追踪光标移动后的画面变化
追踪窗口切换后新暴露的区域
追踪页面动态更新（比如实时刷新的数据）

4. 手眼协调 第一人称追踪器和模拟操作模块是紧密配合的"搭档"——就像人的眼睛和手。眼睛看到按钮在哪里，手才能准确点击；手点击之后，眼睛再看结果。这种"看→做→再看"的循环，就是 iFay 的手眼协调能力。

5. 报告"看不见" 如果因为某些原因（比如屏幕被锁定、应用崩溃、权限不足），第一人称追踪器无法获取画面，它不会假装什么都没发生——它会老老实实地向 iFay 的认知层报告："我看不见了。"认知层收到报告后，会决定下一步怎么办（比如等待、重试或通知你）。

与其他模块的关系

相关模块	关系	人体类比
模拟操作	紧密耦合，手眼协调	眼睛 ↔ 手
认知层	报告感知状态（正常/降级/失败）	眼睛 → 大脑（"我看到了"或"我看不清"）
传感器	同属感知子系统，但分工不同：第一人称追踪器看屏幕，传感器感知环境	眼睛 vs 皮肤上的神经
自我感知	同属感知子系统，但方向不同：第一人称追踪器向外看，自我感知向内看	眼睛 vs 情商

场景故事

场景一：帮你填写政务网站的表单

你需要在一个老旧的政务网站上填写一份申请表。这个网站没有为 AI 做过任何适配——没有 API，没有结构化接口，只有一个普通的网页表单。

iFay 的第一人称追踪器"看到"了这个表单：姓名输入框、身份证号输入框、一个下拉菜单、一个验证码图片、一个蓝色的"提交"按钮。它把这些视觉信息传递给模拟操作模块，模拟操作模块就像你的手一样，逐个填写字段、选择选项、输入验证码、点击提交。

提交之后，第一人称追踪器立刻"看"结果——如果出现红色的错误提示"身份证号格式不正确"，它会捕获到这个变化，iFay 就知道需要修正并重新提交。

整个过程中，iFay 看到的和你看到的完全一样——它不需要知道这个网站的 HTML 代码长什么样。

场景二：实时监控股票行情

你让 iFay 帮你盯着一只股票的实时走势图。第一人称追踪器持续"看着"屏幕上的 K 线图和数字变化——价格从 152.30 跳到 153.10，成交量柱状图突然变高，MACD 指标出现金叉……

这些实时变化，第一人称追踪器都在持续追踪。当价格触及你设定的目标价时，iFay 会立刻通知你。就像你自己盯盘一样，只不过 iFay 不会走神、不会疲劳，可以 24 小时不间断地"看"。

对开发者

第一人称追踪器属于 阶段 1（模拟人类操作） 的核心模块，是 iFay 最早需要实现的部件之一。

需求编号：需求 4（第一人称追踪器）
接口规范：FirstPersonTracer 接口，包含 captureVisual()、captureAudio()、trackChanges() 和 getPerceptionStatus() 四个核心方法
关联协议：阶段 1 暂不依赖 CAP/DTP 协议，直接通过操作系统级别的屏幕捕获实现；阶段 2 起可通过 CAP 协议获取更深层的界面信息
合规性测试：iFACTS L1（单部件合规）验证视觉捕获能力，L2（接口合规）验证与模拟操作模块的手眼协调接口
设计要点：优先视觉感知而非结构化文档解析；感知失败必须上报认知层；与模拟操作模块形成闭环反馈

9.2 传感器

一句话定义

传感器是 iFay 的神经系统——它让 iFay 能感知周围环境的一切变化，从温度、位置到心率、光线，就像你身体里遍布全身的神经末梢。

为什么需要它

如果第一人称追踪器是 iFay 的眼睛和耳朵，那传感器就是 iFay 的整个神经网络。

想想你的身体：你不只靠眼睛和耳朵感知世界。你的皮肤能感受温度和触碰，你的内耳能感知平衡和加速度，你的身体能告诉你饿了、累了、冷了。这些感觉不是来自眼睛或耳朵，而是来自遍布全身的神经系统。

现在想想你的手机和智能手表：GPS 知道你在哪里，加速度计知道你在走路还是跑步，光线传感器知道你在室内还是室外，心率传感器知道你的心跳快不快。这些都是"传感器"——它们是设备的神经末梢。

iFay 的传感器模块，就是把所有这些设备上的传感器统一接入，让 iFay 拥有一个完整的神经系统。而且，这个神经系统是可以不断扩展的——未来出现任何新型传感器，都可以接入进来。

它是怎么工作的

传感器的工作方式可以用三个关键词概括：桥接、调节、扩展。

1. 桥接——连接设备上的传感器

你的手机有 GPS、陀螺仪、加速度计、光线传感器、气压计……你的智能手表有心率传感器、血氧传感器、皮肤温度传感器……你的智能家居有温度传感器、湿度传感器、门窗传感器……

传感器模块就像一个"翻译官"，把所有这些不同设备、不同类型的传感器数据，统一翻译成 iFay 能理解的格式。它基于 CAP（控制权限协议） 和 DTP（数据隧道协议） 来实现这种桥接。

2. 调节——动态灵敏度

你的神经系统有一个很聪明的特性：当你专注工作时，你几乎感觉不到椅子的触感；但当有人拍你肩膀时，你立刻就能感觉到。这就是灵敏度的动态调节。

iFay 的传感器也是如此。它不需要时时刻刻以最高精度采集所有传感器的数据——那样太浪费资源了。比如：

你在办公室安静工作时，GPS 不需要每秒更新一次位置
但当你在开车导航时，GPS 需要高频更新
你睡觉时，心率传感器可以降低采样频率
但当检测到心率异常时，立刻提高采样频率

传感器模块会根据当前的场景和需求，自动调节每个传感器的灵敏度。

3. 扩展——未来的传感器也能接入

今天的传感器是 GPS 和心率计，明天可能是脑电波传感器、空气质量传感器、甚至情绪识别传感器。传感器模块的设计是开放的——当新的传感器类型出现时，只需要通过设备驱动中枢注册新的驱动，传感器模块就能管理它的灵敏度，个人数据堆就能存储它的数据。

与其他模块的关系

相关模块	关系	人体类比
设备驱动中枢	传感器的实际硬件接口由设备驱动中枢管理	神经末梢 → 神经传导通路
个人数据堆	传感器采集的数据最终存储在个人数据堆中	感觉信号 → 记忆存储
第一人称追踪器	同属感知子系统，但分工不同：追踪器看屏幕，传感器感知物理环境	眼睛 vs 全身神经
自我感知	传感器提供环境数据，自我感知利用这些数据推断人类原型状态	神经系统提供感觉 → 大脑解读情绪
CAP / DTP 协议	传感器基于这两个协议实现数据桥接	神经信号的传输协议

场景故事

场景一：智能健康提醒

下午三点，你已经在电脑前坐了三个小时。iFay 通过你智能手表上的传感器数据发现：

加速度计：过去 3 小时几乎没有大幅运动（说明你一直坐着）
心率传感器：心率从正常的 72 bpm 升高到 85 bpm（可能是久坐导致的轻微不适）
皮肤温度传感器：手腕温度略有升高

传感器模块把这些数据汇总后传递给 iFay 的认知层。iFay 综合判断后，温和地提醒你："你已经坐了 3 个小时了，心率有点偏高，要不要站起来走走？我帮你泡杯茶的时间刚好够你活动一下。"

在这个过程中，传感器模块并没有"理解"这些数据意味着什么——它只是忠实地采集和传递。理解和判断是认知层的工作。但没有传感器提供的原始数据，认知层就是"巧妇难为无米之炊"。

场景二：无人机自主飞行

iFay 被部署在一架无人机上执行航拍任务。这架无人机上有多个传感器：

GPS：提供位置和高度信息
IMU（惯性测量单元）：提供加速度和角速度，用于姿态控制
摄像头：提供视觉信息（这部分由第一人称追踪器处理）
超声波/激光雷达：提供障碍物距离信息
气压计：提供精确的高度数据
风速传感器：提供当前风力信息

传感器模块把所有这些数据流统一接入。在平稳飞行时，IMU 的灵敏度可以适当降低；但当检测到突然的风速变化时，传感器模块立刻提高 IMU 和气压计的灵敏度，让 iFay 能更精确地控制无人机姿态，避免失控。

对开发者

传感器模块属于 阶段 2（直接接管客户端） 的核心模块，依赖 CAP 和 DTP 协议。

需求编号：需求 7（传感器模块）
接口规范：SensorModule 接口，包含 registerSource()、adjustSensitivity()、getDataStream() 和 getActiveStatus() 四个核心方法
关联协议：CAP（控制权限协议）用于接管传感器硬件，DTP（数据隧道协议）用于双向数据传输
关联模块：设备驱动中枢（DeviceDriverHub）管理实际硬件接口，个人数据堆（PersonalDataHeap）存储传感器数据
合规性测试：iFACTS L1 验证灵敏度调节能力，L2 验证与设备驱动中枢和个人数据堆的接口对接
设计要点：传感器模块仅作为灵敏度调节器，不直接管理硬件接口；支持动态灵敏度调节；新传感器类型通过设备驱动中枢集成

9.3 自我感知

一句话定义

自我感知是 iFay 的情商——它不看屏幕、不感知环境，而是向内观察你，通过你的反应推断你的感受和意图，就像一个善于察言观色的老朋友。

为什么需要它

iFay 的感知子系统有三个模块，各自看向不同的方向：

第一人称追踪器向外看——看屏幕上的内容
传感器感知环境——感受温度、位置、运动
自我感知向内看——观察你

为什么需要向内看？

想象两种助手。第一种助手，你说什么他做什么，像一台自动售货机——你按按钮，它出饮料。第二种助手，他注意到你今天说话语速比平时快、眉头微微皱着、午饭只吃了一半，于是他主动把下午的会议推迟了半小时，给你倒了杯热水，把你最喜欢的轻音乐打开了。

第一种是没有自我感知的 iFay——一个听命行事的机器人。第二种是有自我感知的 iFay——一个懂你的伙伴。

自我感知让 iFay 从"你说我做"升级为"你不说我也懂"。它观察你的微表情、你的操作习惯变化、你的情绪波动，然后推断出你可能需要什么——甚至在你自己意识到之前。

这就是自动售货机和贴心朋友之间的区别。

它是怎么工作的

自我感知的工作方式，就像一个和你相处多年的老朋友读懂你的过程：

1. 观察你的反应

自我感知会持续监测你与 iFay 交互时的各种信号：

你的操作速度变化（突然操作变快可能是着急，变慢可能是犹豫）
你的浏览行为（在某段文字上停留很久可能是感兴趣，快速滑过可能是不感兴趣）
你的表情和语气（如果设备有摄像头和麦克风）
你对 iFay 建议的接受或拒绝模式
你的日常习惯是否出现异常

2. 推断你的意图

基于观察到的信号，自我感知会推断出你当前的状态和可能的意图。这不是简单的"如果 A 则 B"的规则，而是综合多种信号的智能推断。

比如：你在看一篇关于机器学习的文章，滚动速度在某一段明显变慢，还回滚了两次——自我感知推断你对这个段落特别感兴趣，可能想深入了解。

3. 传递推断结果

当自我感知推断出一个新的意图时，它会做两件事：

告诉自驱行为模块："人类原型可能对这个话题感兴趣，要不要主动找相关资料？"自驱行为模块收到后，可能会自动去搜索相关文章。
告诉对齐意识模块："人类原型对机器学习领域表现出兴趣，更新一下人类原型画像。"对齐意识模块收到后，会把"对机器学习感兴趣"加入你的个人画像，让 iFay 以后的行为更贴合你。

4. 实时调整

自我感知不是一次性的判断，而是持续运行的。它会根据你的最新反应不断修正自己的推断。如果它推断错了（比如你拒绝了它基于推断提供的建议），它会学习并调整。

与其他模块的关系

相关模块	关系	人体类比
自驱行为	自我感知的推断触发自驱行为的主动行动	情商 → 主动关心（"你看起来累了，我帮你……"）
对齐意识	自我感知实时调整对齐意识中的人类原型画像	对你的了解随着相处不断加深
认知层	推断结果传递给认知层进行更深层的理解和决策	直觉 → 理性思考
第一人称追踪器	第一人称追踪器向外看，自我感知向内看，互补	眼睛看世界 vs 心灵读懂人
传感器	传感器提供的环境数据可以辅助自我感知的推断	身体感觉辅助情绪判断（比如心跳加速 → 可能紧张）

场景故事

场景一：你在读文章，iFay 主动找资料

周末下午，你在平板上浏览一篇关于"可持续建筑设计"的长文。自我感知注意到：

你在前半部分快速滑动（不太感兴趣）
但到了"被动式房屋节能技术"这一节，你的滚动速度明显变慢
你还回滚了一次，重新看了一张图表
你在这一段停留了将近两分钟

自我感知推断：你对"被动式房屋节能技术"这个话题特别感兴趣。

它把这个推断传递给自驱行为模块。自驱行为模块主动搜索了几篇相关的深度文章和一个 YouTube 视频教程，悄悄放在你的阅读列表里。当你读完这篇文章时，iFay 轻轻提示："我找到了几篇关于被动式房屋的深度资料，要看看吗？"

你没有说过"帮我找资料"，但 iFay 已经做好了。

场景二：视频会议中的贴心助手

你正在参加一个视频会议。自我感知通过摄像头捕捉到你的面部微表情变化：

会议前 20 分钟，你表情放松，偶尔点头
当某位同事开始讨论项目预算削减时，你的眉头微微皱起，嘴角略微下拉
你的身体姿势从放松变为前倾，手指开始无意识地敲桌面

自我感知推断：你对当前讨论的话题感到不舒服，可能是不同意预算削减方案，或者这个话题让你有压力。

它把这个推断传递给自驱行为模块。自驱行为模块悄悄准备了两件事：

一份你之前做过的项目预算分析报告（以防你需要用数据反驳）
一条礼貌的借口消息草稿（"抱歉，我有个紧急电话需要接"），以防你想暂时离开

这些都静静地准备好了，不会打扰你。只有当你需要时，iFay 才会呈现给你。

对开发者

自我感知模块属于 阶段 4（iFay + coFay 全面拟人化） 的核心模块，是 iFay 从"工具"进化为"伙伴"的关键。

需求编号：需求 13（自我感知）
接口规范：SelfAwareness 接口，包含 inferIntent()（推断意图）、monitorHostReaction()（监测人类原型反应）和 adjustAlignment()（调整对齐意识）三个核心方法
关联模块：自驱行为模块（SelfDrivenBehavior）接收推断结果并触发主动行动；对齐意识模块（AlignedConsciousness）接收推断结果并更新人类原型画像
关联协议：无直接协议依赖，但可利用传感器模块（通过 CAP/DTP）获取辅助数据（如心率、面部表情）
合规性测试：iFACTS L1 验证意图推断能力，L2 验证与自驱行为和对齐意识的接口对接，L4 验证推断准确性和隐私保护
设计要点：推断结果必须同时传递给自驱行为模块和认知层；支持实时调整对齐意识；推断错误时应能从人类原型反馈中学习修正