9. 交互层 — 感知
交互层的感知子系统是 iFay 的"感官"——它让 iFay 能看到屏幕、感知环境、读懂你的意图,为后续的动作和认知提供信息输入。
9.1 第一人称追踪器
一句话定义
第一人称追踪器是 iFay 的眼睛和耳朵——它让 iFay 看到你看到的画面、听到你听到的声音,拥有和你一模一样的第一人称视角。
为什么需要它
想象一下,你请了一位助手帮你填写一份网页表单。如果这位助手是个盲人——看不到屏幕上的输入框、按钮和错误提示——他怎么帮你?
这就是没有第一人称追踪器的 iFay。
人类操作电脑和手机时,靠的是眼睛看屏幕、耳朵听提示音。iFay 也需要同样的能力。第一人称追踪器就是赋予 iFay 这种能力的模块——它让 iFay 像你一样看屏幕,而不是像程序员一样去读代码。
这里有一个关键区别:iFay 看到的是你肉眼看到的画面,而不是网页背后隐藏的代码(比如 HTML 标签、SEO 关键词这些你根本看不到的东西)。就像你看一本书,你看到的是文字和图片,而不是印刷厂的排版文件。iFay 也是如此——它优先用"视觉"去理解界面,而不是去解析结构化文档。
它在架构中的位置
iFay 四层架构
├── 社交层
├── 交互层 ← 第一人称追踪器在这里
│ ├── 感知(Sense)
│ │ ├── 👉 第一人称追踪器 ← 向外看,看屏幕
│ │ ├── 传感器 ← 感知环境
│ │ └── 自我感知 ← 向内看,读懂你
│ └── 动作(Action)
│ ├── 模拟操作
│ ├── 技能调用
│ └── 自驱行为
├── 认知层
└── 自我层
第一人称追踪器位于交互层的感知子系统中。如果把 iFay 比作一个人,交互层就是 iFay 与外部世界打交道的"身体",而第一人称追踪器就是这个身体上的眼睛和耳朵。
它是怎么工作的
第一人称追踪器的工作方式很直觉——就像你自己看屏幕一样:
1. 看到画面 iFay 会捕获你屏幕上当前显示的内容——文字、图片、按钮、输入框、弹窗……所有你能看到的东西,iFay 都能看到。
2. 听到声音 如果界面有提示音、语音播报或视频声音,iFay 也能捕获到。
3. 实时追踪变化 这是最重要的部分。当 iFay 在屏幕上执行操作(比如点击一个按钮),它需要立刻看到操作的结果——页面跳转了吗?出现错误提示了吗?加载动画还在转吗?
就像你用鼠标点了"提交"按钮后,你的眼睛会自动盯着屏幕看结果。iFay 的第一人称追踪器做的是同样的事情:
- 追踪光标移动后的画面变化
- 追踪窗口切换后新暴露的区域
- 追踪页面动态更新(比如实时刷新的数据)
4. 手眼协调 第一人称追踪器和模拟操作模块是紧密配合的"搭档"——就像人的眼睛和手。眼睛看到按钮在哪里,手才能准确点击;手点击之后,眼睛再看结果。这种"看→做→再看"的循环,就是 iFay 的手眼协调能力。
5. 报告"看不见" 如果因为某些原因(比如屏幕被锁定、应用崩溃、权限不足),第一人称追踪器无法获取画面,它不会假装什么都没发生——它会老老实实地向 iFay 的认知层报告:"我看不见了。"认知层收到报告后,会决定下一步怎么办(比如等待、重试或通知你)。
与其他模块的关系
| 相关模块 | 关系 | 人体类比 |
|---|---|---|
| 模拟操作 | 紧密耦合,手眼协调 | 眼睛 ↔ 手 |
| 认知层 | 报告感知状态(正常/降级/失败) | 眼睛 → 大脑("我看到了"或"我看不清") |
| 传感器 | 同属感知子系统,但分工不同:第一人称追踪器看屏幕,传感器感知环境 | 眼睛 vs 皮肤上的神经 |
| 自我感知 | 同属感知子系统,但方向不同:第一人称追踪器向外看,自我感知向内看 | 眼睛 vs 情商 |
场景故事
场景一:帮你填写政务网站的表单
你需要在一个老旧的政务网站上填写一份申请表。这个网站没有为 AI 做过任何适配——没有 API,没有结构化接口,只有一个普通的网页表单。
iFay 的第一人称追踪器"看到"了这个表单:姓名输入框、身份证号输入框、一个下拉菜单、一个验证码图片、一个蓝色的"提交"按钮。它把这些视觉信息传递给模拟操作模块,模拟操作模块就像你的手一样,逐个填写字段、选择选项、输入验证码、点击提交。
提交之后,第一人称追踪器立刻"看"结果——如果出现红色的错误提示"身份证号格式不正确",它会捕获到这个变化,iFay 就知道需要修正并重新提交。
整个过程中,iFay 看到的和你看到的完全一样——它不需要知道这个网站的 HTML 代码长什么样。
场景二:实时监控股票行情
你让 iFay 帮你盯着一只股票的实时走势图。第一人称追踪器持续"看着"屏幕上的 K 线图和数字变化——价格从 152.30 跳到 153.10,成交量柱状图突然变高,MACD 指标出现金叉……
这些实时变化,第一人称追踪器都在持续追踪。当价格触及你设定的目标价时,iFay 会立刻通知你。就像你自己盯盘一样,只不过 iFay 不会走神、不会疲劳,可以 24 小时不间断地"看"。
对开发者
第一人称追踪器属于 阶段 1(模拟人类操作) 的核心模块,是 iFay 最早需要实现的部件之一。
- 需求编号:需求 4(第一人称追踪器)
- 接口规范:
FirstPersonTracer接口,包含captureVisual()、captureAudio()、trackChanges()和getPerceptionStatus()四个核心方法 - 关联协议:阶段 1 暂不依赖 CAP/DTP 协议,直接通过操作系统级别的屏幕捕获实现;阶段 2 起可通过 CAP 协议获取更深层的界面信息
- 合规性测试:iFACTS L1(单部件合规)验证视觉捕获能力,L2(接口合规)验证与模拟操作模块的手眼协调接口
- 设计要点:优先视觉感知而非结构化文档解析;感知失败必须上报认知层;与模拟操作模块形成闭环反馈
9.2 传感器
一句话定义
传感器是 iFay 的神经系统——它让 iFay 能感知周围环境的一切变化,从温度、位置到心率、光线,就像你身体里遍布全身的神经末梢。
为什么需要它
如果第一人称追踪器是 iFay 的眼睛和耳朵,那传感器就是 iFay 的整个神经网络。
想想你的身体:你不只靠眼睛和耳朵感知世界。你的皮肤能感受温度和触碰,你的内耳能感知平衡和加速度,你的身体能告诉你饿了、累了、冷了。这些感觉不是来自眼睛或耳朵,而是来自遍布全身的神经系统。
现在想想你的手机和智能手表:GPS 知道你在哪里,加速度计知道你在走路还是跑步,光线传感器知道你在室内还是室外,心率传感器知道你的心跳快不快。这些都是"传感器"——它们是设备的神经末梢。
iFay 的传感器模块,就是把所有这些设备上的传感器统一接入,让 iFay 拥有一个完整的神经系统。而且,这个神经系统是可以不断扩展的——未来出现任何新型传感器,都可以接入进来。
它是怎么工作的
传感器的工作方式可以用三个关键词概括:桥接、调节、扩展。
1. 桥接——连接设备上的传感器
你的手机有 GPS、陀螺仪、加速度计、光线传感器、气压计……你的智能手表有心率传感器、血氧传感器、皮肤温度传感器……你的智能家居有温度传感器、湿度传感器、门窗传感器……
传感器模块就像一个"翻译官",把所有这些不同设备、不同类型的传感器数据,统一翻译成 iFay 能理解的格式。它基于 CAP(控制权限协议) 和 DTP(数据隧道协议) 来实现这种桥接。
2. 调节——动态灵敏度
你的神经系统有一个很聪明的特性:当你专注工作时,你几乎感觉不到椅子的触感;但当有人拍你肩膀时,你立刻就能感觉到。这就是灵敏度的动态调节。
iFay 的传感器也是如此。它不需要时时刻刻以最高精度采集所有传感器的数据——那样太浪费资源了。比如:
- 你在办公室安静工作时,GPS 不需要每秒更新一次位置
- 但当你在开车导航时,GPS 需要高频更新
- 你睡觉时,心率传感器可以降低采样频率
- 但当检测到心率异常时,立刻提高采样频率
传感器模块会根据当前的场景和需求,自动调节每个传感器的灵敏度。
3. 扩展——未来的传感器也能接入
今天的传感器是 GPS 和心率计,明天可能是脑电波传感器、空气质量传感器、甚至情绪识别传感器。传感器模块的设计是开放的——当新的传感器类型出现时,只需要通过设备驱动中枢注册新的驱动,传感器模块就能管理它的灵敏度,个人数据堆就能存储它的数据。
与其他模块的关系
| 相关模块 | 关系 | 人体类比 |
|---|---|---|
| 设备驱动中枢 | 传感器的实际硬件接口由设备驱动中枢管理 | 神经末梢 → 神经传导通路 |
| 个人数据堆 | 传感器采集的数据最终存储在个人数据堆中 | 感觉信号 → 记忆存储 |
| 第一人称追踪器 | 同属感知子系统,但分工不同:追踪器看屏幕,传感器感知物理环境 | 眼睛 vs 全身神经 |
| 自我感知 | 传感器提供环境数据,自我感知利用这些数据推断人类原型状态 | 神经系统提供感觉 → 大脑解读情绪 |
| CAP / DTP 协议 | 传感器基于这两个协议实现数据桥接 | 神经信号的传输协议 |
场景故事
场景一:智能健康提醒
下午三点,你已经在电脑前坐了三个小时。iFay 通过你智能手表上的传感器数据发现:
- 加速度计:过去 3 小时几乎没有大幅运动(说明你一直坐着)
- 心率传感器:心率从正常的 72 bpm 升高到 85 bpm(可能是久坐导致的轻微不适)
- 皮肤温度传感器:手腕温度略有升高
传感器模块把这些数据汇总后传递给 iFay 的认知层。iFay 综合判断后,温和地提醒你:"你已经坐了 3 个小时了,心率有点偏高,要不要站起来走走?我帮你泡杯茶的时间刚好够你活动一下。"
在这个过程中,传感器模块并没有"理解"这些数据意味着什么——它只是忠实地采集和传递。理解和判断是认知层的工作。但没有传感器提供的原始数据,认知层就是"巧妇难为无米之炊"。
场景二:无人机自主飞行
iFay 被部署在一架无人机上执行航拍任务。这架无人机上有多个传感器:
- GPS:提供位置和高度信息
- IMU(惯性测量单元):提供加速度和角速度,用于姿态控制
- 摄像头:提供视觉信息(这部分由第一人称追踪器处理)
- 超声波/激光雷达:提供障碍物距离信息
- 气压计:提供精确的高度数据
- 风速传感器:提供当前风力信息
传感器模块把所有这些数据流统一接入。在平稳飞行时,IMU 的灵敏度可以适当降低;但当检测到突然的风速变化时,传感器模块立刻提高 IMU 和气压计的灵敏度,让 iFay 能更精确地控制无人机姿态,避免失控。
对开发者
传感器模块属于 阶段 2(直接接管客户端) 的核心模块,依赖 CAP 和 DTP 协议。
- 需求编号:需求 7(传感器模块)
- 接口规范:
SensorModule接口,包含registerSource()、adjustSensitivity()、getDataStream()和getActiveStatus()四个核心方法 - 关联协议:CAP(控制权限协议)用于接管传感器硬件,DTP(数据隧道协议)用于双向数据传输
- 关联模块:设备驱动中枢(
DeviceDriverHub)管理实际硬件接口,个人数据堆(PersonalDataHeap)存储传感器数据 - 合规性测试:iFACTS L1 验证灵敏度调节能力,L2 验证与设备驱动中枢和个人数据堆的接口对接
- 设计要点:传感器模块仅作为灵敏度调节器,不直接管理硬件接口;支持动态灵敏度调节;新传感器类型通过设备驱动中枢集成
9.3 自我感知
一句话定义
自我感知是 iFay 的情商——它不看屏幕、不感知环境,而是向内观察你,通过你的反应推断你的感受和意图,就像一个善于察言观色的老朋友。
为什么需要它
iFay 的感知子系统有三个模块,各自看向不同的方向:
- 第一人称追踪器向外看——看屏幕上的内容
- 传感器感知环境——感受温度、位置、运动
- 自我感知向内看——观察你
为什么需要向内看?
想象两种助手。第一种助手,你说什么他做什么,像一台自动售货机——你按按钮,它出饮料。第二种助手,他注意到你今天说话语速比平时快、眉头微微皱着、午饭只吃了一半,于是他主动把下午的会议推迟了半小时,给你倒了杯热水,把你最喜欢的轻音乐打开了。
第一种是没有自我感知的 iFay——一个听命行事的机器人。 第二种是有自我感知的 iFay——一个懂你的伙伴。
自我感知让 iFay 从"你说我做"升级为"你不说我也懂"。它观察你的微表情、你的操作习惯变化、你的情绪波动,然后推断出你可能需要什么——甚至在你自己意识到之前。
这就是自动售货机和贴心朋友之间的区别。
它是怎么工作的
自我感知的工作方式,就像一个和你相处多年的老朋友读懂你的过程:
1. 观察你的反应
自我感知会持续监测你与 iFay 交互时的各种信号:
- 你的操作速度变化(突然操作变快可能是着急,变慢可能是犹豫)
- 你的浏览行为(在某段文字上停留很久可能是感兴趣,快速滑过可能是不感兴趣)
- 你的表情和语气(如果设备有摄像头和麦克风)
- 你对 iFay 建议的接受或拒绝模式
- 你的日常习惯是否出现异常
2. 推断你的意图
基于观察到的信号,自我感知会推断出你当前的状态和可能的意图。这不是简单的"如果 A 则 B"的规则,而是综合多种信号的智能推断。
比如:你在看一篇关于机器学习的文章,滚动速度在某一段明显变慢,还回滚了两次——自我感知推断你对这个段落特别感兴趣,可能想深入了解。
3. 传递推断结果
当自我感知推断出一个新的意图时,它会做两件事:
- 告诉自驱行为模块:"人类原型可能对这个话题感兴趣,要不要主动找相关资料?"自驱行为模块收到后,可能会自动去搜索相关文章。
- 告诉对齐意识模块:"人类原型对机器学习领域表现出兴趣,更新一下人类原型画像。"对齐意识模块收到后,会把"对机器学习感兴趣"加入你的个人画像,让 iFay 以后的行为更贴合你。
4. 实时调整
自我感知不是一次性的判断,而是持续运行的。它会根据你的最新反应不断修正自己的推断。如果它推断错了(比如你拒绝了它基于推断提供的建议),它会学习并调整。
与其他模块的关系
| 相关模块 | 关系 | 人体类比 |
|---|---|---|
| 自驱行为 | 自我感知的推断触发自驱行为的主动行动 | 情商 → 主动关心("你看起来累了,我帮你……") |
| 对齐意识 | 自我感知实时调整对齐意识中的人类原型画像 | 对你的了解随着相处不断加深 |
| 认知层 | 推断结果传递给认知层进行更深层的理解和决策 | 直觉 → 理性思考 |
| 第一人称追踪器 | 第一人称追踪器向外看,自我感知向内看,互补 | 眼睛看世界 vs 心灵读懂人 |
| 传感器 | 传感器提供的环境数据可以辅助自我感知的推断 | 身体感觉辅助情绪判断(比如心跳加速 → 可能紧张) |
场景故事
场景一:你在读文章,iFay 主动找资料
周末下午,你在平板上浏览一篇关于"可持续建筑设计"的长文。自我感知注意到:
- 你在前半部分快速滑动(不太感兴趣)
- 但到了"被动式房屋节能技术"这一节,你的滚动速度明显变慢
- 你还回滚了一次,重新看了一张图表
- 你在这一段停留了将近两分钟
自我感知推断:你对"被动式房屋节能技术"这个话题特别感兴趣。
它把这个推断传递给自驱行为模块。自驱行为模块主动搜索了几篇相关的深度文章和一个 YouTube 视频教程,悄悄放在你的阅读列表里。当你读完这篇文章时,iFay 轻轻提示:"我找到了几篇关于被动式房屋的深度资料,要看看吗?"
你没有说过"帮我找资料",但 iFay 已经做好了。
场景二:视频会议中的贴心助手
你正在参加一个视频会议。自我感知通过摄像头捕捉到你的面部微表情变化:
- 会议前 20 分钟,你表情放松,偶尔点头
- 当某位同事开始讨论项目预算削减时,你的眉头微微皱起,嘴角略微下拉
- 你的身体姿势从放松变为前倾,手指开始无意识地敲桌面
自我感知推断:你对当前讨论的话题感到不舒服,可能是不同意预算削减方案,或者这个话题让你有压力。
它把这个推断传递给自驱行为模块。自驱行为模块悄悄准备了两件事:
- 一份你之前做过的项目预算分析报告(以防你需要用数据反驳)
- 一条礼貌的借口消息草稿("抱歉,我有个紧急电话需要接"),以防你想暂时离开
这些都静静地准备好了,不会打扰你。只有当你需要时,iFay 才会呈现给你。
对开发者
自我感知模块属于 阶段 4(iFay + coFay 全面拟人化) 的核心模块,是 iFay 从"工具"进化为"伙伴"的关键。
- 需求编号:需求 13(自我感知)
- 接口规范:
SelfAwareness接口,包含inferIntent()(推断意图)、monitorHostReaction()(监测人类原型反应)和adjustAlignment()(调整对齐意识)三个核心方法 - 关联模块:自驱行为模块(
SelfDrivenBehavior)接收推断结果并触发主动行动;对齐意识模块(AlignedConsciousness)接收推断结果并更新人类原型画像 - 关联协议:无直接协议依赖,但可利用传感器模块(通过 CAP/DTP)获取辅助数据(如心率、面部表情)
- 合规性测试:iFACTS L1 验证意图推断能力,L2 验证与自驱行为和对齐意识的接口对接,L4 验证推断准确性和隐私保护
- 设计要点:推断结果必须同时传递给自驱行为模块和认知层;支持实时调整对齐意识;推断错误时应能从人类原型反馈中学习修正
