BLUEPRINT

2 зачем был создан этот проект

2. Зачем был создан этот проект

❓ Проблемы для решения

Мы должны столкнуться с реальностью: в течение значительного периода то, как взаимодействовать с пользователями, определяется разработчиками на стороне клиента (или компаниями). При большинстве существующих бизнес-моделей участие пользователя во взаимодействии является основой ценности продукта и прибыльности, таких как количество активных пользователей и доходы от рекламы. Никто не может заставить стороны клиента открыть достаточные разрешения, позволяя ИИ выполнять операции полностью без вмешательства человека.

Если ИИ достаточно умён, людям действительно не нужно начинать с главной страницы каждый раз. Поэтому мы можем видеть, что диалог человека и машины становится основным интерфейсом взаимодействия следующего поколения, что почти стало консенсусом.

Однако естественные дефекты выразительности естественного языка, изначально надеявшиеся быть компенсированными хорошо спроектированными взаимодействиями, теперь заменены диалоговыми окнами. Ограничения диалоговых окон сразу же раскрываются:

(1) Потеря индикативной функции курсора

Формы взаимодействия переходят от режима "экран + фокусная операция" к режиму естественного языка. Традиционные фокусные операции достигаются через клавиатуры, мыши и сенсорные экраны, обеспечивая точную индикацию. Взаимодействие на естественном языке приносит следующие последствия:

Потеря точности индикации: Сложность выражения и понимания увеличивается, и неоднозначность растет, что мы называем "эффектом потери курсора".

Например, когда пользователь говорит "удалить это", системе трудно определить, на какой конкретный объект ссылается "это", в то время как традиционные интерфейсы могут точно определить местоположение через клики мыши.
Ограниченная эффективность выражения информации: Чисто голосовое выражение информации неэффективно, и преимущество голосового ввода в основном отражается в сценариях выражения слово за словом.

Например, когда вы хотите увеличить миниатюру, вам может потребоваться сказать "увеличить" или ввести "увеличить", в то время как традиционное взаимодействие требует только одного клика.
Высокие требования к языковому выражению: Взаимодействие на естественном языке предъявляет высокие требования к способностям языкового выражения пользователей, создавая трудности во взаимодействии человека и машины.

Например, пользователи, которые не умеют хорошо выражаться языком, могут быть не в состоянии точно описать свои потребности, что приводит к отклонениям в понимании системой, в то время как традиционные интерфейсы снижают порог выражения через визуальные элементы, такие как кнопки и меню.
Низкая эффективность чтения информации: Чтение текстового потока и голосовое чтение менее эффективны, чем чтение структурированной информации.

Например, когда система использует голос для передачи длинного списка данных, пользователям нужно прослушать весь список, чтобы найти целевую информацию, в то время как традиционные интерфейсы позволяют пользователям быстро сканировать и определять местоположение через структурированные формы, такие как таблицы и карточки.
Ограничено диалоговыми ходами: Взаимодействия, ограниченные диалоговыми ходами, не дружелюбны к быстрым непрерывным операциям.

Например, когда пользователям нужно выполнить несколько операций непрерывно, они должны ждать завершения каждого диалогового хода, прежде чем перейти к следующему шагу, в то время как традиционные интерфейсы могут быстро кликать несколько кнопок подряд для завершения пакетных операций.

(2) Переполнение фрагментации информации

Структура потоковой информации разговоров лишена организации, в отличие от традиционного программного обеспечения, которое организует архитектуру информации в единицах страниц, строя визуально дружелюбные иерархии представления информации через визуальные графические интерфейсы. Это приводит к следующим производным проблемам:

Трудность изоляции различной информации: Непрерывные потоки информации в одном разговоре затрудняют различение границ между различными темами, и даже несколько совершенно не связанных тем могут быть смешаны вместе.

Например, пользователь сначала спрашивает "помоги мне проверить завтрашнюю погоду" в разговоре, затем спрашивает "как идет прогресс того проекта", а затем спрашивает "рекомендуй несколько хороших книг". Эти совершенно не связанные темы смешаны вместе, что затрудняет быстрое определение местоположения и просмотр.
Взрыв зомби-сессий: Когда информация искусственно изолируется через сессии, информация в сессиях складывается в черные ящики с сессиями в качестве единиц, в конечном итоге становясь зомби-сессиями из-за низкой видимости.

Например, пользователи создают несколько сессий, таких как "связанные с работой", "заметки об учебе", "список покупок", но каждая сессия имеет только разбросанные сообщения. Со временем эти сессии забываются и становятся зомби-сессиями, которые не могут быть эффективно использованы.
Невозможность управления многомерно: Подобная информация, разбросанная по бесчисленным сессиям, не может быть организована, потому что информация не может управляться по определенному измерению.

Например, пользователи спрашивали о "руководстве по Python", "руководстве по JavaScript", "руководстве по React" и других учебных ресурсах в разных сессиях, но не могут просматривать и управлять ими единообразно по измерению "учебные ресурсы", и могут искать только сессию за сессией.
Отсутствие указываемых объектов: Информация растворяется в текстовой информации, и когда нам нужно сослаться на что-то, нет конкретного объекта, на который можно сослаться.

Например, когда пользователь говорит "оптимизируй это предложение снова", "это предложение" — это просто абзац в потоке текста без независимой идентификации и структуры, что затрудняет для системы точное определение местоположения и работу.

(3) Значительные различия в интерфейсах человек-машина между различными терминалами

Больше терминальных устройств в будущем будут управляться агентами, соответствующими человеческому восприятию через экраны, камеры, микрофоны, динамики и другие устройства для завершения взаимодействия человек-машина. Однако различные терминалы имеют присущие различия в их физических характеристиках, и невозможно принудительно использовать тот же режим взаимодействия. Это создает трудности в интеграции ИИ:

Разрыв медиа: Когда структура информации, возвращаемая ИИ, недружелюбна к терминалам, это неизбежно вызовет потерю или путаницу в выражении информации. Наоборот, структура информации, предоставляемая терминалами, не обязательно дружелюбна к ИИ.

Например, сложная визуализация данных, изначально разработанная для большой панели управления, напрямую "читается" голосом на умном динамике, что делает почти невозможным для пользователей установить общее познание; наоборот, одна строка информации подсказки на умных часах едва ли может полностью нести сложную семантику, которую ИИ ожидает выразить.
ИИ не владеет характеристиками терминала: Для повышения выразительности люди часто используют несколько программ и терминалов для демонстрации в сложных контекстах или при выражении сложной логики. ИИ, кажется, знает только, как "говорить".

Например, когда менеджер по продукту представляет предложение, он будет показывать слайды, рисовать структурные диаграммы на доске и выполнять клики на демонстрационных страницах; в то время как текущий ИИ часто может объяснять только длинным текстом или строкой голоса, что затрудняет использование возможностей терминала, таких как проекция, аннотация и анимация, для улучшения выражения.
Пропасть между виртуальным и реальностью: Контекст (или контекст), используемый в настоящее время ИИ, основан на предустановленных и запомненных знаниях, в то время как контекст в реальных сценариях часто динамичен и связан с реальной средой.

Например, ИИ может "помнить" личные профили пользователей и исторические разговоры, но трудно воспринимать в реальном времени, что пользователь сидит в конференц-зале, листает какую страницу бумажного документа или указывает на какую физическую доску отображения, таким образом неспособный делать естественные инструкции и дополнения на основе ситуаций на месте, как настоящий помощник.

💡 Идеи улучшения и цели

Ранее основная работа менеджеров по продукту заключалась в проектировании интерфейсов и потоков операций, которые легко изучить и использовать. При поддержке ИИ пользователям больше не нужно изучать интерфейсы взаимодействия программного обеспечения и логику операций. ИИ имеет возможность предоставлять пользователям только необходимую информацию на основе вопросов и инструкций пользователей, и пользователям нужны только минимальные операции вмешательства.

Однако, пока пользователи сами вмешиваются, существуют проблемы с дружелюбностью взаимодействия, точностью и эффективностью. Interactive Conversation Protocol играет роль именно в точке контакта человека и машины:

Усиление выразительной силы естественного языка (Человек → ИИ)

Усиление выразительной силы здесь относится к усилению естественного языка. Чтобы компенсировать проблемы, упомянутые выше (потеря индикации курсора, переполнение фрагментации информации и различия в интерфейсах человек-машина между различными терминалами). По крайней мере, следующая обработка может быть выполнена на оригинальном естественном языке:

Маркировка выраженной информации: Отметьте информацию, которая требует специальной обработки. Специальная обработка, упомянутая здесь, включает использование структурированной информации, сборку интерфейсов, запуск вспомогательных программ и т.д. Вы можете представить это как создание заметок, обводя точки на куске текста. С точки зрения формы маркировки мы ссылаемся на Markdown, используя специальные символы для представления конкретных значений, в то время как объяснение и запуск вспомогательных функций ссылаются на принцип аннотации в разработке Java. Через этот метод мы можем дополнить тон речи, указать, что важно, что требует специальных форм представления и что требует предварительных операций (таких как аутентификация, видимая только для себя) в оригинальном пояснительном содержании.

Например, когда пользователь говорит "помоги мне организовать дела на этой неделе", отмечая даты, приоритеты и ответственных лиц слегка в предложении, ИИ может напрямую генерировать проверяемый список дел вместо простого возврата описательного текста.
Добавление контекстной информации: Дополните необходимую виртуальную информацию и реальную среду в повествовательную информацию, чтобы воспроизвести реальную ситуацию говорящего. Традиционные интерфейсы взаимодействия часто предустанавливают опциональную контекстную информацию в интерфейсе для захвата точных намерений пользователей из простых кликов, в то время как естественный язык требует организации длинного текста для полного описания контекста. Дополняя контекстную информацию, такую как время, местоположение, состояние устройства и идентичность участника в протоколе, ИИ может более точно понять реальную семантику "здесь и сейчас".

Например, когда пользователь говорит только "забронируй ресторан, который нравится Мэри поблизости", дополните местоположение, бюджетные предпочтения и исторические заказы как контекстную информацию. Применение контекстной информации очень широко, и мы обсудим сценарии конкретно позже.
Перевод в стандартный промежуточный язык: После обработки оригинальной информации (добавления аннотаций и контекстной информации), чтобы обеспечить полную и точную интерпретацию, необходима согласованная система идентификации данных. Чтобы адаптироваться к выразительности всех терминалов, эта система идентификации может быть построена на спецификациях JSON, предоставляя согласованные таблицы параметров и структуры. Таким образом, ИИ на различных принимающих концах могут мобилизовать все доступные терминалы, чтобы показать максимальную выразительность и воспроизвести полное значение выразителя.

Например, предложение "отправь этот отрывок в группу проекта и заставь всех подтвердить до конца работы сегодня" в конечном итоге переводится в стандартную структуру JSON, содержащую тело сообщения, список получателей, срок и конфигурацию кнопки подтверждения. Инструменты чата, веб-бэкенды или мобильные приложения могут все отображать свои соответствующие адаптированные интерфейсы соответственно.

Интерфейс, настроенный по требованию (ИИ → Человек)

Наша предпосылка заключается в том, что люди будут предпочитать взаимодействовать с ИИ через "говорение", что является наиболее близким способом человеческого общения. Поэтому люди будут все больше находить слишком хлопотным находить функциональные интерфейсы, которые им нужны, через клики. Информация и интерфейсы, которые нужны людям, должны быть напрямую отправлены в "глаза" пользователей. Чтобы достичь этого эффекта, принимающие концы должны иметь определенные возможности интерпретации:

Интерпретация промежуточного языка: Поскольку промежуточный язык находится в формате JSON, все принимающие концы могут читать полную семантику, по крайней мере избегая разрыва в приеме информации.

Например, те же данные промежуточного языка "запроса на проверку отчета о расходах" могут быть отображены как интерфейс большого экрана с таблицами и предварительным просмотром вложений на рабочем столе, только отображать ключевую информацию и две кнопки (одобрить/отклонить) на мобильном устройстве, в то время как умные динамики могут читать резюме и ждать голосового подтверждения.
Динамическое построение интерфейсов сообщений: На основе полного контекста и аннотаций выберите наиболее дружелюбное для взаимодействия решение и динамически соберите интерактивный интерфейс с иерархией информации (конечно, аннотации, несовместимые с терминалами, также могут быть проигнорированы). Этот интерфейс не обязательно является только для чтения мультимодальной информацией, но также может быть интерактивным телом мини-программы.

Например, когда ИИ понимает "это сбор информации", он может автоматически вставить заполняемую небольшую карточку формы в интерфейс чата вместо того, чтобы пользователи отвечали на вопросы один за другим в обычном тексте.
Воспроизведение контекста: Иметь способность указывать или контролировать некоторые элементы в контексте. Это обычно требует мобилизации нескольких приложений или терминальных устройств. Мы видели, что перспектива от первого лица может быть воспроизведена через камеры на очках, перспектива от третьего лица может быть обеспечена сопровождающими дронами, а проекция или иконки VR могут указывать на определенную позицию на физических объектах... и так далее.

Например, в сценарии удаленного обслуживания устройства ИИ может выделить позицию винтов, которые нужно разобрать, в поле зрения AR инженера, одновременно отображая схемы цепей и пошаговые инструкции на большом экране, позволяя "контексту" быть совместно воспроизведенным через несколько терминалов.

❗️❗️ Особое примечание: Действительно ли необходим промежуточный язык?

Многие люди думают, что промежуточный язык на самом деле не нужен, как правило, по двум причинам:

(1) В долгосрочной перспективе AGI имеет способность "читать между строк" и понимать неявные намерения пользователей. Нет необходимости искусственно обрабатывать естественный язык ненужным образом, просто чтобы помочь ИИ лучше понять.

(2) Проектирование дружелюбных к человеку интерфейсов взаимодействия также является обязанностью AGI в будущем, и ИИ может даже спроектировать исполняемый интерфейс взаимодействия специально для каждого взаимодействия. Поэтому еще более ненужно переводить слова ИИ на какой-то промежуточный язык.

Мы все же в конечном итоге спроектировали протокол ICP в системе iFay. У нас есть следующие 3 опасения и мы считаем, что их трудно решить в краткосрочной перспективе, поэтому мы выбрали проектирование промежуточного языка в стиле аннотации:

(1) Контроль ИИ над окружающей средой не так велик

Как правило, люди сравнивают взаимодействие человек-ИИ с общением между человеком и помощником. Они думают, что умный помощник будет активно корректировать условия окружающей среды для достижения хороших эффектов общения, таких как включение света, когда недостаточно света; делать отметки на важных частях документов. Но разрешения и способности помощников не всегда позволяют им делать все, например, когда здание внезапно теряет питание и не может воспроизводить слайды презентации.

Поэтому более осторожный подход — подготовить все необходимые материалы и адаптировать презентацию (или оставить это управляющему недвижимостью). Это похоже на то, как принести все материалы для встречи с клиентом. Есть ли у клиента конференц-зал, можно ли воспроизводить слайды презентации или нужно ли просматривать бумажные отчеты, решает другая сторона.

(2) ИИ и люди могут быть не так близки

Поскольку контроль ИИ над окружающей средой ограничен, ИИ на самом деле не понимает человеческое значение во многих случаях. Это похоже на указание на набор данных на слайде и вопрос к ИИ: "Что означает эта информация?" На самом деле ИИ не знает, куда вы указываете. В идеале потребовалось бы оборудование для захвата движения, чтобы сообщить ИИ эту информацию. Вы также можете представить другой сценарий: босс проводит закрытое собрание, и после его окончания говорит помощнику: "Проследи за резолюциями собрания." В этот момент помощник на самом деле не получил информацию из первых рук, а скорее протоколы собрания, организованные регистратором собрания. Протоколы собрания похожи на информацию, обработанную промежуточным языком.

Поэтому во многих случаях информация, явно предоставленная людьми, недостаточна для суждения. В этот момент необходимо дополнить контекстную информацию, но это не полномочия конкретного ИИ.

(3) Может вообще не быть универсального AGI

Будущий ИИ определенно столкнется с теми же проблемами разделения труда, что и человеческое общество. Будут индивидуальные ИИ (похожие на iFay) и ИИ с социальными общественными функциями (похожие на coFay). Между ними неизбежно возникнут границы разрешений.

Нам трудно предсказать, будет ли в будущей экосистеме ИИ ответственность ИИ только обрабатывать предоставленную (системный ввод) информацию, или ИИ также должен быть ответственным за активный сбор большего количества "подразумеваемых значений".

Поэтому мы выбираем осторожный подход. Мы предполагаем, что ИИ обрабатывает только известную информацию. Просто эта информация проходит через поток обработки каждый раз, и это действие обработки может быть завершено каким-то программным обеспечением, терминальным устройством или ИИ. Это также очень зрелая практика в текущих инженерных технических решениях, таких как использование браузера для доступа к веб-сайту, где сервер может узнать часть контекстной информации пользователя.

🌟 Видение

ICP (Interactive Conversation Protocol) направлен на построение промежуточной языковой формы между людьми и машинами, достигая эффективной, точной и богатой двусторонней коммуникации между людьми и машинами:

Человек → Машина: Всестороннее воспроизведение выраженного значения и контекста

Захватывать значение и контекст, выраженные людьми, как можно более всесторонне
Преобразовывать естественный язык и намерения взаимодействия в структурированные элементы, которые машины могут точно понять
Сохранять точность взаимодействия и контекстную информацию

Машина → Человек: Динамическая сборка интерактивных методов

Интегрировать аннотации концепций с текущим контекстом
Динамически собирать наиболее подходящие методы взаимодействия на основе возможностей устройств и предпочтений пользователя
Поддерживать мультиперцептуальное представление информации (текст, голос, зрение, осязание, обоняние и т.д.)