RAGFlow
RAGFlow – комплексная RAG-платформа для вопросно-ответного взаимодействия с документами. Предлагает автоматизированный процесс создания RAG-системы, которая одинаково подходит как для личного использования, так и для нужд крупного бизнеса. Основные возможности:
- Извлечение знаний из неструктурированных данных на основе глубокого понимания документов.
- Умение находить иголку в стоге сена из практически неограниченного количества токенов.
- Шаблонная фрагментация.
- Цитаты со ссылками на источник и сниженный уровень галлюцинаций.
- Визуализация фрагментации текста для возможности человеческого вмешательства.
- Поддержка Word, слайдов, Excel, txt, изображений, сканированных копий, структурированных данных, веб-страниц и многих других форматов.
- API для бесшовной интеграции с бизнес-приложениями.
The Pipe
The Pipe – это инструмент для преобразования различных данных (PDF, Word, CSV, изображений, веб-страниц, репозиториев GitHub и многих других) в формат, готовый для использования с мультимодальными языковыми моделями (например, GPT-4V). The Pipe построен на основе десятков тщательно разработанных эвристик для создания осмысленных текстовых и визуальных промптов из всевозможных документов, блокнотов Jupyter, презентаций, zip-архивов и т.д. Основные возможности:
- Подготовка промптов из десятков типов сложных файлов.
- Извлечение визуальных данных из сложных PDF, Markdown и других документов.
- Оптимизация вывода для мультимодальных языковых моделей (текст + изображения).
- Автоматическое сжатие промптов, превышающих заданное ограничение по количеству токенов.
- Работа с файлами без расширений, потоками данных в памяти.
- Обработка данных из директорий, репозиториев GitHub и с сайтов.
- Многопоточность для ускорения обработки.
- Возможность использовать API на thepi.pe или запускать локально (из Python или из командной строки).
UFO
UFO – двухагентная платформа, предназначенная для выполнения запросов пользователей на операционной системе Windows. Это первый инструмент такого рода. Фреймворк включает в себя:
- AppAgent – агент, отвечающий за выбор нужного приложения для выполнения запроса пользователя. Он также может переключаться между разными приложениями, если запрос требует работы в нескольких программах.
- ActAgent – агент, ответственный за последовательное выполнение действий внутри выбранного приложения до полного завершения задачи.
- Модуль взаимодействия с интерфейсом (Control Interaction) – переводит команды от AppAgent и ActAgent во взаимодействие с пользовательским интерфейсом приложения. Он работает с элементами управления, совместимыми с API Windows UI Automation.
Ключевые возможности UFO:
- Мультимодальное понимание пользовательского интерфейса приложений с помощью GPT-Vision, что позволяет выполнять разнообразные запросы.
- Поддержка создания справочной документации для каждого приложения Windows, чтобы UFO мог лучше с ним взаимодействовать.
- Интеграция технологии RAG для использования как офлайн-документации, так и онлайн-поиска в Bing для улучшения выполнения запросов.
- Возможность сохранения траекторий выполнения задач в памяти UFO для повышения эффективности в будущем.
- Поддержка разных языковых моделей для AgentApp и ActAgent, включая модели без визуального ввода, например, GPT-4.
- Встроенные меры безопасности, которые запрашивают подтверждение пользователя перед выполнением действий с конфиденциальными данными.
- Расширяемая архитектура, позволяющая добавлять новые функциональные возможности и типы управления для решения более сложных задач.
SWE-agent
SWE-agent – опенсорсная разработка специалистов Принстонского университета. Этот инструмент превращает LLM (например, GPT-4) в агента, который может исправлять ошибки и проблемы в реальных репозиториях на GitHub. По результатам теста SWE-bench SWE-agent решает 12,29% проблем, лишь немного уступая Devin, и значительно превосходит возможности RAG на основе GPT-4 и Claude 3 Opus. Такой уровень эффективности возможен благодаря новаторской концепции, на которой основан SWE-agent – интерфейсу агент-компьютер (ACI). Интерфейс обеспечивает LLM доступ в репозиторий, а также упрощает редактирование и выполнение кода. Основные особенности ACI:
- Линтер – запускается при получении команды на редактирование, и не позволяет выполнить эту команду, если код синтаксически некорректен.
- Специальный просмотрщик файлов – вместо простого вывода содержимого файла командой cat, он отображает только 100 строк за один раз, с командами для прокрутки вверх-вниз и поиска внутри файла.
- Специальная команда поиска по всей директории – она лаконично перечисляет только те файлы, в которых есть совпадения, без лишней контекстной информации, чтобы не сбивать модель с толку.
- Уведомление об успешном выполнении команды без вывода результата – если команда завершается без вывода данных, агент возвращает сообщение «Ваша команда выполнена успешно и завершилась без выходных данных».
Процесс работы SWE-агента состоит из двух этапов:
- Сначала агент принимает запрос на исправление проблемы (issue) из репозитория GitHub, после чего возвращает запрос на вытягивание, который должен исправить баг.
- На втором этапе (который на данный момент доступен только для issues, включенных в тестовый набор SWE-bench), SWE-агент оценивает предложенные изменения, чтобы убедиться, что они действительно решили проблему.
Комментарии