Frog Proger 08 апреля 2024

🤖🛠️ 4 полезных инструмента для работы с ИИ: RAGFlow, The Pipe, UFO и SWE-agent

В этой статье мы рассмотрим 4 ИИ-инструмента, которые расширяют возможности разработчика: от платформ для работы с документами до агентов, способных исправлять ошибки в коде.
🤖🛠️ 4 полезных инструмента для работы с ИИ: RAGFlow, The Pipe, UFO и SWE-agent

RAGFlow

RAGFlow – комплексная RAG-платформа для вопросно-ответного взаимодействия с документами. Предлагает автоматизированный процесс создания RAG-системы, которая одинаково подходит как для личного использования, так и для нужд крупного бизнеса. Основные возможности:

  • Извлечение знаний из неструктурированных данных на основе глубокого понимания документов.
  • Умение находить иголку в стоге сена из практически неограниченного количества токенов.
  • Шаблонная фрагментация.
  • Цитаты со ссылками на источник и сниженный уровень галлюцинаций.
  • Визуализация фрагментации текста для возможности человеческого вмешательства.
  • Поддержка Word, слайдов, Excel, txt, изображений, сканированных копий, структурированных данных, веб-страниц и многих других форматов.
  • API для бесшовной интеграции с бизнес-приложениями.
Архитектура RAGFlow
Архитектура RAGFlow
🤖✍️ Библиотека нейротекста
Все самое полезное про ИИ-помощников вроде ChatGPT, Gemini, Bing и других вы найдете на нашем телеграм-канале «Библиотека нейротекста»

The Pipe

The Pipe – это инструмент для преобразования различных данных (PDF, Word, CSV, изображений, веб-страниц, репозиториев GitHub и многих других) в формат, готовый для использования с мультимодальными языковыми моделями (например, GPT-4V). The Pipe построен на основе десятков тщательно разработанных эвристик для создания осмысленных текстовых и визуальных промптов из всевозможных документов, блокнотов Jupyter, презентаций, zip-архивов и т.д. Основные возможности:

  • Подготовка промптов из десятков типов сложных файлов.
  • Извлечение визуальных данных из сложных PDF, Markdown и других документов.
  • Оптимизация вывода для мультимодальных языковых моделей (текст + изображения).
  • Автоматическое сжатие промптов, превышающих заданное ограничение по количеству токенов.
  • Работа с файлами без расширений, потоками данных в памяти.
  • Обработка данных из директорий, репозиториев GitHub и с сайтов.
  • Многопоточность для ускорения обработки.
  • Возможность использовать API на thepi.pe или запускать локально (из Python или из командной строки).
The Pipe в действии
The Pipe в действии

UFO

UFO – двухагентная платформа, предназначенная для выполнения запросов пользователей на операционной системе Windows. Это первый инструмент такого рода. Фреймворк включает в себя:

  • AppAgent – агент, отвечающий за выбор нужного приложения для выполнения запроса пользователя. Он также может переключаться между разными приложениями, если запрос требует работы в нескольких программах.
  • ActAgent – агент, ответственный за последовательное выполнение действий внутри выбранного приложения до полного завершения задачи.
  • Модуль взаимодействия с интерфейсом (Control Interaction) – переводит команды от AppAgent и ActAgent во взаимодействие с пользовательским интерфейсом приложения. Он работает с элементами управления, совместимыми с API Windows UI Automation.
Схема взаимодействия агентов в UFO
Схема взаимодействия агентов в UFO

Ключевые возможности UFO:

  • Мультимодальное понимание пользовательского интерфейса приложений с помощью GPT-Vision, что позволяет выполнять разнообразные запросы.
  • Поддержка создания справочной документации для каждого приложения Windows, чтобы UFO мог лучше с ним взаимодействовать.
  • Интеграция технологии RAG для использования как офлайн-документации, так и онлайн-поиска в Bing для улучшения выполнения запросов.
  • Возможность сохранения траекторий выполнения задач в памяти UFO для повышения эффективности в будущем.
  • Поддержка разных языковых моделей для AgentApp и ActAgent, включая модели без визуального ввода, например, GPT-4.
  • Встроенные меры безопасности, которые запрашивают подтверждение пользователя перед выполнением действий с конфиденциальными данными.
  • Расширяемая архитектура, позволяющая добавлять новые функциональные возможности и типы управления для решения более сложных задач.
🤖🎨 Библиотека нейрокартинок
Все самое полезное про нейросети для генерации изображений вы найдете на нашем телеграм-канале «Библиотека нейрокартинок»

SWE-agent

SWE-agent – опенсорсная разработка специалистов Принстонского университета. Этот инструмент превращает LLM (например, GPT-4) в агента, который может исправлять ошибки и проблемы в реальных репозиториях на GitHub. По результатам теста SWE-bench SWE-agent решает 12,29% проблем, лишь немного уступая Devin, и значительно превосходит возможности RAG на основе GPT-4 и Claude 3 Opus. Такой уровень эффективности возможен благодаря новаторской концепции, на которой основан SWE-agent – интерфейсу агент-компьютер (ACI). Интерфейс обеспечивает LLM доступ в репозиторий, а также упрощает редактирование и выполнение кода. Основные особенности ACI:

  • Линтер – запускается при получении команды на редактирование, и не позволяет выполнить эту команду, если код синтаксически некорректен.
  • Специальный просмотрщик файлов – вместо простого вывода содержимого файла командой cat, он отображает только 100 строк за один раз, с командами для прокрутки вверх-вниз и поиска внутри файла.
  • Специальная команда поиска по всей директории – она лаконично перечисляет только те файлы, в которых есть совпадения, без лишней контекстной информации, чтобы не сбивать модель с толку.
  • Уведомление об успешном выполнении команды без вывода результата – если команда завершается без вывода данных, агент возвращает сообщение «Ваша команда выполнена успешно и завершилась без выходных данных».

Процесс работы SWE-агента состоит из двух этапов:

  • Сначала агент принимает запрос на исправление проблемы (issue) из репозитория GitHub, после чего возвращает запрос на вытягивание, который должен исправить баг.
  • На втором этапе (который на данный момент доступен только для issues, включенных в тестовый набор SWE-bench), SWE-агент оценивает предложенные изменения, чтобы убедиться, что они действительно решили проблему.
***

Статьи по теме

МЕРОПРИЯТИЯ

Комментарии

ВАКАНСИИ

Добавить вакансию
Продуктовый аналитик в поддержку
по итогам собеседования
Продуктовый аналитик
Екатеринбург, по итогам собеседования

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ