На этой неделе мы увидели дебют Claude 2, второй самой способной системы ИИ, доступной публике. На прошлой неделе Open AI выпустили Code Interpreter, пока самый сложный режим ИИ. На позапрошлой неделе некоторые ИИ получили возможность видеть изображения.
И всё же ни одна лаборатория ИИ не предоставила никакой пользовательской документации. Вместо этого единственные гайды представлены постами инфлюенсеров из Twitter. Такая документация — странный выбор для организаций, заверяющих, что они заинтересованы в правильном использовании их технологий.
Этот гайд субъективен, основан на моём опыте и сосредоточен на том, как выбрать верный инструмент для своих нужд. Отдельно я писал о видах занятий, которыми может заняться ИИ, что будет полезно прочитать первым.
Основные LLM
Говоря об ИИ, мы обычно имеем в виду Большие Языковые Модели, или LLM. Большая часть ИИ приложений работает на LLM, из которых есть всего несколько базисных моделей, созданных небольшой группой организаций. Каждая компания предоставляет прямой доступ к своим моделям с помощью чат-ботов: OpenAI работают над GPT-3.5 и GPT-4, которые поддерживают ChatGPT и Bing от Microsoft. У Google есть несколько моделей под лейблом Bard, а Anthropic работают над Claude и Claude 2.
Существуют и другие LLM. Pi, чат-бот от Infection, не любит заниматься чем-то помимо разговоров, и попытки заставить его работать — сплошное мучение. Мы также не будем говорить о моделях в открытом доступе, которые кто угодно может использовать и менять. Они по большей части недоступны или бесполезны для обычного пользователя, но имеют потенциал.
Вот краткая справочная таблица про состояние различных LLM:
Модель | Запускает код | Распознает изображения | Читает файлы | Доступ к интернету | Личность | Что это | Когда использовать |
ChatGPT/GPT-3.5 | Нет | Нейтральный, вежливый | Бесплатная версия ChatGPT, вышедшая в ноябре. Очень быстрая и довольно хорошо пишет и кодит. | Она быстрая, дешевая и способная, но другие модели всё же лучше. Кроме того, она не подключена к интернету, так что не используйте её в качестве поисковой системы. | |||
ChatGPT/GPT-4 | Скоро | Нет | Услужливый, немного нравоучительный | Сейчас доступна за оплату. Самая сильная LLM для большинства задач. | Лучше GPT-3.5 во всём (писательство, кодирование, обощение). К интернету доступа всё равно нет. | ||
ChatGPT/Code Interpreter/Плагины | Да | Да | Ограниченный | Услужливый, иногда остроумный | Даёт ChatGPT новые возможности. Плагины и просмотр веб-страниц не отполированы. Code Interpreter позволяет ИИ запускать код на Python и работать с файлами. | Code Interpreter отлично работает с различными видами данных и пока является самым впечатляющим применением ИИ. Плагины в основном не особо полезны. Просмотр веб-страниц обновляется. | |
Bing (использует GPT-4 в креативном и точном модах) | Да | Да | Да | Дружелюбный, но в то же время немного безумный | Подключен к интернету. Это GPT-4 с набором мощных фич. Самая странная модель. Creative mode даёт использовать GPT-4 и при этом бесплатен. | Обладает удивительно широким спектром возможностей, начиная работой в качестве browser compaion и заканчивая созданием искусства. Подключен к интернету. Имеет сильную, странную личность. | |
Bard | Да | Да | Да | Нет | Bard является названием ряда моделей, используемых Google. Пока мало что может предложить, но улучшается со временем. | На данный момент должен быть последним в выборе ИИ, но недавние обновления перспективны. Высокий уровень галлюцинаций. | |
Claude 2 | Да | Нет | Приятный, когда не ругает | Почти такой же сильный, как GPT-4, но построен так, чтобы быть более надежным и приятным в управлении. Имеет контекстное окно в 100к — достаточно памяти для книги. | Потрясающ для работы с большими документами благодаря увеличенному контекстному окну и возможности загрузки контента. Модель новая, так что пока неизвестно, как она работает в сравнении. |
Первые четыре (включая Bing) — это системы OpenAI. Есть два основных ИИ от OpenAI: 3.5 и 4. Новая вариация использует плагины для подключения к интернету и другим приложениям. Плагинов много, хотя их большая часть не особо полезна. Code Interpreter — очень мощная версия ChatGPT, которая может запускать программы на Python. Если вы никогда не платили за OpenAI, то вы использовали версию 3.5. Кроме вариаций плагинов и временно приостановленной версии GPT-4 с браузингом, ни одна из этих моделей не подключена к интернету. Bing от Microsoft использует смесь 4 и 3.5 и обычно является первой моделью семьи GPT-4, выпускающей новые фичи. Она может и создавать, и просматривать изображения, а также читать документы в браузере. Bing немного неудобный в пользовании, но мощный.
Google давно тестирует собственный ИИ под названием Bard, который основан на различных базисных моделях. Последняя такая модель называется PaLM 2. Она уже научилась выполнять небольшие коды и интерпретировать изображения.
Последняя компания, Anthropic, выпустила Claude 2. Claude наиболее известна очень большим контекстным окном — грубо говоря, памятью LLM. Claude может хранить в памяти почти целую книгу или много pdf-файлов. Она сделана так, чтобы реже совершать злоумышленные действия по сравнению с другими LLM.
Теперь перейдём к способам применения.
Писательство
Лучшие бесплатные варианты: Bing и Claude 2
Платный вариант: ChatGPT 4.0/ChatGPT с плагинами
GPT-4 всё ещё является самым подходящим инструментом для письма, который можно найти бесплатно в Bing (выберите creative mode) либо получить с помощью подписки на ChatGPT за 20 долларов в месяц. Claude является второй опцией, имеющей ограниченную бесплатную версию.
Эти инструменты также интегрируются напрямую в обычные офисные приложения. Microsoft Office будет включать в себя copilot на основе GPT, а Google Docs будет использовать предложения от Bard.
Вот как можно использовать ИИ для помощи в писательстве.
- Написание черновиков. Блоги, эссе, реклама, речи, лекции, сценарии, рассказы — это всё может сделать ИИ, получив соответствующий запрос. Создание запросов — не магия, но простые запросы дадут скучные результаты. С практикой системы ИИ становятся сильными писателями.
- Улучшение написанного. Вставьте свой текст в ИИ. Попросите его улучшить содержимое или предложить что-то, что подгонит текст под определённую аудиторию. Попросите его создать десять черновиков в совершенно разных стилях. Попросите его сделать содержимое более ясным или добавить примеры. Используйте его, чтобы найти вдохновение.
- Помощь с заданиями. ИИ может выполнять действия, на которых у вас нет времени. Используйте его для написания писем, создания шаблонов по продажам, получения новых шагов в бизнес-плане и так далее.
- Преодоление блока. Одна сложная задача легко может отвлечь от работы. ИИ способен дать вам толчок.
О чём стоит беспокоиться: ИИ легко может «галлюцинировать» и генерировать правдоподобные, но неверные факты. Необходимо проверять абсолютно всё. Особенно опасно запрашивать ссылки, цитаты и информацию из интернета (для моделей, которые к интернету не подключены). Bing галлюцинирует реже других моделей, потому что GPT-4 в целом более приземленный, а подключение к интернету значит, что Bing может достать соответствующие факты. Вот гайд по избежанию галлюцинаций, но от них невозможно полностью избавиться.
Учитывайте также, что ИИ не объясняется, а лишь создаёт такую видимость. Если спросить, почему он что-то написал, он даст подходящий, но полностью выдуманный ответ. Если попросить его объяснить свой мысленный процесс, он сгенерирует текст, лишь похожий на исследование своих действий. Это сильно усложняет понимание предвзятостей системы, хотя они точно существуют.
Создание изображений
Самый понятный вариант: Adobe Firefly
Вариант с открытым кодом: Stable Diffusion
Лучший бесплатный вариант: Bing или Bing Image Creator (использует DALL-E), Playground (позволяет использовать несколько моделей)
Самые качественные изображения: Midjourney
Есть четыре генератора изображений, доступных большинству людей:
- Stable Diffusion, у которого есть открытый код, и который можно использовать на любом мощном ПК. Необходимо научиться правильно формировать запросы, но потом он даст хороший результат. Он особенно полезен для комбинирования ИИ с изображениями из других источников. Вот гайд для Stable Diffusion (лучше прочитать обе части).
- DALL-E от OpenAI, который встроен в Bing (в creative mode) и Bing Image Creator. Это хорошая система, но она хуже Midjourney.
- Midjourney, лучшая система середины 2023. У неё самая низкая кривая обучаемости: просто введите
что-вы-хотите-увидеть --v 5.2
(--v 5.2
в конце необходимо, используется последняя модель) и получите прекрасный результат. Для Midjourney необходим Discord. Вот гайд по его использованию. - Adobe Firefly, встроенный в различную продукцию Adobe, но отстающий от DALL-E и Midjourney в плане качества. В отличие от последних двух моделей, для обучения которых использовались изображения из неизвестных источников, Adobe используют только изображения, на которые у него есть права.
Вот их сравнение (для каждого изображения подписана модель):
О чём стоит беспокоиться: Эти системы построены на моделях, имеющих встроенные предвзятости из-за обучения на данных из интернета (при запросе создать изображение предпринимателя, модель выдаст больше изображений с мужчинами, нежели с женщинами, если не уточнить и написать «женщина-предприниматель»). Можете использовать это, чтобы увидеть такие предвзятости в деле.
Эти системы также обучаются на существующих в интернете предметах искусства, что может быть сомнительным в плане легальности и этичности. Хотя технически права на созданные изображения принадлежат вам, юридические права остаются туманными.
Генерация идей
Лучший бесплатный вариант: Bing
Платный вариант: ChatGPT 4.0, но Bing, скорее всего, лучше из-за соединения с интернетом
Несмотря на (или скорее из-за) все ограничения и странности, ИИ идеален для генерирования идей. Обычно, чтобы иметь хорошие идеи, идей должно быть много, а ИИ хорош в объёме. С помощью правильных запросов его даже можно заставить быть очень креативным. Попросите Bing в креативе найти ваши любимые необычные техники генерирования идей, такие как Oblique Strategies Брайана Ино или тетрады Маршалла Маклюэна, и примените их.
Создание видео
Лучший инструмент анимации: D-iD для анимации лиц. Runway v2 для создания видео из текста
Лучшее клонирование голоса: ElevenLabs
Теперь очень легко создать видео с персонажем, полностью сгенерированным ИИ, читающим сценарий, полностью сгенерированный ИИ, говорящим созданным ИИ голосом и анимированным с помощью ИИ. Ещё он может создавать дипфейки людей, что можно увидеть по ссылке с моим дипфейком.
Недавно был выпущен первый коммерчески доступный инструмент для перевода текста в видео, Runway v2. Он создает короткие клипы в четыре секунды и является скорее демонстрацией возможностей, но на него стоит взглянуть, если вам интересно будущее данного направления.
О чём стоит беспокоиться: дипфейки — огромная проблема, и такие системы необходимо использовать этично.
Работа с документами и данными
Для данных (а также всяких странных идей с кодом): Code Interpreter
Для документов: Claude 2 для больших документов или нескольких документов за раз, Bing Sidebar для более мелких документов и вебстраниц (боковая панель, часть браузеров Edge, может видеть, что в вашем браузере, давая Bing возможность работать с данной информацией, хотя размер контекстного окна ограничен)
Я уже писал о Code Interpreter. Это режим GPT-4, позволяющий загружать файлы в ИИ, который будет писать и запускать код, и скачивать результат. С его помощью можно запускать программы, производить анализ данных и создавать различные файлы, вебстраницы и даже игры. Несмотря на начавшиеся после релиза споры о рисках, связанных с необученными людьми, многие тестирующие Code Interpreter эксперты впечатлены до такой степени, что одна статья предполагает, что понадобятся изменения в том, как мы обучаем data scientist’ов. Я также создал начальный запрос для настройки Code Interpreter на создание полезных визуализаций данных. Он предоставляет базовые принципы качественного дизайна графиков и напоминает о выводе различных видов файлом. Его можно найти здесь.
Для работы с текстом, и особенно с PDF, хорошим вариантом сейчас является Claude 2. Вы можете увидеть мой прошлый опыт, а также интересные запросы, здесь. Более того, вы можете допросить материал дополнительными вопросами: каковы доказательства для этого подхода? Какой вывод делают авторы? И так далее.
О чём стоит беспокоиться: эти системы всё равно галлюцинируют, но ограниченно. Необходимо проверять результаты для достижения точности.
Получение информации и обучение
Лучший бесплатный вариант: Bing
Платный вариант: обычно Bing лучше всего. Для детей Khamingo от Khan Academy предоставляет обучение на основе ИИ
Если вы собираетесь использовать ИИ в качестве поисковой системы — не стоит. Риск галлюцинации довольно высок, и большая часть ИИ всё равно не подключена к интернету. Тем не менее недавнее пилотное исследование даёт доказательства того, что при аккуратном использовании ИИ может предоставить более полезные ответы, нежели поисковая система. Bing лучше Google в качестве начальной точки, особенно в случаях, где поисковые системы не особо хороши, например в тех. поддержке, решении, где поесть, получении совета.
Более интересной возможностью является использование ИИ для помощи образованию. Я уже писал о том, как можно использовать ИИ для обучения и облегчения работы учителя, но ещё его можно использовать для самообучения. Вы можете попросить ИИ объяснить какую-либо концепцию и получить очень хороший результат. Этот запрос — хороший автоматический репетитор, и вы можете найти прямую ссылку для активации репетитора в ChatGPT здесь. Так как мы знаем, что ИИ может галлюцинировать, стоит (внимательно!) перепроверять любую важную информацию с помощью других источников.
Что дальше?
Помните два главных момента об ИИ:
- ИИ — это инструмент, но не всегда подходящий. Тщательно подумайте, подходит ли он для вашей цели, учитывая его недостатки.
- Вам стоит помнить о многих вопросах этики. ИИ можно использовать для нарушения авторских прав, мошенничества, кражи чужих работ или манипуляции. То, как построена определённая модель ИИ, и кому выгодно её использование, — это комплексные вопросы, которые пока не до конца ясны. В конечном счёте вы отвечаете за этичное использование этих инструментов.
Комментарии