🤖 GPT-4 против людей: кто выйдет победителем? На что способна новая мультимодальная языковая модель
OpenAI представила GPT-4 – большую мультимодальную языковую модель, которая генерирует данные на основе текстовых и визуальных запросов. Разбираемся, в чем модель превосходит своих предшественников и как скоро заменит человека.
Разработчик ИИ-софта OpenAI, стоящий за созданием Dall-E и ChatGPT, не так давно представил миру GPT-4 – большую мультимодальную языковую модель, генерирующую данные на основе текстовых и визуальных запросов.
Новая технология теперь решает более сложные задачи, чем предыдущие модели GPT, демонстрируя высокую производительность, и способна превзойти человека во многих профессиональных сферах.
Этот набор алгоритмов машинного обучения может:
- Генерировать новую информацию.
- Обучаться самостоятельно. Сначала GPT проходит предварительную подготовку с использованием большого массива данных, затем идет период тонкой настройки, где модель можно настроить под конкретные задачи. После этого ИИ обучается сам на основе пользовательских запросов.
- Трансформировать и прогнозировать. Изучая контекст и взаимосвязь между данными, GPT отслеживают слова или токены в предложении и предсказывают следующее слово или токен.
GPT-4 является частично контролируемой моделью обучения ИИ и в корне отличается от других моделей, использующих полностью контролируемое обучение и размеченные данные. Мощность обработки GPT зависит от количества параметров модели: GPT-1 имело 0,12 миллиарда параметров, GPT-2 – 1,5 миллиарда, GPT-3 более 175 миллиардов, а вот точное количество параметров в GPT-4 неизвестно, но, по слухам, их полтриллиона.
Что нового в GPT-4
Одно из самых примечательных изменений в GPT-4 стало добавление другого типа входных данных, получаемых моделью. Стало возможно задавать ей не только текст, но и картинки. Но этот функционал пока находится в режиме тестирования. Теперь, по замыслу разработчиков, нейросеть будет способна связать картинку с текстовым запросом, сопоставить полученную информацию и выдать свой ответ. Также можно предоставить схему или график и попросить нейросеть проанализировать их с детальным описанием.
Идея не нова и методика работы с изображениями уже существовала и до выпуска GPT-4. Однако стоит отметить, что ее результаты по обработке визуальных запросов значительно превосходят предыдущие модели.
GPT-4 и код
Страх разработчиков по поводу того, что скоро их заменят роботы вполне обоснован. Уж очень быстро GPT-4 научилась программировать. Например, игру Ping-Pong она написала за минуту.
И с таким же успехом она определенно создаст любое несложное приложение в кратчайшие сроки.
И даже в дальнейшем, если при компиляции кода вы увидите ошибки, их можно скопипастить в новый входной запрос и потребовать модель все исправить. И та действительно их пофиксит за несколько итераций. Ну не чудо ли?
Насколько сильна новая модель?
По какой шкале оценивают сообразительность модели? Ранее для этого использовались бенчмарки (специальные тесты для определения уровня развития ИИ с ответами). Однако они не поспевают за развитием моделей нейросети и оценить реальную ситуацию с их помощью сейчас вряд ли возможно. Тем более что OpenAI не особенно-то и нужны такие тесты, ведь они позиционируют интеллект своей разработки равным человеческому уму.
Некоторые отрасли уже могут использовать модель в качестве полноценного ассистента-помощника (пока не автономного работника). Хотя уже известны случаи, утверждающие обратное.
GPT-4 работает на 24 языках мира, включая русский и, как мы уже говорили, поддерживает около 500 млрд параметров. Однако стоит отметить, что увеличенное количество параметров влечет за собой более медленную работу системы (надо же время на обсчет гигантских уравнений, генерирующих слова для каждого нового запроса). А это, в свою очередь, требует от оборудования больших вычислительных мощностей и внушительных расходов на его эксплуатацию. Кроме того, справедливости ради отметим, что, как и любая языковая модель, GPT-4 по-прежнему дает неправильные ответы и выдает код с ошибками, но она однозначно лучше предыдущей версии модели и вот почему:
- Способна принимать на вход изображения
- Может обрабатывать более длинные запросы. Анализирует, читает и генерирует до 25 000 слов.
- Бенчмарк по системе суждений, основанных на здравом смысле HellaSwag показывает, что GPT-4 уже достиг человеческого уровня рассуждений.
- Модель значительно лучше своего предшественника обрабатывает инструкции по программированию.
- Обладает высокой управляемостью. Теперь пользователи могут настроить поведение модели с помощью отдельного системного сообщения.
- GPT-4 ограничивает возможность вредоносных ответов и отказывается отвечать на запросы, связанные с запрещенным контентом. Например, он отклонит вопросы о синтезе опасных химических веществ и курении.
Как и GPT-3, GPT-4 ограничивается данными 2021 года, поэтому на более свежие запросы, он вам не ответит.
Когда можно будет использовать GPT-4?
Работа над моделью все еще продолжается, поэтому она не полностью доступна для широкой публики. В частности, функция обработки изображений находится в режиме ознакомления, использовать же текстовые возможности GPT-4 можно на 100%. На момент написания этой статьи есть два способа сделать это:
- ChatGPT. Платная подписка на ChatGPT Plus дает пользователям доступ к GPT-4.
- Bing. GPT-4 теперь встроена в чат-бот поисковой системы Bing от Microsoft, но и он имеет ограничения по использованию и не позволяет вводить изображения.
Кроме того, уже появился ряд компаний, объявивших об интеграции GPT-4 со своими приложениями: Duolingo, Morgan Stanley, Khan Academy, Stripe и CoCounsel.
В настоящее время модель GPT-4 не является бесплатной. Для того чтобы использовать премиум-версию ChatGPT, работающую на GPT-4, пользователю придется платить 20 долларов в месяц.
Новости вокруг многочисленных нейросетей каждый день удивляют нас все больше и больше. Ну посудите сами:
- В Эмиратах выставили на продажу книги от ChatGPT, в которых бот пишет про себя, учит на себе зарабатывать и рассказывает, как правильно собой пользоваться.
- Нейронка Rememory позволяет разговаривать с умершими. Она создаёт цифровую копию человека, полностью повторяющую речь, манеры, голос, характер и другие черты.
- RoomGPT сделает вам дизайн вашей квартиры без привлечения дизайнера. Достаточно лишь загрузить фото комнат, выбираем их тип и новый стиль и нейросеть выдаст вам невероятно большой перечень результатов.
Список можно продолжать долго, что говорит о том, что вчерашние фантастические рассказы становятся реальностью, а искусственный интеллект расползается по планете с невероятной скоростью. Всем удачи!
Хочу создавать нейронки и двигать научно-технический прогресс вперед. С чего начать?
Для начала вам понадобятся базовые концепции языка Python и знание математики. Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:
- подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
- углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
- узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
- освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.
Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.