К новостям

Ка­чес­тво от­ве­тов Chat GPT сни­зилось

31.07.2023

На­цио­наль­ный центр раз­ви­тия ИИ при Пра­витель­стве РФ под­твер­дил, что за пос­лед­нее вре­мя Chat GPT "пог­лу­пел". До это­го Стэн­форд­ский уни­вер­си­тет опуб­ли­ковал ре­зуль­та­ты ис­сле­дова­ния, из ко­торо­го сле­дует, что ка­чес­тво от­ве­тов от ге­нера­тив­но­го ИИ сни­зилось.

Сергей Наквасин, директор национального центра развития искусственного интеллекта (ИИ) при Правительстве РФ сообщил: "На прошлой неделе вышло знаковое исследование Стэнфордского университета, из которого следует, что Chat GPT потупел за последние три месяца. Правительство РФ поручило нам это перепроверить. Мы провели тестовые испытания по той же методологии, что и исследователи в Стэнфорде, и подтверждаем этот тезис".

По мнению Сергея Наквасина, из-за добавления новых модальностей, ИИ, с одной стороны, способен выполнять сложные задачи, но при решении простых качество ответов снижается. "Есть ощущение, что во второй половине года мы массово столкнемся с этой проблемой, и возникнет эффект от разочарования от новых технологий", - считает он.

Согласно данным исследования, которое провели сотрудники Стэнфордского университета, точность ответов чат-ботa GPT-4: нa математические запросы упала с 97,6% дo 2,4% (с 488 дo 12 верных ответов); нa задания сгенерировать компьютерный код уменьшилась c 52% дo 10%; нa графические загадки повысилась с 24,6% дo 27,4%.

Никита Куликов, генеральный директор автономной некоммерческой организации "Право Роботов", объяснил, что алгоритмы принятия решений для ИИ разработчики могут корректировать, отключать, заменять на новые, еще не до конца обученные, поэтому, как и любая программа, которой отключили базу данных, ИИ может внезапно прекратить давать верные для пользователей ответы.

"Но это не означает, что в моменте ИИ поглупел - скорее всего, алгоритмы и базы данных хранятся на серверах у разработчиков, а простые пользователи, как и специалисты Национального центра развития искусственного интеллекта при Правительстве РФ, видят только то, что доступно широкой общественности. Теперь надо будет работать с такой новой итерацией Chat GPT", - считает Никита Куликов.

"Ситуация очень похоже на то, что разработчики Chat GPT решили "законсервировать" уже порядком "поумневшую" версию ИИ, который получил взрывную популярность на волне хайпа и за несколько месяцев сделал гигантский скачок в обучении благодаря притоку миллионов новых пользователей. Разработчики решили оперативно обучить новую версию Chat GPT, причем с использованием еще сохранившегося интереса со стороны пользователей", - добавил глава "Право Роботов".

Алексей Сергеев, руководитель практики машинное обучение и искусственный интеллект ООО "АксТим" (Axenix, до весны 2022 г. было российским подразделением глобальной компании Accenture) считает, что по совокупности тестов сложно дать достоверную оценку и тем более охарактеризовать полученные в исследовании результаты как подтверждение деградации моделей.

"Не уверен, что функциональность проверки на простые числа отдельно заложена в упомянутых сервисах и, если верить тестовой выборке (доступна по ссылке в исследовании), то модели проверяли исключительно на простых числах. В таком случае верным выводом из результатов теста будет то, что модели стали реже отвечать "согласием", а не "модели стали хуже считать". Вероятно, поведение моделей изменили, и, в случае "неуверенности" в достоверности ответа она теперь склоняется к отрицанию, чем согласию", - прокомментировал Алексей Сергеев.

По его словам, в ответах на "чувствительные" вопросы модели стали чаще избегать ответа на провокационные вопросы, не объясняя причины. Это также свидетельствует об изменениях в поведении, этических ограничениях, а не способностях к рассуждениям на заданную тему.

Что касается задач программирования, Алексей Сергеев объясняет, что в исследовании метрикой оценки качества была "исполняемость" кода (то есть возможность запустить сгенерированный код как есть, и сразу получить результат), а не оценка его правильности. "Мы видим что ответы моделей стали включать дополнительные символы, возможно, для поддержки форматированного отображения кода (вместо отображения кода в виде обычного текста) в веб-версии Chat GPT. Это элемент эргономики, удобства использования, который был засчитан исследователями как ошибки моделей, что не совсем справедливо характеризует именно способности моделей", - добавил он.

Партнер и директор по развитию ООО "Инновации в управлении кадрами" (HRlink) Дмитрий Махлин отметил, что как пользователь он не заметил снижения скорости и качества ответов ChatGPT. "Инструмент по-прежнему можно эффективно использовать для подготовки маркетинговых материалов, продающих писем на английском языке и многих других задач, связанных с выходом бизнеса на иностранные рынки", - полагает он.

Отвечая на вопрос, каково будущее генеративного ИИ, Дмитрий Махлин отметил, что мир будет и дальше уходить от России на пути развития искусственного интеллекта: "Мы находимся в точке дефицита необходимых базовых технологий и кадров для работы с большими данными и "умными" технологиями. Поэтому шанса догнать лидеров в этой отрасли - США и Китай - на этом историческом промежутке у нас, к сожалению, нет. Те продукты с искусственным интеллектом, которые разрабатывают российские ИТ-гиганты - аналоги Chat GPT или популярные голосовые помощники - пока только развиваются".

По мнению Дмитрия Махлина, даже те страны, которые не являются лидерами в индустрии - Индия, ОАЭ - уже ушли вперед, в том числе, благодаря доступу к глобальным базам данных, которые позволяют обучать нейросети значительно быстрее и эффективнее.

Ка­чес­тво от­ве­тов Chat GPT сни­зилось
31.07.2023