В отчете представлено исследование GPT-4 по широкому спектру задач и областей, предоставляющее подтверждающие доказательства утверждения о том, что возможности этой модели во многих из них сопоставимы с человеческим уровнем.

Основное содержание:
GPT-4 демонстрирует искоры сильного искусственного интеллекта. Это подтверждается его основными умственными способностями (такими как рассуждение, креативность и дедукция), кругом тем, в которых он приобрел опыт (таких как литература, медицина и программирование), и разнообразием задач, которые он способен выполнять (например, играть в игры, использовать инструменты, объяснять темы).
Некоторые из областей, в которых GPT-4 следует усовершенствовать, включают:
- Калибровка достоверности: GPT-4 одновременно выдумывает факты, которые не фигурировали в его обучающих данных, а также демонстрирует несоответствия между сгенерированным контентом и подсказкой, что было названо галлюцинацией открытого домена.
- Долговременная память: Контекст модели очень ограничен, она работает в режиме “без сохранения состояния”, и не существует очевидного способа обучить модель новым фактам.
- Непрерывное обучение: модели не хватает способности обновляться или адаптироваться к изменяющейся среде.
- Персонализация: Некоторые приложения требуют, чтобы модель была адаптирована к конкретной организации или конечному пользователю. Системе может потребоваться получить знания о работе организации или предпочтениях отдельного человека.
- Планирование и концептуальные скачки: Модель демонстрирует трудности при выполнении задач, требующих заблаговременного планирования или “Эврики”, представляющей собой прерывистый концептуальный скачок в продвижении к завершению задачи.
- Прозрачность, интерпретируемость и непротиворечивость: Модель не только галлюцинирует, выдумывает факты и создает противоречивый контент, но, похоже, у GPT-4 нет способа проверить, согласуется ли контент, который она генерирует, с данными обучения или является самосогласованным.
- Когнитивные ошибки и иррациональность: Модель, по-видимому, демонстрирует некоторые ограничения человеческих знаний и рассуждений, такие как когнитивные предубеждения и иррациональность, а также статистические ошибки.
- Проблемы, связанные с чувствительностью к вводимым данным: Ответы модели могут быть очень чувствительны к деталям оформления или формулировки подсказок и их последовательности в сеансе.