Исследование: Новейшие модели ChatGPT чаще допускают ошибки, чем старые версии

Просмотров 5 Комментарии 0

Новейшие версии нейросети ChatGPT, такие как o3 и o4-mini, демонстрируют вдвое более высокую склонность к выдаче недостоверной информации по сравнению с предыдущими, менее продвинутыми моделями. Таковы результаты исследования, проведенного OpenAI.

Под «галлюцинациями» в контексте ИИ понимают ситуации, когда нейросеть генерирует ответы, не соответствующие реальности, при этом убежденно представляя их как истинные. В ходе тестирования PersonQA, оценивающего знания ChatGPT о людях, модель o3 допускала ошибки в 33% случаев, а o4-mini – в 43%. Для сравнения, у более ранней версии o3-mini этот показатель составлял менее 15%.

Другой тест, Transluce, проведенный независимым экспертом, показал, что модель o3 склонна к вымыслу относительно своих действий. Например, в ответ на запрос ИИ заявил, что выполнял программный код на Apple MacBook Pro 2021 «вне ChatGPT» и скопировал цифры в ответ. Однако фактически у алгоритма не было таких возможностей.

Одним из способов снижения галлюцинаций является предоставление ИИ доступа к веб-поиску, где можно получить более надежную информацию. Этот подход оказался эффективным для модели o4, не обладающей способностью к рассуждению, поэтому разработчики надеются на его эффективность и для более продвинутых версий искусственного интеллекта.