В Apple считают, что «рассуждающие» ИИ-модели создают иллюзию мышления

10.06.2025

Apple раскритиковала традиционные бенчмарки нейросетей на базе математических задач. В результате исследования компания выяснила: в них есть конкретный ответ, а способность «рассуждать» оценить сложно.

Исследователи работали с o1 и o3 от OpenAI, DeepSeek-R1, Claude 3.7 Sonnet и Gemini Flash Thinking в тестах на логику. В самых легких задачах они справлялись также или хуже моделей без режима «рассуждений», например, усложняли алгоритм решения и ошибались. В примерах средней сложности они чаще давали верный ответ.

На самом сложном уровне при достижении критического порога «рассуждающие» ИИ-модели начинали использовать меньше «токенов размышлений», а дальше и вообще не давали ответы, даже если лимит токенов не был исчерпан. Аналогичная ситуация происходила, когда им давали готовый алгоритм решения.

В Apple уверены, что модели создают иллюзию рассуждения, повторяя логические цепочки, которые усвоены ими в процессе обучения. Для общего искусственного интеллекта (AGI) нужны принципиально новые архитектуры, заявили в компании.

TagsApple ии исследования

Top Menu

Main Menu

В Apple считают, что «рассуждающие» ИИ-модели создают иллюзию мышления

Top Menu

Main Menu

В Apple считают, что «рассуждающие» ИИ-модели создают иллюзию мышления

Reddit подала иск к Anthropic

OpenAI запустила «рассуждающую» модель o3-pro

Что еще почитать