
В Apple считают, что «рассуждающие» ИИ-модели создают иллюзию мышления
Apple раскритиковала традиционные бенчмарки нейросетей на базе математических задач. В результате исследования компания выяснила: в них есть конкретный ответ, а способность «рассуждать» оценить сложно.
Исследователи работали с o1 и o3 от OpenAI, DeepSeek-R1, Claude 3.7 Sonnet и Gemini Flash Thinking в тестах на логику. В самых легких задачах они справлялись также или хуже моделей без режима «рассуждений», например, усложняли алгоритм решения и ошибались. В примерах средней сложности они чаще давали верный ответ.
На самом сложном уровне при достижении критического порога «рассуждающие» ИИ-модели начинали использовать меньше «токенов размышлений», а дальше и вообще не давали ответы, даже если лимит токенов не был исчерпан. Аналогичная ситуация происходила, когда им давали готовый алгоритм решения.
В Apple уверены, что модели создают иллюзию рассуждения, повторяя логические цепочки, которые усвоены ими в процессе обучения. Для общего искусственного интеллекта (AGI) нужны принципиально новые архитектуры, заявили в компании.