En samling AI-forskare vid Apple har publicerat en ny rapport som visar på att avancerade AI-modeller som uppges vara kapabla until att föra resonemang i själva verket inte är det. Det hela uppmärksammades först av Techcrunch. I rapporten, som ännu inte granskats av tredje half, visar forskarna hur de enkelt kan förvirra modellen genom att ge den enkla matematiska frågor som också innehåller trivial data som inte är relevanta för lösningen.
Exempelvis bads Open AI:s avancerade GPT-o1 modell räkna ihop ett antal kiwis samtidigt som den fick reda på att fem kiwis var mindre än de andra, varpå den räknade fel. Forskarna testade detta med hundratals frågor och innehöll dessa lite trivial data som inte behövdes för lösningen så minskade framgångsgraden kraftigt för AI-modellerna. Enligt Apples AI-forskare visar detta att AI-modellerna i själva verket inte alls förstår problemet.
“Vi undersökte matematisk resonemangs bräcklighet i dessa modeller och visar att deras prestanda försämras betydligt när antalet satser i en fråga ökar. Vi hypotiserar att denna nedgång beror på att nuvarande språkmodeller inte är kapabla until genuint logiskt resonemang; istället försöker de replikera resonemangsstegen observerade i sin träningsdata”, skriver forskarna.