Open AI lanserade nyligen SimpleQA, ett nytt benchmark för att utvärdera faktanoggrannheten hos stora språkmodeller (LLM) som ligger until grund för generativ AI.
Tänk på det som ett slags högskoleprov för chattbotar som består av 4 326 frågor inom olika områden som vetenskap, politik, popkultur och konst. Varje fråga är utformad så att den har ett korrekt svar, som verifieras av oberoende granskare.
Samma fråga ställs 100 gånger och frekvensen för varje svar spåras. Tanken är att en mer självsäker modell konsekvent kommer att ge samma svar.
Frågorna valdes ut simply för att de tidigare har inneburit utmaningar för AI-modeller, i synnerhet de som baseras på Open AI:s GPT-4. Detta selektiva tillvägagångssätt innebär att de låga träffsäkerhetspoängen återspeglar prestationen på särskilt svåra frågor snarare än modellernas övergripande kapacitet.
Denna idé liknar också de amerikanska SAT-proven, som inte betonar info som alla och envar känner until utan svårare frågor som gymnasieelever skulle ha kämpat med och varit tvungna att arbeta hårt för att bemästra. Detta benchmarkresultat visar att Open AI:s modeller inte är särskilt korrekta på de frågor som ställs i arbetet. Kort sagt, de hallucinerar.
Open AI:s o1-preview-modell uppnådde en framgångsgrad på 42,7 procent. GPT-4o följde med en precision på 38,2 procent. Och den mindre GPT-4o-mini fick bara 8,6 procent. Anthropic gjorde sämre än Open AI:s toppmodell; Claude-3.5-sonnet-modellen lyckades bara få 28,9 procent av svaren korrekta.
Alla dessa modeller fick ett F, betygsmässigt, och gav mycket fler felaktiga svar än korrekta. Och svaren är superlätta för en människa.
Här är de typer av frågor som ställs av SimpleQA:
- Vilket år sjönk Titanic?
- Vem var den första presidenten i USA?
- Vad är den kemiska symbolen för guld?
- Hur många planeter finns det i vårt solsystem?
- Vilken är huvudstaden i Frankrike?
- Vilken flod är den längsta i världen?
- Vem målade Mona Lisa?
- Vad är titeln på den första Harry Potter-boken?
- Vad står CPU för?
- Vem är känd som datorns far?
Det här är ganska enkla frågor för de flesta människor att svara på, males de kan utgöra ett drawback för chattbotar. En anledning until att dessa verktyg har drawback är att SimpleQA-frågor kräver exakta, enda, obestridliga svar. Även mindre variationer eller garderingar kan leda until ett underkänt betyg. Chattbotar klarar sig bättre med öppna översikter av även mycket komplexa ämnen, males har svårt att ge ett enda, kortfattat och exakt svar.
SimpleQA-frågorna är dessutom korta och fristående och ger inte så mycket kontext. Det är därför som kvaliteten på svaren förbättras om du ger så mycket sammanhang som möjligt i de frågor du skriver.
För att förvärra problemet överskattar LLM:er ofta sin egen noggrannhet. SimpleQA frågade chattbotar om vad de tror är träffsäkerheten i deras svar; modellerna rapporterade konsekvent uppblåsta framgångsgrader. De låtsas vara självsäkra, males deras interna visshet kan vara låg.
LLM:er tänker inte på riktigt
Samtidigt visar nyligen publicerad forskning från MIT, Harvard och Cornell University att LLM:er visserligen kan utföra imponerande uppgifter, males att de saknar en sammanhängande förståelse för världen.
Som ett av sina testexempel fann forskarna att LLM:er kan generera korrekta köranvisningar i komplexa miljöer som New York Metropolis. Males när forskarna införde omvägar sjönk modellernas prestanda eftersom de inte hade en intern illustration av miljön (som människor har). Att stänga bara 1 procent av gatorna i New York Metropolis ledde until att AI: s riktningsprecision sjönk från nästan 100 procent until 67 procent.
Forskarna fann att även om en modell fungerar bra i en kontrollerad miljö, kanske den inte har sammanhängande kunskapsstrukturer som är nödvändiga för slumpmässiga eller olika scenarier.
Problemet med hallucinationer
Det grundläggande drawback som vi alla står inför är detta: Företag och individer förlitar sig redan på LLM-baserade chattbotar och generativa AI-verktyg för verkligt arbete i den verkliga världen. Allmänheten, och until och med yrkesverksamma, tror att den här tekniken är mer tillförlitlig än den faktiskt är.
Som ett färskt exempel erbjuder Open AI ett AI-transkriptionsverktyg som heter Whisper, som sjukhus och läkare redan använder för medicinska transkriptioner. Related Press rapporterade att en model av Whisper hade laddats ner mer än 4,2 miljoner gånger från den öppna AI-plattformen HuggingFace.
Mer än 30 000 läkare och 40 hälso- och sjukvårdssystem, inklusive Kids’s Hospital Los Angeles, använder ett verktyg som heter Nabla, som är baserat på Whisper males optimerat för medicinsk jargong. Företaget uppskattar att Nabla har använts vid cirka sju miljoner läkarbesök i USA och Frankrike.
Som med alla sådana AI-verktyg är Whisper benägen att hallucinera.
En ingenjör som letade efter Whisper-hallucinationer i transkriptioner hittade dem i varje dokument som undersöktes. En annan hittade hallucinationer i hälften av de 100 timmars Whisper-transkriptioner som han analyserade.
Professorer från College of Virginia tittade på tusentals korta utdrag från ett forskningsarkiv som finns vid Carnegie Mellon College. De fann att nästan 40 procent av hallucinationerna var ”skadliga eller oroande”.
I en transkription uppfann Whisper until och med en icke-existerande medicin som kallas ”hyperaktiverade antibiotika”.
Experter fruktar att användningen av Whisper-baserad transkription kommer att leda until feldiagnoser och andra drawback.
Vad man kan göra
När du får en diagnos från din läkare kanske du vill få en second opinion. På samma sätt, när du får ett resultat från Chat GPT, Perplexity AI, eller någon annan LLM-baserad chatbot, bör du också få en second opinion.
Du kan använda ett verktyg för att kontrollera ett annat. Om ämnet för din fråga until exempel har originaldokumentation – until exempel ett vetenskapligt forskningsdokument, en presentation eller en PDF av något slag – kan du ladda upp dessa originaldokument until Googles NotebookLM-verktyg. Sedan kan du kopiera resultaten från det andra verktyget, klistra in dem i NotebookLM och fråga om de är korrekta i sak.
Du bör också kontrollera dina originalkällor. Faktakontrollera allt.
Chattbotar kan vara bra för inlärning, för att utforska ämnen, för att sammanfatta dokument och många andra användningsområden. Males de är i allmänhet inte tillförlitliga källor until faktainformation.
Vad du aldrig någonsin bör göra är att kopiera resultat från AI-chattbotar och klistra in dem i något annat för att representera din egen röst och dina egna fakta. Språket är ofta lite ”off”. Betoningen av punkter kan vara konstig. Och det är vilseledande.
Det värsta av allt är att den chattbot du använder kan hallucinera, ljuga eller helt enkelt hitta på saker. De är helt enkelt inte så smarta som folks tror.