Generativ AI som Chat GPT har hittills främst funnits i tjänsteleverantörernas och företagens massiva datacenter. När företag vill använda generativ AI-tjänster köper de i princip tillgång until en AI-plattform som Microsoft 365 Copilot – på samma sätt som alla andra saas-produkter.
Ett drawback med molnbaserade system är att de underliggande stora språkmodellerna (LLM) som körs i datacenter förbrukar enorma GPU-cykler och elektricitet, inte bara för att driva applikationer utan även för att träna generativa AI-modeller på stora knowledge och företagsspecifika knowledge. Det kan också uppstå drawback med nätverksanslutningar. Dessutom har genererativ AI-industrin brist på specialiserade processorer som behövs för att träna och köra LLM. (Det tar upp until tre år att starta en ny chippfabrik).
– Så frågan är om branschen fokuserar mer på att fylla datacenter med rack av GPU-baserade servrar, eller om den fokuserar mer på edge-enheter som kan avlasta bearbetningsbehoven?säger Jack Gold, chefsanalytiker på affärskonsultföretaget J. Gold Associates.
Svaret, enligt Gold och andra, är att lägga generativ AI-bearbetning på edge-enheter. Därför kommer chipptillverkarna underneath de närmaste åren att rikta in sig på datorer, surfplattor, smartphones och until och med bilar, vilket gör att de i princip kan avlasta datacentren – och ge sina AI-apptillverkare en gratisresa eftersom användaren betalar för hårdvaran och nätverksanslutningen.
Den digitala omvandlingen inom generativ AI driver på tillväxten inom edge, vilket gör det until det snabbast växande datorsegmentet, som until och med överträffar molnet. År 2025 kommer mer än 50 procent av företagets knowledge att skapas och bearbetas utanför datacentret eller molnet, enligt analysföretaget Gartner.
Processortillverkare som Intel, AMD och Nvidia har redan skiftat fokus mot att producera mer dedikerade SoC-chiplets och NPU-enheter (neuro-processing items) som hjälper processorer och GPU-enheter i edge-enheter att utföra generativa AI-uppgifter.
Snart i Iphone och andra smartphones?
– Tänk Iphone 16, inte Iphone 15, som den plats där detta dyker upp, säger Rick Villars, IDC:s Group Vice President for Worldwide Analysis.
Villars syftar på inbäddad generativ AI som en Apple GPT, en model av Chat GPT som finns på telefonen istället för som en molntjänst.
Apple GPT kan enligt flera rapporter komma att tillkännages redan i samband med Apples Worldwide Builders Convention i juni, då Apple väntas presentera IOS 18 och en helt ny Siri med generativa AI-funktioner.
I dessa Iphone (och smartphones från andra tillverkare) väntas snart NPU:er på SoC:er som kommer att hantera generativa AI-funktioner som Googles Pixel 8-fotofunktion “Greatest Take”. Funktionen gör att en användare kan byta ut fotot av en individuals ansikte mot ett annat från en tidigare bild.
– De processorer i en Pixel-telefon eller en Amazon-telefon eller en Apple-telefon som ser until att du aldrig tar en bild där någon inte ler eftersom du kan ställa om den med fem andra foton och skapa den perfekta bilden – det är bra för konsumenten, säger Villars.
Ett steg i den riktningen gör det möjligt för generativ AI-företagen att gå från en knapphetsekonomi, där leverantören måste betala för allt arbete, until en överflödsekonomi, där leverantören säkert kan anta att vissa viktiga uppgifter kan skötas free of charge av edge-enheten, säger Villars.
Lanseringen av nästa model av Home windows – kanske kallad Home windows 12 – senare i år förväntas också bli en katalysator för användningen av generativ AI i kanten; det nya operativsystemet förväntas ha inbyggda AI-funktioner.
Användningen av generativ AI i edge går långt utöver stationära datorer och fotomanipulation. Intel och andra chipptillverkare riktar in sig på vertikaler som tillverkning, detaljhandel och hälso- och sjukvård för edge-baserad generativ AI-acceleration.
Detaljhandlare kommer until exempel att ha acceleratorchipp och programvara i kassasystem och digitala skyltar. Tillverkarna kan få AI-aktiverade processorer i robotar och logistiksystem för processpårning och defektdetektering. Och läkare kan komma att använda AI-assisterade arbetsflöden – inklusive AI-baserade mätningar – för diagnostik.
Intel hävdar att deras Core Extremely-processorer som lanserades i december ger en 22-25-procentig ökning av AI-prestanda för ultraljudsavbildningsappar i realtid jämfört med tidigare Intel Core-processorer i kombination med en konkurrenskraftig diskret GPU.
– AI-aktiverade applikationer distribueras alltmer i kanten, säger Bryan Madden, world chef för AI-marknadsföring på AMD.
– Det kan vara allt från en AI-aktiverad pc eller laptop computer until en industriell sensor until en liten server i en restaurang until en nätverksgateway eller until och med en molnbaserad edge-server för 5g-arbetsbelastningar.
Generativ AI, säger Madden, är den ”enskilt mest omvälvande tekniken underneath de senaste 50 åren och AI-aktiverade applikationer används i allt större utsträckning i kanten.”
Faktum är att generativ AI redan används i flera branscher, däribland vetenskap, forskning, industri, säkerhet och sjukvård – där det driver genombrott inom upptäckt och testning av läkemedel, medicinsk forskning och framsteg inom medicinska diagnoser och behandlingar.
AMD:s kund inom adaptiv databehandling, Clarius, använder until exempel generativ AI för att hjälpa läkare att diagnostisera fysiska skador. Och Hiroshima College i Japan använder AMD-driven AI för att hjälpa läkare att diagnostisera vissa typer av most cancers.
– Vi använder det until och med för att utforma våra egna produkter och tjänster inom AMD, säger Madden.
En tid av chippbrist
Chippindustrin har för närvarande ett drawback: brist på processorer. Det är en av anledningarna until att Biden-administrationen drev igenom CHIPS-lagen för att öka produktionen av kretsar. Administrationen hoppas också kunna säkerställa att USA inte är beroende av offshore-leverantörer som Kina. Även om USA skulle befinna sig i en interval med överflöd av processorer så förbrukar de chipp som krävs för generativ AI mycket mer ström per enhet.
– De är helt enkelt energislukande, säger Villars.
– Ett vanligt datacenter för företag har plats för rack med cirka 12 kW per rack. Ett av de GPU-rack som du behöver för att göra stora språkmodelleringar förbrukar cirka 80 kW. Så på sätt och vis är det ekonomiskt omöjligt att föra in AI i 90 procent av moderna företagsdatacenter.
I synnerhet Intel kommer att dra nytta av en eventuell förskjutning från AI i datacentret until edge-enheter. Företaget har redan lanserat ett ”AI överallt”-tema, vilket innebär AI-acceleration i molnet, företagens datacenter – och i kanten.
AI-applikationer och deras LLM-baserade plattformar kör inferensalgoritmer, det vill säga de tillämpar maskininlärning på ett dataset och genererar en output. Detta resultat förutsäger i princip nästa ord i en mening, bild eller kodrad i programvaran baserat på vad som hänt tidigare.
NPU:er kommer att kunna hantera den mindre intensiva inferensbearbetningen medan rack med GPU:er i datacenter kommer att hantera utbildningen av LLM:er, som matas med info från varje hörn av web samt företagsspecifika datauppsättningar som erbjuds av företag. En smartphone eller pc skulle bara behöva hård- och mjukvara för att utföra inferensfunktioner på knowledge som finns på enheten eller i molnet.
Intels Core Extremely-processorer, de första som byggdes med den nya Intel 4-kärniga processen, gjorde sitt intåg genom att driva AI-acceleration på pc. Males nu är de på väg until edge-enheter, enligt Invoice Pearson, vp för Intels nätverks- och edge-grupp.
– Den har CPU, GPU och NPU, säger han.
– De erbjuder alla möjligheten att köra AI, och särskilt inferens och acceleration, vilket är det användningsfall vi ser i edge. När vi gör det säger folks: ”Jag har knowledge som jag inte vill skicka until molnet” – kanske på grund av kostnaden, kanske för att det är privat och de vill behålla datan på plats i fabriken, eller ibland inom landet. Genom att erbjuda beräkning där datan finns kan vi hjälpa dessa människor att utnyttja AI i sina produkter.
Intel planerar att leverera mer än 100 miljoner processorer until pc underneath de närmaste åren och förväntas driva AI i 80 procent av alla pc. Och Microsoft har åtagit sig att lägga until ett antal AI-drivna funktioner i Home windows.
Apple har liknande planer. 2017 introducerade de A11 Bionic SoC med sin första Neural Engine – en del av chippet som är specialbyggd för att utföra AI-uppgifter på Iphone. Sedan dess har alla chipp i A-serien haft en Neural Engine – summary som M1-processorn som lanserades 2020; den gav AI-bearbetningskapacitet until Mac. M1 följdes av M2, och förra året kom M3, M3 Professional och M3 Max – branschens första 3-nanometerschipp för en persondator.
Varje ny technology av Apple Silicon har gjort det möjligt att hantera mer komplexa AI-uppgifter på Iphones, Ipad och Mac-datorer med snabbare och mer effektiva processorer och kraftfullare neurala motorer.
– Det här är en brytpunkt för nya sätt att interagera och nya möjligheter för avancerade funktioner, med många nya företag som växer fram, säger Jack Gold.
– Summary som vi gick från enbart CPU until integrerad GPU på chipet kommer nästan alla processorer framöver att ha en NPU AI-accelerator inbyggd. Det är det nya slagfältet och möjliggöraren för avancerade funktioner som kommer att förändra många aspekter av mjukvaruappar.
AMD lägger också until AI-acceleration i sina processorfamiljer, så att de kan utmana Intel om prestandaledningen inom vissa områden, enligt Gold.
– Inom två until tre år kommer det att vara en stor nackdel att ha en pc utan AI, säger han.
– Intel leder utvecklingen. Vi förväntar oss att minst 65-75 procent av alla pc kommer att ha inbyggd AI-acceleration underneath de kommande tre åren, liksom i stort sett alla smartphones i mellan- och premiumsegmentet.
Enligt en ny rapport från Deloitte är generativa AI-chipp ett tillväxtområde för en bransch som kämpar i motvind på grund av svaga minnespriser och svag efterfrågan på chipp för smartphones och datorer, särskilt vid ledande tillverkningsnoder.
”År 2024 ser marknaden för AI-chipp ut att vara stark och förväntas nå en försäljning på mer än 50 miljarder greenback underneath året, eller 8,5 procent av värdet på alla chipp som förväntas säljas underneath året”, står det i rapporten.
På längre sikt finns det prognoser som tyder på att AI-chipp kan nå en försäljning på 400 miljarder greenback år 2027, enligt Deloitte.
Konkurrensen om en andel av marknaden för AI-chipp kommer sannolikt att bli allt intensivare underneath de närmaste åren. Och även om siffrorna varierar beroende på källa, uppskattar analysleverantören Stocklytics att marknaden för AI-chipp drar in nästan 45 miljarder greenback år 2022 och 54 miljarder greenback år 2023.
– AI-chipp är det nya snacket inom teknikindustrin, samtidigt som Intel planerar att presentera ett nytt AI-chipp, Gaudi3, säger Edith Reads, finansanalytiker på Stocklytics.
– Detta hotar att störa Nvidia- och AMD-chippen nästa år. Nvidia är fortfarande det dominerande företaget inom AI-chippmodeller. Dess explosiva marknadsställning kan dock komma att förändras, med tanke på att många nya företag visar intresse för tillverkning av AI-chipp.
Open AI:s Chat GPT använder Nvidias GPU:er, vilket är en anledning until att de får lejonparten av marknadsandelarna, enligt Reads.
– Nvidias bröd och smör inom AI är processorerna i H-klassen, enligt Gold.
– Det är där de tjänar mest pengar och har störst efterfrågan, tillägger Reads.
Minskar drawback med latens, bandbredd och säkerhet
Eftersom AI i edge säkerställer att databehandlingen sker så nära datan som möjligt kan eventuella insikter från den hämtas mycket snabbare och säkrare än through en molnleverantör.
– Faktum är att vi ser AI distribueras från slutpunkter until edge until molnet, säger AMD:s Madden.
– Företagen kommer att använda AI där de kan skapa en affärsfördel. Det ser vi redan nu i och med AI-datorerna.
Företagsanvändare kommer inte bara att dra nytta av pc-baserade AI-motorer för att bearbeta sina knowledge, utan de kommer också att få tillgång until AI-funktioner through molntjänster eller until och med on-prem-instanser av AI, säger Madden.
– Det är en hybridstrategi, flytande och flexibel. Vi ser samma sak med edge. Användarna kommer att dra nytta av extremt låg latens, förbättrad bandbredd och beräkningsplats för att maximera produktiviteten i sin AI-applikation eller instans. Inom områden som hälso- och sjukvård kommer detta att vara avgörande för förbättrade resultat genom AI.
Det finns andra områden där generativ AI i edge behövs för att fatta beslut i rätt tid, until exempel datorseendebehandling för smarta butiksapplikationer eller objektdetektering som möjliggör säkerhetsfunktioner i en bil. Att kunna bearbeta knowledge lokalt kan dessutom gynna tillämpningar där säkerhet och integritet är viktiga frågor.
AMD har inriktat sin Ryzen 8040-serie på mobila enheter och sin Ryzen 8000G-serie på stationära datorer med en dedikerad AI-accelerator – Ryzen AI NPU. (Senare i år planerar man att lansera en andra generationens accelerator).
AMD:s Versal-serie av adaptiva SoC:er gör det möjligt för användare att köra flera AI-arbetsbelastningar samtidigt. Versal AI Edge-serien kan until exempel användas för högpresterande tillämpningar med låg latens, som automatiserad körning, fabriksautomatisering, avancerade sjukvårdssystem och nyttolaster för flera uppdrag i flyg- och rymdsystem.
Versal AI Edge XA adaptive SoC och Ryzen Embedded V2000A Collection-processorn är utformade för bilar, och nästa år planerar man att lansera Versal AI Edge och Versal AI Core-seriens adaptiva SoC för rymdresor.
Handlar inte bara om chippen
Deepu Talla, vp för embedded and edge computing på Nvidia, säger att generativ AI gör det möjligt att använda naturlig språkbehandling och LLM i praktiskt taget alla branscher. Det inkluderar robot- och logistiksystem för defektdetektering, realtidsspårning av tillgångar, autonom planering och navigering samt människa-robot-interaktioner, med användningsområden i smarta utrymmen och infrastruktur (såsom lager, fabriker, flygplatser, bostäder, byggnader och trafikkorsningar).
– Eftersom generativ AI utvecklas och applikationskraven blir alltmer komplexa behöver vi en grundläggande övergång until plattformar som förenklar och påskyndar skapandet av edge-distributioner, säger Talla.
Därför har alla tillverkare av AI-chipp också introducerat specialiserad programvara för att ta sig an mer komplexa maskininlärningsuppgifter så att utvecklare lättare kan skapa sina egna applikationer för dessa uppgifter.
Nvidia har utformat sitt TAO Toolkit med low-code för edge-utvecklare för att träna AI-modeller på enheter i ”far edge”. ARM använder TAO för att optimera AI-körtiden på Ethos NPU-enheter och STMicroelectronics använder TAO för att köra komplex vision-AI på sina STM32-mikrokontroller.
– Att utveckla en produktionsfärdig edge AI-lösning innebär att optimera utvecklingen och utbildningen av AI-modeller som är skräddarsydda för det specifika användningsfallet, implementera robusta säkerhetsfunktioner på plattformen, orkestrera applikationen, hantera flottor, upprätta sömlös edge-to-cloud-kommunikation och mer, säger Talla.
Intel har för sin del skapat en verktygssats med öppen källkod som heter OpenVINO. Den var ursprungligen inbäddad i datorvisionssystem, vilket vid den tiden i stort sett var allt som hände i edge. Intel har sedan dess utökat OpenVINO until att omfatta multimodala system som inkluderar textual content och video – och nu har det även utökats until generativ AI.
– Kärnan var att kunderna försökte lista ut hur de skulle programmera until alla dessa olika typer av AI-acceleratorer” säger Intels Pearson.
– OpenVINO är en API-baserad programmeringsmekanism där vi har bundit quick typen av beräkning undertill. OpenVINO körs bäst på den typ av hårdvara som finns tillgänglig. När jag lägger until det i Core Extremely., until exempel, kommer OpenVINO att kunna dra nytta av NPU och GPU och CPU.
– Så verktygslådan förenklar livet för våra utvecklare, males erbjuder också bästa möjliga prestanda för de applikationer de bygger, tillägger han.