Är generativ AI så viktig att du behöver köpa anpassade tangentbord eller anställa en ny AI-chef, eller är det så att all den uppblåsta entusiasmen och investeringarna ännu inte genererar särskilt mycket avkastning för företagen?
Gen AI tar oss från engångsmodeller för maskininlärning (ML) till AI-verktyg som utlovas vara en plattform med tillämpningar inom många områden, males du måste fortfarande validera att de är lämpliga för de downside du vill lösa och att dina användare vet hur man använder gen AI på ett effektivt sätt.
För varje optimistisk prognos finns det en varning mot en alltför snabb driftssättning. Flera studier tyder på att ett stort antal människor regelbundet använder gen AI-verktyg för både personlig och arbetsmässig användning, och 98 procent av de största företagen på Fortune 1000 experimenterar med gen AI, enligt en nyligen genomförd Page Duty-studie. Males nu verkar företagen ha en mer försiktig inställning när det gäller officiella implementeringar.
Till exempel testar en fjärdedel av it-beslutsfattarna i Foundrys 2023 AI Priorities Study gen AI-teknik, males endast 20 procent har gått vidare till driftsättning. Ledande befattningshavare i CCS Insights Worker Expertise and Office Transformation Survey gav liknande svar: i slutet av 2023 hade 18 procent redan infört gen AI för hela sin personalstyrka och 22 procent var redo att införa det.
– Folks vill se att det är på riktigt i år, säger Bola Rotibi, chef för företagsanalys på CCS Perception.
Males om man pratar med it-team som AI-experterna i Intels 2023 ML Insider-undersökning tyder det på att endast 10 procent av organisationerna satte gen AI-lösningar i produktion 2023.
Redo att köra igång
Det är lättare att göra en lista över organisationer som inte har meddelat sina gen AI-investeringar, piloter och planer, males relativt få pratar om detaljerna i eventuella produktivitetsvinster eller ROI. Males det kan handla lika mycket om att skydda eventuella konkurrensfördelar som om en eventuell brist på framgång.
Till exempel visade det sig att många Google-kunder, som Goldman Sachs, IHG och Mercedes Benz, som talade om att bygga med sina Gemini gen AI-verktyg vid den senaste Google Cloud Subsequent-konferensen, fortfarande befann sig i pilotstadiet snarare än i driftsättning.
Piloter kan naturligtvis erbjuda värde utöver bara experiment. McKinsey rapporterar att industridesignteam som använder LLM-drivna sammanfattningar av användarundersökningar och AI-genererade bilder för idéutveckling och experiment ibland ser en minskning på upp till 70 procent av cykeltiderna för produktutveckling. Males det betonas också att dessa designteam måste göra betydande utvärderingar och manipulationer av AI-resultat för att komma fram till en produkt som är realistisk och faktiskt kan tillverkas, och rekommendationen är fortfarande att fastställa policyer, utbilda anställda och köra pilotprojekt.
På samma sätt ser Estée Lauder värdet av pilotprojekt som en intern chattbot som utbildas i kundinsikter, beteendeforskning och marknadstrender för att göra dessa analyser mer allmänt tillgängliga i verksamheten, males arbetar fortfarande med hur man faktiskt ska leverera det värdet.
När det gäller att dela upp AI-verktyg i uppgifts- och rollspecifika vertikala applikationer, eller mer allmänna verktyg som kan vara allmänt användbara för kunskapsarbetare, verkar företagen kunna anta de senare snabbare.
Som väntat hävdar Microsoft att den egna personalen får ett betydande värde av de gen AI-verktyg som finns på marknaden, som Copilot för Microsoft 365.
– Våra bästa användare sparar över 10 timmar i månaden säger Jared Spataro, chef för Trendy Work and Enterprise Purposes på Microsoft, och 70 procent av Copilot-användarna säger att de blir mer produktiva och arbetar upp till en tredjedel snabbare.
Kunder som Telstra rapporterar liknande tidsbesparingar för sina tidiga användare, även om Forresters chefsanalytiker för Copilot för Microsoft 365, JP Gownder, menar att fem timmar i månaden är en vanligare vinst. Den andra frågan är hur väl detta kommer att skalas upp i hela organisationen. Den stora japanska reklambyrån Dentsu är till exempel mycket entusiastisk över Copilot för Microsoft 365 och hävdar att personalen sparar upp till 30 minuter om dagen på olika uppgifter.
Hittills har Copilot använts i vad JP Gownder kallar ”fickor”, vilket stämmer överens med McKinseys rapport om att de flesta AI-implementeringar sker inom specifika avdelningar: marknadsföring och försäljning, service och help samt produktutveckling.
Telekombolag som deltagit i en undersökning av McKinsey uppvisar samma blandning av optimism och återhållsamhet som andra branscher, där en majoritet hävdar att de har sänkt kostnaderna med gen AI, sett ökad produktivitet hos callcenteragenter och förbättrad konverteringsgrad inom marknadsföring med personaliserat innehåll – båda med modeller som implementerats på veckor snarare än månader. Å andra sidan har påverkan varit låg utanför kundtjänst eller kartläggning av nätverksinfrastruktur.
Organisk tillväxt
Några av Microsofts ursprungliga testkunder har redan gått från pilot till bred driftsättning. Ett av de tidigaste Microsoft 365 Copilot-testerna var på den globala advokatbyrån Clifford Probability, och företaget distribuerar det nu till hela arbetsstyrkan, tillsammans med sitt anpassade AI-verktyg, Clifford Probability Help, byggt på Azure OpenAI. Företaget är noga med att påpeka att all juridisk output från gen AI är tydligt märkt och kontrollerad av en kvalificerad jurist, males återigen är de främsta fördelarna produktivitetsvinster för kunskapsarbetare: liveutskrifter, mötessammanfattningar och både implicita åtaganden och överenskomna uppgifter från dessa möten.
– Det här är en otrolig teknik som kan öka produktiviteten, spara tid och vara en fantastisk mänsklig assistent, säger JP Gownder.
– Males den skiljer sig från de verktyg som vi har lanserat underneath de senaste 40 åren inom databehandling. Det har egenskaper som du behöver lära dig mer om för att bli riktigt framgångsrik.
Han föreslår ett antal frågor för att bedöma AI-kvoten i din organisation:
- Har du en grundläggande förståelse för hur AI och immediate engineering fungerar?
- Har du fått någon utbildning?
- Känner du dig säker på att du kan lära dig de här sakerna?
- Är du motiverad att engagera dig?
- Är du medveten om vad som kan gå fel och hur du kan vara en etisk användare av de här sakerna?
Ett annat downside är att få personalen att göra AI-verktygen till en del av sitt arbetsflöde.
– Vissa är väldigt positiva till Copilot och säger att de har en fantastisk erfarenhet av det, tillägger Gownder.
Andra upplever dock att det finns hinder på vägen, där hälften av användarna ser produktivitetsvinster och den andra hälften inte använder verktygen. Ofta beror det på att företagen underinvesterar i utbildning.
Nästan alla större företag som utvärderar Copilot för Microsoft 365 planerar bara en timmes utbildning för personalen i stället för de 10 timmar som han föreslår.
– Det här är en kärnkompetens och du måste investera i utbildning, annars kommer det att straffa sig, säger JP Gownder. Det är nyckeln både för att lyckas med implementeringen av gen AI och för att få ut mesta möjliga av de gen AI-funktioner och gränssnitt för naturligt språk som kommer att bli vanliga i kommersiell programvara, från Photoshop till Zoom.
Mycket specifika framgångar
Det finns framgångshistorier med gen AI i vertikaler som dokumentteknik, där Docugami erbjuder anpassade små språkmodeller som bygger en kunskapsgraf från kundens egna komplexa dokument och kan användas för både dokumentgenerering och för att extrahera information.
Enligt Jean Paoli, vd för Docugami, är kommersiella försäkringar en vertikal som har varit tidigt ute, med bland annat värdeutlåtanden, försäkringscertifikat och policydokument med förnyelsedatum, påföljder och skulder. Det är kritisk info som beskriver risken för både enskilda kunder och hela portföljen, vilket har varit svårt att manuellt extrahera och konsolidera för att använda för att generera nya offerter eller representera portföljen till återförsäkrare.
– Det här är verkliga scenarier som sparar miljontals greenback, inte bara några hundralappar, säger Paoli.
Som alla andra skapade stora Docugami-kunder gen AI-kommittéer och startade piloter 2023, males många har redan gått från upptäckt till implementering och startade produktionsdistributioner för minst intercourse månader sedan och ser verkliga avkastningar, enligt Alan Yates, affärschef. Inom life science använder en kund plattformen för dokumentation av kliniska prövningar, efterlevnad och datautforskning.
– Det tog dem intercourse månader att göra det här arbetet tidigare och nu tar det dem en vecka, säger han.
Kodning är en annan vertikal där det blir allt vanligare att använda gen AI i produktionen, oavsett om det är GitHub Copilot, Googles nya Gemini Code Help, AWS CodeWhisperer eller verktyg som ChatGPT som inte är utvecklarspecifika.
Produktivitetsförbättringarna kan dock vara mycket lägre initialt. När Cisco först rullade ut GitHub Copilot till 6 000 utvecklare accepterade de bara den genererade koden 19 procent av gångerna. Nu accepteras nästan hälften av kodförslagen. Att spara bara intercourse minuter av utvecklartid i månaden är tillräckligt för att täcka kostnaden, enligt Redfin, även om det finns andra mätvärden som kodkvalitet som organisationer också vill spåra.
Males AI-vinsterna kan också vara mycket högre för plattformar med låg kod där medborgarutvecklare med mindre expertis får större nytta av hjälpen. Den digitala försäkringsbyrån Nsure.com använde redan Energy Automate i stor utsträckning, males att beskriva ett automatiseringsflöde på naturligt språk är mycket snabbare än till och med ett dra-och-släpp-gränssnitt. Arbetsflöden som tog fyra timmar att skapa och konfigurera tar närmare 40 minuter med Copilot för Energy Automate, en förbättring på över 80 procent.
Sedan har vi Microsoft-kunden PG&E, som byggde en it-helpdesk-chattbot kallad Peggy Copilot Studio i Energy Platform som hanterar 25 till 40 procent av medarbetarnas förfrågningar och sparar över 1,1 miljoner greenback per år, enligt Noa Ghersin, programchef för Microsoft Copilot AI. Och genom att låta Peggy vägleda medarbetarna genom att låsa upp deras åtkomst till SAP sparar helpdesk-teamet 840 timmar per år bara det.
Företag som redan har infört Energy Platform för low code och RPA upptäcker att de kan göra automatiseringen mer kraftfull genom att använda Copilot Studio för att orkestrera processer där det finns flera arbetsflöden att välja mellan, som återbetalning av biljetter för biografkedjan Cineplex. Förr tog det fem till 15 minuter för handläggarna att hantera en återbetalning, även med automatisering, males nu tar det 30 till 60 sekunder.
Räkna ut kostnaden
Fasta månadsabonnemang kan verka dyra, males det är svårt att exakt uppskatta kostnaderna för gen AI-verktyg on-demand, vilket kan förhindra vissa implementeringar. Kostnaderna för enskilda gen AI-uppgifter kan vara småsummor, males även små kostnader läggs på hög.
– Kostnaden är en viktig sak som du måste ta hänsyn till när det gäller gen AI, oavsett om du går till tredjepartsleverantörer eller till och med internt, säger Juan Bottaro, programvaruingenjör på LinkedIn.
Hans workforce rullade nyligen ut en ny gen AI-funktion för premiumanvändare som använder din profil för att föreslå om du är en bra matchning för en jobbannons och vilka färdigheter eller kvalifikationer som kan förbättra dina chanser.
– Det fanns flera tillfällen då vi skulle ha velat gå mycket snabbare fram eftersom vi kände att upplevelsen var mycket mer mogen, males vi var tvungna att vänta eftersom vi helt enkelt inte hade tillräckligt med kapacitet och GPU:er tillgängliga, säger han.
Det är svårt att förutsäga kostnaderna för nya arbetsflöden, och alla antaganden du gör om användningen kommer förmodligen att vara felaktiga eftersom människor interagerar med detta på ett helt annat sätt, tillägger han. Implementera i stället för en liten andel av användarna och extrapolera utifrån deras beteende.
Inledningsvis kan du se kostnadsbesparingar eftersom prototyperna är dramatiskt snabba och nästan bedrägligt snabba. Att träna och testa en klassificerare för att förstå avsikten tar vanligtvis en till två månader, males hans workforce kunde få fram prototyper av vad de ville leverera på bara ett par dagar.
– På en vecka kan man få fram något som ser ut som en färdig produkt, säger Bottaro.
– På en månad eller två lyckades vi bygga något som ligger mycket nära det du ser i dag i premiumutbudet.
Males att gå från något som är 80 procent av vad du vill ha till den kvalitetsnivå du behöver för att implementera tar ofta mycket längre tid. I det här fallet ytterligare fyra månader.
Det är fortfarande för tidigt att dra lärdomar av tekniska eller kostnadsmässiga misslyckanden i AI-pilotprojekten, säger Rotibi på CCS Perception, males användarna kan överväga kvoter och hastighetsbegränsning av utgående förfrågningar till AI-tjänster i molnet through API-hanteringsgateways, summary som för andra molntjänster. Majoriteten planerar att begränsa användningen av gen AI till riktade curler, individer eller workforce på grund av prissättningen.
– Det är mycket pengar om du vill använda det i hela organisationen, säger hon.
Vad är det du mäter?
Självrapporterad produktivitet är inte nödvändigtvis det bästa sättet att mäta framgång med gen AI-implementering, och framgångsrika implementeringar kan till och med ändra vilka mätvärden som är viktiga, säger JP Gownder.
– Om du flyttar hela din tier 1-support till generativ AI och du har ett riktigt bra naturligt språk kommer framgångsgraden att öka, så allt som når en människa är ett svårare downside. Det är mer av ”lengthy tail” och ”white-glove hand holding”, och mätningen handlar mer om kundnöjdhet än om samtalets längd.
Att bara mäta kvaliteten och noggrannheten i AI-resultaten är svårt eftersom AI inte är deterministisk; samma indata kommer sannolikt att ge olika resultat varje gång. Det är inte nödvändigtvis en brist om de är korrekta och konsekventa, males det gör det svårare att utvärdera, så om du inte har ett befintligt verktyg att jämföra med måste du skapa ett riktmärke för att utvärdera prestanda.
– Att definiera om något är rätt eller fel blir väldigt subjektivt och svårt att mäta, säger Bottaro.
För att utvärdera verktyget skapade teamet gemensamma riktlinjer för hur ett bra svar ser ut. För Ask Study API, som driver Copilot for Azure, skapade Microsoft på liknande sätt ett ”gyllene dataset” med representativa, kommenterade frågor och svar med referensdata för att testa mot – och mätvärden för att representera – svarskvalitet.
Organisationer är ofta mer intresserade av om de tjänar pengar än om de sparar pengar genom att använda gen AI, säger Rotibi.
– Jag kan se det här som en produktivitetsförbättring och en effektivitetsförbättring för min private, säger hon.
– Males var ska jag tjäna pengar som företag?
Det finns ett tryck på att visa att det finns en verklig ROI, tillägger Gownder, males varnar för att vi inte har kommit så långt ännu. Det kan vara lättare att koppla rollspecifika verktyg som Copilot for Gross sales till förbättringar av konverteringsfrekvensen, affärsflödet eller den genomsnittliga tiden för att lösa ett samtal, males han varnar för att anta ett direkt orsakssamband när det finns så många variabler.
Mindre kvantifierbara fördelar kan dock fortfarande vara värdefulla när det gäller TCO.
– Låt oss säga att Copilot inte bara sparar tid för medarbetarna, utan också befriar dem från tråkiga arbetsuppgifter, säger Gownder.
– Det skulle kunna förbättra medarbetarupplevelsen. Vi vet att fördelar för medarbetarupplevelsen tenderar att minska personalomsättningen och göra människor mer motiverade och engagerade. Det finns en hel del positiv produktivitet på den psykologiska sidan av detta.
Males den stora entusiasmen för gen AI och LLM:er komplicerar saker och ting, menar Bottaro:
– Vi står inför problemet att vi måste ta reda på hur vi kan mäta värdet eftersom jag definitivt vill bygga det. Det är att se på det på fel sätt.
Han föreslår att man går tillbaka till samma målfunktion med framgångsmått som man använder för vilken produkt som helst och är öppen för möjligheten att traditionell AI kommer att vara tillräckligt bra för vissa användningsfall.
Är gen AI på väg att misslyckas?
Det finns berättigade frågor om var det är lämpligt att använda gen AI, hur man kan förhindra att användare accepterar felaktiga svar som obestridliga sanningar och om inkludering av både upphovsrättsskyddat och olämpligt materials i träningsset. Males negativ publicitet och skrämselpropaganda kan överdriva riskerna och ignorera de användbara saker som du redan kan göra om du använder gen AI på ett ansvarsfullt sätt.
Rapporterade misslyckanden med gen AI handlar ofta lika mycket om oansvarigt beteende från användare som testar gränser, eller organisatoriska misslyckanden med att lansera AI-drivna verktyg för att sätta tillräckliga skyddsräcken på plats, som det handlar om de inneboende problemen med själva modellerna. Pinsamt nog, vid en tidpunkt 2023, var Open AI:s egen riskkapitalfond på 175 miljoner greenback underneath kontroll av en falsk identitet, males det verkar bara varit ett exempel på att någon använder AI-drivna verktyg för att hjälpa dem med gammaldags affärsbedrägeri.
Andra farhågor kring gen AI är deepfakes eller enklare digitala förfalskningar, potentiella juridiska risker kring upphovsrätten till information som används för träningssetet och frågor om efterlevnad när gen AI används med känslig eller konfidentiell information.
Som med alla molnmodeller är begreppet delat ansvar centralt. AI-leverantörer måste tillhandahålla modeller och tjänster som är säkra att använda, males organisationer som använder AI-tjänster måste läsa modellkorten och transparensanteckningarna och testa att de på ett adekvat sätt begränsar hur de kan användas.
– Vissa organisationer har överansträngt sig för att nå ut till kunden med chattbotar och inser att de får inkonsekventa svar, säger Gownder. Males det brukar inte betyda att man överger projektet.
– Kanske drar de tillbaka det och försöker iterera offline innan de lanserar det för kunderna, tillägger han.
Den organisatoriska mognaden inom gen AI tenderar att följa mognaden inom AI i allmänhet, och de flesta företag som använder gen AI säger att det hjälper dem att investera på andra områden.
– De investerar mer i prediktiv AI, datorseende och maskininlärning, säger Gownder.
Företag som bygger sina egna AI-verktyg använder flera olika tekniker och behandlar gen AI som en komponent snarare än en lösning.
Det bästa sättet att motverka hajpen kring gen AI är att se det som både en banbrytande teknik och som ytterligare ett verktyg i verktygslådan, säger Bottaro.
Digital Transformation, Generative AI