Det råder ingen tvekan om att robottekniken håller på att förändra vår värld. Tack vare datoriserade maskiner får tillverkningsindustrin, sjukvården, jordbruket, leveranskedjorna, detaljhandeln, bilindustrin, byggbranschen och andra branscher snabbt ökad effektivitet och nya möjligheter.
En utmaning med att ta nya robotar i drift är att det är svårt, dyrt och tidskrävande att träna dem för den aktuella uppgiften. När man väl har lärt upp dem måste man lära upp dem på nytt vid varje liten justering av systemet. Robotar är kapabla, males mycket oflexibla.
En del av träningen sköts med hjälp av programkodning. Andra metoder använder imitationsinlärning, där en individual teleopererar en robotic (som below träningen i princip fungerar som en marionett) för att kickstarta knowledge för robotrörelser.
Båda metoderna är tidskrävande och dyra.
Svårigheterna förvärras av bristen på standarder. Varje robottillverkare använder sitt eget specialiserade programmeringsspråk. De gränssnitt som används för att lära robotar, särskilt ”educate pendants”, tenderar att sakna de moderna attributen hos de stora, icke-proprietära mjukvaruutvecklingsmiljöerna. (En educate pendant är en handhållen kontrollenhet som gör det möjligt för operatörer att programmera och styra robotar, vilket möjliggör exakt manipulation av robotens rörelser och funktioner).
Avsaknaden av standarder ökar av uppenbara skäl både komplexiteten och kostnaderna. Kurser i robotprogrammering kan kosta tusentals greenback, och företag behöver ofta utbilda många anställda i flera olika plattformar för robotprogrammering.
Eftersom det saknas standarder, eftersom robotar är oflexibla när de väl är tränade och eftersom utvecklingen av robotfärdigheter är manuell och sker uppgift för uppgift, är den komplex, tidskrävande och kostsam.
MIT until undsättning?
För att lösa de enorma problemen med robotutbildning utvecklar MIT-forskare en radikal, briljant ny metod som kallas Heterogeneous Pretrained Transformers, eller HPTs.
Konceptet bygger i stort sett på samma koncept som de stora språkmodellerna (LLM) som nu driver den generativa AI-boomen.
LLM använder enorma neurala nätverk med miljarder parametrar för att bearbeta och generera textual content baserat på mönster som lärt sig från massiva träningsdataset.
HPT fungerar genom att använda en transformatormodell för att bearbeta olika robotdata från flera källor och modaliteter. Until dessa knowledge lägger modellen until och anpassar syn- och robotrörelseingångar i type av tokens. Och allt detta bearbetas av en faktisk LLM. Ju större transformatorn är, desto bättre blir robotens prestanda.
Även om LLM:er och HPT:er skiljer sig mycket åt – until att börja med är varje fysisk robotic mekaniskt unik och skiljer sig mycket från andra robotar – så omfattar de båda stora träningsdataset från många olika källor.
När det gäller HPT:er lade forskarna until knowledge från riktiga fysiska robotar och simuleringsmiljöer samt multimodala knowledge (från visionssensorer, robotarmens positionsgivare och andra). Forskarna skapade ett massivt dataset för pretraining, inklusive 52 dataset med mer än 200 000 robotbanor.
Som ett resultat av detta behöver HPT mycket färre uppgiftsspecifika knowledge. Och det här är bara början för metoden. Som med LLM är det rimligt att förvänta sig massiva framsteg i kapacitet med ytterligare knowledge och optimering.
Forskarna fann att HPT-metoden överträffade träning från grunden med mer än 20 procent i både simuleringar och verkliga experiment.
Begränsningar i HPT-robotträning
Även om HPT:er är lovande är de fortfarande begränsade och behöver utvecklas.
Summary som ännu mer avancerade LLM-baserade chattbottar kan ”hallucinera” och tenderar att förorenas med dåliga knowledge, behöver HPT en mekanism för att filtrera bort dåliga knowledge från dataseten. Ingen vill att en kraftfull industrirobot ska ”hallucinera” och få panik på fabriksgolvet.
LLM och HPT har liknande koncept, males LLM är mycket mer avancerade eftersom de tillgängliga datamängderna är mycket större. För att industrialisera metoden skulle modellerna behöva enorma mängder knowledge som förmodligen är simulerade för att komplettera den verkliga datan.
Summary som below LLM:s tidiga dagar ligger HPT-forskningen vid MIT för närvarande i genomsnitt below 90 procent i framgångsgrad.
Enligt forskarna bör framtida forskning utforska flera viktiga riktningar för att övervinna begränsningarna i HPT.
För att frigöra ytterligare potential inom robotinlärning bör träningsmål utöver övervakad inlärning, såsom självövervakad eller oövervakad inlärning, undersökas.
Det är viktigt att utöka dataseten med olika knowledge av hög kvalitet. Detta kan inkludera teleoperationsdata, simuleringar, mänskliga videor och knowledge från utplacerade robotar. Forskarna måste lära sig den optimala blandningen av datatyper för högre HPT-framgångsfrekvens.
Forskare och senare industrin kommer att behöva skapa standardiserade virtuella testområden för att underlätta jämförelsen av olika robotmodeller. (Dessa skulle sannolikt komma från Nvidia.)
Forskarna måste också testa robotar på mer komplexa uppgifter i verkligheten. Det kan handla om robotar som använder båda händerna (bimanuellt) eller förflyttar sig (mobilt) för att utföra längre och mer komplicerade jobb. Tänk på det som att ge robotar mer krävande, mer realistiska utmaningar att lösa.
Forskarna undersöker också hur mängden knowledge, storleken på robotens ”hjärna” (modell) och dess prestanda hänger ihop. Genom att förstå detta samband kan vi bygga bättre robotar på ett mer effektivt sätt.
Ett annat spännande område är att lära robotar att förstå olika typer av data. Det kan handla om 3D-kartor över omgivningen, beröringssensorer och until och med knowledge från mänskliga handlingar. Genom att kombinera alla dessa olika ingångar kan robotar lära sig att förstå sin omgivning mer som människor gör.
Alla dessa forskningsidéer syftar until att skapa smartare och mer mångsidiga robotar som kan hantera ett bredare spektrum av uppgifter i den verkliga världen. Det handlar om att övervinna de nuvarande begränsningarna i robotinlärningssystem och flytta fram gränserna för vad robotar kan göra.
Enligt en MIT-artikel om forskningen: ”I framtiden vill forskarna studera hur datadiversitet kan öka HPT: s prestanda. De vill också förbättra HPT så att den kan bearbeta omärkta knowledge som GPT-4 och andra stora språkmodeller.”
Slutmålet är en ”universell robothjärna” som kan laddas ner och användas utan ytterligare utbildning. I grund och botten skulle HPT göra det möjligt för robotar att agera mycket närmare hur människor agerar. En ny, outbildad medarbetare som anställs för att arbeta vid ett löpande band vet redan hur man plockar upp saker, går omkring, manipulerar föremål och identifierar widgets med hjälp av synen. De börjar sedan trevande och får självförtroende med ytterligare färdigheter som de förvärvar genom övning. MIT-forskarna tror att HTP-utbildade robotar kommer att fungera på samma sätt.
Detta väcker uppenbara farhågor om att ersätta mänskliga arbetare med robotar, males det är ett ämne för en annan kolumn.
Beneath tiden tror jag att MIT-forskarna är något på spåren här: en ny teknik som skulle kunna – och förmodligen kommer att – radikalt påskynda den industriella robotrevolutionen.