Mennesket møder kunstig intelligens: Intel Labs-teamet rykker på grænserne for menneske-maskine-interaktion med dyb læring

  • Oct 18, 2023

Hvordan er det for en person at leve delvist inde i den objektive funktion af et AI-program? Intel-forskeren Lama Nachman deler indsigt fra sit teams arbejde med Peter Scott-Morgan, en person, der er villig til at transformere sin krop og sit liv for at interagere intimt med en maskine.

hawking-team.jpg

Teamet fra Anticipatory Computing Lab, en del af Intel Labs-divisionen, fra venstre, Alex Nguyen, Sangita Sharma, Max Pinaroc, Sai Prasad, Lama Nachman og Pete Denman. Ikke på billedet er Bruna Girvent, Saurav Sahay og Shachi Kumar.

Intel

Lama Nachman brugt år på at hjælpe afdøde Stephen Hawking gennem forskellige opgraderinger af computerteknologien, der hjalp ham med at arbejde og kommunikere. Hawking døde i 2018.

Hendes team hos Intel Labs er arbejder nu med Peter Scott-Morgan, en robotiker, som har gennemgået adskillige operationer for at afværge den inhabilitet, der kommer fra ALS, den samme lidelse som Hawking led. Arbejde med en række forskellige teknologier, herunder GPT-2, OpenAIs generative dybe læringsmodel for tekst, Nachman og team skubber på grænserne for, hvordan en person kan eksistere i et give og tage forhold til AI.

Delvis etnograf, Nachman viser stor følsomhed over for nuancerne i, hvordan mennesker møder teknologi. Hun forklarede ZDNet temperamentforskellene mellem hendes to meget forskellige samarbejdspartnere, først Hawking, nu Scott-Morgan.

Hawking var "den bedste valideringsingeniør nogensinde," siger Nachman. Han udholdt tonsvis af trial and error med ny teknologi og så ud til at opnå stor tilfredshed med at finde fejl i softwaren. Det var næsten som menneske mod maskine, at høre Nachman fortælle det, John Henry versus den pneumatiske boremaskine.

Scott-Morgan derimod ser sig selv som at blive ét med maskinen, både med til at træne den og samtidig lære en ny måde at være på fra den på en symbiotisk måde.

"Jeg tænker på mig selv som dels menneskelig og dels AI," er, hvordan Scott-Morgan ser det, i Nachmans fortælling. "Jeg er villig til at blive skubbet af AI-systemet," har Scott-Morgan fortalt hende.

Britisk tv sender et program om Scott-Morgans forvandling, og du kan se traileren her.

ZDNet: Lama, fortæl os lidt om det arbejde, du laver.

Lama Nachman: Jeg leder et forskningslaboratorium kaldet Anticipatory Computing Lab på Intel Labs, og det er et tværfagligt laboratorium. Dybest set er det virkelig i skæringspunktet mellem etnografi, slutbrugerforskning, design og AI. Og vores fokus er virkelig på at hjælpe mennesker med AI i forskellige aspekter af deres liv. Vi starter med brugercentreret forskning. Vi ser på områder som for eksempel uddannelse eller produktion, smart home og sundhed og assisterende computere til mennesker med handicap. Grundlæggende er det, vi leder efter, hvordan vi kan yde assistance i dagligdagen ved hjælp af robust opfattelse og forudsigelse med multimodal sansning. Vi har gjort en masse arbejde, for eksempel med at implementere i skoler, forsøge at forbedre elevernes engagement i en tidlig alder, hjælpe teknikere i produktionsfaciliteter ved at holde øje med, hvad de laver, og foreslå, hvordan de kan lære af andre mennesker.

ZDNet: Og du gjorde en del arbejde med Dr. Stephen Hawking. Fortæl os om det.

LN: Arbejdet med assisterende databehandling startede tilbage i 2011 i samarbejde med professor Stephen Hawking om i det væsentlige at forny sin softwareplatform der sætter ham i stand til at tale med folk, men også udføre alle mulige forskellige opgaver med sin maskine, surfe på nettet og endda holde foredrag. Vi gik ind og prøvede at forstå, hvad der var problemerne med hans eksisterende system, hvad er begrænsningerne. I starten håbede vi, at vi kunne finde noget, vi kunne bruge, som var på hylden. Men jo mere vi testede forskellige koncepter og ideer med ham, prøvede ting som bliksporing og alle mulige forskellige systemer, virkede intet rigtigt. Så vi var nødt til at gå tilbage til tegnebrættet og tænke over, hvordan du i det væsentlige bygger en modulær platform, der giver dig mulighed for at i det væsentlige tage forskellige ideer, mål, forskellige begrænsninger, opbygge det på en måde, hvor du kan forbinde forskellige komponenter og så videre. Vi ønskede, at det skulle være modulært fra starten, fordi vi åbenbart ikke bare byggede det til Stephen, men tog det open source. Det er det, vi kalder ACAT, som er Assistive Context-Aware Toolkit. Vi startede i 2011, og så, et par år senere, var vi i stand til at bygge noget, som vi kunne implementere sammen med Stephen. Og så fortsatte vi med at arbejde med ham gennem hele hans liv for at fortsætte med at have evner, forbedre os ting for ham, forstå, hvor der er huller i systemet, fortsætte med at udvikle sig og arbejde tingene ud. Og vi lægger det ud som open source for at fortsætte med at innovere på det og tilføje funktioner til det. [BEMÆRK: ACAT kan downloades fra Intels open source-kodewebsted.]

Også: Hvad er GPT-3? Alt, hvad din virksomhed har brug for at vide om OpenAIs banebrydende AI-sprogprogram

ZDNet: Og dit arbejde med Dr. Scott-Morgan blev en del af det?

LN: Så for et par år siden kontaktede Peter, de virksomheder, der gik sammen for at hjælpe ham på grund af det arbejde, jeg havde udført med Stephen, og den forskning, vi laver i krydsfeltet mellem mennesker og AI. På det tidspunkt var vores antagelse, at Peter skulle bruge bliksporing. Med Stephen, da vi byggede ACAT, forsøgte vi i det væsentlige at se efter, hvor er hullet i dette rum generelt. Hvis du ser ud i verden, er der en masse bliksporingssystemer, der findes derude, og folk kan bare bruge det. Vi ønskede faktisk at imødekomme behovene hos mennesker, som ikke rigtig kan betjenes med andre løsninger, der findes derude. Så vi besluttede at se på i det væsentlige forskellige inputmetoder. I Stephens tilfælde havde han nærhedssensoren, remmen på sine briller, og hver gang han bevægede kinden ville det i det væsentlige udløse den sensor. Du ville gå ind og fremhæve forskellige ting på skærmen, og der er visse mønstre afhængigt af, hvad vi forudsagde, at han måske ville gøre næste gang. Og så snart den ting, han er interesseret i, hvad enten det er et bogstav eller en funktion, eller hvad som helst, bliver fremhævet, ville han trykke på knappen med kinden.

"Jamen, jeg tænker på mig selv som dels menneskelig, dels AI," sådan har den britiske robotiker Dr. Peter Scott-Morgan beskrevet sit syn til Nachman. "Jeg er villig til at blive skubbet af AI-systemet, jeg er villig til at bruge tiden og arbejde med det, og lære af det, og det kan lære af mig."

Cardiff Productions

ZDNet: Og du endte med en anden tilgang til Dr. Scott-Morgan?

LN: Da vi havde diskussionerne med Peter, siden han skulle bruge bliksporing, var han i stand til at gøre det, en af ​​de ting, vi havde tænkt på med ACAT var, ved at vide alt, hvad vi ved med Stephen fra den erfaring, hvordan forbedrer vi ydeevnen af ​​det overordnede system, der kan give ham mulighed for at kommunikere med mennesker? Vi startede med ACAT, tilføjede blikkapacitet, opbyggede interaktionen og brugergrænsefladen på en måde, der gjorde sans givet interaktionsmåden, som er anderledes end hvad du har med triggeren funktioner. Her ser du bare på det, du er interesseret i. Så skal du på en måde finpudse interaktionen, og så forstå, hvordan du skræddersy den. Vi gik ned ad den vej, og fokuserede på det, der haster, i betragtning af den operation, der skulle komme, og hvor vigtigt det var at fuldføre, for at han kunne arbejde. Men på samme tid i betragtning af, hvad vi har lært af Stephen, og Peters specifikke interesse, som var, at reducere det, vi kalder det tavse hul. Forestil dig, at når nogen taler til ham, vil vi sige, hvad det er, vi vil sige, han ville lytte til det, og så begyndte han at formulere sin sætning gennem ord, gennem bogstaver, og så tilføjede vi ord forudsigelse. Men selv med meget hurtig blikkontrol, selv ved 400 millisekunder eller deromkring, hvad vi kan gøre i dag med en bliksporer, har du stadig en del af et stille hul. Og når du prøver at føre en samtale med nogen, er det virkelig ret problematisk. Og når du har en samtale, har du meget mere spillerum i, hvad det er, du kan bruge frem for nødvendigvis at skulle diktere hvert bogstav, i modsætning til f.eks. hvis du forsøger at skrive en bog eller en dokument. Så ideen der, i mine diskussioner med Peter var, Okay, kan vi faktisk træne et system, der kan lytte til samtalen og i stedet for at tillade grænseflade til at være på et lavere niveau, hvilket betyder bogstaver eller ord forudsigelse, kan vi faktisk anbefale bestemte svar, og han kunne bare hurtigt se på et svar fra interesse? Så ud over her og nu, lige at få ACAT til at arbejde med bliksporing, den forskning, vi startede, som vi ikke har implementeret med ham endnu, fordi det er ret komplekst faktisk at make happen, udvikler et responsgenereringssystem, der bygger bro ind i samtalen, som han dybest set kan interface ovenpå, som giver ham mulighed for at skubbe det på en måde, som han kan kontrollere det. Så hvis det sker, at det er godt nok til dig, vælger du det; hvis det ikke er det, så ville han indtaste et nøgleord eller et tema, og så ville det hjælpe svargeneratoren med at generere et andet sæt muligheder. Hvis alt andet fejler, ville han bare diktere dem.

ZDNet: Har du en fornemmelse af, hvad tidsrammen er, inden for hvilken du vil være i stand til at implementere dette for ham?

LN: Vi bygger i det væsentlige oven på GPT-2, og der er nogle nøgleproblemer, der er helt anderledes med dette, end hvis du havde en chatbot. Den ene er, at du gerne vil have ham til at være i stand til at kontrollere systemet. Denne forestilling om nudging er vigtig. Og det betyder, at den måde, han skulle træne og finjustere modellen på, ville se meget anderledes ud. Nu skal du i det væsentlige træne det med hans tale, ikke bare, her er en sætning, her er en prompt, men hvordan styrer han den. Vi har eksperimenteret med alle mulige metoder til at gøre det. Vi har rimelige niveauer. Det problem, som jeg ser med hensyn til at få noget som dette ud, er at have det pålidelighedsniveau, der faktisk ville få det til at fungere og være fint. Det er klart, at du en gang imellem får disse virkelig mærkelige svar. Så vi har forsøgt i det væsentlige at forbedre det og finde ud af bedre måder at kontrollere med søgeord eller temaer eller emner og sådan noget. Det var en. Den anden er, faktisk at kunne bringe noget af sit indhold ind for at træne, at finjustere det. Vi taler om et system, der har tonsvis af data og trænet på tonsvis af samtaler, der rent faktisk er i stand til at nudge dette med sine egne data og lære af det begrænsede datasæt. Min antagelse lige nu, givet hvor vi er i denne proces, er, at der nok går ni måneder til et år, før vi i det mindste kan få et første system ud til ham. Men en af ​​de ting, vi har tænkt meget over, er, hvordan fortsætter det system med at lære og forbedre sig over tid? Et af problemerne, ikke et meget åbenlyst problem, men et problem, som jeg ser der, er at gøre det muligt for ham at fortsætte med at træne systemet på en måde, der ikke er dikteret af behovet for hurtigt at reagere. En af de ting, som jeg har været ret bekymret over, er, at hvis du genererer svar til ham, har han helt klart denne enorme grund, en stor grund, til at gå og vælge noget, der var der, for hvis han skal hen og skrive noget, ville det tage noget tid. Over tid, hvis han fortsætter øvelsen med at plukke efter hensigtsmæssighed, ville det sandsynligvis få systemet til at bevæge sig længere og længere væk, og få ham til at føle sig mere lukket. Så en af ​​de ting, vi designer ind i systemet, er en måde, hvorpå han i det væsentlige kan markere, som han vælger noget, at han gør det af hensigtsmæssighed, men at det ikke er det, han ville have valgt. Han kan bare markere det, mens han vælger. Og når han så har mere tid, er han ikke midt i samtalen, han kunne sætte lidt tid til at arbejde med systemet til at træne. Han kunne bede om alle disse sager, hvor disse ting ikke var ideelle, og det ville afspille sagen for ham, og så har han tid til at diktere, hvad det er, han ville have sagt, hvis han havde haft tid. Så vi prøver at tænke på, hvordan systemet vil kunne udvikle sig med ham.

Også: Cyborg bygningsarbejdere og søgen efter effektivitet

ZDNet: Hvordan annoterer man med andre ord, er en måde at se det på?

LN: Nemlig. Og du ved for ham, at den interessante del er, hvis du tænker på, hvilken type funktion du ville ønsker at gøre, fordi han også skriver bøger, og så på det tidspunkt vil man virkelig have meget mere kontrol, højre? Du ønsker i bund og grund at kunne ringe ind og ringe ud kontrol, og på hvilket niveau interagerer du med systemet, afhængigt af om du prøver virkelig at gå efter hensigtsmæssighed og lav latenstid i forhold til at være i stand til virkelig at have meget, meget bedre kontrol over, hvad du prøver at udtrykke. Og tænker på samspillet på alle forskellige niveauer. Som minimum kunne du indtaste bogstaver og få din stemmeforudsigelse til at fungere rigtig godt. Hvordan fungerer det i brugssammenhæng? En anden ting, vi har arbejdet på at forbedre, er blot ordet prædiktor for faktisk at være meget mere bevidst om brugskonteksten. Meget af vores test lige nu har været med tekst. I andre ting, som vi gør, ikke nødvendigvis i dette specifikke projekt, arbejder vi meget med systemer, der er baseret på stemme. Så vi er nødt til at tænke på ASR [automatisk talegenkendelse] komponenten af ​​dette. Vi har meget mere information fra ASR end blot teksten. Vi tænker på, hvad der er ressourcerne i det ASR-system, og hvordan kan vi bringe det ind.

ZDNet: Når du tænker på GPT-2, har du alle disse forskellige ting at balancere, du har prompten, og så har du finjustering, som du talte om... Der er en feedback-loop, hvor han giver signaler... Der er alle disse forskellige steder, jeg formoder, at du kan skubbe eller trække på for at lave denne slags system bedre…

LN: Ja, præcis. Og så, hvordan inkorporerer du egentlig nogle af disse temaer og nøgleord? Den interessante del er, hvordan du tænker på et system, der fortsætter med at bringe forskellige muligheder. Hvis det ikke vil gøre, hvad du vil med nul indsats, kan det så gøre det med minimal indsats? En del af den kamp, ​​vi ser, er, at systemet kan klare sig ret godt på ting, der er meget mere generiske, men at få det til specificiteten bliver meget, meget sværere.

ZDNet: Og hvis du vil komme til den lange hale, de dele af sandsynlighedsfordelingen, der er en del af menneskets frihed, og udtryk, for denne person ønsker du at finde måder at skubbe systemet væk fra blot at være i dets søde sted alle de tid. Fordi han vil udtrykke sig langs den fede hale af denne kurve.

Også: Frygt ikke dybe forfalskninger: OpenAIs maskine skriver lige så meningsløst, som en chatbot taler

LN: Nemlig. Og så også konteksten af ​​denne specifikke samtale, så du ikke lyder gentagne. Samtidig har du denne enorme model [GPT-2] med milliarder af parametre. Og så prøver du at bringe, hvad vi tror er hans stil, til den proces med meget, meget begrænsede data. Du vil være i stand til ikke bare at forstærke de mest almindelige ting, du vil gerne være i stand til at give meget mere vægt til hans egne data og stil. Og selv inden for det, forstå, hvordan det ikke er en ensartet sag. En af de ting, vi har tænkt på, er, at Peter er en, der er meget skarp og hurtig, og han bruger sarkasme. Hvordan bringer du noget af det tilbage? Når du virkelig har tænkt dig at være sarkastisk, vælger du så bare sarkasmetilstanden? Heldigvis kunne jeg møde ham, inden han blev opereret. Han er genial, han er sjov, hans karakter er noget, du gerne vil kunne beholde. Hvordan udtrykker vi det? I en eller anden forstand kunne du få ham til eksplicit at udtrykke det. Du kunne have en kombination af at prøve at komme ud af det, han siger, hvad der er følelsen af ​​det indhold, han har givet, og derefter gøre det lettere for den tagging at ske. En ting, vi har studeret, er, hvordan gør du det muligt for ham at skubbe systemet, men ikke ender med denne enorme grænseflade.

ZDNet: Fra et ingeniørmæssigt synspunkt er det vel lidt som at genvinde signalet fra støjen?

LN: Nemlig. Men du ved, det interessante ved Peter, vi har haft mange samtaler om, hvor muligt er sådan noget? Og hans pointe, som han blev ved med at presse på - og han er 180 grader fra hvor Stephens tilgang og attitude var om dette - er, at han er sådan, ja, jeg tænker på mig selv som dels menneskelig, dels AI, når jeg kommer til det fase. Jeg er villig til at blive skubbet af AI-systemet, ikke? Jeg er villig til at opgive en vis grad af kontrol. Jeg er villig til at bruge tiden og arbejde med det, og lære af det, og det kan lære af mig.

ZDNet: Og Hawking tænkte ikke på det på samme måde?

LN: Nej, det er fuldstændig modsat. Stephen, en af ​​de ting, der var frustrerende for ham, er, at han ville forudsige sin ordforudsiger. Og jo mere intelligens vi tilføjede til ordforudsigeren, blev han rigtig sur! Fordi Stephen lærte over tid, over år og år med at bruge det, hvad han kunne forvente og hvor. Og så da vi faktisk bragte en mere avanceret ordforudsigelse ind, blev han ved med at klage. Og så tog jeg en masse målinger, en masse data, og jeg viste ham præcis præstationen...

ZDNet: For at bevise for ham!

LN: For at vise ham, hvor meget bedre det var. Og han blev ved med at sige, men jeg leder efter svaret et bestemt sted!

ZDNet: Hvilket er et yderst intelligent svar på en opgradering, faktisk!

LN: Nemlig. Og Stephen var en meget unik sag. Hvor mange mennesker med ALS har brugt et system i mere end et årti? Med Stephen var det okay, jeg har brugt det i 20 år. Når der er en ordforudsigelse i gang i hans hoved, kaster alt, hvad der ændrer den måde, grænsefladen fungerer på, ham ud.

ZDNet: Og ved at hacke systemet på den måde, fandt Hawking en måde, der var i overensstemmelse med ham selv som person uden for enhedens objektive funktion.

LN: Nemlig.

ZDNet: Og i modsætning hertil, i det system, du nu arbejder på med Dr. Scott-Morgan, siger han, at han vil sætte sig ind i overensstemmelse med tabsfunktionen, aggressivt, at være med i, hvordan den fungerer, fordi han faktisk er fascineret ved det.

LN: Nemlig. Det er en fantastisk måde at udtrykke det på.

ZDNet: Du laver arbejdet med ACAT open source, ikke?

LN: Ja, det er vigtigt. Faktisk fra tidligt af, da vi først begyndte at arbejde med Stephen - jeg spøger altid, Stephen var både designer og valideringsingeniør på det. Stephen var den bedste valideringsingeniør nogensinde. Han ville bruge uger og uger på at fejlfinde, validere et system. Det blev nærmest en udfordring for ham. Han ville have dette smil på læben, når han fandt en fejl. Men han var fast på, at det var open source. Han var en, som så mange mennesker nåede ud til for at finde løsninger. Så det var tydeligt for ham, at der var et hul i dette rum, og der skulle være noget open source. Da vi begyndte at tænke på, at det var open source, måtte vi tænke på, hvordan det kunne støtte folk med alle forskellige slags evner til at kontrollere systemet. For eksempel, hele denne trigger-funktion forestilling, du kunne gøre det muligt for det at støtte mennesker med forskellige evner ved i det væsentlige at afkoble denne trigger-funktion fra resten af ​​systemet. En del af tankerne er, hvordan gør du det muligt for folk også at innovere oven på det system, og enhver, der har en kapacitet, de ønsker at bringe ind, behøver de ikke gå og bruge yderligere tre år på at prøve at bygge et system som at. Specifikt med aftrækkeren har vi brugt forskellige typer sensorer. Der er mennesker, for eksempel, der måske ikke er i stand til at bevæge en muskel i deres ansigter, men måske kan de bevæge en finger. De kan ikke flytte den med tilstrækkelig behændighed til at trykke på en knap, men de har nogle bevægelser i fingrene. Så en af ​​de ting, vi har prøvet, er at bygge en ring med et accelerometer i, så de bare kan tage den på, og de kan flytte den finger. En anden var kontrol med øjenbevægelser; selvom du ikke kan få god blikkontrol, hvis du bare kan bevæge dig til højre eller venstre, og bruge det som en udløser. Det er denne idé om blot at udvide den slags signaler, som folk kan bruge. I løbet af de sidste par år har vi virkelig forsøgt at henvende os til de mennesker, der ikke kan bevæge nogen muskler. Så vi har arbejdet på BCI [hjernecomputergrænseflade], specifikt. Et af de problemer, vi har set, er, at der er BCI-systemer derude med tonsvis af elektroder, virkelig high fidelity-systemer. En ting, vi har arbejdet på, er, om vi rent faktisk kan bruge et åbent BCI-system, et for et par hundrede dollars, ikke mange elektroder, bare båret som en kasket, og det gør den mere anvendelig og mere tilgængelig. Og i det væsentlige kompenser det med en masse signalbehandling og maskinlæring for at opnå en rimelig nøjagtighed. Det, der bremsede BCI, var, hvor mange gentagelser du skal gøre, før du har nok tillid til, at du ved, hvad nogen forsøger at gøre. Det er noget, vi forsøger at få ud i open source snart. Jeg er meget begejstret for at få det ind i open source, fordi jeg tror, ​​det virkelig ville låse op for adgang for mange patienter. Det er overhængende, faktisk, vi har det hele i gang i vores laboratorium, så jeg håber inden årets udgang.

ZDNet: Tak, Lama, for at give os dette vidunderlige vindue ind i dit teams arbejde.