AI kan boka en restaurang eller en hårutnämning, men förvänta dig inte en full konversation

AI kan boka en restaurang eller en hårutnämning, men förvänta dig inte en full konversation Visst att din AI-assistent kan boka en tid åt dig, men vad sägs om någon meningsfull konversation? Shutterstock / Bas Nastassia

Google nyligen avtäckt dess senaste talande AI, kallad Duplex. Duplex låter som en riktig person, komplett med pauser, "umms" och "ahhs".

Den tekniska jätten säger att den kan prata med människor i telefon för att boka tid och kontrollera öppettiderna.

Duplex planerar en möte för frisörsalong. Google445 KB (Download)

I inspelade konversationer som spelades vid avslöjandet av Google, samtalade det sömlöst med människorna i den mottagande änden, som verkade helt ovetande om att de inte pratade med någon annan person.

Duplex som ringer en restaurang. Google399 KB (Download)

Dessa samtal lämnade teknikorienterad publik på Google-showen och suger och jublar. I ett exempel förstod AI till och med när personen den pratade med blev blandad och kunde fortsätta följa konversationen och svara på rätt sätt när det fick höra att den inte behövde boka.

Ökningen av AI-assistenterna

Om du har använt någon av de tillgängliga röstassistenterna, t.ex. Google Home, Apples Siri eller Amazon Echo, denna flexibilitet kan överraska dig. Dessa assistenter är notoriskt svårt att använda för allt annat än standardförfrågningarna, som att ringa en kontakt, spela en låt, göra en enkel webbsökning eller ställa in en påminnelse.


Få det senaste från InnerSelf


När vi pratar med dessa nuvarande generations assistenter, är vi alltid medvetna om att vi pratar med en AI och vi skräddarsyr ofta vad vi säger i enlighet därmed på ett sätt som vi hoppas maximerar våra chanser att få det att fungera.

Men de människor som pratade med Duplex hade ingen aning. De tvekade, backspårade, hoppade över ord och ändrade till och med fakta halvvägs genom en mening. Duplex missade inte en takt. Det verkade verkligen förstå vad som hände.


Läs mer: Smarta högtalare kan vara tipppunkten för hemmeautomation


Så har framtiden kommit tidigare än någon förväntat sig? Är världen på väg att vara full av AI-assistenter online (och på telefon) som pratar lyckligt och gör allt för oss? Eller värre, kommer vi plötsligt att omges av intelligenta AI: er med sina egna tankar och idéer som kan inkludera oss människor?

Svaret är ett bestämt "nej". För att förstå varför hjälper det att titta snabbt under huven på vad som driver en AI som den här.

Duplex: hur det fungerar

Det här är vad Duplex AI-system ser ut som.

teknik Inkommande ljud behandlas genom ett ASR-system. Detta producerar text som analyseras med kontextdata och andra ingångar för att producera en svarstext som läsas högt via text-till-tal-systemet (TTS). Google

Systemet tar "input" (visas till vänster), vilket är rösten för personen det pratar med på telefonen. Rösten går igenom automatisk taligenkänning (ASR) och konverteras till text (skrivna ord). ASR är i sig ett avancerat AI-system, men av en typ som redan är vanligt förekommande i befintliga röstassistenter.

Texten skannas sedan för att bestämma vilken typ av mening den är (till exempel en hälsning, ett uttalande, en fråga eller en instruktion) och extrahera all viktig information. Nyckelinformationen blir sedan en del av sammanhanget, vilket är extra inmatning som håller systemet uppdaterat med vad som hittills har sagts i konversationen.

Texten från ASR och Context skickas sedan till hjärtat av Duplex, som kallas ett konstgjordt neuralt nätverk (ANN).

I diagrammet ovan visas ANN av cirklarna och linjerna som förbinder dem. ANN: er är löst modellerade på våra hjärnor, som har miljarder neuroner anslutna till enorma nätverk.

Inte riktigt en hjärna, ännu

ANN är dock mycket enklare än våra hjärnor. Det enda som denna försöker göra är att matcha inmatningsorden med ett lämpligt svar. ANN lär sig genom att visas utskrifter av tusentals samtal av personer som bokar restauranger.

Med tillräckligt med exempel lär det sig vilken typ av inmatningssatser man kan förvänta sig av personen den pratar med och vilka typer av svar man ska ge för var och en.

Textsvaret som ANN genererar skickas sedan till en text-till-tal-synthesizer (TTS) som omvandlar det till talade ord som sedan spelas till personen i telefonen.

Återigen är denna TTS-synthesizer en avancerad AI - i det här fallet är den mer avancerad än den på din telefon, eftersom den låter nästan omöjlig att skilja från någon normal röst.

Det är allt som finns åt det. Trots att det är toppmodern är systemets hjärta egentligen bara en textmatchningsprocess. Men du kanske frågar - om det är så enkelt, varför kunde vi inte göra det förut?

Ett lärt svar

Faktum är att mänskligt språk, och de flesta andra saker i den verkliga världen, är för varierande och oordning för att hanteras väl av vanliga datorer, men den här typen av problem är perfekt för AI.

Observera att utgången som produceras av AI beror helt och hållet på konversationer som den visades medan den lärde sig.

Detta innebär att olika AI måste utbildas för att göra bokningar av olika typer - så till exempel kan en AI boka restauranger och en annan kan boka hårmöten.

Detta är nödvändigt eftersom typerna av frågor och svar kan variera så mycket för olika typer av bokningar. Detta är också hur Duplex kan vara så mycket bättre än de allmänna röstassistenterna, som behöver hantera många typer av förfrågningar.

Så nu borde det vara uppenbart att vi inte kommer att ha tillfälliga samtal med våra AI-assistenter någon gång snart. I själva verket är alla våra nuvarande AI: er egentligen inget annat än mönstermatchare (i detta fall matchande textmönster). De förstår inte vad de hör eller vad de ser på eller vad de säger.

Mönstermatchning är en sak som våra hjärnor gör, men de gör också så mycket mer. Nyckeln till att skapa mer kraftfull AI kan vara att låsa upp fler av hjärnans hemligheter. Vill vi göra det? Det är det en annan fråga.Avlyssningen

Om författaren

Peter Stratton, postdoktorell forskare, University of Queensland

Denna artikel publiceras från Avlyssningen under en Creative Commons licens. Läs ursprungliga artikeln.

enafarzh-CNzh-TWnltlfifrdehiiditjakomsnofaptruessvtrvi

följ InnerSelf på

facebook-icontwitter-iconrss-icon

Få det senaste via e-post

{Emailcloak = off}

FRÅN REDAKTORERNA

Räkningsdagen har kommit för GOP
by Robert Jennings, InnerSelf.com
Det republikanska partiet är inte längre ett politiskt parti i USA. Det är ett illegitimt pseudopolitiskt parti fullt av radikaler och reaktionärer vars uttalade mål är att störa, destabilisera och ...
Varför Donald Trump kunde vara historiens största förlorare
by Robert Jennings, InnerSelf.com
Uppdaterad 2 juli 20020 - Hela coronavirus-pandemin kostar en förmögenhet, kanske 2 eller 3 eller 4 förmögenheter, alla av okänd storlek. Åh ja, och hundratusentals, kanske en miljon människor kommer att dö ...
Blåögon vs bruna ögon: Hur rasism lärs ut
by Marie T. Russell, InnerSelf
I detta avsnitt från Oprah Show från 1992 lärde den prisbelönta antirasismaktivisten och utbildaren Jane Elliott publiken en tuff lektion om rasism genom att visa hur lätt det är att lära sig fördomar.
En förändring kommer att komma...
by Marie T. Russell, InnerSelf
(30 maj 2020) När jag tittar på nyheterna om händelserna i Philadephia och andra städer i landet verkar mitt hjärta efter det som händer. Jag vet att detta är en del av den större förändringen som sker ...
En låt kan lyfta hjärtat och själen
by Marie T. Russell, InnerSelf
Jag har flera sätt som jag använder för att rensa mörkret från mitt sinne när jag upptäcker att det har snett i. En är trädgårdsarbete eller spendera tid i naturen. Den andra är tystnad. Ett annat sätt är läsning. Och en som ...