turing test och ai 10 17

Pexels/Google Deepmind, CC BY-SA

1950 föreslog den brittiske datavetaren Alan Turing en experimentell metod för att svara på frågan: kan maskiner tänka? Han föreslog att om en människa inte kunde se om de pratade med en artificiellt intelligent (AI) maskin eller en annan människa efter fem minuters förhör, skulle detta visa att AI har mänsklig intelligens.

Även om AI-system förblev långt ifrån att klara Turings test under hans livstid, spekulerade han i det

"[...] om cirka femtio år kommer det att vara möjligt att programmera datorer […] för att få dem att spela imitationsspelet så bra att en genomsnittlig förhörsledare inte kommer att ha mer än 70 % chans att göra rätt identifiering efter fem minuters frågande.

Idag, mer än 70 år efter Turings förslag, har ingen AI lyckats klara testet genom att uppfylla de specifika villkoren han beskrev. Ändå, som några rubriker reflektera, har några system kommit ganska nära.

Ett nyligen experiment testat tre stora språkmodeller, inklusive GPT-4 (AI-tekniken bakom ChatGPT). Deltagarna tillbringade två minuter med att chatta med antingen en annan person eller ett AI-system. AI:n uppmanades att göra små stavfel – och avsluta om testaren blev för aggressiv.


innerself prenumerera grafik


Med denna uppmaning gjorde AI ett bra jobb med att lura testarna. När de parades med en AI-bot kunde testare bara gissa om de pratade med ett AI-system 60 % av gångerna.

Med tanke på de snabba framstegen som uppnåtts i designen av naturliga språkbehandlingssystem, kan vi se AI klara Turings ursprungliga test inom de närmaste åren.

Men är att imitera människor verkligen ett effektivt test för intelligens? Och om inte, vilka är några alternativa riktmärken vi kan använda för att mäta AI:s kapacitet?

Turing-testets begränsningar

Medan ett system som klarar Turing-testet ger oss några bevis på att det är intelligent, detta test är inte ett avgörande test av intelligens. Ett problem är att det kan producera "falska negativa".

Dagens stora språkmodeller är ofta utformade för att omedelbart förklara att de inte är människor. Till exempel, när du ställer en fråga till ChatGPT, föregår det ofta svaret med frasen "som en AI-språkmodell". Även om AI-system har den underliggande förmågan att klara Turing-testet, skulle denna typ av programmering åsidosätta den förmågan.

Testet riskerar också vissa typer av "falskt positiva". Som filosofen Ned Block påpekade i en artikel från 1981 kunde ett system tänkas klara Turing-testet helt enkelt genom att hårdkodas med ett mänskligt svar på alla möjliga indata.

Utöver det fokuserar Turing-testet på mänsklig kognition i synnerhet. Om AI-kognition skiljer sig från mänsklig kognition, kommer en expertförhörsledare att kunna hitta någon uppgift där AI:er och människor skiljer sig åt i prestanda.

Angående detta problem skrev Turing:

Denna invändning är mycket stark, men vi kan åtminstone säga att om en maskin ändå kan konstrueras för att spela imitationsspelet på ett tillfredsställande sätt, behöver vi inte besväras av denna invändning.

Med andra ord, även om godkänt på Turing-testet är ett bra bevis på att ett system är intelligent, är det inte bra bevis på att ett system är inte duktig.

Dessutom är testet inte ett bra mått på om AI: er är medvetna, om de kan känna smärta och njutning eller om de har moralisk betydelse. Enligt många kognitiva forskare involverar medvetande ett särskilt kluster av mentala förmågor, inklusive att ha ett arbetsminne, tankar av högre ordning och förmågan att uppfatta sin miljö och modellera hur ens kropp rör sig runt den.

Turing-testet svarar inte på frågan om AI-system eller inte har dessa förmågor.

AI:s växande kapacitet

Turingtestet bygger på en viss logik. Det vill säga: människor är intelligenta, så allt som effektivt kan imitera människor är sannolikt intelligent.

Men denna idé säger oss ingenting om intelligensens natur. Ett annat sätt att mäta AI:s intelligens innebär att tänka mer kritiskt på vad intelligens är.

Det finns för närvarande inget enskilt test som auktoritativt kan mäta artificiell eller mänsklig intelligens.

På den bredaste nivån kan vi tänka på intelligens som förmåga att uppnå en rad mål i olika miljöer. Mer intelligenta system är de som kan uppnå ett bredare spektrum av mål i ett bredare spektrum av miljöer.

Som sådant är det bästa sättet att hålla reda på framstegen i utformningen av AI-system för allmänna ändamål att bedöma deras prestanda för en mängd olika uppgifter. Maskininlärningsforskare har utvecklat en rad riktmärken som gör detta.

Till exempel var GPT-4 kunna svara rätt 86 % av frågorna i massiv språkförståelse för flera uppgifter – ett riktmärke som mäter prestanda i flervalstester inom en rad akademiska ämnen på högskolenivå.

Det gjorde också bra poäng in Agentbänk, ett verktyg som kan mäta en stor språkmodells förmåga att bete sig som agent genom att till exempel surfa på nätet, köpa produkter online och tävla i spel.

Är Turing-testet fortfarande relevant?

Turing-testet är ett mått på imitation – på AI:s förmåga att simulera mänskligt beteende. Stora språkmodeller är expertimitatörer, vilket nu återspeglas i deras potential att klara Turing-testet. Men intelligens är inte detsamma som imitation.

Det finns lika många typer av intelligens som det finns mål att uppnå. Det bästa sättet att förstå AI:s intelligens är att övervaka dess framsteg när det gäller att utveckla en rad viktiga funktioner.

Samtidigt är det viktigt att vi inte fortsätter att "ändra målstolparna" när det kommer till frågan om AI är intelligent. Eftersom AI:s kapacitet snabbt förbättras, hittar kritiker av idén om AI-intelligens ständigt nya uppgifter som AI-system kan kämpa för att slutföra – bara för att upptäcka att de har hoppat över ännu ett hinder.

I den här inställningen är den relevanta frågan inte om AI-system är intelligenta – utan mer exakt vad slag av intelligens de kan ha.Avlyssningen

Simon Goldstein, docent, Dianoia Institute of Philosophy, Australian Catholic University, Australiensiska katolska universitetet och Cameron Domenico Kirk-Giannini, biträdande professor i filosofi, Rutgers University

Denna artikel publiceras från Avlyssningen under en Creative Commons licens. Läs ursprungliga artikeln.