Vad är djupfattade videor och upptäcka dem blinka av ett öga

En ny form av felinformation är redo att sprida sig via onlinemiljöer när 2018-halvtidsvalskampanjerna värmer upp. Kallas "deepfakes" efter pseudonymt onlinekonto som populariserade tekniken - som kan ha valt sitt namn eftersom processen använder en teknisk metod som kallas "djupt lärande" - dessa falska videor ser väldigt realistiska ut.

Hittills har folk använt djupfattade videor i pornografi och satir för att få det fram som kända personer gör saker som de normalt inte skulle göra.

Men det är nästan säkert deepfakes kommer att dyka upp under kampanjperioden, påstås att visa kandidater säger saker eller gå platser den verkliga kandidaten inte skulle.

Det är Barack Obama - eller är det?

{youtube}cQ54GDm1eL0{/youtube}

Eftersom dessa tekniker är så nya, har människor problem med att berätta skillnaden mellan riktiga videor och djupfångna videor. Mitt arbete, med min kollega Ming-Ching Chang och vår doktorand student Yuezun Li, har hittat ett sätt att Berätta på rätt sätt riktiga videor från djupfattade videor. Det är inte en permanent lösning, eftersom tekniken kommer att förbättras. Men det är en början, och erbjuder hopp om att datorer kommer att kunna hjälpa människor att berätta sanningen från fiktion.


innerself prenumerera grafik


Vad är en djupfel?

Att göra en djupfärdig video är mycket som att översätta mellan språk. Tjänster som Google Translate använd maskininlärning - datoranalys av tiotusentals texter på flera språk - till upptäcka ordanvändningsmönster som de använder för att skapa översättningen.

Deepfake-algoritmer fungerar på samma sätt: De använder en typ av maskininlärningssystem som heter a djupt neuralt nätverk att undersöka ansiktsrörelser hos en person. Sedan syntetiserar de bilder av andras ansikte som gör analoga rörelser. Att göra så effektivt skapar en video av den målperson som verkar göra eller säga saker som källan gjorde.

Hur djupa videoklipp görs.

{youtube}8LhI-e2B8Lg{/youtube}

Innan de kan fungera ordentligt behöver djupa neurala nätverk mycket information om källa, t.ex. bilder av personer som är källa eller mål för ombildning. Ju fler bilder som används för att träna en deepfake-algoritm, desto mer realistiska blir den digitala impersonationen.

Detekterar blinkande

Det finns fortfarande brister i denna nya typ av algoritm. En av dem har att göra med hur de simulerade ansikten blinkar - eller inte. Friska vuxna människor blinkar någonstans mellan varje 2 och 10 sekunder, och en enkel blinkning tar mellan en tiondel och fyra tiondelar av en sekund. Det är vad som är normalt att se i en video av en person som pratar. Men det är inte vad som händer i många djupfattade videor.

En riktig person blinkar medan han pratar.

{youtube}https://www.youtube.com/watch?v=-MMXXEA3UaM{/youtube}

Ett simulerat ansikte blinkar inte som en riktig person gör.

{youtube}EttSA9-YIuI{/youtube}

När en deepfake-algoritm utbildas på ansiktsbilder av en person, är det beroende av de bilder som finns tillgängliga på internet som kan användas som träningsdata. Även för personer som fotograferas ofta finns det få bilder tillgängliga online som visar sina ögon stängd. Inte bara är bilder så sällsynta - eftersom människornas ögon är öppna mest av tiden - men fotografer publicerar vanligtvis inte bilder där huvudämnenas ögon är stängda.

Utan att träna bilder av människor som blinkar, är det mindre troligt att djupfrekvensalgoritmer skapar ansikten som blinkar normalt. När vi beräknar den totala hastigheten att blinka, och jämför det med det naturliga intervallet, fann vi att tecken i djupa videor blinkar mycket mindre frekvent i jämförelse med riktiga människor. Vår forskning använder maskininlärning till undersöka ögonöppning och stängning i videor.

Detta ger oss en inspiration för att upptäcka deepfake-videor. Därefter utvecklar vi en metod för att upptäcka när personen i videon blinkar. För att vara mer specifik, skannar den varje ram av en aktuell video, upptäcker ansikten i den och lokaliserar sedan ögonen automatiskt. Det utnyttjar sedan ett annat djupt neuralt nätverk för att avgöra om det upptäckta ögat är öppet eller stängt, med hjälp av ögatens utseende, geometriska egenskaper och rörelse.

Vi vet att vårt arbete utnyttjar en felaktighet i vilken data som finns tillgänglig för att utbilda djupfaktaalgoritmer. För att undvika att drabbas av liknande slag har vi utbildat vårt system på ett stort bibliotek med bilder av både öppna och stängda ögon. Denna metod verkar fungera bra, och som ett resultat har vi uppnått en detekteringshastighet över 95-procent.

Det här är inte det sista ordet för att upptäcka djupfel. Tekniken är förbättras snabbt, och konkurrensen mellan att generera och upptäcka falska videor är analog med ett schackspel. I synnerhet kan blinkande läggas till djupfattade videor genom att inkludera ansiktsbilder med slutna ögon eller använda videosekvenser för träning. Människor som vill förvirra allmänheten blir bättre på att göra falska videor - och vi och andra i teknikgemenskapen måste fortsätta hitta sätt att upptäcka dem.Avlyssningen

Om författaren

Siwei Lyu, docent i datavetenskap; Direktör, datorsyn och maskinlärningslabb, University at Albany, State University of New York

Den här artikeln publicerades ursprungligen den Avlyssningen. Läs ursprungliga artikeln.

relaterade böcker

at InnerSelf Market och Amazon