Hur Cambridge Analytics Facebook Targeting Model verkligen fungeradeHur exakt kan du profileras online? Andrew Krasovitckii / Shutterstock.com

Forskaren vars arbete ligger i centrum av Facebook-Cambridge Analytica dataanalys och politisk reklam upprorisk har visat att hans metod fungerade mycket som den Netflix använder för att rekommendera filmer.

I en email till mig förklarade Cambridge University-forskaren Aleksandr Kogan hur hans statistiska modell behandlade Facebook-data för Cambridge Analytica. Noggrannheten som han påstår antyder att det fungerar såväl som etablerade väljare-riktade metoder baserad på demografi som ras, ålder och kön.

Om bekräftat skulle Kogans konto innebära att den digitala modelleringen Cambridge Analytica som användes var knappast den virtuella kristallen bollen några har hävdat. Ändå ger siffrorna Kogan visa också vad är - och det är inte - faktiskt möjligt by kombinera personuppgifter med maskininlärning för politiska ändamål.

När det gäller en viktig allmän oro, tyder Kogans nummer på att information om användarnas personligheter eller "psycho"Var bara en blygsam del av hur modellen riktade sig till medborgarna. Det var inte en personlighetsmodell strängt men bara en som kokade ner demografi, sociala influenser, personlighet och allting i en stor korrelerad klump. Detta uppkallande-all-the-correlation-and-call-it-personality-tillvägagångssättet verkar ha skapat ett värdefullt kampanjverktyg, även om den produkt som såldes inte var riktigt som den fakturerades.


innerself prenumerera grafik


Löfte om personlighetsinriktning

I kölvattnet av de uppenbarelser som Trump-kampanjkonsulterna Cambridge Analytica använde data från 50 miljoner Facebook-användare att rikta sig till digital politisk annonsering under 2016 USA: s presidentval, har Facebook förlorade miljarder i börsvärdet, regeringar på båda sidor av Atlanten ha öppnade undersökningar, och en växande social rörelse uppmanar användarna att #DeleteFacebook.

Men en nyckelfråga har kvarblivit obesvarad: Var Cambridge Analytica verkligen effektivt att rikta kampanjmeddelanden till medborgare utifrån deras personlighetsegenskaper - eller till och med deras "inre demoner, "Som ett företag whistleblower påstås?

Om någon skulle veta vad Cambridge Analytica gjorde med sin massiva trove av Facebook-data skulle det vara Aleksandr Kogan och Joseph Chancellor. Det var deras startande Global Science Research som samlade profilinformation från 270,000 Facebook-användare och tiotals miljoner av sina vänner använder en personlighetstestapp kallad "thisisyourdigitallife."

En del av min egen forskning fokuserar på förståelse maskininlärning metoder och min kommande bok diskuterar hur digitala företag använder rekommendationsmodeller för att bygga publiken. Jag hade en uppfattning om hur Kogan och kanslerens modell fungerade.

Så jag mailade Kogan att fråga. Kogan är fortfarande en forskare vid Cambridge University; hans samarbetspartner Kansler arbetar nu på Facebook. I en anmärkningsvärd framställning av akademisk artighet svarade Kogan.

Hans svar kräver lite uppackning, och lite bakgrund.

Från Netflixpriset till "psychometrics"

Tillbaka i 2006, när det fortfarande var ett DVD-by-postföretag, erbjöd Netflix a belöning på $ 1 miljoner till alla som utvecklat ett bättre sätt att göra förutsägelser om användarnas filmrankningar än företaget redan hade. En överraskande toppkonkurrent var en oberoende mjukvaruutvecklare med hjälp av pseudonymen Simon Funk, vars grundläggande tillvägagångssätt slutligen införlivades i alla topplagens poster. Funk anpassade en teknik som heter "singulärvärdesfaktorisering, "Kondensera användarnas betyg av filmer till en serie av faktorer eller komponenter - i huvudsak en uppsättning utvalda kategorier, rankade efter betydelse. Som funk förklaras i ett blogginlägg,

"Exempelvis kan en kategori representera actionfilmer, filmer med mycket action överst och långsamma filmer längst ner och motsvarande användare som gillar actionfilmer på toppen och de som föredrar långsamma filmer på botten."

Faktorer är artificiella kategorier, som inte alltid är som de kategorier av människor som kommer att uppstå. De viktigaste faktorn i Funks tidiga Netflix-modell definierades av användare som älskade filmer som "Pearl Harbor" och "The Wedding Planner" samtidigt som han hatar filmer som "Lost in Translation" eller "The Everless Sunshine of the Spotless Mind". Hans modell visade hur maskininlärning kan hitta korrelationer bland grupper av människor och grupper av filmer, som människorna själva aldrig skulle upptäcka.

Funks allmänna inställning använde 50 eller 100 viktigaste faktorerna för både användare och filmer för att göra en anständig gissning på hur varje användare skulle betygsätta varje film. Denna metod kallas ofta dimensionalitetsminskning eller matrisfaktorisering, var inte ny. Statsvetenskapliga forskare hade visat det liknande tekniker som använder röstsamtalsröstningsdata kunde förutse rösterna från kongressmedlemmar med 90-procentuell noggrannhet. I psykologi är "Big Five"Modellen hade också använts för att förutsäga beteende genom att klustra samman personlighetsfrågor som tenderade att besvaras på samma sätt.

Ändå var Funks modell ett stort framsteg: Det möjliggjorde tekniken att fungera bra med stora dataset, även de med massor av saknade data - som Netflix dataset, där en typisk användare betygsatte endast några dussin filmer av tusentals i företagets bibliotek. Mer än ett decennium efter att Netflix Prize-tävlingen slutade, SVD-baserade metoder, eller relaterade modeller för implicit data, är fortfarande det verktyg som valts för att många webbplatser kan förutsäga vad användarna ska läsa, titta på eller köpa.

Dessa modeller kan också förutsäga andra saker.

Facebook vet om du är republikan

I 2013 publicerade universitetsforskare Michal Kosinski, David Stillwell och Thore Graepel en artikel om predictive power av Facebook data, med hjälp av information som samlats in genom ett online personlighetstest. Deras initiala analys var nästan identisk med den som användes på Netflix-priset, med hjälp av SVD för att kategorisera både användare och saker som de "gillade" i topp 100-faktorerna.

Papperet visade att en faktormodell med användarnas Facebook "gillar" ensam var 95 procent exakt Att skilja mellan svarta och vita respondenter, 93-procent som är exakta för att skilja män från kvinnor och 88-procent som är exakta för att skilja personer som identifierats som homosexuella män från män som identifierats som raka. Det kan även korrekt skilja republikaner från demokrater 85 procent av tiden. Det var också användbart, men inte så exakt, för förutsäga användarnas poäng på "Big Five" personlighetstestet.

Det fanns folkstorm som svar; inom några veckor hade Facebook haft gjort användarnas gillar privat som standard.

Kogan och kansler, även vid Cambridge University-forskare, började använda Facebook-data för valriktning som ett led i ett samarbete med Cambridge Analytics moderbolag SCL. Kogan uppmanade Kosinski och Stillwell att gå med i sitt projekt, men det fungerade inte. Kosinski misstänktes förmodligen att Kogan och kansler hade reverse-engineered Facebook "likes" -modellen för Cambridge Analytica. Kogan förnekade detta och sa sitt projekt "byggt alla våra modeller använder vår egen data, samlas med vår egen programvara. "

Vad gjorde Kogan och kansler faktiskt?

När jag följde utvecklingen i berättelsen blev det klart Kogan och kansler hade faktiskt samlat in massor av sina egna data genom denna appelsinjuice. De kunde verkligen ha byggt en prediktiv SVD-modell som den som presenterades i Kosinski och Stillwells publicerade forskning.

Så jag mailade Kogan för att fråga om det var vad han hade gjort. Något till min förvåning skrev han tillbaka.

"Vi använde inte precis SVD," skrev han och noterade att SVD kan kämpa när vissa användare har många fler "gillar" än andra. I stället förklarade Kogan: "Tekniken var något vi faktiskt utvecklade oss själva ... Det är inte något som är offentligt." Utan att gå in i detaljer beskrev Kogan sin metod som "ett flertal steg co-förekomst närma sig."

Hans budskap fortsatte dock för att bekräfta att hans tillvägagångssätt verkligen liknade SVD eller andra matrisfaktoriseringsmetoder, som i Netflix Prize-tävlingen och Kosinki-Stillwell-Graepel Facebook-modellen. Dimensionalitetsminskning av Facebook-data var kärnan i hans modell.

Hur exakt var det?

Kogan föreslog att den exakta modellen som används inte spelar någon roll mycket, men vad som är viktigt är noggrannheten i dess förutsägelser. Enligt Kogan var "korrelationen mellan förutspådda och faktiska poäng ... runt [30 procent] för alla personlighetsdimensionerna." I jämförelse handlar en persons tidigare Big Five-poäng om 70 till 80 procent korrekt i att förutsäga deras poäng när de återupptar testet.

Kogans precisionskrav kan inte självständigt verifieras. Och vem som helst mitt i en så hög profilskandal kan ha incitament att underskatta hans eller hennes bidrag. I hans utseende på CNN, Förklarade Kogan för en alltmer otroligt Anderson Cooper som faktiskt hade modellerna faktiskt inte fungerat mycket bra.

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr Kogan svarar på frågor om CNN.

I själva verket verkar noggrannheten Kogan påståenden lite låg, men trovärdig. Kosinski, Stillwell och Graepel rapporterade jämförbara eller något bättre resultat, liksom flera andra akademiska studier använder digitala fotavtryck för att förutsäga personlighet (även om några av dessa studier hade mer data än bara Facebook "likes"). Det är förvånande att Kogan och kansler skulle gå i besväret med att designa sin egen proprietära modell om lösningar på hylla ser ut att vara lika exakta.

Viktigt är dock att modellens noggrannhet på personlighetsresultat gör det möjligt att jämföra Kogans resultat med annan forskning. Publicerade modeller med motsvarande noggrannhet för att förutsäga personlighet är alla mycket mer exakta när man gissar demografi och politiska variabler.

Den liknande Kosinski-Stillwell-Graepel SVD-modellen var till exempel 85-procent exakt vid gissande partilänkning, även utan att använda någon annan profilinformation än vad som helst. Kogans modell hade liknande eller bättre noggrannhet. Att lägga till en liten mängd information om vänner eller användares demografi skulle sannolikt öka denna precision över 90-procenten. Gissningar om kön, ras, sexuell läggning och andra egenskaper skulle förmodligen vara mer än 90-procenten exakta.

Kritiskt skulle dessa gissningar vara speciellt bra för de mest aktiva Facebook-användarna - människorna som modellen var främst använden för att rikta sig mot. Användare med mindre aktivitet att analysera är troligtvis inte mycket på Facebook.

När psykografi är mestadels demografi

Att veta hur modellen bygger är att förklara Cambridge Analytics uppenbarligen motsägelsefulla uttalanden om rollen - eller brist på detta - den personligheten profilerande och psykografi spelade i sin modellering. De är alla tekniskt förenliga med vad Kogan beskriver.

En modell som Kogans skulle ge uppskattningar för varje variabel som finns tillgänglig för en grupp användare. Det betyder att det skulle automatiskt uppskatta de fem stora personlighetspoängen för varje väljare. Men dessa personlighetsresultat är utmatningen av modellen, inte ingången. All modell vet att vissa Facebook-gillar, och vissa användare, tenderar att grupperas ihop.

Med denna modell kunde Cambridge Analytica säga att det var att identifiera personer med låg öppenhet för erfarenhet och hög neurotik. Men samma modell, med exakt samma förutsägelser för varje användare, kan lika exakt ange att man identifierar mindre utbildade äldre republikanska män.

Kogans information hjälper också att förtydliga förvirringen kring Cambridge Analytica faktiskt raderade sin trove av Facebook-data, när modeller byggdes från data verkar fortfarande cirkulera, Och även vidareutvecklas.

AvlyssningenHela punkten i en dimensionreduceringsmodell är att matematiskt representera data i enklare form. Det är som om Cambridge Analytica tog ett mycket högupplösta fotografi, ändra storlek på det för att vara mindre och sedan raderade originalet. Bilden finns fortfarande - och så länge som Cambridge Analytics modeller finns, gör data effektivt också.

Om författaren

Matthew Hindman, docent i media och offentliga frågor, George Washington University

Den här artikeln publicerades ursprungligen den Avlyssningen. Läs ursprungliga artikeln.

relaterade böcker

at InnerSelf Market och Amazon