Hur Cambridge Analyticas Facebook-inriktningsmodell verkligen fungerade

: By Matthew Hindman, George Washington University

Tack för besöket InnerSelf.com, där det finns 20,000+ livsförändrande artiklar som främjar "Nya attityder och nya möjligheter." Alla artiklar är översatta till 30+ språk. Prenumerera till InnerSelf Magazine, som publiceras varje vecka, och Marie T Russells Daily Inspiration. InnerSelf Magazine har publicerats sedan 1985.

bryta

Hur Cambridge Analytics Facebook Targeting Model verkligen fungerade Hur exakt kan du profileras online? Andrew Krasovitckii / Shutterstock.com

Forskaren vars arbete ligger i centrum av Facebook-Cambridge Analytica dataanalys och politisk reklam upprorisk har visat att hans metod fungerade mycket som den Netflix använder för att rekommendera filmer.

I en email till mig förklarade Cambridge University-forskaren Aleksandr Kogan hur hans statistiska modell behandlade Facebook-data för Cambridge Analytica. Noggrannheten som han påstår antyder att det fungerar såväl som etablerade väljare-riktade metoder baserad på demografi som ras, ålder och kön.

Om bekräftat skulle Kogans konto innebära att den digitala modelleringen Cambridge Analytica som användes var knappast den virtuella kristallen bollen några har hävdat. Ändå ger siffrorna Kogan visa också vad är - och det är inte - faktiskt möjligt by kombinera personuppgifter med maskininlärning för politiska ändamål.

När det gäller en viktig allmän oro, tyder Kogans nummer på att information om användarnas personligheter eller "psycho"Var bara en blygsam del av hur modellen riktade sig till medborgarna. Det var inte en personlighetsmodell strängt men bara en som kokade ner demografi, sociala influenser, personlighet och allting i en stor korrelerad klump. Detta uppkallande-all-the-correlation-and-call-it-personality-tillvägagångssättet verkar ha skapat ett värdefullt kampanjverktyg, även om den produkt som såldes inte var riktigt som den fakturerades.

Löfte om personlighetsinriktning

I kölvattnet av de uppenbarelser som Trump-kampanjkonsulterna Cambridge Analytica använde data från 50 miljoner Facebook-användare att rikta sig till digital politisk annonsering under 2016 USA: s presidentval, har Facebook förlorade miljarder i börsvärdet, regeringar på båda sidor av Atlanten ha öppnade undersökningar, och en växande social rörelse uppmanar användarna att #DeleteFacebook.

Men en nyckelfråga har kvarblivit obesvarad: Var Cambridge Analytica verkligen effektivt att rikta kampanjmeddelanden till medborgare utifrån deras personlighetsegenskaper - eller till och med deras "inre demoner, "Som ett företag whistleblower påstås?

Om någon skulle veta vad Cambridge Analytica gjorde med sin massiva trove av Facebook-data skulle det vara Aleksandr Kogan och Joseph Chancellor. Det var deras startande Global Science Research som samlade profilinformation från 270,000 Facebook-användare och tiotals miljoner av sina vänner använder en personlighetstestapp kallad "thisisyourdigitallife."

En del av min egen forskning fokuserar på förståelse maskininlärning metoder och min kommande bok diskuterar hur digitala företag använder rekommendationsmodeller för att bygga publiken. Jag hade en uppfattning om hur Kogan och kanslerens modell fungerade.

Så jag mailade Kogan att fråga. Kogan är fortfarande en forskare vid Cambridge University; hans samarbetspartner Kansler arbetar nu på Facebook. I en anmärkningsvärd framställning av akademisk artighet svarade Kogan.

Hans svar kräver lite uppackning, och lite bakgrund.

Från Netflixpriset till "psychometrics"

Tillbaka i 2006, när det fortfarande var ett DVD-by-postföretag, erbjöd Netflix a belöning på $ 1 miljoner till alla som utvecklat ett bättre sätt att göra förutsägelser om användarnas filmrankningar än företaget redan hade. En överraskande toppkonkurrent var en oberoende mjukvaruutvecklare med hjälp av pseudonymen Simon Funk, vars grundläggande tillvägagångssätt slutligen införlivades i alla topplagens poster. Funk anpassade en teknik som heter "singulärvärdesfaktorisering, "Kondensera användarnas betyg av filmer till en serie av faktorer eller komponenter - i huvudsak en uppsättning utvalda kategorier, rankade efter betydelse. Som funk förklaras i ett blogginlägg,

"Exempelvis kan en kategori representera actionfilmer, filmer med mycket action överst och långsamma filmer längst ner och motsvarande användare som gillar actionfilmer på toppen och de som föredrar långsamma filmer på botten."

Faktorer är artificiella kategorier, som inte alltid är som de kategorier av människor som kommer att uppstå. De viktigaste faktorn i Funks tidiga Netflix-modell definierades av användare som älskade filmer som "Pearl Harbor" och "The Wedding Planner" samtidigt som han hatar filmer som "Lost in Translation" eller "The Everless Sunshine of the Spotless Mind". Hans modell visade hur maskininlärning kan hitta korrelationer bland grupper av människor och grupper av filmer, som människorna själva aldrig skulle upptäcka.

Funks allmänna inställning använde 50 eller 100 viktigaste faktorerna för både användare och filmer för att göra en anständig gissning på hur varje användare skulle betygsätta varje film. Denna metod kallas ofta dimensionalitetsminskning eller matrisfaktorisering, var inte ny. Statsvetenskapliga forskare hade visat det liknande tekniker som använder röstsamtalsröstningsdata kunde förutse rösterna från kongressmedlemmar med 90-procentuell noggrannhet. I psykologi är "Big Five"Modellen hade också använts för att förutsäga beteende genom att klustra samman personlighetsfrågor som tenderade att besvaras på samma sätt.

Ändå var Funks modell ett stort framsteg: Det möjliggjorde tekniken att fungera bra med stora dataset, även de med massor av saknade data - som Netflix dataset, där en typisk användare betygsatte endast några dussin filmer av tusentals i företagets bibliotek. Mer än ett decennium efter att Netflix Prize-tävlingen slutade, SVD-baserade metoder, eller relaterade modeller för implicit data, är fortfarande det verktyg som valts för att många webbplatser kan förutsäga vad användarna ska läsa, titta på eller köpa.

Dessa modeller kan också förutsäga andra saker.

Facebook vet om du är republikan

I 2013 publicerade universitetsforskare Michal Kosinski, David Stillwell och Thore Graepel en artikel om predictive power av Facebook data, med hjälp av information som samlats in genom ett online personlighetstest. Deras initiala analys var nästan identisk med den som användes på Netflix-priset, med hjälp av SVD för att kategorisera både användare och saker som de "gillade" i topp 100-faktorerna.

Papperet visade att en faktormodell med användarnas Facebook "gillar" ensam var 95 procent exakt Att skilja mellan svarta och vita respondenter, 93-procent som är exakta för att skilja män från kvinnor och 88-procent som är exakta för att skilja personer som identifierats som homosexuella män från män som identifierats som raka. Det kan även korrekt skilja republikaner från demokrater 85 procent av tiden. Det var också användbart, men inte så exakt, för förutsäga användarnas poäng på "Big Five" personlighetstestet.

Det fanns folkstorm som svar; inom några veckor hade Facebook haft gjort användarnas gillar privat som standard.

Kogan och kansler, även vid Cambridge University-forskare, började använda Facebook-data för valriktning som ett led i ett samarbete med Cambridge Analytics moderbolag SCL. Kogan uppmanade Kosinski och Stillwell att gå med i sitt projekt, men det fungerade inte. Kosinski misstänktes förmodligen att Kogan och kansler hade reverse-engineered Facebook "likes" -modellen för Cambridge Analytica. Kogan förnekade detta och sa sitt projekt "byggt alla våra modeller använder vår egen data, samlas med vår egen programvara. "

Vad gjorde Kogan och kansler faktiskt?

När jag följde utvecklingen i berättelsen blev det klart Kogan och kansler hade faktiskt samlat in massor av sina egna data genom denna appelsinjuice. De kunde verkligen ha byggt en prediktiv SVD-modell som den som presenterades i Kosinski och Stillwells publicerade forskning.

Så jag mailade Kogan för att fråga om det var vad han hade gjort. Något till min förvåning skrev han tillbaka.

"Vi använde inte precis SVD," skrev han och noterade att SVD kan kämpa när vissa användare har många fler "gillar" än andra. I stället förklarade Kogan: "Tekniken var något vi faktiskt utvecklade oss själva ... Det är inte något som är offentligt." Utan att gå in i detaljer beskrev Kogan sin metod som "ett flertal steg co-förekomst närma sig."

Hans budskap fortsatte dock för att bekräfta att hans tillvägagångssätt verkligen liknade SVD eller andra matrisfaktoriseringsmetoder, som i Netflix Prize-tävlingen och Kosinki-Stillwell-Graepel Facebook-modellen. Dimensionalitetsminskning av Facebook-data var kärnan i hans modell.

Hur exakt var det?

Kogan föreslog att den exakta modellen som används inte spelar någon roll mycket, men vad som är viktigt är noggrannheten i dess förutsägelser. Enligt Kogan var "korrelationen mellan förutspådda och faktiska poäng ... runt [30 procent] för alla personlighetsdimensionerna." I jämförelse handlar en persons tidigare Big Five-poäng om 70 till 80 procent korrekt i att förutsäga deras poäng när de återupptar testet.

Kogans precisionskrav kan inte självständigt verifieras. Och vem som helst mitt i en så hög profilskandal kan ha incitament att underskatta hans eller hennes bidrag. I hans utseende på CNN, Förklarade Kogan för en alltmer otroligt Anderson Cooper som faktiskt hade modellerna faktiskt inte fungerat mycket bra.

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr Kogan svarar på frågor om CNN.

I själva verket verkar noggrannheten Kogan påståenden lite låg, men trovärdig. Kosinski, Stillwell och Graepel rapporterade jämförbara eller något bättre resultat, liksom flera andra akademiska studier använder digitala fotavtryck för att förutsäga personlighet (även om några av dessa studier hade mer data än bara Facebook "likes"). Det är förvånande att Kogan och kansler skulle gå i besväret med att designa sin egen proprietära modell om lösningar på hylla ser ut att vara lika exakta.

Viktigt är dock att modellens noggrannhet på personlighetsresultat gör det möjligt att jämföra Kogans resultat med annan forskning. Publicerade modeller med motsvarande noggrannhet för att förutsäga personlighet är alla mycket mer exakta när man gissar demografi och politiska variabler.

Den liknande Kosinski-Stillwell-Graepel SVD-modellen var till exempel 85-procent exakt vid gissande partilänkning, även utan att använda någon annan profilinformation än vad som helst. Kogans modell hade liknande eller bättre noggrannhet. Att lägga till en liten mängd information om vänner eller användares demografi skulle sannolikt öka denna precision över 90-procenten. Gissningar om kön, ras, sexuell läggning och andra egenskaper skulle förmodligen vara mer än 90-procenten exakta.

Kritiskt skulle dessa gissningar vara speciellt bra för de mest aktiva Facebook-användarna - människorna som modellen var främst använden för att rikta sig mot. Användare med mindre aktivitet att analysera är troligtvis inte mycket på Facebook.

När psykografi är mestadels demografi

Att veta hur modellen bygger är att förklara Cambridge Analytics uppenbarligen motsägelsefulla uttalanden om rollen - eller brist på detta - den personligheten profilerande och psykografi spelade i sin modellering. De är alla tekniskt förenliga med vad Kogan beskriver.

En modell som Kogans skulle ge uppskattningar för varje variabel som finns tillgänglig för en grupp användare. Det betyder att det skulle automatiskt uppskatta de fem stora personlighetspoängen för varje väljare. Men dessa personlighetsresultat är utmatningen av modellen, inte ingången. All modell vet att vissa Facebook-gillar, och vissa användare, tenderar att grupperas ihop.

Med denna modell kunde Cambridge Analytica säga att det var att identifiera personer med låg öppenhet för erfarenhet och hög neurotik. Men samma modell, med exakt samma förutsägelser för varje användare, kan lika exakt ange att man identifierar mindre utbildade äldre republikanska män.

Kogans information hjälper också att förtydliga förvirringen kring Cambridge Analytica faktiskt raderade sin trove av Facebook-data, när modeller byggdes från data verkar fortfarande cirkulera, Och även vidareutvecklas.

Hela punkten i en dimensionreduceringsmodell är att matematiskt representera data i enklare form. Det är som om Cambridge Analytica tog ett mycket högupplösta fotografi, ändra storlek på det för att vara mindre och sedan raderade originalet. Bilden finns fortfarande - och så länge som Cambridge Analytics modeller finns, gör data effektivt också.

Om författaren

Matthew Hindman, docent i media och offentliga frågor, George Washington University

Den här artikeln publicerades ursprungligen den Avlyssningen. Läs ursprungliga artikeln.

relaterade böcker

at InnerSelf Market och Amazon

bryta

Tack för besöket InnerSelf.com, där det finns 20,000+ livsförändrande artiklar som främjar "Nya attityder och nya möjligheter." Alla artiklar är översatta till 30+ språk. Prenumerera till InnerSelf Magazine, som publiceras varje vecka, och Marie T Russells Daily Inspiration. InnerSelf Magazine har publicerats sedan 1985.

Tillgängliga språk

följ InnerSelf på

InnerSelf författare

InnerSelfs dagliga inspiration: 18 april 2024

Julia Paulette Hollenbery

The Daily Inspiration är ett kort meddelande för att sätta tonen för dagen. Den är länkad till en längre artikel för ytterligare insikter och...

ung pojke som står i vattnet vid kanten av vågorna som porlar in

Vi är på toppen av det subtila energiisberget

Yury Kronn, Ph.D.

Vi kan inte utvecklas som civilisation, inte ens som art, utan förståelsen och kunskapen om subtil energi. Och, viktigast av allt, de flesta...

vacker kvinna utanför om på gräset leende

Är attraktiva människor verkligen mer pålitliga?

Astrid Hopfensitz, EM Lyon Business School

På dagens hårt konkurrensutsatta arbetsmarknad är de ekonomiska fördelarna med skönhet obestridliga. Flera studier har visat att attraktiva...

Filtrera bort skadliga "Forever Chemicals": sätt att rengöra ditt dricksvatten

Kyle Doudrick, University of Notre Dame

Att ta bort PFAS från allmänt vatten kommer att kosta miljarder och ta tid – här är sätt att filtrera bort några skadliga "för alltid kemikalier" hemma.

Lever Montessori Education upp till sina påståenden?

Alison Demangeon och Youssef Tazouti, Université de Lorraine

Montessori-undervisningsmetoderna föddes i början av 20-talet och har åtnjutit ökande popularitet i Europa under de senaste 20 åren. Men…

MEST LÄS

Undergräver den vita förbittringen på landsbygden demokratin?

Thomas F. Schaller, University of Maryland

Varför vita amerikaners förbittring är ett hot mot demokratin...

Perma-receptet: Fem steg till varaktigt välbefinnande

Ben Gibson och Victoria Ruby-Granger, De Montfort University

Friskvårdsmodellen i fem steg som verkligen fungerar – och psykologin bakom...

bild av en kvinna på en stig i ett öppet fält och håller i en resväska

Du påverkas av dina förfäders trauma!

Peter A. Levine

Mardrömslika trauman kan överföras över flera generationer. Dessa implicita minnesengram hade verkligen en djup inverkan på mitt liv,...

Avslöja de dolda skälen till att barn skrattar

Carlo Valerio Bellieni, Università di Siena

Varför skrattar barn? Det är inte alltid för att de är glada...

Ung man spelar gitarr medan han bär hjälm täckt av elektroder som mäter hjärnaktivitet

Från övning till prestation: Vetenskapen om kreativt flöde

John Kounios och Yvette Kounios

Hjärnskanningar av Philly jazzmusiker avslöjar hemligheter för att nå kreativt flöde...

Pet Paradox: Hur att dela ett rum påverkar sömnen

Brian N. Chin, Trinity College

Kan dela sovrum med dina husdjur hindra dig från att få en god natts sömn?

SENAST