Hur dina vänner på Twitter kan ge bort din anonymitet

Hur dina vänner på Twitter kan ge dig bort din anonymitet

När du surfar på internet spårar onlineannonsörer nästan varje webbplats du besöker, samla en trove av information om dina vanor och preferenser. När du besöker en nyhetssajt kan de se dig som fan av basket-, opera- och mysterieromaner och välj därför annonser anpassade efter din smak.

Annonsörer använder den här informationen för att skapa mycket personliga upplevelser, men de vet vanligtvis inte exakt vem du är. De observerar bara ditt digitala spår, inte din identitet själv, så du kanske känner att du har behållit en viss grad av anonymitet.

Men i ett papper jag medförde med Ansh Shukla, Sharad Goel och Arvind Narayanan, visar vi att dessa anonyma webbbläddringsposter faktiskt ofta kan knyta tillbaka till verkliga identiteter.

För att testa vårt tillvägagångssätt byggde vi en hemsida där människor kunde donera sin surfhistorik för syftet med denna studie. Vi försökte sedan se om vi kunde länka sina historier tillbaka till deras Twitter-profiler med endast offentligt tillgängliga data. Sjuttiofem procent av de personer som vi försökte deanonymisera identifierades korrekt som den främsta kandidaten i sökresultaten, och 81-procenten var bland de bästa 15-kandidaterna.

privacy2 2 8Skärmdumpar av deanonymiseringswebbplatsen.

Detta är, enligt vår kunskap, den största demonstrationen av deanonymisering hittills, eftersom den väljer rätt användare av hundratals miljoner möjliga Twitter-användare. Dessutom kräver vår metod endast att en person klickar på länkarna som visas i sina sociala medier, inte att de skickar något innehåll - så även personer som är försiktiga med vad de delar på internet är fortfarande sårbara för denna attack.

Hur det fungerar

På en hög nivå bygger vårt tillvägagångssätt på en enkel observation. Varje person har ett mycket distinkt socialt nätverk som består av familj och vänner från skolan, arbetet och olika stadier i sitt liv. Som en konsekvens är uppsättningen länkar i dina Facebook- och Twitter-flöden mycket distinkt. Om du klickar på dessa länkar lämnar du ett förtrollmärke i din webbläsarhistorik.

Genom att titta på uppsättningen webbsidor som en person har besökt, kunde vi välja ut liknande sociala medier, vilket gav en lista över kandidater som sannolikt genererade webbbläddringshistoriken. På så sätt kan vi knyta en persons verkliga identitet till den nästan fullständiga uppsättningen länkar som de har besökt, inklusive länkar som aldrig publicerades på någon social media-webbplats.

Genomförandet av denna strategi innebär två viktiga utmaningar. Den första är teoretisk: Hur kvantifierar du hur liknande ett specifikt socialt media-flöde är för en viss webbbläddringshistorik? Ett enkelt sätt är att mäta fraktionen av länkar i surfhistoriken som också visas i flödet. Det fungerar ganska bra i praktiken, men det överstiger likhet för stora flöden, eftersom de helt enkelt innehåller fler länkar. Vi tar istället ett alternativt tillvägagångssätt. Vi ställer en stiliserad, probabilistisk modell av webbläsningsbeteende och beräknar då sannolikheten för att en användare med det sociala media-flödet genererade den observerade surfhistoriken. Då väljer vi det sociala media-flödet som är mest troligt.

Den andra utmaningen innebär att man identifierar de mest liknande flödena i realtid. Här vänder vi oss till Twitter, eftersom Twitter-flöden (till skillnad från Facebook) är i stort sett offentliga. Men även om flödena är offentliga kan vi inte bara skapa en lokal kopia av Twitter mot vilken vi kan köra våra frågor. Istället tillämpar vi en rad tekniker för att dramatiskt minska sökutrymmet. Vi kombinerar sedan cachingtekniker med efterfrågade nätverkskrypter för att konstruera flöden av de mest lovande kandidaterna. På denna reducerade kandidatsats tillämpar vi vår likhetsåtgärd för att producera de slutliga resultaten. Med en webbhistorik kan vi typiskt utföra hela processen under 60 sekunder.

Vår metod är mer exakt för personer som tittar på Twitter mer aktivt. Nittio procent av deltagarna som klickat på 100 eller fler länkar på Twitter kunde matchas med deras identitet.

Många företag har spårningsresurserna att utföra en attack som den här, även utan deltagarens samtycke. Vi försökte deanonymisera var och en av våra experimentdeltagare med bara de delar av deras webbhistorik som var synliga för specifika spårningsföretag (eftersom företagen har spårare på dessa sidor). Vi fann att flera företag hade resurser för att korrekt identifiera deltagarna.

sekretess 2 8Andra deanonymiseringsstudier

Flera andra studier har använt offentligt tillgängliga fotspår för att deanonymisera känsliga data.

Kanske den mest kända studien utförs av Latanya Sweeney vid Harvard University i 2002. Hon upptäckte det 87 procent av amerikanerna var unikt identifierbara baserat på en kombination av deras postnummer, kön och födelsedatum. Dessa tre attribut var tillgängliga i både offentlig väljare registreringsdata (som hon köpte för US $ 20) och anonyma medicinska data (som var allmänt distribuerade, eftersom folk trodde att uppgifterna var anonyma). Genom att ansluta dessa datakällor fann hon medicinska journaler från guvernören i Massachusetts.

I 2006, Netflix körde en tävling för att förbättra kvaliteten på sina filmrekommendationer. De släppte en anonymiserad dataset av folks filmbetyg och erbjöd $ 1 miljoner till laget som kunde förbättra sin rekommendationsalgoritm med 10-procent. Datavetenskapare Arvind Narayanan och Vitaly Shmatikov märkte att filmerna som tittade på var mycket distinkt, och de flesta i datasetet var unika identifierbara baserat på en liten delmängd av sina filmer. Med andra ord, baserat på Netflix filmval och IMDB recensioner, kunde forskarna bestämma vem de Netflix-användare faktiskt var.

Med uppkomsten av sociala medier delar fler och fler människor information som verkar oskyldiga men avslöjar faktiskt mycket personlig information. En studie ledd av Michal Kosinski vid University of Cambridge används Facebook som att förutsäga människors sexuell läggning, politiska åsikter och personlighetsdrag.

Ett annat lag, ledt av Gilbert Wondracek vid Wiens tekniska högskola, byggde en "deanonymiseringsmaskin" som utgjorde vilka grupper människor var med i på sociala nätverket Xing och använde det för att ta reda på vem de var - eftersom de grupper du är en del av är ofta tillräckligt för att identifiera du.

Vad kan du göra

De flesta av dessa attacker är knepiga att försvara mot, om du inte slutar använda internet eller delta i det offentliga livet.

Även om du slutar använda internet kan företag fortfarande samla in data på dig. Om flera av dina vänner laddar upp sina telefonkontakter till Facebook, och ditt nummer finns i alla sina kontaktlistor, kan Facebook göra förutsägelser om dig, även om du inte använder tjänsten.

Det bästa sättet att försvara mot deanonymiseringsalgoritmer som vår, är att begränsa uppsättningen personer som har tillgång till dina anonyma surfdata. Webbläsarutökningar som Ghostery blockera tredje parts trackers. Det innebär att även om företaget vars webbplats du besöker kommer att veta att du besöker dem, kommer de annonseringsföretag som visar annonser på deras sida inte att kunna samla dina webbdata och sammanställa dem på flera webbplatser.

Om du är webbansvarig kan du hjälpa till att skydda dina användare genom att låta dem bläddra i din webbplats med HTTPS. Genom att använda HTTP kan angripare få din webbhistorik genom att snyta nätverkstrafik, vilket gör att de kan utföra denna attack. Många webbplatser har redan bytt till HTTPS; när vi upprepade vårt deanonymiseringsexperiment utifrån ett nätverkstrafik sniffer kunde endast 31-procent av deltagarna deanonymiseras.

Det finns dock väldigt lite du kan göra för att skydda dig mot deanonymiseringsattacker i allmänhet, och kanske det bästa är att anpassa dina förväntningar. Ingenting är privat i denna digitala tidsålder.

Om författaren

Jessica Su, Ph.D. Student på Stanford, Stanford University

Den här artikeln publicerades ursprungligen den Avlyssningen. Läs ursprungliga artikeln.

relaterade böcker

{amazonWS: searchindex = Böcker; nyckelord = privatlivets fred; maxresultat = 3}

enafarzh-CNzh-TWnltlfifrdehiiditjakomsnofaptruessvtrvi

följ InnerSelf på

facebook-icontwitter-iconrss-icon

Få det senaste via e-post

{Emailcloak = off}