Stora data är stora nyheter dessa dagar. Men de flesta organisationer hamnar slutligen med enorma datarader och lämnar dem med ett massivt förråd av ostrukturerad - eller "mörk" data som är till liten nytta för alla.

Med tanke på de stora fördelarna med stora data är det avgörande att vi hittar bättre sätt att samla, lagra och analysera data för att få ut det mesta.

Berättelser om stora data framgångar har utlöst betydande investeringar i stora datainitiativ. Detta har lett till att många organisationer samlar betydande volymer av externa och interna data till så kallade "datasjöar”. Dessa är repositories som innehåller data i vilket format som helst, oavsett om de är strukturerade, som databaser eller ostrukturerad, som e-post eller ljud och video.

Som ett resultat fortsätter tillväxten i den mängd data som genereras, samlas och lagras fortsätter vid en exponentiell hastighet.

Men enligt en nyligen IBM studiemer än 80% av alla data är inaktiva, omanagda, ofta ostrukturerade, saknar meningsfulla metadata och till och med okända för organisationen. Andelen av denna mörka data förväntas nå 93% av 2020.


innerself prenumerera grafik


Till exempel kan data som genereras från fordonets inbyggda enheter förväntas nå 350MB data varje sekund. Var går all denna information och vem använder den?

Organisationer kan också generera betydande interna data. Till exempel a färsk studie fann att ett företag med 1,500-anställda hade runt 2.5 miljoner kalkylblad, vilka vardera endast användes av 12-personer i genomsnitt.

Dessutom finns det bevis på en mängd ostrukturerad data som dokumentversioner, projektnoteringar och e-postmeddelanden som lämnas bakom organisationsprocesser och sitter sedan vilande i dataservrar.

Använd det eller förlora det

Lärdomar från år av forskning i användningen av informationssystem har visat att antagandet att "mer är bättre" när det gäller data är ogrundat.

Även i traditionella IT-projekt som följer noggrant utformad analys och konstruktionscykler, har felinriktningen mellan uppfattat och verkligt värde varit ett notoriskt svårt problem, vilket ofta leder till dålig avkastning på investeringen.

I stora dataprojekt kan data ofta externt inhämtas med liten eller ingen kunskap om dess schemat, kvalitet eller förväntade användningsområden. Risken för att göra investeringar som inte kommer att levereras ökar alltså kraftigt.

Det gamla ordet "använda det eller förlora det" är inte på något sätt föråldrat och uppmärksammar hur vi använder stora data. Organisationer kan behålla data av olika skäl, inklusive regler för lagring av data, men uppfattat framtida värde är typiskt huvudorsaken.

Även om lagringen är relativt billig, med tanke på att volymen av data är assimilerade, underhåll och energiförbrukning av datacenter är inte trivial. Dessutom finns det kostnader och risker relaterade till säkerheten för sådana omanagda data.

Att definiera syftet är därför avgörande för att säkerställa att stora datainvesteringar är riktade mot meningsfulla problem, och datainsamling och lagring är väl motiverad.

Tillvägagångssätt som designtänkande, som uppmuntrar människor att använda kreativt lösningsfokuserat tänkande, visar sig vara mycket framgångsrika i äkta problemformulering för stora data.

Vad är designtänkande?

När det tillämpas på ett lämpligt sätt kan designtänkande utrusta datavetenskapare för att kombinera önskemål (kundbehov) och lönsamhet (affärsvärde) med teknisk genomförbarhet, och därmed vägleda dem till att utveckla meningsfulla lösningar.

Skräp in skräp ut

När klyftan mellan data skapande och användning blir större, gör det mer sannolikt att datakvaliteten minskar. Det betyder att en organisation måste anstränga sig mycket för att rengöra gamla data om den vill använda den idag.

Enligt US Chief Data Scientist DJ Patil:

Data är super rörigt, och datauppsättning kommer alltid att vara bokstavligen 80% av arbetet. Med andra ord är data problemet.

Tidigare i år skisserade en grupp globala tankeledare från databasforskningsgruppen stora utmaningar för att få värde från stora data. Det viktigaste budskapet var behovet av att utveckla förmågan att "förstå hur kvaliteten på dessa data påverkar kvaliteten på den insikt vi härleder från den".

Den gyllene principen om "skräp i skräp" är fortfarande sant i samband med stora data. Utan vetenskapligt trovärdig kunskap som ger möjlighet att effektivt utvärdera de underliggande kvalitetsegenskaperna hos data finns det en betydande risk för att organisationer och regeringar samlar stora volymer av data med låg värdedensitet, eller investera i låga avkastningsdataprodukter.

Dessutom kan bristen på kunskap om underliggande data (distributioner, semantik och andra nyanser) resultera i analytiska fällor, där dataanalysen kan leda till felaktiga och möjligen farliga slutsatser.

Datautforskning framträder som ett lovande tillvägagångssätt för att bemyndiga användare med förberedande förmåga att undersöka dataens kvalitet och få medveten om datas brister när det gäller deras avsedda användning, och gör det innan de investerar i dyra dataväxlings- och kurationsuppgifter.

Sökningen efter upplysning från dataflyggen kommer att förbruka det datastyrda samhällets energi och investeringar inom överskådlig framtid. Medan det finns enorma makt i omfattningen av data, när den lämnas obevakad kommer det att driva organisationer i avgrunden av mörka data.

Allt detta understryker det växande behovet av välutbildade datavetenskapare som har förmåga att artikulera en välgrundad verksamhet, vetenskaplig eller social syfte och anpassa den till de tekniska insatserna för datainsamling, lagring, curation och analys.

Avlyssningen

Om författaren

Shazia Sadiq, professor, data- och kunskapsteknik, University of Queensland

Den här artikeln publicerades ursprungligen den Avlyssningen. Läs ursprungliga artikeln.

relaterade böcker

at InnerSelf Market och Amazon