Dark Data - Hvad er det mørke data og kan det undgås?

Dark data. IT verdenens svar på det, astronomerne kalder mørkt stof. Vi ved det mørke stof eksisterer fordi det påvirker det synlige stof, som vi kan observere. Dark data, eller mørk data, er lidt det samme. Det er alt det data du har liggende, men som du ikke “ser” i hverdagen.

Ifølge Gartner, som var de første til at bruge udtrykket, så er dark data blot alt data, som en virksomhed indsamler/producerer i forbindelse med den normale dag-til-dag operation af virksomheden.

Når “de store” taler om dark data, så taler de typisk om informationer, der løbende bliver indsamlet automatisk i diverse systemer i form af logfiler, kunde-data, statistikker fra webshops og meget, meget mere. Ideen er, at hvis man kan analysere alle disse enorme mængder af data, så kan man måske opdage ét eller andet man kan blive rig på. De bruger buzz words som “big data”, Business intelligence (BI) og data mining. Det er typisk i store virksomheder… hvor der heller ikke altid er tid til, at gøre noget ved de enorme mængder af data. Alt den ophobede data, som der ikke bliver gjort noget ved, betegnes i den sammenhæng som dark data.

I mindre virksomheder er dark data “bare” helt almindelig data, som ikke længere bliver brugt til noget.

Der er to måder du kan se det på. Den ene er når din fil- eller mailserver er ved at løbe tør for plads. Så bliver i pludselig opmærksomme på jeres mørke data, som ligger og fylder “over det hele”.

Den anden måde vender jeg tilbage til om lidt.

Dark data er dokumenter som medarbejdere igennem mange år har gemt på firmaets filserver eller i Outlook. Som årene går bliver en stor del af de data glemt. Det bliver forældet og ligegyldigt. Men da der aldrig sker nogen oprydning på jeres filserver, så hober de gamle data sig bare op til en større og større bunke af digital dødvægt.

 

Alt data er vigtigt og skal gemmes

Nej, det er ej!
Sådan!
Så har jeg sagt det, som mange ikke tør sige.

Data var sikkert vigtigt og relevant på et tidspunkt, men er det stadig relevant? Sådan helt ærligt?

Det Word dokument fra 2008 hvor I har skrevet menuen til firmaets julefrokost op, som blev brugt den ene gang i december 2008… det ligger stadig og fylder et eller andet sted. Er det stadig relevant data i 2016?

Jamen et enkelt Word dokument fylder jo ikke ret meget, siger du. Invitationen til samme julefrokost, som blev sendt rundt som en alle-mail, den fylder da heller ikke ret meget. Nej, det gør den ikke – Men når du har tusindvis af dem, så begynder det at fylde noget.

 

Den anden måde du opdager dark data på er…

Du har haft et nedbrud og du skal i gang med at restore dine data fra jeres backup. I har 300GB data som I skal hive ned via jeres internetforbindelse. Heldigvis har I en 50Mbit linje, så det skulle jo ikke tage alverden.

Desværre for dig, så leverer din backupleverandør ikke dine data med 50Mbit/sek. Måske modtager I kun med hvad der svarer til 20Mbit/sek – hvis I er heldige. Hvis du taster de tal ind i min backup beregner, så kan du se, at det vil tage dig 49 timer at restore dine data.

Ja, 49 timer!

Det er lige præcis NU du er træt af alle de Wordfiler med julefrokostmenuer. For de skal også restores. Hvad nu hvis du kun havde 100GB relevant data? Ja, så havde du været færdig på 16 timer.

 

Kan jeg undgå dark data?

Ja, hvis du er skarp på at få ryddet op i dine gamle filer, så kan du godt. Men hvem er egentlig lige det? Det tager tid – og det er dybest set tid du ikke har. Du kan jo ikke sende en regning for den tid du bruger på det.

Du kan også prøve at strukturere dine data i hovedkategorier. Så ved du, at i tilfælde af et nedbrud, så skal data i den vigtigste kategori restores først, mens andre og mindre væsentlige data kan vente til senere. På den måde bliver konsekvensen af en nedbrud knap så voldsom.

 

Hvor meget dark data har jeg?

Du kan prøve dig med følgende kommando. Den giver dig et indblik i hvor mange filer du har liggende, som er ældre end en given dato.

I Windows skal du starte en kommandoprompt med administratorrettigheder. Derefter indtaster du følgende kommando:

 

FORFILES /D -01-06-2015 /S /C “cmd /c echo @file er ældre end den indtastede dato og fylder @fsize bytes.”

 

Kommandoen lister alle filer der er ældre end den indtastede dato – i det her tilfælde 1. juni 2015.

Vil du finde filer der er endnu ældre, så indtaster du bare en anden dato. Vær også opmærksom på det lille minus “-” foran datoen. Det indikerer, at kommandoen skal tage filer der er ældre end den indtastede dato.

Bemærk yderligere, at kommandoen lister filer i den aktuelle mappe samt alle undermapper. Så sørg for at du står i den rigtige mappe inden du fyrer kommandoen af.

Hvis du vil tjekke et netværksdrev skal du bruge en modificeret version af kommandoen:

 

pushd \\servernavn\foldernavn\ && FORFILES /D -01-06-2015 /S /C “cmd /c echo @file er ældre end den indtastede dato og fylder @fsize bytes.” && popd

 

Ovenstående kræver at du kender server- og foldernavnet på dit netværksdrev.

Når du kører ovenstående kommandoer vil du se en hel masse filnavne scrolle op over din skærm. Hvis du har rigtig meget gammel data, så vil den stå og scrolle i meget lang tid. Du kan – hvis du bliver træt af at se på det – afbryde det med CTRL-C.

Jeg håber ovenstående har gjort dig lidt klogere på begrebet dark data. Harddiske er billige og det er nemt at få masser af plads til at gemme filer. Men mange filer er i sig selv ikke et mål og det kan desværre hurtigt blive en hæmsko for dig, hvis du bare ukritisk gemmer alt til evig tid.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>