Vad betyder datakvalitet?

Facebooktwitterlinkedinmaildatakvalitet

Datakvalitet betyder att informationen finns tillgänglig på rätt sätt, vid rätt tidpunkt, för rätt personer. Detta är tyvärr väldigt sällan sanningen. Oftast är data inkomplett, inte tillgänglig i rätt system när det behövs och ofta finns det diskrepans mellan olika system vilket gör dataanalys svårt (vikten av dataanalys beskrivs i annat inlägg).

Definition av datakvalitet

Man kan definiera datakvalitet utifrån sex dimensioner:
• Validitet
• Korrekthet
• Konsekvens
• Kompletthet
• Integritet
• Aktualitet

Om vi tar en vanlig postadress som exempel så består den i Sverige av ett antal olika komponenter:
• Gatunamn
• Gatunummer
• Littera (dvs bokstav för t ex trappuppgång eller för radhus)
• Lägenhetsnummer enligt Lantmäteriets format (finns även andra formatteringar)
• Postnummer
• Postort
• Land

Dessa olika komponenter följer olika standarder i olika länder för hur en adress sätts samman. I Sverige skrivs adressen:
Storgatan 14 A, lgh 1301, 251 09 Örebro, Sverige

I andra länder sätts adresserna samman på helt andra sätt och av helt andra komponenter.

I vissa fall finns adresserna i våra system, ibland hämtas dom från myndigheters system eller i värsta fall matas de in av en konsument som slarvar med stavning och att göra adressen komplett och korrekt vilket påverkar datakvaliteten.

Vad innebär då validitet?
Är allt delar av adressen rimliga och logiska enligt de affärsregler som är uppsatta? I många fall saknas affärsregler men dessa skall ju tillämpas även på inmatningsformulär på företagets hemsida. Skall man lagra postnummer med mellanslag så skall resultatet av det ifyllda formuläret ha postnummer enligt detta format. Antingen tvingande i samband med inmatning alternativt korrigering i samband med lagring av postnumret.

Vad innebär korrekthet?
Stämmer data med verkligheten eller en verifierbar källa. T ex stämmer postnummer överens med postort? Detta finns i postnummer data som går att ladda ner från posten och göra tester mot. 251 09 Frövi är kanske vad kunden brukar säga och har matat in men vi har 251 09 Örebro i våra system. Vilket är rätt? Genom att jobba mot en verifierbar källa så får vi reda på om Frövi eller Örebro är rätt postadress till postnumret 251 09.

Vad innebär konsekvens?
Är alla data konsekvent upplagda i olika system? Finns det eventuellt dubletter? Genom att göra formatkontroller och säkra att dessa är konsekvent genomförda i olika system så kan man säkerställa att datan är korrekt. Om våra system lagrar postnummer på olika sätt så måste det finnas kontroller som säkerställer mappningen av dessa. Om ett system spara 251 09 och ett annat 25109 så måste det finns kontroller som säger att detta är samma postnummer och därmed inte borde ses som olika postnummer.

Vad innebär kompletthet:
Finns all data som krävs? Om en adress saknar gatunummer så är det omöjligt att veta om den adressen är komplett eller inte. Storgatan A vet vi ju inte att vi menar Storgatan 14 A. Kan ju lika gärna vara 12 A , 2 A eller annan adress.

Vad innebär integritet:
Är relationerna mellan olika enheter och attribut konsistenta? Inom tabeller och mellan? Om man i samma system lagrar ett värde på olika sätt utan att göra konsistenskontroller så blir det omöjligt att säkerställa datakvaliteten. Tänk ett postnummer som lagras som en siffra 26233. Detta kan ju inte jämföras med 262 33 som lagras som en textsträng i en annan tabell.

Vad innebär aktualitet:
Är data tillgänglig när det behövs? Vi vill göra ett utskick till samtliga våra kunder som finns i Örebro. Detta görs via en extern leverantör från vårt kundvårdssystem. Kundvårdsystemet måste dock ha information från vårt faktureringssystem där vissa kunder registreras utan att finnas i kundvårdssystemet. Det innebär att om inte informationen från faktureringsystemet finns i kundvårdssystemet vid tidpunkten för överföringen av utskicksadresserna så missar vi att få med vissa kunder i utskicket.

Sammanfattning

I tider där vi vill integrera och följa våra befintliga och potentiella kunder mer och bättre så är datakvaliteten en mycket viktig punkt att beakta och kan avgöra en implementation av olika lösningar och processer blir en succé eller inte.

Delamaro Consulting
Delamaro Consulting jobbar med digitalisering och kan bland annat hjälpa ditt företag med att förbättra datakvaliteten i dina system.