Fehlende Datenqualität: Nach Adam Riese wird das richtig teuer

Adam Riese hätte sich vermutlich im Grab herumgedreht, wenn er diese Posse mitbekommen würde. Denn der 30. März 1559 verstorbene Rechenmeister, auch bekannt als Adam Riese, bekam schon zum wiederholten Mal Post von der Gebühreneinzugszentrale (GEZ). Im ersten Schreiben an das Adam-Ries-Museum in seinem ehemaligen Wohnhaus im sächsischen Annaberg-Buchholz wurde der Mathematiker aufgefordert, nun endlich seine Rundfunkgeräte anzumelden.

Einmal kann ein solcher Fehler bei einer veralteten Datenbasis schon einmal passieren. Dass er sich aber trotz Klarstellung beim ersten Mal wiederholt und „Herr Adam Ries“ in einem Schreiben vier Jahre später erneut aufgefordert wird, seine 53,94 Euro an Rundfunkgebühren für das erste Quartal zu entrichten, ist schon skurril. Man könnte darüber lachen, wenn der Hintergrund nicht so ernst wäre.

Viele Unternehmen verrechnen sich

Denn nicht nur die GEZ hat sich im Fall Adam Riese verrechnet. Auch viele Unternehmen tun dies. Fehler in ihren Adressdatenbanken verursachen – so eine Studie von The Datawarehouse Institut (TDWI) – alleine in den USA jährlich Wirtschaftsschäden von rund 600 Milliarden Dollar. Würde man diese Zahlen auf Deutschland umrechnen, entspricht das einer Belastung von zirka 186 Milliarden Euro. Veraltete oder unvollständige Kundendaten sind beispielsweise der Grund für Irrläufer, Mehrfachauslieferungen und erschwerte Kundenkommunikation.

Etwa 8 Mio. Umzüge und 840.000 Sterbefälle pro Jahr in Deutschland führen zu Adressänderungen, 370.000 Hochzeiten und 190.000 Scheidungen bringen oft Namenswechsel mit sich. Hinzu kommen jährlich Tausende von Änderungen bei Straßennamen, Postleitzahlen und Orten. Doch auch bei den Firmen ist alles im Fluss: Alle sieben Minuten zieht ein Unternehmen um, alle zehn Minuten wird eine Insolvenz angemeldet und alle zwölf Minuten fusionieren zwei Betriebe.

Dass sich diese permanenten Veränderungen auf die Datenqualität auswirken, liegt auf der Hand. Schätzungen besagen, dass eine gut gepflegte Datenbank zwischen zwei und zehn, eine schlecht gepflegte zwischen 20 und 30 Prozent Dubletten enthalten. Solche Fehler verursachen hohe Kosten – beispielsweise in Form von Streuverlusten, weil ein Kunde bei einem Mailing mehrere Zusendungen erhält, der Kunde aber allenfalls einmal kauft.

Kundendaten gleich richtig erfassen

Wenn Fehler in Datenbanken erkannt werden, sollten diese natürlich sofort behoben werden. Besser ist es aber, schon bei der Eingabe auf vollständige und richtige Daten zu achten („First time right“). Einmal auf ein Schema für Kundendaten festgelegt, sollte man sich bei der Anlage von neuen Kunden immer daran halten. Das erspart im Nachhinein viel Arbeit und gibt die Gewissheit, sich auf seine Daten verlassen zu können.

Doch wie sieht es mit Daten aus, die bereits unvollständig oder fehlerhaft im System vorhanden sind? Müssen diese manuell gesucht und bereinigt werden? Die gute Nachricht: es gibt Tools, die Sie bei dieser Arbeit unterstützen.

Die Datenbereinigung sollte als permanenter Prozess gesehen werden und folgende Schritte beinhalten:

1. Data Profiling

2. Data Cleansing

3. Monitoring

Drei Schritte zu sauberen Daten

Beim Data Profiling werden die Daten analysiert, was dem Erkennen von Inkonsistenzen, Fehlern und Widersprüchen in den Datenbeständen dient. Aus den daraus gewonnenen Informationen können Maßnahmen abgeleitet werden, die zur Verbesserung der Datenqualität beitragen.

Anschließend folgt die Phase des Data Cleansing, der Datenbereinigung. Dabei werden die erkannten Probleme durch Anwendung verschiedener Algorithmen direkt behoben. Typische Arbeiten bei der Datenbereinigung sind z. B. Datentypkonvertierungen, Dublettenerkennung oder Vervollständigung lückenhafter Daten. Diese Phase kann sehr zeitintensiv werden.

Im Teilprozess Monitoring werden die Daten vor der Speicherung in den operativen und analytischen Systemen überprüft. Und in bestimmten Zeitabständen findet eine Prüfung des gesamten Kundendatenbestands statt. Denn ist einmal eine gewisse Datenqualität erreicht, sollte diese möglichst langfristig gewahrt werden. Dies kann zum einen organisatorisch sichergestellt werden, indem z. B. Stammdaten nur von einer verantwortlichen Person angelegt und geändert werden dürfen. Zum anderen durch technische Unterstützung wie beispielsweise einer Validierung der Eingabefelder oder durch Workflowunterstützung von Prozessen.

Software unterstützt den gesamten Prozess

Da eine manuelle Bereinigung großer Datenmengen nicht in effizienter Weise durchgeführt werden kann, ist der Einsatz von Data-Cleansing-Werkzeugen zu empfehlen. Mit ihrer Hilfe kann teilweise auch der Prozess der Datenintegration automatisiert werden.

Um Dubletten in großen Kundendatenbanken zu bereinigen, versprechen vor allem jene Verfahren Erfolg, die computergestützte Schlussfolgerungen mit der menschlichen Intelligenz kombinieren. Denn wenn angesichts der zunehmenden Globalisierung Namen unterschiedlichster Nationalitäten Einzug in Kundendatenbanken halten, stoßen die üblichen mathematischen Prozeduren zur Dublettenerkennung und Adressvalidierung schnell an ihre Grenzen. Dies gilt auch, wenn weltweit operierende Konzerne es bei ihren Adressdaten mit verschiedenen landesspezifischen Schreibweisen zu tun haben.

Um hier „saubere“ Daten zu bekommen, ist länderspezifisches Wissen gefragt. Es muss z.B. nationale Besonderheiten der Adressierung, der Namen und der Schreibweisen berücksichtigen. Neben den herkömmlichen mathematischen Verfahren kommen deshalb in der Datenqualitätssoftware zunehmend auch wissensbasierte Methoden zum Einsatz, die Einsichten der Computerlinguistik zur Spracherkennung und -synthese anwenden. Im Ergebnis wird eine deutlich höhere Erkennungsquote von Dubletten erreicht – über Länder- und Sprachgrenzen hinweg.

Durch diese Maßnahmen lässt sich die Datenqualität in Ihrem Unternehmen erheblich steigern. Eine einmalige Bereinigung ist dabei allerdings in der Regel nicht ausreichend. Daten verändern sich ständig und müssen deshalb fortlaufend gepflegt werden. Nur mit richtigen Daten können Sie Konsistenz, Korrektheit und Vollständigkeit steigern und Ihre Kunden korrekt ansprechen, so dass Sie Kosten und Imageschäden für Ihr Unternehmen vermeiden können.

Weitere Informationen

In dem kostenlosen Whitepaper „First Time Right. Turning your customer data into customer lifetime value“ wird beispielhaft anhand von zwei unterschiedlichen Kundenkontaktsituationen erläutert, inwieweit eine „First Time Right“-Lösung Verbesserungen für die Unternehmensprozesse im Marketing und Vertrieb bringt. Darüber hinaus benennt der englischsprachige Bericht, welche möglichen Fehlerquellen beim Anlegen von neuen Kundendatensätzen auftreten können und wie dies zukünftig mithilfe von „First Time Right“ verhindert werden kann.

Außerdem stellt das Whitepaper ausführlich dar, wie das „First Time Right“ Verfahren in der Praxis funktioniert und welche enormen Vorteile es zur Sicherung der Qualität von Adressdaten hat. Denn indem die Daten zum Beispiel bei jedem Kundenkontakt auf Dubletten überprüft werden, kann man sicher sein, dass etwa ein Master Data Management-System nur saubere und korrekte Daten enthält.

Der Autor:

Holger Wandt ist seit 1991 für das niederländische Softwarehaus Human Inference tätig. Als Sprachwissenschaftler hat er viele Jahre an der Erfassung, Pflege und Qualität des Wissens gearbeitet, das die Produkte von Human Inference auszeichnet. In seiner heutigen Position als Principal Advisor ist er verantwortlich für alle wissensbezogenen Fragen zur Datenqualität. Zudem ist er als Experte zuständig für alle Aspekte der Standardisierung von Namen und Adressen auf nationaler und internationaler Ebene. Daneben ist Holger Wandt Studienleiter der Masterclass Data Quality Management an der Universität St. Gallen und an der Nyenrode Business-Universität sowie Dozent der linguistischen Fakultät an der Universität Utrecht.

Dieser Artikel erschien am und wurde am aktualisiert.
Nach oben scrollen