Human Inference blogs

Kurze Frage, komplexe Antwort: Wer ist wer und was ist was in Ihrer Datenbank?

Von: Holger Wandt

Jedes Unternehmen, das sich mit Kunden-, Interessenten-, Lieferanten-, Händler-, Produkt- und Dienstleistungsinformationen beschäftigt, verwendet alle Arten von Daten in seinen täglichen Geschäftsprozessen. Die Identifizierung eines Kunden oder eines Produkts innerhalb eines automatisierten Systems unter Verwendung einer bestimmten ID-Nummer, des Namens oder eines anderen Identifikationsmerkmals ist ein zentrales Thema bei diesen Prozessen. Darüber hinaus ist es eine Aufgabe, die große Aufmerksamkeit erfordert, da die Erfassung und Verwaltung von Daten im Wesentlichen fehleranfällig ist. Menschen machen Fehler, Namen werden falsch verstanden, Zahlen werden in der falschen Reihenfolge eingegeben; Es gibt einfach zu viele Gründe für fehlerhafte Daten und schlechte Informationsqualität.

Der Sammelbegriff „Geschäftsdaten“ wird häufig ohne genaue Vorstellung davon verwendet, was Geschäftsdaten tatsächlich enthalten. Es sind nicht nur die Kundenidentifikationsnummern und Produktcodes. Natürlich unterscheiden sich die Art und die Bedeutung der in einem Geschäftsprozess verwendeten Daten von Unternehmen zu Unternehmen. Ein genauerer Blick auf die scheinbar endlose Vielfalt zeigt jedoch, dass Namen und Adressen von Personen und Organisationen so detailliert und kompliziert wie identifizierbar sind. Die folgende Klassifizierung zeigt Details von Namen, Adressen und ergänzenden Daten.

  • Bei Personennamen treffen wir auf: Vornamen, zweiten Vornamen, Initialen, Nachnamen, Nachnamenspräfixen, Nachnamenssuffixen, Anredeformen, Titel, Funktionen, Qualifikationen, Berufe, Patronym und Spitznamen.
  • Der Name eines Unternehmens kann aus praktisch allem bestehen: Rechtsformen, Phantasiewörtern, natürlichen idiomatischen Wörtern, Personennamen, Zahlen, römischen Ziffern, Ordnungszahlen, Buchstaben, Akronymen, geografischen Angaben, Suffixen, Artikeln, Präpositionen, Verbindungen, Angabe des Gründungsjahres und nichtalphabetischen Zeichen.
  • Postanschriftsdaten kombinieren Empfängerinformationen mit Zustellorten: Länder, Regionen, Städte, Bezirke, Nachbarstädte, Zustelldienstanzeigen, Zustelldienstkennzeichen, Postleitzahlen, Adressaten- und Zustellungsindikatoren (Post- und E-Mail-Kennzeichnung), Durchgangsbezeichnungen, Durchgangstypen, Haus- oder Grundstücksnummern, Hausnummernergänzungen, Gebäudenamen, Gebäudetypen und Zugangsdaten der Zustellstelle, wie Flügel, Boden oder Tür. 
  • In Geschäftsvorgängen verwendete ergänzende Daten beinhalten: Telefonnummern, Faxnummern, E-Mail-Adressen, Geburtsdaten, Vertragsdaten, Kontokennungen bei sozialen Medien, Produkt- und Markennamen, Produktcodes, Produktnummern, Geschlechtsangaben, Finanzdaten, Lifestyle-Daten und Transaktionsdaten.

Die möglichst genaue und detaillierte Definition der Datengruppen ist der erste Schritt zu einer sinnvollen Interpretation. Menschen, die ihre natürlichen Sprachverarbeitungsfunktionen anwenden, strukturieren die Informationen so, wie sie sie interpretieren. Sie werden ihren Bezugsrahmen verwenden, welcher ihr Wissenswörterbuch, ihr linguistisches Repositorium, statistische Informationen und mathematische Informationen umfasst.

Wissensbasierte Interpretation, die in ein automatisiertes System zur Lösung von Datenqualitätsproblemen integriert ist, muss auf dieselbe Weise funktionieren. Betrachten Sie die folgenden Beispiele:

Peter Arnold Frank

Wenn Sie diesen Namen interpretieren müssten, würden Sie wahrscheinlich (wenn Sie europäischen oder amerikanischen Ursprungs sind) Peter als Vornamen, Arnold als Vornamen (oder zweiten Vornamen) und Frank als Nachnamen bezeichnen. Natürlich sind alle drei Namen sehr gebräuchliche Vornamen und alle drei existieren auch als Nachnamen. Aber die Bedeutung [Vorname - Vorname - Nachname] ist definitiv die wahrscheinlichste Bedeutung in diesem speziellen Kontext.

Mohammad Ouazzani Benhaddou

Dieser Name scheint eine ähnliche Struktur zu haben wie der obige Name. Allerdings werden wir diesen Namen wahrscheinlich (und oft unbewusst) anders interpretieren. Dies geschieht, weil unser Bezugsrahmen uns sagt, dass dieser Name höchstwahrscheinlich arabischen Ursprungs ist und dass Namen aus dieser bestimmten Region der Welt unterschiedliche Namenskonventionen haben. Obwohl der Name Mohammad Ouazzani Benhaddou kein Identifikationsmerkmal wie „Achtung, das ist ein Name arabischen Ursprungs“ trägt, werden wir bei der Interpretation des Namens genau diesen Ursprung berücksichtigen. 

Chr. London Int. Transp. Co.

Dieses Beispiel mag am Anfang rätselhaft erscheinen, da die meisten Wörter Abkürzungen sind (die in Unternehmensnamen sehr häufig vorkommen) und das Wort, das keine Abkürzung ist, London, tatsächlich mehrdeutig ist. In diesem Fall ist London wahrscheinlich ein Nachname. Chr. ist höchstwahrscheinlich die Abkürzung eines bestimmten Namens wie Christopher. Die Abkürzungen Int. Transp. Co. bedeutet höchstwahrscheinlich International Transport Company. 

Die obigen Beispiele zeigen, dass ein Wissensrepositorium bei der Interpretation sehr nützlich sein kann (denken Sie an die Verwendung Ihres eigenen Bezugrahmens und des oben genannten Wissenslexikons). Natürlich wird die automatisierte Interpretation auf der Grundlage der natürlichen Sprache zusätzliche Unterstützung benötigen, um so gut zu funktionieren wie wir Menschen. Die Schaffung des Wissensuniversums ist jedoch der Ausgangspunkt für die Beantwortung dieser kurzen Frage: Wer ist wer und was ist was in meiner Datenbank?

 

 

Holger Wandt

Holger Wandt

Principal Advisor

Holger Wandt ist Hauptberater bei Human Inference. Er kam 1991 zu Human Inference. Als Linguist war er einer der Pioniere der Interpretations- und Matching-Technologie in der Data Quality Product Suite. In seiner jetzigen Position ist er für das Vermitteln von Visionen bei aktuellen und zukünftigen Kunden und Partnern sowie für die Förderung von Ideen und Visionen in Industriegremien, Thought Communities, Universitäten und Analystenhäusern verantwortlich.


Weitere Blogeinträge