Human Inference blogs

Korte vraag, complex antwoord: wie is wie en wat is wat in uw database?

Door: Holger Wandt

Alle organisaties die met informatie over klanten, prospects, leveranciers, distributeurs, producten en diensten te maken hebben, gebruiken allerlei soorten data in hun dagelijkse bedrijfsprocessen. Het terugvinden van een klant of product in een geautomatiseerd systeem met behulp van een id-nummer, naam of ander identificatiemiddel is een belangrijke stap in deze processen. Het is bovendien een taak die veel aandacht vraagt, aangezien het verzamelen en beheren van data in wezen foutgevoelig is. Mensen maken fouten, namen worden verkeerd begrepen, cijfers worden in de verkeerde volgorde getypt: er zijn veel redenen voor gebrekkige data en een slechte informatiekwaliteit.

Het containerbegrip 'bedrijfsgegevens' wordt vaak gebruikt zonder dat duidelijk is wat daar precies onder valt. Het is meer dan alleen de klantidentificatienummers en productcodes. Natuurlijk verschillen de aard en het belang van data in een bedrijfsproces per organisatie. Maar als we de ogenschijnlijk eindeloze variatie aan data nader bekijken, zien we dat de namen en adressen van personen en organisaties net zo gedetailleerd en gecompliceerd als uniek zijn. Hieronder ontdekt u waar namen, adressen en aanvullende gegevens allemaal uit kunnen bestaan. 

  • In namen van personen komen we het volgende tegen: voornamen, middelste namen, initialen, achternamen, voorvoegsels van achternamen, achtervoegsels van achternamen, aanspreekvormen, titels, functies, kwalificaties, beroepen, patroniemen en bijnamen.
  • De naam van een organisatie kan uit haast alles bestaan: rechtsvormen, fantasiewoorden, woorden uit de omgangstaal, namen van personen, getallen, Romeinse cijfers, rangtelwoorden, letters, acroniemen, geografische aanduidingen, achtervoegsels, lidwoorden, voorzetsels, voegwoorden, een aanduiding van het jaar van oprichting en niet-alfabetische tekens.
  • Adresgegevens combineren de gegevens van de ontvanger met die van de bezorglocatie: landen, regio's, steden, districten, naburige steden, aanduiding van de bezorgdienst, gegevens die de bezorgdienst gebruikt, postcodes, gegevens van de geadresseerde, straatnamen, straattypen, huis- of perceelnummers, toevoegingen aan huisnummers, namen van gebouwen, gebouwtypen en toegangsgegevens van het bezorgpunt, zoals vleugel, verdieping of deur.
  • Aanvullende gegevens die in bedrijfsprocessen worden gebruikt, zijn onder andere: telefoonnummers, faxnummers, e-mailadressen, geboortedatums, contractdatums, accountgegevens voor sociale media, product- en merknamen, geslachtsaanduiding, financiële gegevens, gegevens over levensstijl en transactiegegevens.

Het zo nauwkeurig en gedetailleerd mogelijk omschrijven van de datagroepen is de eerste stap richting een goede interpretatie. Mensen, die hun natuurlijke taalverwerkingsvermogens gebruiken, structureren de informatie zoals ze die interpreteren. Ze gebruiken hun referentiekader, dat bestaat uit hun kennis, woordenschat, statistische en wiskundige informatie.

Interpretatie op basis van kennis, verwerkt in een automatisch systeem om datakwaliteitsproblemen op te lossen, moet precies op dezelfde manier werken. Kijk eens naar de volgende voorbeelden:

Peter Arnold Frank:

Des structuur van deze naam lijkt ogenschijnlijk op die van de eerder genoemde naam. Toch zullen we deze naam waarschijnlijk (en vaak onbewust) anders interpreteren. Dat komt omdat ons referentiekader ons vertelt dat deze naam waarschijnlijk van Arabische oorsprong is en dat er andere naamgevingsconventies bestaan in dat deel van de wereld. Hoewel de naam Mohammad Ouazzani Benhaddou niet is aangeduid met een waarschuwing als 'let op, deze naam is van Arabische oorsprong!' zullen we hier toch rekening mee houden wanneer we deze interpreteren. 

Chr. London Int. Transp. Co.

Dit voorbeeld lijkt eerst wat verwarrend, omdat de meeste woorden afkortingen zijn (wat vaak voorkomt in namen van organisaties) en omdat het woord dat geen afkorting is, London, dubbelzinnig is. In dit geval is London waarschijnlijk een achternaam. Chr.is waarschijnlijk de afkorting van een voornaam, zoals Christopher. De afkortingen Int. Transp. Co. staan waarschijnlijk voor International Transport Company.

Deze voorbeelden tonen aan dat voldoende achtergrondkennis heel nuttig kan zijn bij de interpretatie (denk eraan hoe u in de eerste twee voorbeelden uw eigen referentiekader en achtergrondkennis kon gebruiken). Geautomatiseerde interpretatie op basis van natuurlijke taal heeft natuurlijk wat extra hulp nodig om net zo goed te presteren als een mens. Maar het aanleggen van een kennisbestand is het uitgangspunt om die korte vraag te kunnen beantwoorden: wie is wie en wat is wat in mijn database?

 

Holger Wandt

Holger Wandt

Principal Advisor

Holger Wandt is principal advisor bij Human Inference. Hij kwam in 1991 bij het bedrijf werken. Als taalkundige was hij een van de pioniers van de interpretatie- en vergelijkingstechnologie in de productsuite voor datakwaliteit. In zijn huidige rol heeft hij de verantwoordelijkheid om zijn inzichten en visie over te brengen op bestaande en toekomstige klanten en partners en om ideeën en inzichten te promoten bij brancheraden, gemeenschappen van gelijkgestemden, universiteiten en analysebureaus.


Meer blog items