Over Y en IJ

08 dec. 2021
Frano Bebseler

“IJ, IJ, IJ, wat zijn we Blij.”

Wanneer ik een mail met deze titel rondstuur bij Human Inference, dan weten mijn collega's hoe laat het is: "Bebseler is jarig, en hij trakteert weer op paaseieren." Vandaag is de aanleiding van andere aard. Een klant van ons zit bij een nieuwbouwproject met onze Identify software met eierconversieprobleem: Bij het matchen van IJbert versus Ybert moet er voldoende gescoord worden, en eveneens wanneer er uitsluitend op voorletters wordt geëvalueerd.

No alt text provided for this image

Hoe vinden we de juiste eieren bij elkaar?

Een door de klant gemaakte routine moet het alvast gemakkelijker maken: We plukken de eerste letter van de naam, en de Y transformeren we naar een I. In beide gevallen hebben we dan de letter I, en dat scoort 100%. Voorletters zijn geen initialen, maar waar dit uitsluitend wordt ingezet voor het matchen, en niet voor het opmaken van de naam zie ik tot zover geen probleem.

Kennis en interpretatie

Het idee om een soortgelijke transformatie ook bij de oorspronkelijke voornamen toe te passen moet ik tegenhouden. Het lijkt zo simpel, maar daar krijgen we toch te maken met de kern van onze Identify software: Kennis en interpretatie. De kennis bevat een rijke verzameling van namen met bijbehorende indicaties, en de interpretatiemodule maakt daar gebruik van, en kent betekenissen toe op grond van die kennis en de positie binnen de complete tenaamstelling.

Allereerst moet ik constateren dat de naam Ybert niet in deze spelling voor komt, en dat de enige juiste spelling IJbert is. De bedachte transformatie van Ybert naar Ibert is al helemaal onwenselijk, want Ibert bestaat niet als voornaam. Wel als achternaam. Zodoende zou "Ibert Jansen" worden geïnterpreteerd als twee achternamen, en daarom als "waarschijnlijk vrouwelijk" worden aangemerkt. Dat terwijl IJbert eenduidig een mannelijke voornaam is. IJbert kennen we wel; Ybert kennen we niet; daarentegen kennen we wel de vrouwelijke naam Yberta, maar IJberta bestaat dan weer niet. Kunt u het nog volgen? Het komt nogal precies, en stomweg letters in persoonsnamen aanpassen is onwenselijk omdat dat een sterke invloed heeft op het verdere verloop in interpretatie en matching.

Vreemde eend in de bIJt

Over Y en IJ

De IJ is altijd al een vreemde eend in de bijt geweest. Van oorsprong was het ooit de dubbele i, zoals andere klinkers in het Nederlands ook dubbel voorkomen. De i werd destijds nog zonder punt erop geschreven, en omdat de dubbele i nogal eens met de u werd verward kreeg de tweede i een krul aan de onderkant. De lange ij werd in 1804 officieel geïntroduceerd. Op mijn oude typmachine kwam de letter IJ nog na de J, K, L. Op digitale toetsenborden kwam een semicolon op die plek, en moes de ij weer worden geconstrueerd uit de i en de j. Op het leesplankje vonden we nog de letter IJ, maar in het alfabet kennen we slechts de Y. De IJ en de Y; ze zijn niet hetzelfde, maar worden nogal eens voor elkaar aangezien. Dat spreekt voor een hoge score bij het vergelijk van woorden waar deze letters in voorkomen.

Gelukkig hoeft onze klant zich tegenwoordig niet meer zo druk te maken over die IJ/Y vergelijking. De evaluatiemethode op woordbeeld is intussen zodanig aangepast dat er een hogere score volgt dan voorheen. Zo hebben we wel vaker aanpassingen moeten doen voor deze vreemde eend. Onze kapitalisatiemodule weet al lang dat bij de kapitalisatie van "IJbert" de eerste twee letters met een hoofdletter moeten. Een eenvoudige google search op de naam IJbert laat onmiddelijk zien dat lang niet alle softwaremodules hier rekening mee houden.

No alt text provided for this image

De match van de Eieren

Ook bij de indexering op de fonologische code van de naam om te matchen kandidaten te selecteren zijn hier eerder al verbeteringen doorgevoerd. IJsbert, Isbert, Ysbert en Eisbert leveren op het meest gekozen nauwkeurigheidsniveau in alle gevallen de fonologische representatie “espet” op. De schrijfwijzen worden zo correct samen voorgeselecteerd, en inmiddels scoren ze ook voldoende. Nee, geen 100%, want wat stomweg niet hetzelfde is hoort geen 100 te scoren, maar vooruit, intussen wel een verhoogde score om ze toch bij elkaar te vinden.

Het is nog lang geen Pasen. Sinterklaas is nog maar net het land uit. In de uitverkoop kocht ik een goedkope Chocoladesinterklaas. Ik haal het zilverfolie er af, en er blijkt een paashaas in te zitten, keurig met de oren op de plek van de mijter.

Een perfecte match; IJ, IJ, IJ, wat zijn we blij.