Named entity herkenning

Welkom bij deze Semlab demo. Op deze pagina staat een korte omschrijving van het doel van de demo-applicatie plus enige achtergrondinformatie. Klik op de knop om de demo zelf te proberen.

De correcte, maar niet erg gebruikelijke Nederlandse vertaling van named entity recognition is “herkenning van benoemde elementen”. Dit zijn onder meer namen van personen, bedrijven en instellingen.

Deze demo herkent naast “benoemde elementen” ook andere tot een persoon herleidbare gegevens zoals bijvoorbeeld adressen, kentekens, telefoonnummers etc.

Start de demo, en type of upload uw document en de software zal hierin de gegevens opzoeken en in het document markeren.

Veel succes!

Achtergrond

Voor het vinden van named entities en andere tot een persoon herleidbare gegevens gebruiken wij een hybride systeem bestaande uit de nieuwste transformer gebaseerde taalmodellen, meer traditionele multi-feature neurale netwerken en patroon gebaseerde herkenning. Zo is bijvoorbeeld voor het herkennen van een postcode een eenvoudig patroon voldoende: (vier cijfers, niet beginnend met een 0 gevolgd door eventueel een spatie en twee hoofdletters). Maar voor het herkennen en onderscheiden van persoons en bedrijfsnamen (de zoon van J. Jansen vs. J. Jansen en zn.) is een meer complexe aanpak nodig.

Daarnaast kan er uiteraard ook gebruik gemaakt worden van zogenaamde zwarte en witte lijsten (black-lists en white-lists). Dit zijn woordenlijsten die altijd, resp. nooit uit het document gefilterd moeten worden.

Toepassingen

De meest voor de hand liggende toepassing voor deze technologie is het zogenaamd anonimiseren van documenten bijvoorbeeld om te voldoen aan de Algemene verordening gegevensbescherming (AVG). Hierbij worden alle tot de persoon herleidbare gegevens vervangen door een categorie aanduiding. “Beste mevrouw Jansen” wordt dan “Beste [PERSOON]” . In veel gevallen is het prettiger voor de leesbaarheid als de rol van de entiteit kan worden meegegeven. In dit geval zou het bovenstaande voorbeeld “Beste [KLANT]” kunnen worden. Met onze software kunnen we dit realiseren door de named entity recognition te combineren met een classificatie module die de beschikbare rollen toekend aan de gevonden entiteiten.

Een tweede praktische toepassing ligt op het gebied van de data extractie. Hierbij gaat het om het vinden van specifieke datatypes in natuurlijke taal om deze te vertalen naar gestructureerde data. Deze gestructureerde data kan dan worden opgeslagen in een database om bijvoorbeeld gebruikt te worden voor snelle analyse. Ook kan de gestructureerde data gebruikt worden als index voor de oorspronkelijke documenten om snel relevante documenten op te zoeken.

Contact

Met Semlab taaltechnologie is meer mogelijk dan u denkt!

Wij nodigen u van harte uit voor een gesprek over de mogelijkheden van taaltechnologie binnen uw organisatie. Vaak wordt in een korte pilot studie de haalbaarheid van bepaalde ideeën snel duidelijk. Bovendien kan dan een goede inschatting gemaakt worden van de te realiseren besparingen. U kunt ons bereiken via info@semlab.nl of bel naar 0172-494777.

Raoul Wallenbergplein 33 Alphen aan den Rijn – +31 (0)6 2345 95 72 – info@semlab.nl
© Semlab 2024