Data extractie

Welkom bij deze Semlab demo. Op deze pagina staat een korte omschrijving van het doel van de demo-applicatie plus enige achtergrondinformatie. Klik op de knop om de demo zelf te proberen.

Deze applicatie demonstreert de kracht van data extractie voor het filteren van een archief van documenten. Doordat bepaalde relevante data die in de documenten vermeld wordt, is geëxtraheerd kan deze gebruikt worden om het archief te filteren. Zo kunnen relevante documenten heel snel worden gevonden. Bovendien kan deze data gebruikt worden om direct statistische uitspraken te doen over het archief.

De demo bevat alle gepubliceerde Nederlandse gerechtelijke uitspraken op het gebied van de geweldsmisdrijven en Opiumwet artikel 2 (harddrugs).

Start de demo, en filter de uitspraken en plot vervolgens één van de geëxtraheerde kenmerken om snel inzicht te krijgen over de verdeling in het archief.

Veel succes!

Start de demo

Achtergrond

De taaltechnologie die voor deze demo applicatie is gebruikt komt sterk overeen met die voor de “Semantisch zoeken en filtreren” demo. Ook hier is het corpus automatisch geannoteerd volgens onze Rechtspraak ontologie, maar deze demo applicatie bevat geen zoekvenster. Wel beschikt hij over veel meer kenmerken die gebruikt kunnen worden om de dataset te filteren en een belangrijk deel van deze kenmerken zijn kwantitatief van aard.

Ook in deze demo bepaalt de sectie waarin de kenmerken gevonden worden de context en daarmee de betekenis. In de gebruikersinterface worden deze over drie groepen verdeeld: het hele dossier/document, alleen de tenlastelegging en de bewezenverklaring. Verder bevat de applicatie een widget waarmee een kenmerk in een grafiek kan worden afgebeeld om snel de verdeling over de (gefilterde) documenten weer te geven.

Toepassingen

Data extractie uit documenten die “gewone tekst” (zogenaamde natuurlijke taal) bevatten kent vele toepassingen. Denk bijvoorbeeld aan het vinden van een schadebedrag in klachten e-mails voor het prioriteren van de behandeling.

Door de data uit de documenten te halen wordt deze kwantificeerbaar en daardoor geschikt voor allerlei vormen van automatische verwerking. In feite wordt door data extractie een tekst omgezet naar een model dat kan worden opgeslagen in een database. Hierdoor kunnen de tekst documenten dan op dezelfde manier verder verwerkt worden als andere gestructureerde vormen van data.

Contact

Met Semlab taaltechnologie is meer mogelijk dan u denkt!

Wij nodigen u van harte uit voor een gesprek over de mogelijkheden van taaltechnologie binnen uw organisatie. Vaak wordt in een korte pilot studie de haalbaarheid van bepaalde ideeën snel duidelijk. Bovendien kan dan een goede inschatting gemaakt worden van de te realiseren besparingen. U kunt ons bereiken via info@semlab.nl of bel naar 0172-494777.