Semlab event detectie wordt gebruikt om zeer snel zeer grote hoeveelheden data te screenen op bepaalde onderwerpen.
In deze demo wordt continu het financiële nieuws op een groot aantal twitter accounts geanalyseerd. Hierbij wordt gezocht naar berichten die mogelijk van invloed kunnen zijn op de beurswaarde van de meest verhandelde aandelen. De verwachte impact van het bericht wordt met een groene (positief) of rode (negatief) kleur weergegeven.
Start de demo, voor toegang tot de volledige filter applicatie, of klik hier voor een visuele weergave van het nieuws.
Veel succes!
Achtergrond
Het taalmodel wat bij deze demo gebruikt wordt is regel-gebaseerd en wordt opgebouwd vanuit onze semantische financieel nieuws ontologie. De reden waarom voor deze toepassing geen gebruik wordt gemaakt van neurale netwerk gebaseerde taalmodellen is simpelweg dat zij voor de beoogde toepassing te langzaam zijn. Voor het verwerken van financiële berichtgeving is verwerkingssnelheid cruciaal. Met onze implementatie zijn wij instaat om dergelijke nieuwsberichten binnen milliseconden te vertalen naar gestructureerde “news events”. Deze events worden gebruikt om vervolgacties in werking te zetten, bijvoorbeeld bij “automated trading” implementaties.
Toepassingen
Deze technologie kan overal worden toegepast waar sprake is van een “overload” van informatie en een duidelijk idee over de events die hierin gedetecteerd moeten worden. Denk hierbij buiten de demo applicatie op het gebied van financieel marktsentiment aan monitoring van de media over een product of het filteren van twitter op discriminatie.
Afhankelijk van de eisen die aan de snelheid worden gesteld kunnen wij dit inrichten met een ontologie waarin de benodigde begrippen zijn vastgelegd, of met machine learning classifiers werken. De ontologie gebaseerde methode is meer bewerkelijk bij het inrichten, maar veel sneller tijdens productie. Het trainen van machine learning om de nieuws events te detecteren is veel minder bewerkelijk tijdens het inrichten van het systeem, maar het verwerken van de data gaat aanmerkelijk trager. Zoals vaak ligt het optimum voor de meeste toepassingen in het midden en wordt een hybride aanpak gebruikt.