Technische analyse: AI Discriminatie

Technische analyse: AI Discriminatie

Technische analyse: AI Discriminatie

Zoals eerder beschreven ben ik bezig met het bouwen van een technische analyse geholpen door AI (ofwel, neural networks). De discriminatie factor van AI is vaak in het nieuws, juist nu naar de toeslagenfraude affaire. Hoe voorkom ik foute resultaten?

Nu ben ik niet bang dat mijn AI opeens racistisch wordt en alle aandelen uit zeg, Noorwegen als negatief gaat beoordelen. Want zo werkt het systeem helemaal niet. De reacties dat het systeem niet transparant is verbaasd mij ook. De werking is gewoon online te vinden. Echter om dit goed te kunnen interpreteren moet je wel weten hoe het werkt. En wellicht zijn de mensen die hierom gevraagd wordt daar niet toe in staat. De vraag die ze waarschijnlijk ook beantwoord willen zien is niet hoe het werkt, maar waarom er een bepaalde uitslag komt. Het antwoord hierop is simpel: “Omdat op basis van de ingevoerde data, en de getrainde antwoorden een link tussen de ingevoerde data en de uitslag is gelegd”.

Natuurlijk moet ik rekening houden met de juiste uitslagen. En dat begint met te begrijpen waar het verkeerd kan gaan. Verkeerde uitslagen worden veroorzaakt door een van de volgende factoren:

1. Onvolledige invoer data

Dit is een veel voorkomend probleem. Zeg dat je een AI wil bouwen die de kans op fraude met een verzekering wil berekenen. Nu stop ik alle data van verzekering cases van heel Nederland in het systeem en geef ik aan in welk geval dit fraude was. Zeg ik heb 1 case in Tilburg. Je kunt ervan uit gaan dat als die case positief ofwel negatief was het resultaat van mijn AI dit altijd zal volgen. Immers, 100% van de cases in Tilburg heeft nu een bepaalde uitslag.

Wil ik dit voorkomen dan moet ik de plaats uit de berekening halen OF meer gevallen in Tilburg invullen. Het aanleveren van volledige data is dus echt een risico. En dat zul je in praktijk ook zien. Vaak is data namelijk al gefilterd.

Gelukkig heb ik dit probleem niet. Ik heb toegang tot alle historische data van een aandeel. De data is dus ongefilterd en bruikbaar.

2. Onjuiste resultaat data

Je moet de AI vertellen wat de gewenste uitkomst is van een dataset. Dit moet voor alle gevallen die ik ingeef. Misschien weet ik het resultaat niet en gok ik het. En dat mag niet.
Neem het fraude voorbeeld. Als ik nu 100 cases in Tilburg toevoeg die ik niet heb onderzocht op fraude, mag ik er dan vanuit gaan dat er geen fraude was? Nee, want dat vertekend het beeld. Wat nu als ik in Tilburg een overactieve controleur heb die beter in zijn werk is. En dus meer fraude cases vindt dan zeg in Almere? Ook dan wordt de uitkomst gekleurd.

Dat probleem heb ik gelukkig ook niet. Ik weet wat het resultaat is door vooruit te kijken in de data. Ik doe dat in mijn vorige blok. Ik weet wanneer de koop en verkoop momenten zijn, en ik laat de pc dit bepalen. Geen menselijke bias hier.

3. Onjuist omgaan met het resultaat

De uitslag is een kans berekening. Niet minder, maar ook niet meer. Het is niet de waarheid. Het betekend dat je zelf nog eens naar het resultaat moet kijken. Mensen zijn lui en nemen het resultaat graag als waarheid aan. Maar dat kun je niet doen. Toen WireShark op de beurs instortte was de kans groot dat een AI een koopmoment ziet. Immers het aandeel is opeens heel goedkoop. Echter, het is een slechte aankoop. Een AI helpt je met filteren maar je moet nogsteeds zelf nadenken. En zelf het nieuws lezen. Een resultaat van 80% juist is al een hele verbetering. En daar wil ik naartoe.

4. De data moet in balans zijn

Dit is een hele moeilijke en echt iets waar mijn eerste resultaten problemen gaven. In mijn AI moet ik bepalen welke data ik mee neem in mijn berekening. Als ik alle data meeneem met zeg 10 koop en verkoopmomenten gaat het trainen met mijn AI fout. De koop en verkoopmomenten zijn uitzonderingen in de hele grote hoop van informatie. In 99% van de gevallen is “geen koop of verkoopmoment” de norm. En dus zal mijn AI nooit een koop of verkoopmoment meenemen.
Bereken ik alleen de data met een koop of verkoop moment dan zal mijn AI “geen koop of verkoopmoment” als uitzondering zien. Alles wordt opeens een koop of verkoop moment.

Ik moet de data in balans brengen. Ik doe dit door geselecteerde lijst van “niet verkoopmomenten” mee te nemen in mijn berekening. De pc moet dit bepalen door menselijke invloed te voorkomen. Ik doe dit door de momenten mee te nemen waar de koers precies tussen een koop en verkoop moment ziet.

Werkt dit ? Geen idee. De berekening draait nu. De komende weken gaan we dit zien.

Geef een reactie

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.