LEERKERN

13.5 Overfitting en probleemrepresentatie

Introductie

In voorgaande paragrafen is een aantal verschillende machinaal leren algoritmen behandeld. Voor alle algoritmen geldt dat nog op een tweetal aspecten moet worden gelet: het gevaar van overfitting en het belang van een goede probleemrepresentatie.

13.5.1 Generaliserend vermogen en het gevaar van overfitting

Zoals in paragraaf 13.1 is aangegeven, is de mate waarin algoritmen voor machinaal leren ongeziene voorbeelden correct kunnen classificeren, een maat voor de kwaliteit van het geleerde model. Een factor die dit generaliserend vermogen negatief kan beïnvloeden, is overfitting, het ‘over-trainen’ op de trainingset. Door langdurig trainen richt het model (de in het leeralgoritme gecreëerde kennisrepresentatie) zich in toenemende mate op de voorbeelden in de trainingset. Dit kan ten koste gaan van het vermogen om voorbeelden uit de testset op de juiste wijze te classificeren. In de praktijk komt het erop neer dat men tijdig moet stoppen met trainen om overfitting te voorkomen. Een veelgebruikte methode is de zogenaamde early-stopping-methode waarbij gedurende de training op gezette tijden de prestatie op een testset wordt bepaald. Aanvankelijk zullen de prestaties op zowel de training- als de testset toenemen. Op een zeker moment zal de prestatie op de testset afnemen, terwijl de prestatie op de trainingset nog steeds toeneemt. Het door het algoritme voor machinaal leren gecreëerde model gaat zich steeds specifieker ‘fitten’ op de voorbeelden uit de trainingset, waardoor de voorbeelden uit de testset niet meer worden herkend. Dit is het moment om te stoppen met trainen, om een optimaal generaliserend vermogen te behouden.

De mate van overfitting hangt tevens samen met de complexiteit van het model. Een algoritme voor machinaal leren creëert een kennisrepresentatie die als een model kan worden beschouwd. De complexiteit van dat model wordt bepaald door het aantal beschikbare parameters om het model te specificeren. In het meerlaags perceptron bijvoorbeeld, zijn de gewichten en het aantal verborgen neuronen de parameters die de complexiteit van het model bepalen. Over het algemeen zal een complexer model eerder overfitting laten zien dan een minder complex model. Om de modelleerkracht van een algoritme voor machinaal leren in te perken, en zodoende de mate van overfitting te beperken, verdienen eenvoudige modellen de voorkeur. Voor beslisbomen houdt dit in dat aan eenvoudige bomen de voorkeur gegeven wordt boven complexe bomen. Voor meerlaags perceptrons geldt dat het aantal verborgen neuronen beperkt dient te worden.

> Opgave 13.5.1

13.5.2 Het belang van een goede probleemrepresentatie

De in dit hoofdstuk behandelde algoritmen voor machinaal leren vormen slechts een deel van het omvangrijke scala aan in de literatuur beschreven automatisch lerende algoritmen. Niettemin vormen memory-based leeralgoritmen, beslisbomen en neurale netwerken een belangrijk deel van de kennistechnologische toepassingen. Veel van de besproken principes zijn relevant voor alle algoritmen voor machinaal leren. Dat geldt in het bijzonder voor een nog niet besproken aspect: de representatie van het te leren probleem. Een korte beschouwing van de literatuur over machinaal leren laat zien dat de meest succesvolle toepassingen van machinaal leren zijn gebaseerd op een goede representatie van het te leren probleem. Het belang van een goede representatie laat zich illustreren aan de hand van de gegevensverzameling die gebruikt is in paragrafen 13.1, 13.3 en 13.4. Dit classificatieprobleem is eenvoudigweg te beschouwen als de bepaling van het even of oneven zijn van een binair getal. De binaire representatie maakt het leren van het probleem triviaal. De waarde van de laatste bit is direct gerelateerd aan de classificatie. Stel nu dat de voorbeelden waren gerepresenteerd in decimaal formaat. Hoewel deze representatie veel compacter is dan de oorspronkelijke binaire representatie, is het leren van het even-oneven probleem een stuk moeilijker.

Uit dit voorbeeld is te concluderen dat bij toepassing van algoritmen voor machinaal leren de belangrijkste vraag luidt: ‘Hoe vertaal ik de te leren voorbeelden in een geschikte invoerrepresentatie?’ Een goede beantwoording van deze vraag is de sleutel tot succesvolle toepassing van algoritmen voor machinaal leren in de kennistechnologie.

> Opgave 13.5.2

> Opgave 13.5.3