UITWERKINGEN

13.1 Wat is machinaal leren

Uitwerking 13.1.1

Van deze oplossing zijn vele uitwerkingen mogelijk. Mogelijke attributen en bijbehorende attribuutwaarden zijn:

Tabel 13.1.3 Attributen en attribuutwaarden

attribuut attribuutwaarden
banksaldo reële positieve en negatieve getallen met twee cijfers achter de komma
schulden op andere rekeningen reële getallen met twee cijfers achter de komma
tijd dat cliënt relatie heeft met de bank tijd in dagen
geslacht man of vrouw
getrouwd, geregistreerd partner of samenwonend ja of nee
leeftijd aantal jaren
inkomen reële getallen met twee cijfers achter de komma
woonplek postcode-aanduiding: reeksen van vier cijfers en twee letters
beroep lijst met mogelijke beroepen
dienstverband geen, vast of tijdelijk
levensverzekering wel, niet

Naast bovenstaande zijn nog vele andere attributen te bedenken die mogelijk een relatie hebben met de kredietwaardigheid van nieuwe cliënten van de bank. Wil de bank een machinaal leren algoritme toepassen op zijn huidige gegevensverzameling, dan kan het alleen de gegevens gebruiken die zijn opgeslagen, en mogelijk zitten een aantal van bovenstaande daar niet bij.

> Opgave 13.1.1

Uitwerking 13.1.2

Als een machinaal leren algoritme korte tijd is getraind, dan zal in het algemeen de prestatie op de trainingset hoger zijn dan de prestatie op de testset. Langer leren kan de prestatie verhogen.
Als de prestatie op de testset even hoog is als de prestatie op de trainingset, dan hebben beide sets dezelfde karakteristieken en is het algoritme perfect getraind. Dergelijke situaties kunnen voorkomen als er een eindig aantal verschillende voorbeelden bestaat. Als het aantal voorbeelden heel groot of oneindig is, dan zal een dergelijke prestatie nooit worden gehaald.

> Opgave 13.1.2

Uitwerking 13.1.3

Met n = 2 wordt de gegevensverzameling met 100 voorbeelden in tweeën gedeeld en wordt twee keer op het ene deel getraind en op het andere deel getest.

Tabel 13.1.4 2-fold cross-validation op 100 voorbeelden

fold trainingset bevat de voorbeelden testset bevat de voorbeelden
1 1 – 50 51 - 100
2 51 – 100 1 - 50

Met n = 4 wordt de gegevensverzameling met 100 voorbeelden in vieren gedeeld en wordt vier keer op het drie delen getraind en op het vierde deel getest.

Tabel 13.1.5 4-fold cross-validation op 100 voorbeelden

fold trainingset bevat de voorbeelden testset bevat de voorbeelden
1 1 – 75 76 - 100
2 1 – 50 en 76 – 100 51 - 75
3 1 – 25 en 51 – 100 26 - 50
4 26 - 100 1 - 25

Zowel bij de 2- als de 4-fold cross-validation kunnen de voorbeelden op andere manieren worden verdeeld in training- en testsets, zolang er bij de 2-fold cross-validation maar sprake is van een verdeling in twee even grote delen (bijvoorbeeld alle even en alle oneven genummerde voorbeelden) en bij de 4-fold cross-validation maar sprake is van steeds een kwart van de voorbeelden die in de testset worden opgenomen (bijvoorbeeld de viervouden, de viervouden plus 1, de viervouden plus 2 en de viervouden plus 3).
De ordening van de voorbeelden ligt immers niet vast, dus met een andere volgorde van de voorbeelden en de verdeling uit de tabellen valt iedere mogelijke indeling te maken.

> Opgave 13.1.3