UITWERKINGEN
13.1 Wat is machinaal leren
Van deze oplossing zijn vele uitwerkingen mogelijk. Mogelijke attributen en
bijbehorende attribuutwaarden zijn:
Tabel 13.1.3 Attributen en attribuutwaarden
attribuut | attribuutwaarden |
banksaldo | reële positieve en negatieve getallen met twee cijfers achter de komma |
schulden op andere rekeningen | reële getallen met twee cijfers achter de komma |
tijd dat cliënt relatie heeft met de bank | tijd in dagen |
geslacht | man of vrouw |
getrouwd, geregistreerd partner of samenwonend | ja of nee |
leeftijd | aantal jaren |
inkomen | reële getallen met twee cijfers achter de komma |
woonplek | postcode-aanduiding: reeksen van vier cijfers en twee letters |
beroep | lijst met mogelijke beroepen |
dienstverband | geen, vast of tijdelijk |
levensverzekering | wel, niet |
Naast bovenstaande zijn nog vele andere attributen te bedenken die mogelijk een relatie hebben met de kredietwaardigheid van nieuwe cliënten van de bank. Wil de bank een machinaal leren algoritme toepassen op zijn huidige gegevensverzameling, dan kan het alleen de gegevens gebruiken die zijn opgeslagen, en mogelijk zitten een aantal van bovenstaande daar niet bij.
Als een machinaal leren algoritme korte tijd is getraind, dan zal in het algemeen de
prestatie op de trainingset hoger zijn dan de prestatie op de testset. Langer leren kan de
prestatie verhogen.
Als de prestatie op de testset even hoog is als de prestatie op de trainingset, dan hebben
beide sets dezelfde karakteristieken en is het algoritme perfect getraind. Dergelijke
situaties kunnen voorkomen als er een eindig aantal verschillende voorbeelden bestaat. Als
het aantal voorbeelden heel groot of oneindig is, dan zal een dergelijke prestatie nooit
worden gehaald.
Met n = 2 wordt de gegevensverzameling met 100 voorbeelden in tweeën gedeeld en wordt twee keer op het ene deel getraind en op het andere deel getest.
Tabel 13.1.4 2-fold cross-validation op 100 voorbeelden
fold | trainingset bevat de voorbeelden | testset bevat de voorbeelden |
1 | 1 50 | 51 - 100 |
2 | 51 100 | 1 - 50 |
Met n = 4 wordt de gegevensverzameling met 100 voorbeelden in vieren gedeeld en wordt vier keer op het drie delen getraind en op het vierde deel getest.
Tabel 13.1.5 4-fold cross-validation op 100 voorbeelden
fold | trainingset bevat de voorbeelden | testset bevat de voorbeelden |
1 | 1 75 | 76 - 100 |
2 | 1 50 en 76 100 | 51 - 75 |
3 | 1 25 en 51 100 | 26 - 50 |
4 | 26 - 100 | 1 - 25 |
Zowel bij de 2- als de 4-fold cross-validation kunnen de voorbeelden op andere manieren
worden verdeeld in training- en testsets, zolang er bij de 2-fold cross-validation maar
sprake is van een verdeling in twee even grote delen (bijvoorbeeld alle even en alle
oneven genummerde voorbeelden) en bij de 4-fold cross-validation maar sprake is van steeds
een kwart van de voorbeelden die in de testset worden opgenomen (bijvoorbeeld de
viervouden, de viervouden plus 1, de viervouden plus 2 en de viervouden plus 3).
De ordening van de voorbeelden ligt immers niet vast, dus met een andere volgorde van de
voorbeelden en de verdeling uit de tabellen valt iedere mogelijke indeling te maken.