10.1 Classificatie
In deze paragraaf wordt een model ontwikkeld voor classificatie, dat kan dienen als raamwerk van het opzetten van classificatiesystemen.
10.1.1 Heuristische classificatie
Lees uit Stefik: paragrafen 7.1 en 7.1.1 (pagina 543 tot en met 547).
Onderaan pagina 545 en bovenaan pagina 547 staan een paar foutjes: waar 7.1, 7.2 en 7.3 staan, hadden 7.2, 7.3, respectievelijk 7.4 moeten staan.
In figuur 7.1 op pagina 544 toont Stefik het hoefijzerdiagram, waarin de drie hoofdprocessen van classificatie worden getoond: het in algemene termen weergeven van de waargenomen gegevens (gegevensabstractie: data abstraction), het op grond van de algemene termen bepalen van een algemene oplossing (afbeelding: match) en het nauwkeuriger preciseren van de klasse waartoe het object behoort (oplossingsverfijning: solution refinement). Alle drie de processen worden uitgevoerd overeenkomstig regels die van domeinexperts of andere bronnen worden verkregen. Domeinexperts gebruiken daarbij hun kennis en ervaring, soms tot uitdrukking komend in vuistregels die ze hanteren. Deze aanpak van classificatie wordt daarom ook heuristische classificatie genoemd.
Niet altijd is in classificatiesystemen even duidelijk de aanpak overeenkomstig het hoefijzerdiagram te herkennen. Soms worden ook varianten gebruikt en verloopt het classificatieproces in meerdere stappen, of komen sommige stappen helemaal niet voor. Stefik noemt twee voorbeelden van varianten: de composed mappings view en de intermediate spaces view. Op beide wordt in het boek verder nauwelijks teruggekomen en in deze cursus zullen we daar ook verder niets mee doen.
10.1.2 Domeinmodellen voor classificatie
Lees uit Stefik: paragraaf 7.2.1 (pagina 547 tot en met 549).
In Stefik worden de gegevensruimte D (data space) en de oplossingsruimte S (solution space) gedefinieerd. Beide zijn verzamelingen, maar let goed op: de elementen D
i in de gegevensruimte representeren de kenmerken van één object, terwijl elk element Si in de oplossingsruimte één klasse representeert. Als er een object geclassificeerd moet worden, dan moeten dus een aantal van de Dis een waarde krijgen. Er wordt daarmee een gegevensvector (data vector) vastgelegd. Het classificatieproces is er vervolgens op gericht te bepalen welk van de Sis de oplossing is.De afbeeldingsrelatie (covering relation) geeft voor iedere mogelijke oplossing S
i aan wat de waarden van de gegevenselementen wel of niet kunnen zijn. De relatie is voor iedere combinatie (Sj, Di) gedefinieerd en kan zoals in figuur 7.3 op pagina 548 worden weergegeven met lijnen (waarde 1), stippellijnen (waarde 0) of met het ontbreken van lijnen (waarde ?).Als een object geclassificeerd moet worden, kan een oplossing consistent met de
gegevens worden genoemd, als geen van de gegevens strijdig is met de vereisten van de
oplossingsklasse. Gegevens die onbekend zijn, kunnen niet strijdig zijn, dus zolang weinig
gegevens van een object bekend zijn, zullen veel oplossingsklassen consistent met de
gegevens zijn.
Zodra één van de gegevens strijdig is met de vereisten van de oplossingsklasse, is de
oplossing inconsistent en kan vervallen (ruled out).
Als de waarde van een gegeven bekend is (D
i = 1 of Di = 0), kan gekeken worden welke klassen op grond hiervan in aanmerking komen als oplossing. Deze klassen overdekken (cover) het gegeven.Als alle relevante gegevens met betrekking tot een bepaalde oplossing S
i bekend zijn en geen van alle is inconsistent, dan stemmen de gegevens overeen met die oplossing (match), of anders gezegd: de oplossing verklaart (explain) de gegevens.Alle relevante gegevens moeten in overeenstemming zijn met de vereisten van een klasse, wil de klasse een oplossing zijn. Dit verklaart de naam van dit model: conjunctieve classificatie, we hebben te maken met een conjunctie van vereisten.
De grafische notatie voor de conjunctieve classificatie geeft een helder overzicht van de methode. In de volgende opgave wordt u gevraagd een grafische voorstelling te maken voor een classificatiesysteem voor ronde en platbodemjachten.
10.1.3 Variaties in gegevens- en oplossingsmodellen
Lees uit Stefik: paragraaf 7.2.2, 7.2.3 en 7.2.4 (pagina 549 tot en met 556).
In paragraaf 7.2.2 wordt ingegaan op een aantal aspecten die ertoe leiden dat er variaties mogelijk moeten zijn op het tot nu toe gepresenteerde model van conjunctieve classificatie om tot praktische resultaten te kunnen leiden.
Allereerst kan het zijn dat bij bekende gegevens van een te classificeren object geen, meerdere of combinaties van oplossingen worden gevonden. In figuur 7.6 op pagina 551 worden mogelijkheden gegeven om toch tot een classificatie te komen.
Vervolgens wordt ingegaan op het feit dat gebruik kan worden gemaakt van een eventuele hiërarchie in de oplossingsruimte. Als een dergelijke hiërarchie aanwezig is en subklassen elkaar uitsluiten, kan veelal veel sneller geclassificeerd worden. Dat is van belang als er redelijk wat gegevens van een object bekend zijn en de oplossingsruimte groot is. In dergelijke gevallen is er sprake van encompassing class nodes. Een omvattend klasseknooppunt bevat precies al zijn subklassen die elkaar onderling uitsluiten.
Als subklassen elkaar uitsluiten, kan van die eigenschap gebruik worden gemaakt om een oplossing te vinden zonder dat alle relevante gegevens van een te classificeren object bekend hoeven te zijn. Dit wijkt dus af van het door Stefik in paragraaf 7.2.1 gepresenteerde model waarbij alleen oplossingen konden worden uitgesloten (rule out) als er gegevens inconsistent waren met de klassevereisten.