Zoekresultaten

Zoekopdracht: faculteit: "FNWI" en publicatiejaar: "2009"

AuteurI.A. Jonker
TitelHet relateren van teksten : door middel van ‘Clustering by Compression’
BegeleiderJ. van Eijck
Jaar2009
Pagina's98
FaculteitFaculteit der Natuurwetenschappen, Wiskunde en Informatica
OpleidingFNWI MSc Software Engineering
SamenvattingMet steeds groter wordende databases aan tekstuele informatie wordt het steeds lastiger om daadwerkelijk de informatie te vinden naar waar men op zoek is. Het bekende gezegde ‘door de bomen het bos niet meer zien’ is in toenemende mate van toepassing en speelt vooral een rol bij ongeclassificeerde en ongestructureerde data. Om de gebruikers van deze databases tegemoet te komen zijn er tegenwoordig tal van innovatieve oplossingen bedacht waarvan één van deze oplossingen de aanleiding vormt voor dit onderzoek; namelijk het aanbevelen van ‘andere’ relevante teksten t.o.v. een bepaalde tekst. Gegeven de ‚Clustering by Compression‛ methode die op basis van alledaagse compressiemethodieken zoals Gzip of Bzip bepaald welke digitale objecten groepen vormt, zal binnen dit onderzoek een antwoord gegeven worden of deze methode ook instaat is teksten zodanig te groeperen dat de lezers van een bepaalde tekst aanbevelingen gedaan kan worden voor het lezen van andere teksten. Dit wordt gedaan door de methode uit te voeren op een vooraf gedefinieerde verificatieset en de resulterende clustering te vergelijken met de wenselijke clustering zoals bepaald door diverse lezers en classificatie door de auteurs van de teksten. Het blijkt dat de Clustering by Compression methode een heel eind in de goede richting komt, maar bij een groter wordende berichtenset toch fouten maakt. Door middel van preprocessing is vervolgens geprobeerd deze fouten te neutraliseren. Twee vormen van preprocessing bleken succesvol. Zowel lengte normalisatie als de verwijdering van de meest voorkomende woorden zorgden voor een foutloze clustering. De Clustering by Compression kan dus berichten inhoudelijk relateren, op voorwaarde dat we een van deze twee vormen van preprocessing toepassen.
Soort document scriptie master
Download bestand