|
Met dynamisch classificeren kan informatie dynamisch worden gestructureerd op verschillende gebruikersniveaus, al naar gelang de verschillende informatiebehoeften. De basis hiervoor is een goede inhoudelijke ontsluiting via taxonomieën. Jan Schalkwijk van Knowledge Concepts gaf dinsdag 6 juli op de bijeenkomst van het Oosterlijk Informatienetwerk een workshop over deze wijze van informatie toegankelijk maken. Begrippen: De basis is de taal. Hierbij wordt bedoeld de natuurlijke taal Documenten: dat kan zijn content, artikelen, tijdschriften, full text, e-mail, spraak, video Meta tags: informatie over het document (de auteur, bron, publicatiedatum etc.) Document repositories: daar waar documenten zijn opgeslagen (CMS, DMS, blogs, websites, RDBMS, social media, hard disks) Index: per definitie full text Toegankelijk maken van informatie Taxonomie Taxonomie is een classificatie in een hiërarchische structuur. Hierin kunnen zich tal van relaties bevinden. Doel hiervan is om een document zoveel mogelijk te ontsluiten. Er dient zorg gedragen te worden voor een evenwichtige verdeling van de content in de taxonomie. Elke term die je gebruikt moet ook iets bieden aan de klant. Hele lijsten met termen waar niets achter staat werkt niet. De indeling moet tevens herkenbaar voor de algemene gebruiker zijn. Het moet niet alleen gebaseerd zijn op stokpaardjes van specialisten. De inzet moet zijn dat minstens 99,99 % van een document ontsloten wordt. Classificatie Classificaties die in deze gebruikt worden kunnen er verschillend uitzien. Het kan gaan om een klassiek bibliotheek classificatiesysteem maar ook om een gebruikers specifieke classificatie, gebaseerd op fulltekst inhoud. Maar ook een lijst met termen naar elk gewenst inzicht van een gebruiker(sgroep) behoort tot de mogelijkheden. Hiernaast kunnen ook combinaties van taxonomieën en combinaties van classificaties gebruikt worden. Hoe bouw je een taxonomie? Markt taxonomieën De markt voor dit soort systemen is vrij diffuus. Deze bestaat voornamelijk uit universiteiten, uitgevers en overige onderzoeksinstellingen zoals TNO, DFKI, maar ook onderdelen van de overheid. Waarom wordt er nooit "gewoon een taxonomie gekocht"? Het is er niet, of, als er wel iets bijzit, dan past het niet (helemaal) bij de doelstellingen van de organisatie. Als enige optie blijft dan over het zelf bouwen. Het eindresultaat is een bedrijfstaxonomie. Aanpak Geef domeinexperts statistieken van veel voorkomende woorden en ga na of de vlag de lading dekt. Hiervoor dient dus literatuur geraadpleegd te worden waar veel termen in staan die op het onderwerp betrekking hebben. De bedoeling is om met deze teksten de specifieke taal en het jargon vast te stellen. Op basis hiervan kan men dan de frequentie van woorden gaan meten. Indien mogelijk vergelijk die termen met een beschikbare structuur. Is geen structuur aanwezig probeer er dan zelf een te maken naar aanleiding van de hoogte van frequentie van termen. Resultaatlijsten kan men proberen te verrijken door additionele zoekacties waarbij dan termen te voorschijn kunnen komen die aan deze lijst kunnen worden toegevoegd. Bij de samenstelling van de structuur dient men rekening te houden met de gebruikersperceptie, de herkenning, van de gebruiker. Wijzigingen in de structuur moeten zoveel mogelijk vermeden worden. Meten is weten
Statistiek is in deze woorden tellen. Let hierbij op n-grammen N>1. Deze dragen vaak de meeste lading. Maak ook vergelijkingen met een algemene taal statistiek of, als het kan, maak vergelijkingen met andere taalbronnen (b.v. thesaurus). Met het resultaat van deze "tellingen" kunnen informatiemedewerkers weer aan de slag. Vermijd weer de vakexperts (stokpaardjes). Kijk hoeveel hits er per term vallen en pas zonodig de gebruikte lijst aan. Door op deze manier te werken bereikt men verschillende dingen:
- Van halen (per document) naar (geautomatiseerd) brengen (alerting obv persoonlijke classificatie)
- Van regelaar/beheerder naar inhoudelijk adviseur
- Van ordenen naar managen
- Van generiek naar de organisatie naar specifiek (afdeling /project)
Tevens krijgt men inzicht in:
- Gebruik en versheid van content
- Toegevoegde waarde van content leveranciers
- Informatiebehoefte in de organisatie
Download de sheets van Jan Schalkwijk: 20100607_OIN.pdf 934.08 Kb
Deelnemerslijst: deelnemers_zomerbijeenkomst.pdf 10.57 Kb
Verslag: Alfred Moest / CBS
|