Manuel

Thesaurus : import

 

 

 

Préambule

 

Le thesaurus est un outil professionnel qui offre une grande richesse et pertinence au niveau de l'indexation et de la recherche. Un thesaurus est composé d'un ensemble de descripteurs qui se déterminent les uns par rapport aux autres. Les relations qui existent entre les descripteurs sont donc primordiales. L'import d'un thesaurus est en cela différent des autres imports de données : les relations sont traitées avec beaucoup de précision.

 

Il est possible d'avoir la même expression utilisée dans deux branches différentes (exemple : "grue" comme engin de chantier et "grue" comme oiseau). Seul son rattachement hiérarchique (terme générique) permet de savoir de quel type de grue il s'agit. Un simple import de texte pourrait donc introduire des erreurs dans le thesaurus.

 

Lorsqu'un descripteur est affecté à un enregistrement, c'est son Record_Num qui permet de faire le lien. Aussi, si on le supprime et qu'on l'importe à nouveau, le descripteur ré-importé n'aura plus le même Record_Num (sauf dans le cas de thesauri packagés) et le lien avec les enregistrements ne sera pas regénéré. Il ne faut donc pas utiliser les fonctions d'export / ré-import du thesaurus en texte tabulé comme une option permettant de structurer simplement son thesaurus (sauf en phase d'initialisation de la base ou lors de l'ajout d'une branche complète indépendante du reste du thesaurus).

 

NB : l'outil d'importation de données textuelles est utilisable également pour importer un thesaurus. Cependant, il demande une bonne maîtrise pour analyser et reproduire correctement les relations.

 

Installation

 

Cette fonction est appelée via un script pré-programmé affecté soit au menu "exploitation", soit au bouton "thesaurus / process" dont le contenu est :

 

New Process

IMP_THES

 

Veillez à affecter une autorisation élevée à cette fonction sinon, un utilisateur non averti pourrait désorganiser le thesaurus en place.

 

Formats possibles

 

Cette fonction accepte deux formats en entrée : format interne Kentika (tel qu'indiqué ci-après) et texte tabulé.

 

Format interne

 

Un fichier comportant un thesaurus ou une branche de thesaurus doit être généré à partir du dialogue "Thesaurus : édition de listes".

 

Export d'un thesaurus

 

Texte tabulé

 

Ceci est un moyen rapide de constituer un thesaurus. Cependant, vous devez vous assurer que ce fichier est bien formé, à savoir : un descripteur par ligne et une tabulation par niveau.

 

Exemple de fichier bien formé

histoire

    Antiquité

           Antiquité chinoise

           Antiquité égyptienne

           Antiquité grecque

                  colonisation grecque

                  époque classique

                         guerres médiques

                  époque hellénistique

                  époque mycénienne

                         guerre de Troie

           Antiquité romaine

                  Bas-Empire : 284-395

                         invasion barbare

                  colonisation romaine

                  Empire romain

                  République romaine

                         guerre des Gaules

                         guerres puniques

 

Notion de "thesaurus autonome"

 

Un thesaurus autonome est un tout qu'il convient de conserver tel quel. C'est le cas des thesauri fournis par certaines institutions. Un tel thesaurus peut être importé et mis à jour en toute sécurité et en conservant l'intégrité des données.

 

Générer un fichier d'export d'un thesaurus autonome

 

Un tel thesaurus a un nom et un numéro qui doit être fourni par l'équipe Kentika si vous voulez éviter des confusions entre différents thesauri officiels.

 

Lors de l'enregistrement du fichier sur le disque, il suffit de maintenir la touche majuscule enfoncée.

 

Après confirmation de la création d'un thesaurus autonome :

un premier dialogue demande le nom du thesaurus :

puis le numéro à lui affecter :

 

A l'ouverture, un tel thesaurus se présente avec les informations comme indiquées ci-dessous :

 

Informations affichées dans la fenêtre d'import du thesaurus

 

Dialogue d'import

 

Après avoir sélectionné un thesaurus dans l'un des deux formats décrits ci-dessus, le dialogue suivant apparaît:

 

Présentation du thesaurus à importer à gauche.

 

Etape 1 : vérification

 

Analyse complète du thesaurus à importer par rapport à celui présent dans votre base de données.

 

5% du thesaurus à importer est déjà dans la base ;  les descripteurs déjà présents sont présentés avec un (*).

 

 

Etape 2 : mode d'intégration

 

Pour importer l'intégralité du thesaurus, sélectionnez le mode "global" ; pour choisir les branches à importer, sélectionnez le mode "sélectif".

 

Mode sélectif

 

Permet de n'importer qu'une partie du thesaurus.

 

Propose de sélectionner les branches à intégrer

 

Mode global

 

Import du thesaurus dans sa globalité.

 

Passage direct à la dernière étape : les règles d'importation

 

 

Etape 3 : sélection des branches

 

Dans le cas d'un import sélectif, permet de choisir les branches à importer

 

Choix des descripteurs à importer

 

Un clic dans la colonne à gauche d'un descripteur sélectionne le descripteur ainsi que toute sa descendance si ce dernier n'est pas sélectionné / désélectionne le descripteur et sa descendance si ce dernier est sélectionné. Il est ensuite possible de désélectionner un descripteur situé à un niveau inférieur. Un clic en regard du descripteur en maintenant la touche "majuscule enfoncée" sélectionne / désélectionne le terme seul (ie : sans sa descendance).

 

Etape 4 : règles d'importation

 

Les options proposées dépendent du mode d'intégration et permettent de règler la manière dont doit être traité le thesaurus importé.

 

Nouveau thesaurus

 

Le thesaurus est importé sans tenir compte du thesaurus en place. Aucun dédoublonnage ni fusion avec l'existant. Dans le cas d'un thesaurus autonome, les Record_Num des descripteurs importés porteront des numéros calculés de la manière suivante : Record_Num de l'enregistrement importé + (100 000* numéro du thesaurus)+10 000 000.

 

NB : ce principe de renumérotation permet ensuite à l'application de retrouver simplement les descripteurs appartenant à un thesaurus donné identifié par son numéro.

 

Fusionner

 

Si un descripteur importé figure déjà dans le thesaurus, il sera ignoré lors de l'import et ses descripteurs spécifiques seront rattachés au descripteur trouvé.

 

NB : la recherche de descripteurs présents porte sur l'intitulé du descripteur sans tenir compte des lettres accentuées ou des majuscules / minuscules. Ainsi si on tente d'importer le descripteur "Elève" et qu'il existe un descripteur "ELEVE" dans la base de données, le descripteur "Elève" sera ignoré.

 

Ne pas dédoublonner

 

Aucun contrôle d'existence n'est effectué.

 

Mise à jour

 

Cette option permet de considérer le thesaurus comme un tout et de l'assimiler à une branche (ou à un thesaurus) existant dans la base de données. Si des descripteurs ont été ajoutés dans le thesaurus importé, ils seront ajoutés à votre thesaurus. Par contre, s'ils ont disparu, le choix du traitement est proposé.

 

Option complémentaire relative aux descripteurs qui ne figureraient plus dans le thesaurus importé

 

Cette option est à privilégier dans le cas de la mise à jour d'un thesaurus autonome.

 

Branche de rattachement

 

Dans le cas d'un import de thesaurus avec une des options autre que "Nouveau thesaurus", si un descripteur n'a pas de terme générique, il devra être rattaché à une branche par défaut. Vous devez indiquer quelle sera cette branche. Sinon, ces descripteurs sans terme générique seront considérés comme des descripteurs maîtres.

 

Validation

 

Les mises à jour sont effectuées globalement si vous cliquez sur le bouton de validation et que vous confirmez les messages qui vous sont proposés.