
Thesaurus : import
Préambule
Le thesaurus est un outil professionnel qui offre une grande richesse et pertinence au niveau de l'indexation et de la recherche. Un thesaurus est composé d'un ensemble de descripteurs qui se déterminent les uns par rapport aux autres. Les relations qui existent entre les descripteurs sont donc primordiales. L'import d'un thesaurus est en cela différent des autres imports de données : les relations sont traitées avec beaucoup de précision.
Il est possible d'avoir la même expression utilisée dans deux branches différentes (exemple : "grue" comme engin de chantier et "grue" comme oiseau). Seul son rattachement hiérarchique (terme générique) permet de savoir de quel type de grue il s'agit. Un simple import de texte pourrait donc introduire des erreurs dans le thesaurus.
Lorsqu'un descripteur est affecté à un enregistrement, c'est son Record_Num qui permet de faire le lien. Aussi, si on le supprime et qu'on l'importe à nouveau, le descripteur ré-importé n'aura plus le même Record_Num (sauf dans le cas de thesauri packagés) et le lien avec les enregistrements ne sera pas regénéré. Il ne faut donc pas utiliser les fonctions d'export / ré-import du thesaurus en texte tabulé comme une option permettant de structurer simplement son thesaurus (sauf en phase d'initialisation de la base ou lors de l'ajout d'une branche complète indépendante du reste du thesaurus).
NB : l'outil d'importation de données textuelles est utilisable également pour importer un thesaurus. Cependant, il demande une bonne maîtrise pour analyser et reproduire correctement les relations.
Installation
Cette fonction est appelée via un script pré-programmé affecté soit au menu "exploitation", soit au bouton "thesaurus / process" dont le contenu est :
New Process
IMP_THES
Veillez à affecter une autorisation élevée à cette fonction sinon, un utilisateur non averti pourrait désorganiser le thesaurus en place.
Formats possibles
Cette fonction accepte deux formats en entrée : format interne Kentika (tel qu'indiqué ci-après) et texte tabulé.
Format interne
Un fichier comportant un thesaurus ou une branche de thesaurus doit être généré à partir du dialogue "Thesaurus : édition de listes".

Export d'un thesaurus
Texte tabulé
Ceci est un moyen rapide de constituer un thesaurus. Cependant, vous devez vous assurer que ce fichier est bien formé, à savoir : un descripteur par ligne et une tabulation par niveau.
Exemple de fichier bien formé
histoire
Antiquité
Antiquité chinoise
Antiquité égyptienne
Antiquité grecque
colonisation grecque
époque classique
guerres médiques
époque hellénistique
époque mycénienne
guerre de Troie
Antiquité romaine
Bas-Empire : 284-395
invasion barbare
colonisation romaine
Empire romain
République romaine
guerre des Gaules
guerres puniques
Notion de "thesaurus autonome"
Un thesaurus autonome est un tout qu'il convient de conserver tel quel. C'est le cas des thesauri fournis par certaines institutions. Un tel thesaurus peut être importé et mis à jour en toute sécurité et en conservant l'intégrité des données.
Générer un fichier d'export d'un thesaurus autonome
Un tel thesaurus a un nom et un numéro qui doit être fourni par l'équipe Kentika si vous voulez éviter des confusions entre différents thesauri officiels.
Lors de l'enregistrement du fichier sur le disque, il suffit de maintenir la touche majuscule enfoncée.
Après confirmation de la création d'un thesaurus autonome :

un premier dialogue demande le nom du thesaurus :

puis le numéro à lui affecter :

A l'ouverture, un tel thesaurus se présente avec les informations comme indiquées ci-dessous :
![]()
Informations affichées dans la fenêtre d'import du thesaurus
Dialogue d'import
Après avoir sélectionné un thesaurus dans l'un des deux formats décrits ci-dessus, le dialogue suivant apparaît:

Présentation du thesaurus à importer à gauche.
Etape 1 : vérification
Analyse complète du thesaurus à importer par rapport à celui présent dans votre base de données.

5% du thesaurus à importer est déjà dans la base ; les descripteurs déjà présents sont présentés avec un (*).
Etape 2 : mode d'intégration
Pour importer l'intégralité du thesaurus, sélectionnez le mode "global" ; pour choisir les branches à importer, sélectionnez le mode "sélectif".
Mode sélectif
Permet de n'importer qu'une partie du thesaurus.

Propose de sélectionner les branches à intégrer
Mode global
Import du thesaurus dans sa globalité.

Passage direct à la dernière étape : les règles d'importation
Etape 3 : sélection des branches
Dans le cas d'un import sélectif, permet de choisir les branches à importer

Choix des descripteurs à importer
Un clic dans la colonne à gauche d'un descripteur sélectionne le descripteur ainsi que toute sa descendance si ce dernier n'est pas sélectionné / désélectionne le descripteur et sa descendance si ce dernier est sélectionné. Il est ensuite possible de désélectionner un descripteur situé à un niveau inférieur. Un clic en regard du descripteur en maintenant la touche "majuscule enfoncée" sélectionne / désélectionne le terme seul (ie : sans sa descendance).
Etape 4 : règles d'importation
Les options proposées dépendent du mode d'intégration et permettent de règler la manière dont doit être traité le thesaurus importé.
Nouveau thesaurus
Le thesaurus est importé sans tenir compte du thesaurus en place. Aucun dédoublonnage ni fusion avec l'existant. Dans le cas d'un thesaurus autonome, les Record_Num des descripteurs importés porteront des numéros calculés de la manière suivante : Record_Num de l'enregistrement importé + (100 000* numéro du thesaurus)+10 000 000.
NB : ce principe de renumérotation permet ensuite à l'application de retrouver simplement les descripteurs appartenant à un thesaurus donné identifié par son numéro.
Fusionner
Si un descripteur importé figure déjà dans le thesaurus, il sera ignoré lors de l'import et ses descripteurs spécifiques seront rattachés au descripteur trouvé.
NB : la recherche de descripteurs présents porte sur l'intitulé du descripteur sans tenir compte des lettres accentuées ou des majuscules / minuscules. Ainsi si on tente d'importer le descripteur "Elève" et qu'il existe un descripteur "ELEVE" dans la base de données, le descripteur "Elève" sera ignoré.
Ne pas dédoublonner
Aucun contrôle d'existence n'est effectué.
Mise à jour
Cette option permet de considérer le thesaurus comme un tout et de l'assimiler à une branche (ou à un thesaurus) existant dans la base de données. Si des descripteurs ont été ajoutés dans le thesaurus importé, ils seront ajoutés à votre thesaurus. Par contre, s'ils ont disparu, le choix du traitement est proposé.

Option complémentaire relative aux descripteurs qui ne figureraient plus dans le thesaurus importé
Cette option est à privilégier dans le cas de la mise à jour d'un thesaurus autonome.
Branche de rattachement
Dans le cas d'un import de thesaurus avec une des options autre que "Nouveau thesaurus", si un descripteur n'a pas de terme générique, il devra être rattaché à une branche par défaut. Vous devez indiquer quelle sera cette branche. Sinon, ces descripteurs sans terme générique seront considérés comme des descripteurs maîtres.
Validation
Les mises à jour sont effectuées globalement si vous cliquez sur le bouton de validation et que vous confirmez les messages qui vous sont proposés.