KDE : installer, utiliser les APIs

 

Les APIs de KDE permettent de convertir des documents bureautiques en pdf, html ou text et d'océriser un fichier pdf image afin de pouvoir en indexer le contenu, extraire des informations ou encore d'optimiser la place occupée sur un disque.

 

Utiliser l'installeur (RTSLuceneInstaller115.msi) pour installer KDE. Il sera probablement nécessaire de déclarer de nouvelles règles au niveau du pare-feu du serveur afin que les requêtes vers KDE ne soient pas bloquées. L'API de KDE et votre application communiqueront en http (web service REST) sur le port 9001.

 

Démarrer le service

 

Vérifier le fonctionnement en utilisant la page de test.

 

Dans le répertoire qui vient d'être créé sur le disque, ouvrir "Lucene REST Services for Kentika", ouvrir la page "TestPage.html" avec Internet Explorer.

En pied de page, cliquer sur "Autoriser le contenu bloqué".

 

 

NB : cette page vous permet de tester les convertisseurs et l'OCR proposés par KDE en se rendant sur le dernier onglet :

 

Après exécution, un fichier par "_" sera créé dans le même répertoire.

 

Description de l'API

 

Host : Localhost

Numéro de port : 9001

 

Convertir un fichier

 

URL : LuceneService/Convert

 

Paramètres

 

inputdocument : chemin d'accès complet au fichier à convertir

outputdocument : chemin d'accès complet du fichier à produire

outputformat : html ou pdf ou text

 

Exemple

{

    "inputdocument": "E:\\TempXXX\\DIRECTIONS JURIDIQUES.PDF",

    "outputdocument": "E:\\TempXXX\\_DIRECTIONS JURIDIQUES.html",

    "outputformat": "html"

}

 

Fonctionnement

 

Lors de l'appel au serveur, ce dernier prend en compte la demande, accuse réception et débute le traitement.

 

{

    "ok": true,

    "ErrMsg": "",

    "NumResults": 0

}

 

Pour savoir si la conversion est terminée, il suffit de tester la présence du fichier spécifié en "outputdocument". Suivant la taille et la complexité du fichier en entrée, ce temps peut être plus ou moins long. L'extraction du texte d'un document bureautique sera rapide (2 à 3 secondes pour document .docx de 100 pages) ; la conversion d'un fichier pdf complexe en html peut être relativement longue (chaque élément non textuel des pages peut donner lieu à un fichier image).

 

Lorsque le convertisseur commence, il créé un premier fichier de même nom que celui spécifié pour la sortie préfixé par _. Lorsque le traitement est terminé, ce fichier est copié avec le nom spécifié. Si un fichier ne comporte aucun texte ou si la conversion ne peut aboutir, le fichier définitif ne sera pas créé.

 

Dans le cas d'une conversion html, un dossier de même nom que le fichier à créer est automatiquement créé et il comportera les images.

 

Dans le cas d'une conversion html en vue d'une diffusion web, il est intéressant de créer le fichier dans le répertoire racine du serveur afin que les images soient automatiquement servies par le serveur http.

 

Océriser un fichier pdf

 

URL : LuceneService/OCR

 

Paramètres

 

inputdocument : chemin d'accès complet au fichier à convertir

outputdocument : chemin d'accès complet du fichier à produire

lang : fra pour français ; eng pour english (liste disponible ici)

 

Exemple

{

    "inputdocument": "E:\\TempXXX\\DIRECTIONS JURIDIQUES.PDF",

    "outputdocument": "E:\\TempXXX\\_DIRECTIONS JURIDIQUES.html",

    "outputformat": "html"

}

 

Fonctionnement

 

Lors de l'appel au serveur, ce dernier prend en compte la demande, accuse réception et débute le traitement.

 

{

    "ok": true,

    "ErrMsg": "",

    "NumResults": 0

}

 

Pour savoir si la conversion est terminée, il suffit de tester la présence du fichier spécifié en "outputdocument".

 

L'OCR utilisé par KDE est Tesseract.

 

KDE et 4D

 

Afin de faciliter l'utilisation de l'API de KDE, une application en 4D v16 est disponible (mode interprété, code ouvert). Il suffit de copier le contenu des scripts et de les coller dans votre application.

 

 

Pour générer un index plein texte à partir du contenu de fichiers bureautiques, il sufft de convertir ces fichiers et d'alimenter un champ texte dans votre base 4D avec un index mot-clé. Pour une exploitation plus poussée exploitant des opérateurs de proximité, il est recommandé d'utiliser KAAT (Kentika As A Toolbox.