Archivistabox 2008/IX : Le Premier logiciel de reconnaissance de texte open source avec fichiers PDF indexables au monde
Pfaffhausen (ots)
Avec le lancement d'ArchivistaBox 2008/IX, Archivista, une société suisse de logiciels en open source, a sorti le seul logiciel de reconnaissance de texte open source avec fichiers PDF indexables au monde.
La majorité des programmes actuels de reconnaissance de texte ou ROC (reconnaissance optique de caractères) fonctionnent uniquement sur les systèmes Windows et peuvent être achetés pour des prix commençant aux environs de 100 euros. Cependant, quand des milliers ou des millions de pages doivent être traitées, des licences de volumes très coûteuses, basées sur un prix par page scannée, sont requises.
L'ArchivistaBox est un SGED (système de gestion électronique des documents) basé sur le web, qui peut être installé sur n'importe quel ordinateur du commerce. Selon le matériel utilisé, le volume de pages traitées peut varier entre plusieurs milliers et plusieurs millions de pages par jour.
La sortie de 2008/IX marque le lancement du premier système de reconnaissance de texte open source capable de créer des fichiers PDF indexables directement à partir des pages scannées. Plus de 20 langues sont disponibles et la qualité de reconnaissance est comparable à celle des systèmes commerciaux >99 pour cent).
Les fichiers PDF générés avec l'ArchivistaBox sont stockés dans une base de données Archivista et indexés automatiquement, ce qui permet d'effectuer des recherches dans l'ensemble du stock de documents. Les documents scannés peuvent être obtenus avec un navigateur web à tout moment. Les données sensibles peuvent être cryptées avant d'être rendues disponibles. Si nécessaire, l'ArchivistaBox peut créer des publications DVD complètes.
100 % du code source utilisé dans l'ArchivistaBox est sous licence GPLv2. Les moteurs de ROC Tesseract (y compris reconnaissance des lettres gothiques) et Cuneiform (licence BSD) sous port Linux sont utilisés pour la reconnaissance de textes. Le module hocr2pdf (cf. http://www.exactcode.de) sert à générer les fichiers PDF indexables.
Le CD ArchivistaBox 2008/IX (700 Mo) peut être téléchargé sur https://sourceforge.net/projects/archivista/ ou http://www.archivista.ch.
Contact:
Urs Pfister,
Archivista GmbH,
Tél.: +41/44/254'54'00
E-Mail: webmaster@archivista.ch