Tous Actualités
Suivre
Abonner Archivista GmbH

Archivista GmbH

Archivistabox 2008/IX : Le Premier logiciel de reconnaissance de texte open source avec fichiers PDF indexables au monde

Pfaffhausen (ots)

Avec le lancement d'ArchivistaBox 2008/IX,
Archivista, une société suisse de logiciels en open source, a sorti
le seul logiciel de reconnaissance de texte open source avec fichiers
PDF indexables au monde.
La majorité des programmes actuels de reconnaissance de texte ou
ROC (reconnaissance optique de caractères) fonctionnent uniquement
sur les systèmes Windows et peuvent être achetés pour des prix
commençant aux environs de 100 euros. Cependant, quand des milliers
ou des millions de pages doivent être traitées, des licences de
volumes très coûteuses, basées sur un prix par page scannée, sont
requises.
L'ArchivistaBox est un SGED (système de gestion électronique des
documents) basé sur le web, qui peut être installé sur n'importe quel
ordinateur du commerce. Selon le matériel utilisé, le volume de pages
traitées peut varier entre plusieurs milliers et plusieurs millions
de pages par jour.
La sortie de 2008/IX marque le lancement du premier système de
reconnaissance de texte open source capable de créer des fichiers PDF
indexables directement à partir des pages scannées. Plus de 20
langues sont disponibles et la qualité de reconnaissance est
comparable à celle des systèmes commerciaux >99 pour cent).
Les fichiers PDF générés avec l'ArchivistaBox sont stockés dans
une base de données Archivista et indexés automatiquement, ce qui
permet d'effectuer des recherches dans l'ensemble du stock de
documents. Les documents scannés peuvent être obtenus avec un
navigateur web à tout moment. Les données sensibles peuvent être
cryptées avant d'être rendues disponibles. Si nécessaire,
l'ArchivistaBox peut créer des publications DVD complètes.
100 % du code source utilisé dans l'ArchivistaBox est sous licence
GPLv2. Les moteurs de ROC Tesseract (y compris reconnaissance des
lettres gothiques) et Cuneiform (licence BSD) sous port Linux sont
utilisés pour la reconnaissance de textes. Le module hocr2pdf (cf.
http://www.exactcode.de) sert à générer les fichiers PDF indexables.
Le CD ArchivistaBox 2008/IX (700 Mo) peut être téléchargé sur
https://sourceforge.net/projects/archivista/ ou
http://www.archivista.ch.

Contact:

Urs Pfister,
Archivista GmbH,
Tél.: +41/44/254'54'00
E-Mail: webmaster@archivista.ch