Documalis dispose d’un savoir faire unique en méthodologies et logiciels nécessaires à la reprise de fonds en très gros volumes, grâce aux projets opérés pour le compte de grands groupes bancaires, assurances et administrations ces dernières années …
La problématique
Les projets de numérisation en masse nécessitent des technologies de pointe pour traiter des millions de pages dans un temps acceptable, avec un suivi de la production en temps réel, des tableaux de bord de traitements des lots, une qualité de production et une traçabilité sans faille, garante de la qualité finale du projet.
Contrairement aux idées reçues, la problématique réelle de ces projets ne se situe pas au niveau de la numérisation en elle-même, mais du post-traitement des images, pour leur reconnaissance et indexation automatique, pour optimiser la qualité OCR finale et minimiser les saisies manuelles nécessaires au classement des documents PDF générés.
La logistique
Nous disposons d’un Datacenter de traitement en très gros volumes équipé de plus de 20 serveurs de traitements, épaulés de 12 Téraoctets de disques pour les opérations courantes, rapidement extensible au besoin pour des traitements en plus gros volumes.
Nous disposons également d’un partenaire équipé de plusieurs scanners de production de la série Kodak i800 et des moyens humains et logistiques nécessaires aux projets d’envergure de plusieurs millions de documents à traiter, quelle que soit la source : papier, microfilms, microfiches.
|
 |
La Technologie Documalis de reprise de fond
Un moteur EAI Documentaire intégré pour la monté en charge:
|  |
Les chaines de traitement Documalis bénéficient des technologies d’EAI développées par l’équipe R&D depuis 1996 : Process Server
est le moteur de traitement des documents pour toute la chaine post-numérisation. Les scénarii de traitement sont conçus de manière graphique à la souris, ce qui permet une adaptation rapide aux spécificités de chaque projet.
Les solutions OEM Documalis, issues d’une technologie EAI, intègrent naturellement la capacité de répartition de charges sur des dizaines ou des centaines de CPU, ainsi que la virtualisation massive sous VMWare, afin de paralléliser les traitements les plus
couteux en CPU, en général OCR, LAD ou RAD, mais variables selon les projets.
Un savoir faire en imagerie documentaire
Les chaines de post-traitement numériques Documalis bénéficient de la puissance de Process Server et de ses 250 instructions de traitement d’images (équivalentes à Photoshop en ligne de commande), capables de manipuler des documents TIFF très lourds, en haute résolution, de corriger la luminosité, contraste, gamma, de redresser, détourer les images mal scannées …
|  |
Cette optimisation initiale est un élément différenciateur très important, dans le but d’améliorer la qualité visuelle des documents
finaux, mais aussi les taux de reconnaissance OCR/RAD/LAD, dans des proportions pouvant aller jusqu’à plus de 70% sur des
documents de mauvaise qualité.
Un savoir faire en séparation de documents et de pages
|
Documalis dispose de ses propres séparateurs de documents, de signets ou de pages pour la numérisation de masse. Ces pages de séparation exploitent une technologie innovante de patchs garantissant une reconnaissance parfaite, même lors de l’exploitation de plusieurs scanners de marques ou caractéristiques différentes dans un même lot de traitement.
Les pages séparateurs sont générés par Documalis via le module de reporting intégré, ce qui autorise une personnalisation complète de leur contenu, afin de faciliter le classement préalable et le rangement en cartons d’archives par la suite.
Documalis dispose des modules EAI/ETL et d’un Portail de saisie, pour la constitution des bases d’indexation
servant à générer les séparateurs, à partir des éléments disponibles chez le client : récupération dans le SI,
bases de données, listes ou extractions au format fichier à plat, saisie manuelle des informations … |
Un savoir faire en lecture de codes à barre
Documalis dispose de plusieurs algorithmes de reconnaissance de code à barres, généralement traités en post traitement, plutôt que lors de la numérisation en temps réel : la raison est très simple et tient tout simplement dans la cadence des scanners haute volumétrie qui produisent des images haute résolution plus vite que la
capacité de reconnaissance FIABLE des codes à barres « à la volée », même sur des processeurs modernes Dual Core.
|  |
La détection des pages de séparation ou des codes à barres effectuée par Documalis privilégie la qualité de détection à la vitesse, afin de garantir un taux minimum de lots rejetés, voire de documents « perdus » parce que non séparés lors de la constitution des fichiers
PDF de sortie. Les codes à barres peuvent être en nombre quelconque, placé n’importe où sur la page, contrôlés à l’aide de deux algorithmes de détections différents au besoin.
Ils sont ensuite utilisés par un script Documalis de traitement du lot pour effectuer différentes opérations : rupture de dossier, de document, de page, insertion de signets dans un document PDF, indexation ou typage des documents, changement de mode opératoire pour le traitement des images etc.
Un savoir faire en reconnaissance de caractères : OCR
|
 |
Documalis intègre les meilleurs moteurs OCR du marché (Scansoft, Nuance, Omnipage, Abbyy Finereader, Iris OCR, Tocr, SimpleOCR) qui travaillent généralement de manière individuelle ou conjointe sur les projets
les plus complexes exploitant des images de mauvaise qualité, comme c’est souvent le cas lors des reprises
d’historiques de microfiches et microfilms.
L’utilisation de l’OCR est multiple : génération de documents PDF intelligents texte+image indexables,
utilisation pour la RAD et la LAD, détection d’anomalies de traitement, etc.
Les algorithmes de correction d’images, éventuellement itératifs, intégrés à Documalis permettent d’accroitre le taux de reconnaissance standard des moteurs OCR, dans des proportions importantes pouvant atteindre 70% sur des documents de mauvaise qualité, ce qui offre des gains de qualité fondamentaux lors de la restitution finale.
Les moteurs OCR Transym, Omnipage et Scansoft bénéficient d’une tarification unique et illimitée au serveur, à préférer en général aux politiques « à la page » avec dongle pratiquées par FineReader ou ReadIris.
|  |
Un savoir faire en identification des documents : RAD
Documalis dispose de plusieurs technologies RAD zonées, contextuelles ou statistiques pour l’identification et le typage des documents numérisés :
• Moteur de reconnaissance de formes (ancres) issue des laboratoires Intel, très performant, avec apprentissage des formes distinctives et récurrentes comme les logos,
• Extraction de mots clés statistiques pondérés, basés sur un tableau de différenciation des types,
• Moteur d’analyse statistique de chaines textuelles pondérées, récurrentes, nécessaires et interdites dans des macro zones documentaires, de loin le plus performant et le plus fiable en traitement haute volumétrie.
|  |
Ces technologies RAD peuvent être utilisées unitairement ou conjointement pour encore plus de précision et moins de rejets dans le typage des documents. Un contrôle visuel ou un typage via opérateur humain interne ou externalisé peut venir compléter la chaine RAD automatisée pour un contrôle qualité total.
Un savoir faire en extraction d’information : LAD
Documalis dispose de plusieurs moteurs d’extraction de contenu en fonction de la nature des documents à traiter :
• Lecture OCR zonée en coordonnées fixes ou relatives,
• Lecture OCR sur zones complétée d’une extraction d’informations sur base d’expressions régulières prédéfinies,
• Recherche sémantique dans l’intégralité de la page ,
• Moteur de lecture ICR (peignes) et OMR (cases à cocher) sur des formulaires prédéfinis.
|  |
Un contrôle visuel ou un typage via opérateur humain interne ou externalisé peut venir compléter les extractions de la LAD pour un contrôle qualité total.
Un savoir faire en manipulations de fichiers : PDF
Le moteur de traitement Documalis Process Server autorise tout type de manipulation sur les documents PDF :
• Création de fichiers légaux PDF/A signés en sortie de scanner
• Création de fichiers PDF indexables type « texte sur image » pour l’archivage GED ou les processus de reconnaissance, indexation, extraction de données
• Signature numérique PDF à base de clés cryptographiques de niveau 3 compatibles AFNOR NFZ 42-013.
• Réduction de la taille des fichiers PDF après avoir effectué les opérations OCR, LAD et RAD en haute qualité, par compression ultérieure des images TIFF ou JPEG incorporées.
• Rotation automatique des pages en fonction de l’orientation du texte ou des dimensions scannées : A3, A4, enveloppe, ticket, carte de visite…
|  |
Ajustement dynamique de la compression du document en fonction du nombre de pages afin de limiter la taille maximale au PDF final.
Un savoir faire de signature numérique
|
 |
 | Documalis intègre les algorithmes de signature numérique des documents PDF, bureautique Microsoft Word-Excel-Powerpoint et archives PGP.
Les signatures peuvent être de type « serveur », apposées en tâche de fond lors du traitement des lots en arrière plan, ou de type « utilisateur nommé » à l’aide de clés
de chiffrages distribuées par nos partenaires agréés ChamberSign et Certigreffe.
|  |
Sauvegarde, création d’images, CDROM ou DVDROM
La suite Documalis sait fabriquer automatiquement ou à la demande d’un opérateur des supports de sauvegarde sur disque dur externe, sous forme d’image ISO ou gravure directe de CD, DVD, Blue-Ray, ou disques WORM.
Pilotage de graveurs de microfilms
Afin de pouvoir détruire les originaux papiers, une solution historique consiste à créer et archiver des
microfilms des documents originaux. Cette technique est très utilisée dans les hôpitaux et organismes publics.
Les chaines de dématérialisation Documalis peuvent intégrer un flux de traitement pour la gravure numérique sur microfilms, en parallèle à la création des fichiers PDF qui peuvent conserver leur
caractéristiques couleur ou niveaux de gris grâce aux sorties double flux des scanners de production Kodak pilotés par Documalis.
La gravure sur microfilms se fait généralement à partir du flux Noir&Blanc issu du scanner de production, sur du matériel type Kodak i9600 ou autre acceptant des images normalisées au format TIFF en entrée.
|  |
Implémentation de la nouvelle norme AFNOR 42-013
La nouvelle norme Afnor 42-013 relative à la conservation probante des documents numériques autorise la destruction des originaux
papiers, à condition que la chaine de numérisation soit conforme et que le tiers archiveur soit agréé pour la conservation des documents numériques signés.
 | Les processus industriels de dématérialisation Documalis sont conformes à la norme NFZ 42-013, et le partenariat avec CDC Arkhineo finalise la chaine pour la conservation légale externalisée. Documalis génère en effet des fichiers PDF signés à l’aide de clés cryptographiques de niveau 3 reconnues par l’administration et la justice Française.
|
| Archivage légal en coffre-fort électronique
Documalis dispose d’un partenariat technologique avec CDC Arkhineo pour l’archivage électronique à valeur probante des documents électroniques. L’EAI intégré autorise cependant l’envoi des documents numériques à tout autre tiers de confiance du marché, selon des techniques variées allant du push FTP au web service sécurisé …
Les scénarios Process Server sont capables de générer les documents PDF/A signés, puis les lots signés à archiver, requis par la norme AFNOR 42-013, afin de transmettre les documents numérisés aux tiers de confiance agréés par la FNTC.
|  |
La structure de ressaisie des index
 | Documalis a signé des accords de partenariat pour la ressaisie des informations, index et contenus des documents numérisés, à des tarifs très compétitifs. Ces services sont utilisés en permanence par les projets lourds de reprise de fond actifs chez Documalis et ont permis de négocier des tarifs « gros volumes » sur la base de plusieurs millions de pages déjà traitées.
|
La cellule de contrôle/ressaisie Documalis externalisée utilise les logiciels de vidéocodage Documalis, afin de garantir la qualité et surtout la traçabilité intégrale du flux documentaire, de sa numérisation au livrable final.
La plateforme de traitement des images
La fabrication des images issues des reprises de fond est gérée comme une usine de production industrielle, avec ses outils de découpage automatique d’image, de mise en page, de ressaisie et les tableaux de bord de production temps réel affichant le suivi et les performances de chaque composant de la chaine afin de garantir la sécurité et la qualité finale des documents livrées.
|