
L’application d’anonymisation des décisions de justice, actuellement en cours de brevetage, a été inventée par Tana Corp afin de répondre aux besoins particuliers d’anonymisation automatisée des informations non structurées
Durée totale du projet : 4 mois
Le coût total du projet s’est élevé à 300 jours.homme.
Détails du projet :
Problématique
En vue de l’application automatisée de la délibération de la CNIL en date du 29 novembre 2001 «portant recommandation sur la diffusion de données personnelles sur internet par les banques de données de jurisprudence», le Conseil d’Etat a souhaité se munir d’un outil informatique d’anonymisation. Cette opération est très complexe et source d’erreur, à cause de la multitude de règles d’anonymisation préconisées pour les informations personnelles «des parties au procès et des témoins», mais également très couteuse en temps de réalisation car l’anonymisation concerne un stock existant de 3 millions de documents auxquels se rajoutent 240 000 autres documents chaque année.
L’exclusivité de l’application est engendrée par plusieurs facteurs :
Définition de la mission
Le projet comporte plusieurs phases :
1/ Une phase de réalisation de l’outil d’anonymisation qui est composé de deux modules applicatifs :
Le moteur d’anonymisation prend la forme d’un traitement Batch qui est intégré à une chaine de type EAI existante et qui s’exécutera chaque nuit. L’outil reçoit en entrée une liste des documents sous plusieurs formats (.doc, .txt, etc.) et fournit en sortie une liste des documents anonymisés sous les mêmes formats ou des formats différents (.doc, .txt, xml, etc.). L’outil peut facilement intégrer des nouveaux formats en entrée et sortie. Le moteur n’utilise aucune autre information structurée de type base de données afin d’identifier les patronyme/prénoms/adresse, mais seulement une analyse syntaxique exhaustive de chaque décision.
L’interface de curation permet à différents utilisateurs de contrôler le processus d’anonymisation par la planification et le suivi d’exécution des lots de documents à anonymisés. De plus, elle permet la consultation des résultats d’anonymisation, la vue comparative d’un document dans sa forme initiale et anonymisée aussi que la correction de l’anonymisation d’un document ou la relance de l’anonymisation d’un document ou d’un lot de documents. L’accès à l’interface de curation est restreint aux utilisateurs autorisés et une gestion de profils avancée définit l’accès des utilisateurs aux fonctionnalités et documents des différentes juridictions. En termes d’administration, en plus de la gestion des utilisateurs et profils, l’interface permet l’évolution du moteur d’anonymisation par l’enrichissement des dictionnaires qu’il utilise.
L’outil répond aux objectifs suivants :
2/ Une phase de déploiement et mise en production et formation
3/ Une phase de TMA (Tierce Maintenance Applicative) qui comporte :
Organisation
Pour la réalisation du projet, 7 personnes ont été allouées :
Ce contrat est exécuté en totalité avec des ressources Tana Corp.
Principales caractéristiques du client
Le Conseil d’État français est une institution publique ancienne qui fut créée par Napoléon Bonaparte lors de la constitution de l’an VIII (Consulat : 1799). Cet organisme siège au Palais-Royal à Paris depuis 1875.
Le Conseil d’État exerce deux missions historiques : conseiller du Gouvernement pour la préparation des projets de loi, décret…, il est aussi le juge administratif suprême qui tranche les litiges relatifs aux actes des administrations. Le Conseil d’État a également pour mission de gérer l’ensemble de la juridiction administrative.
Environ 380 personnes, fonctionnaires et contractuels, aident au bon fonctionnement du Conseil d’État et du reste de la juridiction administrative.
Conduite du projet
Une vraie force d’accompagnement : L’organisation du projet accorde une importance primordiale à la qualité de l’accompagnement, pour faire profiter le client de l’expertise et du savoir-faire capitalisés par Tana Corp sur ses projets de même type.
Force de conseil : Notre solide expérience sur des applications statistiques et des projets au forfait nous a permis d’apporter au client les meilleures pratiques du marché dans ce domaine. Par ailleurs, Tana Corp est force de proposition dans la mise en évidence d’options fonctionnelles susceptibles d’apporter une forte valeur ajoutée fonctionnelle.
Méthodologie proposée pour valider les étapes du projet d’un point de vue client
Reporting projet proposé
Un comité de pilotage régulier et un point projet hebdomadaire nous ont permis de piloter ce projet de longue durée en étroite collaboration avec le client.
Outils choisis pour la conduite du projet
Gestion de projet : MS Project
Suivi des incidents : BugX (basé sur Mantis, http://www.mantisbt.org/)
Suivi de versions et configurations : SubVersion (http://subversion.tigris.org/)
Suivi des incidents : BugX (basé sur Mantis, http://www.mantisbt.org/)
Suivi de versions et configurations : SubVersion (http://subversion.tigris.org/)
Fonctionnalités de la solution
Processus métiers couverts par la solution
Quelles ont été les fonctionnalités les plus difficiles à mettre en œuvre ?
Le moteur d’anonymisation doit répondre à des critères très stricts à la fois qualitatifs que quantitatifs. En effet il doit gérer plus de 600 documents toutes les 3 heures avec un taux d’anonymisation automatique supérieur à 90% tout en intégrant un nombre important de règles d’anonymisation :
La solution intègre également une recherche approximative des patronymes par algorithme de type Wagner et Fisher, afin d’identifier les possibles fautes de frappe. Un doute est levé dans le cas de mots similaires, le seuil restant paramétrable pour l’administrateur du système. Ce système est également corrélé au nombre d’occurrences de chacun des mots afin d’obtenir un niveau différent de doute.
Tana Corp a relevé avec succès ce défi, les résultats de la solution étant largement supérieurs aux attentes du cahier de charges : plus de 95% de réussite avec une fréquence de 30000 documents toutes les 3 heures (soit 50 fois plus rapide que le niveau de performances demandé).
Éléments techniques de plate-forme
Progiciel, logiciels ou langages de développement utilisés
Après analyse de l’ensemble des contraintes, Tana Corp a réalisé un système d’informations basé intégralement sur une solution Microsoft :
Raisons du choix
Part des développements préexistants utilisés sur lesquels le Fournisseur a capitalisé pour mener à bien le projet
Ce projet a été mené intégralement à partir de zéro.
Difficultés et facteurs clés de succès
Planning de mise en oeuvre
Durée de la phase de réalisation : 4 mois
Durée de la phase de mise en production : 2 mois
Durée de la phase de tierce maintenance applicative : 1 ans
Éléments financiers
Le coût de la phase de réalisation et mise en production du projet s’élève à 300 jours.homme.
Principaux bénéfices client