L'élégance du Hérisson



La science facilite toujours plus la communication, la transmission, la copie et le stockage de données. Face aux nombreuses menaces auxquelles est confrontée une société (terrorisme, émeutes, violations des "droits d'auteur"), que va faire un gouvernement ? La sécurité des citoyens fait partie de ses prérogatives. Donc, il va lancer un appel d'offres en vue d'acquérir un système de surveillance global, capable de traiter intelligemment les données recueillies. C'est ainsi que peut être résumé le potentiel système HÉRISSON, pour, bien sûr, "Habile Extraction du Renseignement d'Intérêt Stratégique à partir de Sources Ouvertes Numérisées".

Surveiller et punir

Derrière cet acronyme digne du manuel des castors juniors se profile une volonté de contrôle, le contrôle apportant quelques volutes de confort, des activités des citoyens. A ce titre, le système HÉRISSON présente de multiples facettes :

Les mots

L'hypothétique système de surveillance et de traitement de données HÉRISSON doit être en mesure d'accomplir de nombreuses tâches, définies au sein d'un cahier des charges muni de 524 exigences, réparties en plusieurs catégories : les sources à considérer (SRC), la collecte des données (COL), le traitement des données (TRT), l'exploitation des résultats (EXP), la chaîne de traitements (ACC), la structure organisationnelle (ORG), le matériel (INT), le système d'audit (EVA), le développement (DEV), l'interface homme-machine (IHM), la sécurité matérielle (SEC), le système d'aide intégrée (LOG), la communication (COM), le support technique et la garantie (GAR), la sécurité Internet (SIN), la gestion (MAN). Ces spécifications ne sont pas toutes du même ordre de priorité, on distinguera ainsi les spécifications primordiales, les importantes, et les souhaitables.

Montrer les spécifications Hérisson
Sources
E-SRC-1I Le système HÉRISSON permet de connecter et de traiter en entrée du système un flux vidéo analogique (images + son) issue du réseau télévisuel hertzien.
E-SRC-2I Le système HÉRISSON permet de connecter et de traiter en entrée du système un flux vidéo numérique issu du réseau télévisuel numérique (par satellite).
E-SRC-3I Le système HÉRISSON permet de connecter et de traiter en entrée du système un flux audio analogique issu du réseau radiophonique hertzien.
E-SRC-4I Le système HÉRISSON permet de connecter et de traiter en entrée du système un flux audio analogique issu du réseau radiophonique hertzien.
E-SRC-5I Le système HÉRISSON dispose en entrée d'un système capable de numériser le contenu (texte et image) issue de la presse papier.
E-SRC-6P Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) des sites de presse en ligne (ou sites web informationnels, cf. [DR-01]) accessible via Internet et de le traiter.
E-SRC-7S Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) des sites de presse en ligne (ou sites web informationnels, cf. [DR-01]) accessible via Internet et de le traiter.
E-SRC-8P Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) des sites web institutionnels (cf. [DR-01]) accessible via Internet et de le traiter.
E-SRC-9P Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) des sites de presse en ligne (ou sites web informationnels, cf. [DR-01]) accessible via Internet et de le traiter.
E-SRC-10S L'exigence [E-SRC-3] permet aussi de se connecter à une source de type radio amateur émettant sur le réseau hertzien.
E-SRC-11S Le système HÉRISSON permet de traiter le contenu d'un flux audio numérique issu d'un podcast (cf. [DR-01]).
E-SRC-12I Le système HÉRISSON permet d'accéder au contenu (texte) accessible via Internet Relay Chat (cf. [DR-01]) et de le traiter.
E-SRC-13I Le système HÉRISSON permet d'accéder au contenu (texte) de mailing lists (cf. [DR-01]) disponible via Internet et de le traiter.
E-SRC-14P Le système HÉRISSON permet d'accéder au contenu (texte, image) de Web Forums (cf. [DR-01]) disponible via Internet et de le traiter.
E-SRC-15P Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) de sites de réseaux sociaux (cf. [DR-01]) disponibles via Internet et de le traiter.
E-SRC-16P Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) de Newsgroups (cf. [DR-01]) disponible via Internet et de le traiter.
E-SRC-17P Le système HÉRISSON permet d'accéder au contenu des données (texte) issues de flux RSS (cf. [DR-01]) disponible via Internet et de le traiter.
E-SRC-18P Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) de blogs/sites web personnels (cf. [DR-01]) disponible via Internet et de le traiter.
E-SRC-19I Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) accessible via les systèmes Peer to Peer (cf. [DR-01]) disponible via Internet et de le traiter.
E-SRC-20P Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) accessible via les moteurs et métamoteurs de recherche (cf. [DR-01]) disponibles sur Internet et de le traiter.
E-SRC-21P Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) accessible via les annuaires et portails (cf. [DR-01]) disponibles sur Internet et de le traiter.
E-SRC-22P Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) d'agrégateurs d'actualité (cf. [DR-01]) disponibles sur Internet et de le traiter.
E-SRC-23P Le système HÉRISSON permet une connexion directe à Internet grâce à une connexion fournie par l'Administration.
E-SRC-24P Le système HÉRISSON dispose d'une connexion pour accéder à la télévision et la radio par satellite.
E-SRC-25P Le système HÉRISSON dispose d'une connexion pour accéder à la télévision sur le système hertzien.
E-SRC-26P Le système HÉRISSON dispose d'une connexion aux canaux hertziens pour accéder à la radio sur les bandes AM/FM.
E-SRC-27P Les postes clients disposent d'une connexion pour accéder au système HÉRISSON.
E-SRC-28P Les abonnements satellites et les redevances sont à la charge du titulaire pour la durée du projet. Néanmoins, le titulaire peut proposer de se passer d'abonnement si les chaînes disponibles gratuitement sont assez représentatives des langues à traiter dans le cadre du projet.
Les sources de renseignement sont diverses et variées. Il serait illusoire de croire qu'HÉRISSON ne concerne qu'internet, en fait il couvre un vaste éventail de systèmes de communications, tels le télephone ou la radio ; les signaux analogiques sont numérisés afin d'être traités. HÉRISSON est plus qu'un système de surveillance, c'est un outil d'aide aux enquêtes, basé sur un traitement automatisé de l'information.

Le monde numérique – le web, les e-mails, les messageries instantanées, l'IRC, le "NMTP" (NNTP ?), etc – constitue une ressource importante pour HÉRISSON. L'univers numérique est caractérisé par sa mémoire (ainsi même sur les systèmes volatiles tels l'IRC, les serveurs majeurs (EFnet, UnderNet, Freenode...) disposent de leurs propres moyens d'enregistrement). Les messageries instantanées permettent le logging des conversations, mais il n'est pas impensable que lesdites conversations soient également stockées sur un serveur du fournisseur du logiciel.

Les réseaux sociaux sont aussi intéressants pour des enquêteurs. Un compte individuel peut déjà constituer une mine d'information, mais la vue globale d'un réseau est encore plus enrichissante. HÉRISSON ou une compagnie telle que Google n'a pas besoin de débourser de l'argent pour racheter Facebook dans l'optique d'accéder à son contenu. Chacun peut dans la mesure de ses moyens ouvrir un compte sur Facebook et rapatrier toutes les informations publiques sur ses serveurs, afin de les exploiter judicieusement.

Finalement dans toutes ces exigences concernant les sources, une des notions les plus importantes, mais assez floue, est celle d'"accessibilité". Un script appelant une base de donnée vulnérable à une injection SQL rend cette dernière "accessible". E-SRC-20 indique que le système HÉRISSON peut employer certaines techniques relevant du Google hacking ; à ce titre il dérape sur la pente glissante de l'illégalité.
Collecte des données
E-COL-1P Le système HÉRISSON a la capacité de collecter des données provenant de l'ensemble des sources contenues dans le Tableau 1.
E-COL-2P Toute donnée collectée doit être renseignée sur la source (provenance : url, canal Hertzien, etc.) et les conditions d'acquisition (horodatage d'entrée dans le système, de production si disponible, etc.).
E-COL-3P Tous les documents stockés doivent être identiques aux originaux tant au niveau du contenant que du contenu.
E-COL-4P Le titulaire évaluera la capacité de stockage nécessaire à mettre en place de manière à disposer suffisamment d'espace disponible pour permettre une utilisation de la plate-forme de plusieurs équipes en parallèle tout au long du projet.
E-COL-5P La capacité de stockage n'est pas figée et peut être augmentée facilement. La capacité de stockage est dimensionnée et augmentée à chaque nouvelle version du démonstrateur.
E-COL-6P Le système HÉRISSON permet la collecte et le stockage du contenu d'un site Web quelque soit son format (HTML, PHP, ASP...).
E-COL-7I L'utilisateur peut choisir a minima entre deux méthodes pour chaque site à collecter :
1) « uniquement le site » explore les liens du site Web ciblé en restant dans le même domaine de départ.
2) «Un chemin dans ce site» : explore seulement les liens commençant exactement comme l'adresse Internet de départ à partir du même niveau de profondeur sur le serveur.
E-COL-8I L'utilisateur peut paramétrer la profondeur d'exploration et de collecte des pages du site ciblé (entre 0 et n).
E-COL-9I L'utilisateur peut paramétrer la profondeur d'exploration et de collecte des pages externes au site ciblé (entre 0 et n).
E-COL-10I Le système HÉRISSON intègre a minima les fonctionnalités du logiciel libre wget.
E-COL-11P Le système prend en compte la problématique des liens «cachés» en extrayant les liens a minima dans :
• Les applications flash contenu (sic) dans une page,
• Les codes Java Script.
E-COL-12I Le module de collecte de sites permet la collecte d'un ensemble de sites (traitement par lot).
E-COL-13I L'utilisateur peut sélectionner la nature (page HTML, vidéo, images, son) des documents à collecter.
E-COL-14P Lors de la collecte d'un site Internet, à cause d'une affluence trop importante de demandes, certains serveurs peuvent bloquer l'accès au site pendant un certain temps. Le système doit mettre en place une stratégie de collecte pour éviter ce problème.
E-COL-15I Le système HÉRISSON peut effectuer un crawling récursif systématique ou intelligent, utilisant le contenu des pages pour explorer les liens.
E-COL-16P Le système détecte si le serveur distant contenant le site ciblé a bloqué l'accès et dans ce cas, le système HÉRISSON diffère la récupération du site.
E-COL-17P Le système HÉRISSON permet de rapatrier tous les résultats obtenus à partir d'une requête passée à un agrégateur de sources ou à un site Web permettant une recherche.
E-COL-18I Le système HÉRISSON permet la collecte et le stockage complet du contenu d'un site FTP.
E-COL-19I Le système HÉRISSON permet la collecte de l'arborescence d'un site FTP.
E-COL-20P Le système HÉRISSON permet la collecte et le stockage complet du contenu d'un site NMTP.
E-COL-21P Le système HÉRISSON permet la collecte de l'arborescence d'un site NMTP.
E-COL-22I Le système HÉRISSON permet le téléchargement de fichiers disponibles sur un réseau P2P.
E-COL-23S Dans le cas d'utilisation de système P2P autre que le système Torrent, les différents utilisateurs connectés partagent souvent une partie de leur disque dur. Le système HÉRISSON permet de récupérer la liste des documents disponible en partage sur ce disque.
E-COL-24P Le système HÉRISSON a la capacité de collecter des données via les protocoles :
• MMS (flux vidéo type Windows Media Player)
• RSTP (flux vidéo type Real Player)
• POP3 (messagerie)
E-COL-25P Le système HÉRISSON a la capacité de collecter un éventail large et non restreint (évolutif) de protocole (dont certains sont définis aux exigences [E-COL-59] et [E-COL-70]).
E-COL-26P La collecte et la mise à jours des gisements Web, FTP, NMTP se font a minima suivant deux modes :
1) Une fois à la demande de l'utilisateur : mode ponctuel,
2) Plusieurs fois automatiquement ; mode périodique.
E-COL-27P Pour une collecte ou une mise à jour programmée, l'utilisateur peut spécifier les paramètres suivants :
• Heure de départ ;
• Périodicité (intervalle de temps, ou programmation par calendrier).
E-COL-28I L'utilisateur peut se créer des profils de collecte pour pouvoir les appliquer ultérieurement à d'autres gisements.
E-COL-29I L'utilisateur peut spécifier les paramètres de l'exigence [E-COL-27] pour un ensemble de gisements.
E-COL-30P Pour chaque gisement aspiré, le système HÉRISSON fournit un rapport de collecte contenant a minima :
• Un rapport d'erreur (fichiers, pages, liens inaccessibles ...),
• Le nombre de fichiers, pages et liens qui ont été soit traités, soit ignorés ou qui étaient inaccessibles,
• Heures de démarrage et de fin de la collecte,
• Une synthèse des informations récoltées (nombre de page HTML, d'images, de vidéo, de fichier son...),
• Liste des liens externes.
E-COL-31P Le système HÉRISSON récupère et exhibe les informations disponibles sur les données collectées, comme :
• La location géographique du serveur ;
• Adresses E-mails ;
• Adresses EP ;
• Texte d'information des entêtes HTML ;
• Informations WHOIS.
E-COL-32P Le système HÉRISSON permet la mise à jour d'une précédente collecte. Cette mise à jour concerne aussi les informations annexes (cf. exigence précédente).
E-COL-33P Pour chaque gisement collecté mis à jour, le système HÉRISSON fournit un rapport de mise à jour contenant les différences par rapport à la précédente collecte.
E-COL-34P Le système HÉRISSON doit récupérer les informations disponibles d'un site NMTP collecté, comme la location géographique du serveur, adresses E-mails, adresses IP, …
E-COL-35P Le système HÉRISSON a la capacité de gérer un éventail large, non restreint et évolutif de formats de documents de type :
• Vidéo (AVI, MPG, MOV, MP4, Real, FLV, OGM ...) ;
• Audio (WAV, MP3, OGG...) ;
• Image (BMP, JPG, TIFF...) ;
• Texte (HTML, MHTML, Open Document, Open XML/Microsoft Office, Adobe PS/PDF, Flash)
E-COL-36P Le système prend en compte la problématique du Web Invisible en proposant des moyens, méthodes et outils, permettant l'accès à ces sous ensembles du Web Invisible.
E-COL-37I Le système permet la collecte ciblée de données sur Internet.
E-COL-38P La collecte ciblée peut être paramétrée a minima avec les paramètres précisés dans les exigences [E-COL-6] à [E-COL-36].
E-COL-39P L'utilisateur peut mettre en place un système de collecte d'information par crawling à partir d'un ensemble de points de départ.
E-COL-40P La collecte ciblée peut être paramétrée a minima avec les paramètres précisés dans les exigences [E-COL-6] à [E-COL-36].
E-COL-41I Le système HÉRISSON permet de récupérer tous les résultats/liens renvoyés par un moteur de recherche.
E-COL-42I Le système HÉRISSON permet d'interroger plusieurs moteurs de recherche automatiquement et d'en récupérer tous les résultats/liens renvoyés. Ces listes sont alors fusionnées en une seule.
E-COL-43I Le système HÉRISSON permet à partir d'une liste de liens d'en extraire ceux qui sont inaccessibles dans une deuxième liste.
E-COL-44P Les données collectées des différents gisements sont stockées et sont fidèles aux originaux dans leur forme (arborescence) et leur contenu.
E-COL-45P Lors de la première collecte d'un gisement Web, FTP ou NMTP, les données sont entièrement stockées.
E-COL-46P Lors d'une mise à jour de la collecte d'un gisement Web, FTP ou NMTP, est téléchargée et stockée seulement la différence par rapport à l'ancienne version.
E-COL-47P Les différentes collectes et mises à jour sont consultables indépendamment.
E-COL-48P Le système HÉRISSON permet un suivi temporel de l'activité d'un gisement, en exhibant les modifications de manière synthétique.
E-COL-49P Pour chaque document, est stockée l'URL à partir de laquelle il était accessible, la date de sa récupération, le nom de l'auteur (si possible, en particulier pour les photographies), ces informations peuvent être prises en compte par d'autres fonctions (exemple : paramétrage d'un archivage ou d'une suppression de fichiers, moteur de recherche).
E-COL-50P Dans la suite des exigences la source Radio fait référence aux radios diffusées sur les bandes AM/FM, par satellite et par Internet (podcast ou via un flux).
E-COL-51P La collecte et la mise à jour de la source Radio se fait a minima suivant trois modes :
1) Une fois à la demande de l'utilisateur : enregistrement manuel ;
2) Plusieurs fois automatiquement : enregistrement programmé ;
3) Continuellement : enregistrement en flux continu.
E-COL-52P Pour un enregistrement manuel, l'utilisateur doit spécifier la station Radio concernée.
E-COL-53-aP Le système HÉRISSON doit permettre la collecte simultanée de 15 sources audio.
E-COL-53-bI Le système HÉRISSON doit permettre la collecte simultanée de 10 sources audio.
E-COL-53-cS Le système HÉRISSON doit permettre la collecte simultanée de 5 sources audio.
E-COL-54P Pour un enregistrement programmé, l'utilisateur doit spécifier les paramètres suivants :
• Heure de départ ;
• Heure de fin ou durée ;
• Périodicité (intervalle de temps, ou programmation par calendrier) ;
• Station radio.
E-COL-55I Pour chaque document enregistré, un rapport de collecte est créé et associé, contenant a minima :
• Le nom du document,
• Le chemin d'accès au document,
• La durée d'enregistrement,
• Le format d'enregistrement,
• L'heure de départ et de fin de l'enregistrement,
• La liste des alertes contenues dans le document (type et position),
• Le pays et le nom de l'émetteur,
• Le nom du programme si disponible,
• La source, (toutes informations disponibles).
E-COL-56I S'il est impossible d'enregistrer la source audio ou si l'enregistrement ne va pas à son terme, un rapport de défaut de collecte doit être crée et associé, contenant a minimale, rapport d'enregistrement plus la cause de défaut d'enregistrement.
E-COL-57I L'utilisateur doit pouvoir spécifier les paramètres de l'exigence [E-COL-54] pour un ensemble de station radio (sic).
E-COL-58I Le système permet à l'utilisateur de créer des profils de collecte pouvant être réutilisés ultérieurement ou appliqués à d'autre gisement (sic).
E-COL-59P Le titulaire proposera une liste exhaustive et représentative des formats de fichiers, flux et Codecs à considérer pour le système pour permettre le stockage du son.
E-COL-60P L'enregistrement de l'audio se fait dans le format d'origine lorsque que l'audio correspond à un fichier, dans les autres cas lorsque le flux audio nécessite un encodage ou une transformation, le format de sortie retenu est alors un format ouvert offrant une qualité suffisante pour les prétraitements. Ce format est alors le même que celui retenu pour les exigences [E-TRT-5] et [E-TRT-6].
E-COL-61P Dans la suite des exigences la source Télévision fait référence aux émissions diffusées en hertzien ou disponibles via le satellite et Internet (via flux).
E-COL-62P La collecte et la mise à jour de la source Télévision se fait a minima suivant trois modes :
1) Une fois à la demande de l'utilisateur : enregistrement manuel,
2) Plusieurs fois automatiquement : enregistrement programmé,
3) Continuellement : enregistrement en flux continu.
E-COL-63P Pour un enregistrement manuel, l'utilisateur doit spécifier la chaîne de télévision concernée.
E-COL64-aP Le système HÉRISSON doit permettre la collecte de 8 sources télévisuelles simultanément.
E-COL-64-bI Le système HÉRISSON doit permettre la collecte de 6 sources télévisuelles simultanément.
E-COL-64-cS Le système HÉRISSON doit permettre la collecte de 4 sources télévisuelles simultanément.
E-COL-65P Pour un enregistrement programmé, l'utilisateur doit spécifier les paramètres suivants :
• Heure de départ ;
• Heure de fin ou durée ;
• Périodicité (intervalle-de4emps,ou programmation par calendrier) ;
• Source.
E-COL-66I Pour chaque document enregistré, un rapport de collecte est créé et associé, contenant a minima :
• Le nom du document ;
• Le chemin d'accès au document ;
• La durée d'enregistrement ;
• Le format d'enregistrement ;
• L'heure de départ et de fin de l'enregistrement ;
• La liste des alertes contenues dans le document (type et position) ;
• Le pays et le nom de l'émetteur ;
• Le nom du programme si disponible ;
• La source, (toutes informations disponibles).
E-COL-67I S'il est impossible d'enregistrer la source audio ou si l'enregistrement ne va pas à son terme, un rapport de défaut de collecte doit être crée et associé, contenant a minima le rapport d'enregistrement plus la cause de défaut d'enregistrement.
E-COL-68I L'utilisateur doit pouvoir spécifier les paramètres de l'exigence [E-COL-64] pour un ensemble de gisements.
E-COL-69I Le système permet à l'utilisateur de créer des profils de collecte pouvant être réutilisés ultérieurement ou appliqués à d'autre gisement (sic).
E-COL-70P Le titulaire proposera une liste exhaustive et représentative des formats de fichiers, flux et Codée à considérer pour le système (ex : DVB, MMS...) pour permettre le stockage de vidéos et d'images.
E-COL-71P L'enregistrement de la vidéo se fait dans le format d'origine lorsque que la vidéo correspond à un fichier, dans les autres cas lorsque le flux vidéo nécessite un encodage ou une transformation, le format de sortie retenu est alors un format ouvert offrant une qualité suffisante pour les prétraitements. Ce format est alors le même que celui retenu pour les exigences [E-TRT-50] et [E-TRT-51].
E-COL-72S Le système HÉRISSON permet de numériser et stocker le contenu de document papier (tracts, journaux, etc.).
E-COL-73I La numérisation doit pouvoir se faire en masse (plusieurs feuilles automatiquement) ou manuellement (page par page).
E-COL-74I L'utilisateur doit pouvoir soumettre une image ou un ensemble d'image à un traitement OCR pour en extraire le contenu (texte, graphiques, colonnes, etc.).
E-COL-75I Pour chaque document numérisé et enregistré, un rapport de collecte doit être créé et associé, contenant a minima :
• Le nom du document,
• Le chemin d'accès à l'image,
• Le chemin d'accès au document texte.
E-COL-76I Si une erreur se produit pendant la collecte un rapport de défaut de collecte est crée et associé, contenant a minima le rapport d'enregistrement plus la cause de défaut d'enregistrement.
E-COL-77P Le titulaire proposera une liste exhaustive et représentative des formats de fichiers et Codecs à considérer pour permettre au système le stockage du texte.
E-COL-78P L'enregistrement du texte se fait dans le format d'origine lorsque que l'audio correspond à un fichier, dans les autres cas lorsque le fichier texte nécessite un encodage ou une transformation, le format de sortie retenu est alors un format ouvert offrant une qualité suffisante pour les traitements. Ce format est alors le même que celui retenu pour les exigences [E-TRT-67] et [E-TRT-68].
Les techniques de collecte de HÉRISSON méritent aussi d'être examinées. E-COL-14 prend acte du fait que certains serveurs, en général par crainte d'attaques DOS, bannissent les addresses effectuant un grand nombre de requêtes en un court laps de temps. Ainsi certaines précautions de furtivité –à la nmap– doivent être prises afin d'enregistrer l'intégralité de leur contenu. Le crawling est également considéré (E-COL-15) : en plus de l'approche "intelligente", basée sur les liens contenus dans les pages web, y compris, selon E-COL-11, dans les applications flash et codes javascript, il existe une approche "systématique", qui pourrait consister à rechercher des pages par force brute ou par des attaques par dictionnaire. Ces méthodes sont également envisagées dans la perspective du "web invisible" (E-COL-36).
[Unindexed Web]
Le web selon Fravia.
Finalement les méthodes de HÉRISSON s'apparentent à celles des "hackers" et des pirates informatiques.

D'éventuelles approches de collecte basées sur des stratégies développées plus en amont ne sont pas évoquées ici.

Sur un plan complètement différent, les exigences E-COL-53 et E-COL-64 sont très bizarres. Peut-être que la personne qui a écrit ça n'était pas bien réveillée.
Traitement des données
E-TRT-1P Le système HÉRISSON conserve toutes les traces et manipulations faites à un fichier quelque soit son type ou son origine.
E-TRT-2P Le système conserve l'original d'un document.
E-TRT-3P Tout document créé fait référence à sa source.
E-TRT-4I Le système conserve l'historique de toutes les manipulations.
E-TRT-5I Le système HÉRISSON permet de convertir les documents audio dans un format commun à tout le système. Ce format est à déterminer en accord avec l'administration.
E-TRT-6P Le format audio commun retenu doit être ouvert et documenté, et être d'une qualité suffisante pour permettre l'application de l'ensemble des prétraitements (e.g. Ogg Speex à qualité 7, 16kHz, 16 bits, stéréo).
E-TRT-7I Le système HÉRISSON dédoublonne les documents audio de manière à ne conserver qu'un seul exemplaire du fichier. Sont considérés comme doublons deux fichiers audio produits à partir d'un même enregistrement. Il s'agit de conserver le fichier de meilleure qualité. La rapidité et la pertinence (rappel, précision) du dédoublonnage seront évaluées.
E-TRT-8P Le système HÉRISSON détecte la parole dans un document audio. On évaluera le système par le nombre de segments de parole manques ou faussement détectés, ainsi que la durée totale de ces segments. Les métriques d'évaluation seront équivalentes à celles des campagnes Technolangue/ESTER (tache SES, type trackeval 2.3 ou ultérieur) et NIST RT 04 (type md-eval vl7 ou ultérieur).
E-TRT-9I Le système HÉRISSON supprime d'un document audio les extraits inutiles à une veille informationnelle. Il s'agit d'épargner à l'utilisateur d'entendre (par exemple) les publicités, les chansons, les jeux radiodiffusés, d'identifier les passages éventuellement redondants. Cette fonctionnalité sera évaluée suivant le nombre d'extraits inutiles et le nombre de passages utiles supprimés, en utilisant une métrique du même type que pour l'exigence ["E-TRT-8].
E-TRT-10I Le système HÉRISSON permet à l'utilisateur d'accéder aux caractéristiques brutes d'un document audio (encapsulation, type d'encodage, mono/stéréo, fréquence d'échantillonnage,...).
E-TRT-11I Le système HÉRISSON segmente les différents locuteurs d'un document audio et en fait le suivi relatif {speaker diarization). On évaluera le nombre d'erreurs de détection de changement de locuteur, ainsi que la durée totale des parties mal segmentées. On utilise pour cela une métrique comme celle utilisée dans le cadre de l'évaluation ESTER (tache SRL, type SpkSegEval-v23 ou ultérieur).
E-TRT-12I Le système HÉRISSON identifie les différents locuteurs d'un document audio par rapport à une base de locuteurs de référence. Il permet d'enrichir cette base de référence à partir d'extraits audio d'une durée totale d'au moins 30 secondes par locuteur. On évaluera le nombre d'erreurs de détection locuteur en segment, ainsi qu'en durée. La métrique utilisée est du même type que pour l'exigence [E-TRT-8].
E-TRT-13P Le système HÉRISSON identifie la langue des locuteurs dans un document audio. Deux fonctionnalités :
• [P] indiquer la langue majoritaire dans un document audio - cette fonction est évaluée par une métrique du type manqué/fausse alarme (évaluations NIST LRE 01 à 07) ;
• [P] segmenter les changements de langues (avec indication de la langue utilisée dans chaque segment) - cette fonction est évaluée avec une métrique identique à celle de l'exigence [E- TRT-8].
E-TRT-14P Les langues des documents audio devant être identifiées dans le système HÉRISSON sont :
- [P]rimordial : le français, l'anglais, l'arabe, le russe, le farsi.
- [I]mportant ; l'espagnol, l'allemand, , le chinois mandarin, l'italien,k le serbo-croate, l'hindi, le japonais, le coréen, le turc, l'ukrainien, l'hébreu, l'urdu, l'albanais, le macédonien.
- [S]ouhaitable : le néerlandais, le grec, le portugais, le polonais.
E-TRT-15S Le système HÉRISSON peut apprendre à identifier une nouvelle langue par apprentissage à l'aide d'un ensemble de documents audio monolingues. Il existe un système de gestion des modèles d'identification de la langue permettant de revenir en arrière après tout rajout ou modification de modèle.
E-TRT-16P Le système HÉRISSON transcrit un document audio en un document texte.
E-TRT-17P Les documents audio contenant les langues du tableau ci-après doivent pouvoir être transcrits. Cette fonctionnalité sera évaluée suivant le taux d'erreurs sur les mots lors d'une transcription d'enregistrements radiophoniques (pour comparer avec l'état de l'art) et d'enregistrements représentatifs de la tâche à accomplir. Les outils d'évaluations seront du type de la campagne Technolangue/ESTER (tâche TRS, type score-trs ou ultérieur) et NIST RT 04 (type sctk v2.0 ou ultérieur).
E-TRT-18P Suite à une transcription le système HÉRISSON permet de mettre en contraste les mots pour lesquels la transcription est le (sic) plus fiable (seuil de fiabilité paramétrable). L'évaluation portera sur le taux d'erreur sur les mots pondéré par leur fiabilité (outil NIST sctk v2.0 ou ultérieur).
E-TRT-19P Le système HÉRISSON permet à l'utilisateur d'enrichir et de modifier la transcription en modifiant des mots transcrits.
E-TRT-20P Le système HÉRISSON permet une prise en compte des mots incompris ou hors vocabulaire du système.
E-TRT-21P Le système HÉRISSON permet l'extraction et l'indexation des méta-données d'un document, audio, y compris pour les données issues des prétraitements automatiques des exigences précédentes (identification de la langue, du locuteur, transcription).
E-TRT-22P Le système HÉRISSON permet l'application de l'ensemble des traitements automatiques du texte (§2.1.3.2.5) sur les textes issus des transcriptions automatiques (détection d'entités nommées, détection et suivi de thème, traduction, résumé, etc.). L'application de ces traitements pouvant nécessiter des paramétrages particuliers, il est possible de les gérer de façon séparée avec les traitements génériques du texte.
E-TRT-23S Le système HÉRISSON fait le lien entre les locuteurs identifiés et la fonctionnalité de détection d'entités nommées notamment pour l'exploitation par les outils d'analyse.
E-TRT-24I Le système normalise les images dans un format commun à tout le système (de type JPG, TIFF, PNG ou autre). Ce format est à déterminer en accord avec l'administration.
E-TRT-25P Le format commun retenu doit être ouvert et documenté, et être d'une qualité suffisante pour permettre l'application de l'ensemble des traitements.
E-TRT-26I Le système HÉRISSON dédoublonne les documents images de manière à ne conserver qu'un seul exemplaire du fichier en cas de doublon. Pour les photographies, on considère comme doublons deux fichiers provenant de la même prise de vue mais ayant subi différents traitements, par exemple: changement de format de compression, changement de taux de compression, changement de résolution, modifications mineures des couleurs (changement de luminosité, de contraste). Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans l'évaluation Techno-Vision/ImagEval, tâche n°l, et un corpus spécifique est développé pour cette tâche.
E-TRT-27I Le système HÉRISSON permet l'accès aux caractéristiques brutes et les méta-données d'une image, comme le type et les caractéristiques d'encodage, la résolution, le taux de compression, les champs EXIF, les statistiques usuelles liées à l'image (histogramme, moments centrés...), ... il note aussi la provenance de l'image (URL pour les images obtenues via Internet) et éventuellement le nom du photographe.
E-TRT-28I Le système HÉRISSON reconnaît les images transformées (réf. Campagne ImagEVAL) : lorsqu'une photographie a subi des transformations (rotations, changement d'échelle, compression, modification des contrastes,...), le système HÉRISSON sait reconnaître l'image originale parmi les images qui en sont issues. Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans l'évaluation Techno-Vision/ImagEval, tâche n°l.
E-TRT-29I Le système HÉRISSON permet la détection d'éléments de contexte d'une image (photo couleur, photo noir&blanc, reproduction artistique, visage, scène intérieur/extérieur, ville/campagne/bord de mer/montagne/..., jour/nuit; présence/absence d'objets manufacturés où d'artefacts d'origine humaine, ...). Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans l'évaluation Techno-Vision/ImagEval, tâche n°5.
E-TRT-30P Le système HÉRISSON permet la détection et classification d'objets contenus dans une image (personne, véhicule, meuble...). Cette fonctionnalité sera évaluée avec les méthodologies utilisées dans les évaluations Techno-Vision/ImagEval, tâche n°4, PASCAL VOC (Visual Object Classes challenge), et CLEAR (tâche « 2D Face détection »).
E-TRT-31P Le système HÉRISSON permet la reconnaissance (identification) d'objets contenus dans une image (quelle personne, quel meuble, quel type de véhicule...). Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans les évaluations VACE et CLEAR (tâche «person identification ») ainsi que NIST FRVT (« 2D Face identification »).
E-TRT-32P Le système HÉRISSON classe les photographies dans des catégories définies par l'utilisateur (manifestation, parking rempli, embouteillage,...). Il s'agit ici d'organiser les données produites par les fonctionnalités [E-TRT-29], [E-TRT-30] et [E-TRT-31], pour obtenir une description de haut niveau du contenu de l'image. Cette fonctionnalité sera évaluée avec la méthodologie utilisées dans l'évaluation imageCLEF, tâche ad-hoc, et à défaut Techno-Vision/ImagEval, tâche n°5, en utilisant un corpus développé spécifiquement.
E-TRT-33P Le système HÉRISSON permet de regrouper les photographies de la même scène issues de différents capteurs. Cette fonctionnalité sera évaluée avec la méthodologie utilisées dans l'évaluation Techno-Vision/ImagEval, tâche n°l, et un corpus spécifique est développé pour cette tâche.
E-TRT-34P Le système HÉRISSON permet de reconnaître les images constituant des logos, et d'identifier ces logos. Cette fonctionnalité sera évaluée pour la détection avec la méthodologie utilisées dans l'évaluation Techno-Vision/ImagEval, tâche n°5, et avec les métriques des évaluations CLEAR ou NIST FRVT pour Pidentification. Un corpus sera développé spécifiquement pour cette tâche.
E-TRT-35P Dans les pages HTML, on trouve non seulement des photographies et des logos, mais aussi de nombreuses imagettes destinées à rendre sa visualisation plus agréable (par exemple la page http://x.org comporte 28 imagettes de la sorte et 2 logos). Il s'agit de reconnaître ces imagettes comme telles (pour élimination). Cette fonctionnalité sera évaluée avec la même méthodologie que pour la détection de logos, et un corpus spécifique sera développé.
E-TRT-36P Le système HÉRISSON permet la détection et localisation des zones de texte dans une image. Cette fonctionnalité sera évaluée avec les méthodologies utilisée dans les évaluations Techno-Vision/ImagEval tâche n°3 et ICDAR 2005 Robust Reading Compétition (text localization).
E-TRT-37P Le système HÉRISSON permet la structuration d'images de type document dactylographié scanné (détection du texte, détection des colonnes, détection de zones de texte, détection de tableaux, détection de formats de caractères et de polices, détection de graphiques, etc.). Cette fonctionnalité sera évaluée avec les méthodologies utilisées dans les évaluations Techno-Vision/ImagEval, tâche n°3, et ICDAR 2007 Page Segmentation.
E-TRT-38P Le système HÉRISSON permet la structuration d'images de ce document manuscrit scanné. Cette fonctionnalité sera évaluée avec les méthodologie utilisées dans les évaluations Techno-Vision/RIMES pour la tâche de segmentation, et ICDAR 2007 Handwriting Segmentation Compétition.
E-TRT-39P Le système HÉRISSON permet reconnaissance de caractères de type dactylographié (caractère, mot isolé, zone de texte). Ces fonctionnalités seront évaluées selon les méthodologies utilisées dans l'évaluation ICDAR 2005 Robust Reading Compétition.
E-TRT-40P Le système HÉRISSON permet reconnaissance de caractères de type manuscrit (caractère, mot isolé, zone de texte). Ces fonctionnalités seront évaluées selon les méthodologies utilisées dans les évaluations ICDAR Handrwiting Compétition et Techo-Vision/RIMES, tâche reconnaissance de caractère isolé, de mot et de texte.
E-TRT-41P Le système HÉRISSON permet la reconnaissance du scripteur d'un texte contenu dans une image. Cette fonctionnalité sera évaluées selon les méthodologies utilisées dans l'évaluation Techo-Vision/RIMES, tâche reconnaissance du scripteur.
E-TRT-42P Le système HÉRISSON permet la reconnaissance de caractères de type dactylographié (caractère, mot isolé, zone de texte). Ces fonctionnalités seront évaluées selon les méthodologies utilisées dans l'évaluation ICDAR 2005 Robust Reading Compétition.
E-TRT-43P Le système HÉRISSON permet le traitement des formats d'image et de vidéo les plus répandus.
E-TRT-44P Le système HÉRISSON permet la classification des images en plusieurs catégories (photographies, fax ou courrier numérisé, graphique fabriqué par synthèse...).
E-TRT-45P Le système HÉRISSON doit permettre le détourage et la reconnaissance de zones homogènes (zone d'adresse d'un courrier, zone de tableau, colonnes, graphiques...).
E-TRT-46P Le système HÉRISSON doit permettre l'indexation d'une image sur ses méta-données.
E-TRT-47P Le système HÉRISSON doit permettre l'indexation d'une image sur son contenu.
E-TRT-48P Le système HÉRISSON doit permettre l'indexation d'une image sur son contexte.
E-TRT-49P Les exigences [E-TRT-5] à [E-TRT-48] concernant les fonctionnalités de base applicables à l'audio et à l'image doivent aussi s'appliquer à la vidéo.
E-TRT-50P Le système normalise les vidéos dans un format commun à tout le système (de type AVI ou MPG) aussi bien en terme de contenant que de codées utilisés.
E-TRT-51P Le format commun retenu doit être ouvert et documenté, et être d'une qualité suffisante pour permettre l'application de l'ensemble des traitements. Ce format est à déterminer en accord avec l'administration.
E-TRT-52P Le système HÉRISSON dédoublonne les vidéos de manière à ne conserver qu'un seul exemplaire du fichier en cas de doublon.
E-TRT-53P Le système HÉRISSON permet l'accès aux informations brutes d'une séquence vidéo (type d'encodage, caractéristiques image et caractéristiques audio...)
E-TRT-54P Le système HÉRISSON doit permettre l'extraction du ou des flux audio d'une vidéo.
E-TRT-55P Le système HÉRISSON doit permettre l'extraction du flux d'images d'une vidéo.
E-TRT-56P Le système HÉRISSON doit permettre la sélection d'un segment temporel d'une vidéo défini.
E-TRT-57P Le système HÉRISSON découpe une vidéo en plans/scènes. Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans l'évaluation TRECVID), tâche SB.
E-TRT-58P Le système HÉRISSON produit un résumé de vidéo par l'extraction d'images de la vidéo. L'administrateur peut paramétrer le nombre d'images extraites. La répartition des images peut être contrainte par la détection des plans si calculée.
E-TRT-59P Le système HÉRISSON supprime les données inutiles d'une vidéo. Il s'agit d'épargner à l'utilisateur de voir (par exemple) les publicités, les vidéo-clips, les films, les jeux télédiffusés. Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans l'évaluation TRECVTD, tâche HLF, et un corpus spécifique est développé pour cette tâche.
E-TRT-60P Le système HÉRISSON permet la détection d'éléments de contexte des images d'une vidéo (sport, météo, bureau, paysage, maintien de l'ordre, personnels militaires, etc). Cette fonctionnalité sera évaluée avec la méthodologie utilisées dans l'évaluation TRECVTD, tâche HLF.
E-TRT-61P Le système HÉRISSON permet la détection et le suivi de personnes et de véhicules dans une vidéo. Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans l'évaluation CLEAR (tâches « Face tracking », « Person Tracking » et « Véhicule détection and tracking »).
E-TRT-62P Le système HÉRISSON permet la détection et l'identification de personne dans une vidéo. Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans l'évaluation CLEAR (tâche « person identification »).
E-TRT-63P Le système HÉRISSON permet l'indexation d'une vidéo sur ses méta-données.
E-TRT-64P Le système HÉRISSON permet l'indexation d'une vidéo sur son contenu image.
E-TRT-65P Le système HÉRISSON permet l'indexation d'une vidéo sur son contenu audio.
E-TRT-66P Le système HÉRISSON permet l'extraction du texte contenu dans une image.
E-TRT-67P Le système HÉRISSON normalise les documents textes dans un format commun à tout le système (tel que Open Office, HTML ou TXT.
E-TRT-68P Le format commun retenu doit être ouvert et documenté, et être d'une qualité suffisante pour permettre l'application de l'ensemble des traitements. Ce format est à déterminer en accord avec l'administration.
E-TRT-69P Le système HÉRISSON permet de traiter les caractères du système Unicode de 1 à 65535.
E-TRT-70P Le système HÉRISSON dédoublonne les documents textes de manière à ne conserver qu'un seul exemplaire du fichier en cas de doublon. Par exemple : au moment de l'enregistrement signaler l'existence d'un fichier identique (fonction évaluée suivant la rapidité et suivant les taux de détection et de fausse alarme).
E-TRT-71P Le système HÉRISSON permet la suppression de données inutiles d'un document texte. Exemple : supprimer d'une page Web les menus et les publicités. Fonction évaluée suivant la quantité de données inutiles mal supprimées et la quantité de données utiles supprimées. La métrique précise sera définie avec l'Administration au cours du projet, et un corpus sera créé pour évaluer la pertinence des filtrages effectués
E-TRT-72P Le système HÉRISSON permet à l'utilisateur du système de paramétrer une suppression des données inutiles d'un document texte.
E-TRT-73P Le système HÉRISSON récupère les méta-données d'un document texte (type d'encodage, auteur, date de création, etc..)
E-TRT-74P Le système HÉRISSON permet d'identifier la ou les langues d'un document texte. Cette fonctionnalité sera évaluée suivant le nombre de documents pour lesquels la (les) langues (langues) a (ont) été mal identifiée(s), pondéré par la quantité de texte concerné par l'erreur d'identification.
E-TRT-75P Les langues des documents texte qui sont identifiées dans le système HÉRISSON sont :
- [P]rimordial : le français, l'anglais, l'arabe, le chinois mandarin, le russe, le farsi.
- [I]mportant : l'espagnol, l'allemand, l'italien, le serbo-croate, l'hindi, le japonais, le coréen, le turc, l'ukrainien , l'hébreu, l'urdu, l'albanais, le macédonien.
- [S]ouhaitable : le néerlandais, le grec, le portugais, le polonais.
E-TRT-76P Le système HÉRISSON peut apprendre l'identification d'une nouvelle langue via un apprentissage à l'aide d'un ensemble de documents monolingues.
E-TRT-77P Le système HÉRISSON permet de traduire (à des fins d'indexation) un document texte (y compris provenant de transcriptions automatiques de documents audio ou vidéo) dans la langue souhaitée.
E-TRT-78P La qualité de la traduction est évaluée en utilisant les différentes métriques d'évaluation automatique usuelles (BLEU, NIST, WER, PER), en cours de développement (TER, METEOR, GTM, WNM, X-SCORE, D-SCORE) sur des corpus issus des différentes campagnes du domaines (NIST MT 06, GALE, IWSLT 06, WMT 07, CESTA). Un module de notation (type CESTA, WMT 07) est également inclus pour permettre de mener des évaluations de jugement humain (adéquation, fluidité).
E-TRT-79P Le système HÉRISSON définit des scores de confiance pour les mots ou expressions pour lesquels la traduction est la plus fiable, ces scores étant destinés à être utilisés par des fonctions ultérieurs de traitement automatique du langage.
E-TRT-80P Le système HÉRISSON permet à l'architecte d'enrichir le dictionnaire pour prendre en compte automatiquement des mots ou expressions inconnus du système.
E-TRT-81P Le système HÉRISSON permet à l'architecte d'introduire prendre en compte automatiquement des corpus bilingues alignés ou des corrections de traduction pour améliorer les traduction futures.
E-TRT-82P Le système HÉRISSON permet de supprimer la casse et la ponctuation séparément ou simultanément. Cette fonctionnalité est notamment requise en prétraitement pour de nombreux modules d'évaluation.
E-TRT-83P Le système HÉRISSON permet la tokenisation, c'est-à-dire la séparation en lexèmes du texte (e.g. séparation des mots, des signes de ponctuation, etc.). Cette fonctionnalité est notamment requise en prétraitement pour de nombreux modules d'évaluation.
E-TRT-84P Le système HÉRISSON permet la de-tokenisation, c'est-à-dire le regroupement usuel de lexèmes (e.g. recollement des signes de ponctuation, des dates, unités monétaires selon la langue etc.). Cette fonctionnalité est notamment requise en prétraitement pour de nombreux modules d'évaluation.
E-TRT-85P Le système HÉRISSON permet de supprimer les retours à la ligne d'un texte, si ceux-ci ne correspondent pas à des sauts de paragraphe mais se trouvent au milieu d'une phrase. Cette fonctionnalité serait utile pour certains logiciels qui considèrent le retour à la ligne comme le début d'une nouvelle phrase.
E-TRT-86P Le système HÉRISSON permet la restauration de la casse et de la ponctuation pour des documents sans casse et sans ponctuation. Il permet également de supprimer les « disfluences » notamment dans les transcrits de parole. Cette fonctionnalité sera évaluée dans le cadre de transcription de parole selon la méthodologie utilisée dans les évaluations NIST RT 04, et ESTER 2.
E-TRT-87P Le système HÉRISSON permet l'annotation syntaxique de documents (POS tagger, etc.). Cette fonctionnalité est évaluée selon le principe de l'évaluation Technolangue/EASY pour le français, et en utilisant les ressource de type Treebank du LDC pour les langues disponibles (a minima anglais, arabe, chinois, tchèque, coréen, espagnol).
E-TRT-88P Le système HÉRISSON permet de détecter les entités nommées.
E-TRT-89P Le système HÉRISSON permet de reconnaître le type des entités nommées. Par exemple : personne, lieu, organisme, montant, quantité, géo-localisation, date, produit manufacturé, etc. La liste explicite des types d'entités à reconnaître est définie avec l'administration, et recouvre a minima la liste imposée dans les évaluations ESTER et NIST ACE 07.
E-TRT-90P Le système HÉRISSON permet d'identifier les entités nommées et d'en effectuer le suivi. Il s'agit d'identifier de façon absolue les entités nommées, par rapport à une base de référence qui peut être alimentée automatiquement par cette fonction.
E-TRT-91P Le système HÉRISSON permet la reconnaissance d'entités nommées par mention explicite.
E-TRT-92P Le système HÉRISSON permet la reconnaissance d'entités nommées par mention relative, par mention partielle, par anaphore ou par surnom.
E-TRT-93P Le système HÉRISSON permet l'extraction de relation entre entités nommées.
E-TRT-94P Le système HÉRISSON permet l'extraction du rôle d'entités nommées.
E-TRT-95P Le système HÉRISSON permet la traduction d'entités nommées notamment pour les langues de caractère non roman.
E-TRT-96P Les fonctionnalités d'extraction d'entités nommées ([E-TRT-87] à [E-TRT-95]) sont évaluées selon les métriques de type SER (Signal Error Rate, évaluation ESTER) et fonction de coût d'erreur (évaluation NIST ACE 07).
E-TRT-97P Le système HÉRISSON permet le suivi relatif de thèmes. Il s'agit d'annoter automatiquement les passages correspondant à un même thème ou événement dans un document ou un ensemble de documents. Cette fonctionnalité est évaluée selon le principe de l'évaluation TDT 2004 Topic Tracking et de l'évaluation TDT 2004 Story Link Détection, avec les mêmes métriques.
E-TRT-98P Le système HÉRISSON permet d'effectuer la détection d'événement ou thèmes nouveaux (premier passage correspondant à un événement). Cette fonctionnalité est évaluée selon le principe de l'évaluation TDT 2004 New event détection et TREC 2004 Novelty Track, avec les mêmes métriques.
E-TRT-99P Le système HÉRISSON permet la détection de thèmes dans un document. Il s'agit d'annoter automatiquement les passages correspondant à un thème défini soit automatiquement par la machine soit par l'utilisateur ([E-EXP-25]). Cette fonctionnalité est évaluée selon le principe de l'évaluation TDT 2004 Topic Détection, avec la même métrique.
E-TRT-100P Le système HÉRISSON permet l'indexation d'un document texte sur ses méta-données.
E-TRT-101P Le système HÉRISSON permet l'indexation d'un document texte sur son contenu.
E-TRT-102P Le système HÉRISSON permet l'indexation d'un document texte sur les prétraitements automatiques effectués.
La section des traitements de données est la plus intéressante pour l'amateur de technique. Les systèmes de reconnaissance optique de caractères (OCR) se développent de plus en plus (de même parallèlement que leur contrepoint, les tests de Turing que sont les CAPTCHAs). Cela concerne tant les caractères dactylographiés (E-TRT-42) que les caractères manuscrits (E-TRT-40).

Le traitement des divers langages est complexe. Le fait que l'humanité possède différentes langues remonte selon la Bible à la construction de la Tour de Babel. Pour une fois que les humains vivaient en symbiose en vue d'un unique objectif, Dieu n'est pas content et les sépare. Aujourd'hui, la reconnaissance automatique d'une langue n'est pas une tâche aisée, tant sur le plan oral (E-TRT-13) qu'écrit (E-TRT-74).

De même, identifier des personnes à partir d'images (E-TRT-31), ou détecter des mouvements suspects (E-TRT-61) à partir de films enregistrés sur des caméras présente un défi technologique attrayant.
Exploitation des résultats
E-EXP-6P Le système HÉRISSON possède une fonction de recherche simple dans les données qui utilise un ou plusieurs mots-clés sans contrainte entre eux.
E-EXP-11P Le système HÉRISSON permet la formulation de requêtes en langage naturel. On distinguera ces différents types de formulation : les questions fermées (qui ? où ? combien ? quand ? etc.), les requêtes appelant une liste (« les hôtels-restaurants de Tel-Aviv »), les demandes de définition (« Qui était René Dubos ? »), les questions qui laissent seulement la possibilité de répondre « oui / non / ne sait pas ».
E-EXP-21I Le système HÉRISSON permet de résumer un document texte en précisant une taille qui peut être soit :
- Un ratio de la taille initiale en pourcent,
- Un nombre de mots.
La fonctionnalité de résumé automatique est évaluée avec la métrique ROUGE selon les principes mis en œuvre dans l'évaluation NIST DUC.
E-EXP-32S Le système HÉRISSON permet de regrouper un ensemble de documents par thèmes (clustering) et de parcourir facilement les groupes de documents formés, en affectant des concepts permettant de discriminer les différents groupes de documents. Il est par exemple possible d'afficher ces groupes sous forme de graphe, et d'effectuer des zooms au sein d'un groupe en effectuant un nouveau clustering au sein du groupe.
E-EXP-42P Le système HÉRISSON permet de rechercher des images similaires à partir d'une image donnée. Cette fonctionnalité sera évaluée à l'aide des métriques rappel/précision.
E-EXP-48P Le système HÉRISSON possède une fonction qui permet de rechercher des images similaires dans une vidéo à partir d'une image donnée.
E-EXP-54P Le système HÉRISSON permet l'extraction automatique de réseaux (structuration de l'information, détection de relation).
La plate-forme HÉRISSON est en fait une intelligence artificielle à la Wolfram Alpha.

A noter que grâce à E-EXP-42, HÉRISSON serait très fort à pic2mov.
Chaîne de traitement
E-ACC-39P Des composants spécialisés de lecture ou d'écriture de données dans un fichier organisé de manière séquentielle sont également réalisables, ainsi qu'un composant d'accès à la liste des fichiers d'un répertoire. Ce contrôleur ne nécessitant pas d'entrée, cela permet de créer des chaînes de traitements totalement automatiques ou encore de paramétrer des traitements de manière générique.
Les exigences concernant la chaîne de traîtement sont de ce genre-là.
Structure organisationnelle
E-ORG-1I Les postes clients sont tous localisés sur le même site que le système HÉRISSON.
E-ORG-2I Les postes clients sont génériques et seul le profil d'un utilisateur (administrateur, architecte, évaluateur, exploitant) définit les fonctionnalités du poste ou l'utilisateur s'est identifié.
E-ORG-3I La plate-forme est constituée de 4 postes clients connectés au système.
[NSA]
4 postes clients, c'est peu.
Matériel
En résumé, le système doit pouvoir se connecter à Internet, lire des disquettes, etc.
Système d'audit
Cette section examine les procédures d'évaluation quantitative des performances de la plate-forme.
Développement
E-DEV-1I Les parties logiciels développées dans et pour le système HÉRISSON relevant de l'interface homme machine doivent être écrit a minima dans un langage interprété connu et ayant fait ses preuves (ex : JAVA).
E-DEV-2I Les parties logicielles développées dans et pour le système HÉRISSON ne relevant pas de l'interface homme machine sont écrites dans un langage compilé connu et ayant fait ses preuves (ex : C, C++), néanmoins certaines tâches pourront être effectué via des scripts (sous accord de l'administration).
E-DEV-3I Les développements sont basés et réutilisent au maximum les méthodologies, des bibliothèques, systèmes, issues de la communauté des sources ouvertes.
E-DEV-4P Le titulaire justifiera toute dérive par rapport à l'utilisation des outils issus des sources ouvertes.
E-DEV-5I La présentation du système doit être faite module par module, sous la forme d'un diagramme de composants, avec un texte explicatif.
L'implémentation de HÉRISSON ne manquera pas de soulever de nombreuses questions. E-DEV-1 et E-DEV-2 indiquent dans quels types de langages doit être programmé le système, sans pour autant préciser sous quelle forme doit être délivrée la plate-forme. Sous forme binaire l'administration prendrait un risque certain, sous forme de code elle serait réduite à réaliser elle-même sa compilation (avec tous les aléas associés).

L'unicité de HÉRISSON n'est pas non plus assurée, le titulaire pouvant en garder un clone, ce qui constituerait un détournement à usage privé.

Interface homme-machine
E-IHM-7S Le cheminement est clairement explicité et l'utilisateur disposer pour certaines actions de l'aide "d'assistants". L'utilisateur peut facilement savoir à quel niveau du logiciel il se situe et comment continuer son action.
E-IHM-15I L'utilisateur est averti de l'arrivée d'un nouveau message. Ce signal ne doit toutefois pas perturber l'action en cours. L'utilisateur connaît en permanence l'état des messages en attente, par exemple par une petite fenêtre que l'utilisateur peut positionner sur son écran et indiquant le nombre et la nature des messages en attente : niveaux d'urgence, type du message (pour validation, pour action,...), si besoin en indiquant le délai de traitement.
Sécurité matérielle
Le système doit être conforme aux normes civiles sur la sécurité du travail, etc.
Système d'aide intégrée
Le système doit comporter des manuels, didacticiels, services de tutorat, glossaires, etc. A aucun moment le cahier des charges ne fait mention d'une formation des utilisateurs.
Communication
E-COM-1P Le titulaire réalisera des plaquettes à l'occasion de chaque version du démonstrateur. Ces plaquettes auront la forme d'une feuille A4 recto verso (2 feuilles maximum si nécessaire), en couleur, combinant images et texte en part égales. L'objectif est d'exposer les points forts des travaux mis en évidence dans le cadre de la démonstration. 50 plaquettes seront fournies en français. Préalablement à l'impression des plaquettes, la maquette devra être validée par l'administration. De plus, une livraison des fichiers informatiques des plaquettes sera à fournir à chaque édition, au format original de l'outil ayant servi à les produire ainsi qu'au format PDF.
E-COM-2P De la même façon, le titulaire réalisera et mettra à jour à l'occasion de chaque version du démonstrateur un poster de taille A0, recto uniquement, à des fins de présentation des résultats lors de séances de type séminaire. Ce poster intégrera les conclusions des postes terminés au moment de son élaboration. 2 posters seront livrés (en français). De même qu'à l'exigence précédente, les fichiers informatiques seront à fournir pour chaque livraison de poster au format original de l'outil ayant servi à les produire ainsi qu'au format PDF.
E-COM-3P Par ailleurs, deux jeux de présentations devront être maintenus tout au long de l'étude et fournis à l'administration sur demande. Le premier sera fait à destination de décideurs et devra synthétiser les résultats majeurs de l'étude, sans entrer finement dans la technique. Le deuxième sera fait à destination de spécialistes techniques. Une présentation d'une heure et demie est à viser. Il est à noter que ces jeux de présentations seront fournis sur CD Rom, au format de l'outil Powerpoint de Microsoft compatible avec la version 97, et devront être faits en français et en anglais.
E-COM-4P Le titulaire devra prévoir différentes restitutions des résultats. Une première restitution sera effectuée à destination de personnels étatiques (DGA, producteurs et opérationnels) à l'occasion de l'achèvement de la réalisation du démonstrateur. Il s'agira de prévoir à chaque fois une restitution d'une demi-journée, avec la possibilité de réajuster cette durée à la baisse si l'administration la demande. Une deuxième restitution aura comme public des industriels. Les hypothèses à considérer sont les suivantes :
• Le titulaire communiquera sur les résultats de l'étude en utilisant le "kit de communication" ;
• Ces réunions ne mettront pas en cause le contour technique de l'étude et ne l'orienteront en rien.
• Pour toutes ces restitutions, les présentations devront être fournies à l'administration qui les aura, au préalable, validées. Les dates de ces restitutions seront fixées par l'administration.
Support technique et garantie
Un support technique télephonique doit être assuré les jours ouvrés 9h-12h 14h-17h, etc.
Sécurité internet
E-SIN-1I Le système HÉRISSON intègre le résultat et les modifications nécessaires issues de l'étude 4.1 sur la «discrétion dans la collecte et dans la recherche sur Internet.
E-SIN-2I Le système doit utiliser dans la mesure du possible pour ses fonctions de sécurité des produits du commerce spécialisés dans les fonctions de sécurité.
E-SIN-3I Les échanges entre les postes clients et le système HÉRISSON doivent se faire via une connexion authentifiée et sécurisée.
E-SIN-4P Le système doit prendre en compte la problématique de la sécurité lorsque qu'un ordinateur est relié au réseau Internet (virus, chevaux de Troie, spam, attaque) et proposer et mettre en place les mesures nécessaires et suffisantes (antivirus, firewall...) pour garantir la sécurité du système.
E-SIN-5P Le système HÉRISSON bloque et supprime les virus et codes malveillants (virus, chevaux de Troie (trojan)..., spyware etc..) téléchargés ou activés lors de la collecte.
Moralité : quelqu'un qui envoie un fichier contenant un message quelconque ainsi que la signature d'un virus connu verrait la copie de son fichier rapatriée par le système supprimée sans qu'elle ne soit traitée. Merci E-SIN-5.
Gestion
Les personnes qui trouveraient la section "gestion" intéressante sont invitées à se faire connaître.


Montrer les spécifications Hérisson

La société ouverte et ses ennemis

L'élégance du hérisson est remarquable, et cependant une interrogation demeure. Comme l'indique le 'O' du HÉRISSON, cet habile extracteur joue sur le terrain des sources ouvertes, c'est-à-dire des protocoles dans lesquels les données sont transmises en clair, ou du moins encodées d'une façon facilement lisible. D'un autre côté ce système tel qu'il est présenté s'avère complètement dysfonctionnel lorsque les données échangées sont cryptées1. Cela aurait tendance à conférer un aspect bisounours à cette machinerie sophistiquée, tant il semble patent que lorsque des informations sensibles sont en jeu, comme dans le cas hypothétique où de vils terroristes planifieraient une opération secrète contre une société, elles ne sont en général pas transmises de façon "ouverte". On peut remarquer ainsi dans le système : De ce fait l'utilité d'un tel système afin de recueillir des informations sensibles en temps réel s'avère discutable ; cependant il est concevable que HÉRISSON, sous réserve d'une capacité de stockage suffisante, soit performant pour retrouver a posteriori des informations provenant d'échanges publics datant d'une époque à laquelle les parties concernées ne jugeaient pas nécessaires qu'ils soient cryptés. Mais comme le système pourrait agir sur des données circulant en clair et serait en même temps impuissant face à des données cryptées, tous les groupes et individus préoccupés par la surveillance potentiellement exercée sur eux tout en menant des activités parfaitement légales vont non seulement recourir à des moyens techniques de protection, mais en plus encourager et faciliter la mise à disposition de tels moyens de protection à l'ensemble des utilisateurs des réseaux. Les individus intéressés uniquement par les techniques de contournement du système HÉRISSON agiront dans le même sens. Aux protocoles de messagerie instantanée chiffrée (jabber...) et systèmes d'échanges de fichiers chiffrés (kommute...) vont s'adjoindre une systématisation de l'utilisation du http sécurisé et du cryptage des e-mails. Une telle banalisation massive des échanges chiffrés plongerait selon toute probabilité les moniteurs des réseaux dans un certain embarras.

L'étape suivante logique du jeu du chat et de la souris entre les systèmes monitorant les réseaux et leurs utilisateurs est donc l'émergence très vraisemblable d'un quelconque système PORC-ÉPIC (Puissant Outil de Repérage et de Cryptanalyse d'Éléments Protégés et d'Informations Chiffrées, évidemment) à même de complémenter les fonctionnalités de son compagnon le HÉRISSON.

Conclusion

Pour finir, il convient par avance d'admirer l'extraordinaire discernement dont feront preuve les "clients" et les "exploitants" d'une plate-forme si puissante, qui montreront une prudence et un sens critique hors normes pour éviter de tirer des conclusions trop hâtives des informations fournies par le sympathique HÉRISSON. Car, la lectrice ou le lecteur le croira ou non, il est déjà advenu que la véracité d'informations présentes sur un réseau ait été mise en doute. La maestria avec laquelle les exploitants sauront patiemment démêler le vrai du faux au cours de leurs enquêtes plonge tout observateur dans la béatitude la plus émerveillée. Et ce n'est pas ironique.

[Brazil]
Brazil : une erreur technique involontaire et la vie d'un homme bascule.



[1] La cryptographie est un point souvent délicat pour les systèmes législatifs. Aux Etats-Unis certains protocoles de chiffrement sont considérés comme une arme, ce qui a entraîné l'interdiction du programme informatique PGP sur le territoire américain. Au Royaume Uni la troisième partie du Regulation of Investigatory Powers Act (RIPA) force les citoyens britanniques à révéler leur clef secrète en cas de demande judiciaire sous peine d'aller en prison. Curieusement, cette loi a engendré des situations étranges. Les possibilités techniques de chiffement multiple – où la divulgation d'une clef révèle une certaine information sans qu'il soit techniquement possible de savoir si l'utilisation d'une autre clef n'aurait pas mis en lumière une autre information – combinée au concept juridique de "dénégation plausible" (plausible deniability) ne sont évidemment pas pour arranger lesdits systèmes législatifs. La lectrice ou le lecteur intéressé(e) pourra consulter un recueil de différentes législations concernant la cryptographie.


Little Neo, juin 2009


zZz

Home