La science facilite toujours plus la communication, la transmission, la copie et le stockage de données. Face aux nombreuses menaces auxquelles est confrontée une société (terrorisme, émeutes, violations des "droits d'auteur"), que va faire un gouvernement ? La sécurité des citoyens fait partie de ses prérogatives. Donc, il va lancer un appel d'offres en vue d'acquérir un système de surveillance global, capable de traiter intelligemment les données recueillies. C'est ainsi que peut être résumé le potentiel système HÉRISSON, pour, bien sûr, "Habile Extraction du Renseignement d'Intérêt Stratégique à partir de Sources Ouvertes Numérisées".
Surveiller et punir
Derrière cet acronyme digne du manuel des castors juniors se profile une volonté de contrôle, le contrôle apportant quelques volutes de confort, des activités des citoyens. A ce titre, le système HÉRISSON présente de multiples facettes :
une facette technologique : la conception et l'implémentation de méthodes de recherche et d'extraction d'informations dans un univers numérisé fait appel à diverses compétences. Le traitement d'images (reconnaissance optique de caractères, de formes simples, de visages), du son (identification de la langue d'une conversation audio, transcription textuelle), de textes (détection de la thématique, traduction automatisée) et de vidéos (suivi automatique de certaines formes, interception d'événements) concerne tout un éventail de spécialités (informatique, mathématiques, intelligence artificielle, linguistique, psychologie, etc). EADS –dont font partie certains éditeurs du magazine MISC– aura à coeur d'intégrer toutes ces fonctionnalités en un ensemble harmonieux et performant.
une facette légale : il est très difficile au système hérisson d'être fonctionnel et de répondre à ses standards élevés sans devoir contourner la loi. Sur le plan du copyright, un logiciel qui copie et stocke des données sous droits d'auteur (textes, musiques), même sous le prétexte de protéger ce dernier, est illégal, de même qu'un logiciel s'introduisant frauduleusement dans un système de traitement automatisé de données. Le croisement des bases de données présente également un aspect sensible.
une facette politique : les systèmes de surveillance gouvernementaux constituent une relation particulière de l'individu au corps politique de la société. Si la notion de vie privée s'effile progressivement dans le monde ultraconnectif des réseaux électroniques, elle est loin d'être abolie. L'obtention du consentement des citoyens à être placés en permanence sous surveillance, comme des suspects d'un crime, est alors une question délicate. En l'absence d'un consentement explicite un gouvernement aura tendance à privilégier une approche discrète.
une facette morale : les philosophes peuvent se demander si la surveillance de masse est un acte nuisible aux personnes concernées sur le plan individuel, et si elle est collectivement bénéfique à la société.
une facette épistémique : le système HÉRISSON développe sa propre philosophie de la connaissance, dont il reste à s'assurer de la fiabilité.
Les mots
L'hypothétique système de surveillance et de traitement de données HÉRISSON doit être en mesure d'accomplir de nombreuses tâches, définies au sein d'un cahier des charges muni de 524 exigences, réparties en plusieurs catégories : les sources à considérer (SRC), la collecte des données (COL), le traitement des données (TRT), l'exploitation des résultats (EXP), la chaîne de traitements (ACC), la structure organisationnelle (ORG), le matériel (INT), le système d'audit (EVA), le développement (DEV), l'interface homme-machine (IHM), la sécurité matérielle (SEC), le système d'aide intégrée (LOG), la communication (COM), le support technique et la garantie (GAR), la sécurité Internet (SIN), la gestion (MAN). Ces spécifications ne sont pas toutes du même ordre de priorité, on distinguera ainsi les spécifications primordiales, les importantes, et les souhaitables.
Le système HÉRISSON permet de connecter et de traiter en entrée du système un flux vidéo analogique (images + son) issue du réseau télévisuel hertzien.
E-SRC-2
I
Le système HÉRISSON permet de connecter et de traiter en entrée du système un flux vidéo numérique issu du réseau télévisuel numérique (par satellite).
E-SRC-3
I
Le système HÉRISSON permet de connecter et de traiter en entrée du système un flux audio analogique issu du réseau radiophonique hertzien.
E-SRC-4
I
Le système HÉRISSON permet de connecter et de traiter en entrée du système un flux audio analogique issu du réseau radiophonique hertzien.
E-SRC-5
I
Le système HÉRISSON dispose en entrée d'un système capable de numériser le contenu (texte et image) issue de la presse papier.
E-SRC-6
P
Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) des sites de presse en ligne (ou sites web informationnels, cf. [DR-01]) accessible via Internet et de le traiter.
E-SRC-7
S
Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) des sites de presse en ligne (ou sites web informationnels, cf. [DR-01]) accessible via Internet et de le traiter.
E-SRC-8
P
Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) des sites web institutionnels (cf. [DR-01]) accessible via Internet et de le traiter.
E-SRC-9
P
Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) des sites de presse en ligne (ou sites web informationnels, cf. [DR-01]) accessible via Internet et de le traiter.
E-SRC-10
S
L'exigence [E-SRC-3] permet aussi de se connecter à une source de type radio amateur émettant sur le réseau hertzien.
E-SRC-11
S
Le système HÉRISSON permet de traiter le contenu d'un flux audio numérique issu d'un podcast (cf. [DR-01]).
E-SRC-12
I
Le système HÉRISSON permet d'accéder au contenu (texte) accessible via Internet Relay Chat (cf. [DR-01]) et de le traiter.
E-SRC-13
I
Le système HÉRISSON permet d'accéder au contenu (texte) de mailing lists (cf. [DR-01]) disponible via Internet et de le traiter.
E-SRC-14
P
Le système HÉRISSON permet d'accéder au contenu (texte, image) de Web Forums (cf. [DR-01]) disponible via Internet et de le traiter.
E-SRC-15
P
Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) de sites de réseaux sociaux (cf. [DR-01]) disponibles via Internet et de le traiter.
E-SRC-16
P
Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) de Newsgroups (cf. [DR-01]) disponible via Internet et de le traiter.
E-SRC-17
P
Le système HÉRISSON permet d'accéder au contenu des données (texte) issues de flux RSS (cf. [DR-01]) disponible via Internet et de le traiter.
E-SRC-18
P
Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) de blogs/sites web personnels (cf. [DR-01]) disponible via Internet et de le traiter.
E-SRC-19
I
Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) accessible via les systèmes Peer to Peer (cf. [DR-01]) disponible via Internet et de le traiter.
E-SRC-20
P
Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) accessible via les moteurs et métamoteurs de recherche (cf. [DR-01]) disponibles sur Internet et de le traiter.
E-SRC-21
P
Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) accessible via les annuaires et portails (cf. [DR-01]) disponibles sur Internet et de le traiter.
E-SRC-22
P
Le système HÉRISSON permet d'accéder au contenu (texte, image, son et vidéo) d'agrégateurs d'actualité (cf. [DR-01]) disponibles sur Internet et de le traiter.
E-SRC-23
P
Le système HÉRISSON permet une connexion directe à Internet grâce à une connexion fournie par l'Administration.
E-SRC-24
P
Le système HÉRISSON dispose d'une connexion pour accéder à la télévision et la radio par satellite.
E-SRC-25
P
Le système HÉRISSON dispose d'une connexion pour accéder à la télévision sur le système hertzien.
E-SRC-26
P
Le système HÉRISSON dispose d'une connexion aux canaux hertziens pour accéder à la radio sur les bandes AM/FM.
E-SRC-27
P
Les postes clients disposent d'une connexion pour accéder au système HÉRISSON.
E-SRC-28
P
Les abonnements satellites et les redevances sont à la charge du titulaire pour la durée du projet. Néanmoins, le titulaire peut proposer de se passer d'abonnement si les chaînes disponibles gratuitement sont assez représentatives des langues à traiter dans le cadre du projet.
Les sources de renseignement sont diverses et variées. Il serait illusoire de croire qu'HÉRISSON ne concerne qu'internet, en fait il couvre un vaste éventail de systèmes de communications, tels le télephone ou la radio ; les signaux analogiques sont numérisés afin d'être traités. HÉRISSON est plus qu'un système de surveillance, c'est un outil d'aide aux enquêtes, basé sur un traitement automatisé de l'information.
Le monde numérique – le web, les e-mails, les messageries instantanées, l'IRC, le "NMTP" (NNTP ?), etc – constitue une ressource importante pour HÉRISSON. L'univers numérique est caractérisé par sa mémoire (ainsi même sur les systèmes volatiles tels l'IRC, les serveurs majeurs (EFnet, UnderNet, Freenode...) disposent de leurs propres moyens d'enregistrement). Les messageries instantanées permettent le logging des conversations, mais il n'est pas impensable que lesdites conversations soient également stockées sur un serveur du fournisseur du logiciel.
Les réseaux sociaux sont aussi intéressants pour des enquêteurs. Un compte individuel peut déjà constituer une mine d'information, mais la vue globale d'un réseau est encore plus enrichissante. HÉRISSON ou une compagnie telle que Google n'a pas besoin de débourser de l'argent pour racheter Facebook dans l'optique d'accéder à son contenu. Chacun peut dans la mesure de ses moyens ouvrir un compte sur Facebook et rapatrier toutes les informations publiques sur ses serveurs, afin de les exploiter judicieusement.
Finalement dans toutes ces exigences concernant les sources, une des notions les plus importantes, mais assez floue, est celle d'"accessibilité". Un script appelant une base de donnée vulnérable à une injection SQL rend cette dernière "accessible". E-SRC-20 indique que le système HÉRISSON peut employer certaines techniques relevant du Google hacking ; à ce titre il dérape sur la pente glissante de l'illégalité.
Collecte des données
E-COL-1
P
Le système HÉRISSON a la capacité de collecter des données provenant de l'ensemble des sources contenues dans le Tableau 1.
E-COL-2
P
Toute donnée collectée doit être renseignée sur la source (provenance : url, canal Hertzien, etc.) et les conditions d'acquisition (horodatage d'entrée dans le système, de production si disponible, etc.).
E-COL-3
P
Tous les documents stockés doivent être identiques aux originaux tant au niveau du contenant que du contenu.
E-COL-4
P
Le titulaire évaluera la capacité de stockage nécessaire à mettre en place de manière à disposer suffisamment d'espace disponible pour permettre une utilisation de la plate-forme de plusieurs équipes en parallèle tout au long du projet.
E-COL-5
P
La capacité de stockage n'est pas figée et peut être augmentée facilement. La capacité de stockage est dimensionnée et augmentée à chaque nouvelle version du démonstrateur.
E-COL-6
P
Le système HÉRISSON permet la collecte et le stockage du contenu d'un site Web quelque soit son format (HTML, PHP, ASP...).
E-COL-7
I
L'utilisateur peut choisir a minima entre deux méthodes pour chaque site à collecter :
1) « uniquement le site » explore les liens du site Web ciblé en restant dans le même domaine de
départ.
2) «Un chemin dans ce site» : explore seulement les liens commençant exactement comme
l'adresse Internet de départ à partir du même niveau de profondeur sur le serveur.
E-COL-8
I
L'utilisateur peut paramétrer la profondeur d'exploration et de collecte des pages du site ciblé (entre 0 et n).
E-COL-9
I
L'utilisateur peut paramétrer la profondeur d'exploration et de collecte des pages externes au site ciblé (entre 0 et n).
E-COL-10
I
Le système HÉRISSON intègre a minima les fonctionnalités du logiciel libre wget.
E-COL-11
P
Le système prend en compte la problématique des liens «cachés» en extrayant les liens a minima dans :
• Les applications flash contenu (sic) dans une page,
• Les codes Java Script.
E-COL-12
I
Le module de collecte de sites permet la collecte d'un ensemble de sites (traitement par lot).
E-COL-13
I
L'utilisateur peut sélectionner la nature (page HTML, vidéo, images, son) des documents à collecter.
E-COL-14
P
Lors de la collecte d'un site Internet, à cause d'une affluence trop importante de demandes, certains serveurs peuvent bloquer l'accès au site pendant un certain temps. Le système doit mettre en place une stratégie de collecte pour éviter ce problème.
E-COL-15
I
Le système HÉRISSON peut effectuer un crawling récursif systématique ou intelligent, utilisant le contenu des pages pour explorer les liens.
E-COL-16
P
Le système détecte si le serveur distant contenant le site ciblé a bloqué l'accès et dans ce cas, le système HÉRISSON diffère la récupération du site.
E-COL-17
P
Le système HÉRISSON permet de rapatrier tous les résultats obtenus à partir d'une requête passée à un agrégateur de sources ou à un site Web permettant une recherche.
E-COL-18
I
Le système HÉRISSON permet la collecte et le stockage complet du contenu d'un site FTP.
E-COL-19
I
Le système HÉRISSON permet la collecte de l'arborescence d'un site FTP.
E-COL-20
P
Le système HÉRISSON permet la collecte et le stockage complet du contenu d'un site NMTP.
E-COL-21
P
Le système HÉRISSON permet la collecte de l'arborescence d'un site NMTP.
E-COL-22
I
Le système HÉRISSON permet le téléchargement de fichiers disponibles sur un réseau P2P.
E-COL-23
S
Dans le cas d'utilisation de système P2P autre que le système Torrent, les différents utilisateurs connectés partagent souvent une partie de leur disque dur. Le système HÉRISSON permet de récupérer la liste des documents disponible en partage sur ce disque.
E-COL-24
P
Le système HÉRISSON a la capacité de collecter des données via les protocoles :
• MMS (flux vidéo type Windows Media Player)
• RSTP (flux vidéo type Real Player)
• POP3 (messagerie)
E-COL-25
P
Le système HÉRISSON a la capacité de collecter un éventail large et non restreint (évolutif) de protocole (dont certains sont définis aux exigences [E-COL-59] et [E-COL-70]).
E-COL-26
P
La collecte et la mise à jours des gisements Web, FTP, NMTP se font a minima suivant deux
modes :
1) Une fois à la demande de l'utilisateur : mode ponctuel,
2) Plusieurs fois automatiquement ; mode périodique.
E-COL-27
P
Pour une collecte ou une mise à jour programmée, l'utilisateur peut spécifier les paramètres suivants :
• Heure de départ ;
• Périodicité (intervalle de temps, ou programmation par calendrier).
E-COL-28
I
L'utilisateur peut se créer des profils de collecte pour pouvoir les appliquer ultérieurement à d'autres gisements.
E-COL-29
I
L'utilisateur peut spécifier les paramètres de l'exigence [E-COL-27] pour un ensemble de gisements.
E-COL-30
P
Pour chaque gisement aspiré, le système HÉRISSON fournit un rapport de collecte contenant a minima :
• Un rapport d'erreur (fichiers, pages, liens inaccessibles ...),
• Le nombre de fichiers, pages et liens qui ont été soit traités, soit ignorés ou qui étaient inaccessibles,
• Heures de démarrage et de fin de la collecte,
• Une synthèse des informations récoltées (nombre de page HTML, d'images, de vidéo, de fichier son...),
• Liste des liens externes.
E-COL-31
P
Le système HÉRISSON récupère et exhibe les informations disponibles sur les données collectées, comme :
• La location géographique du serveur ;
• Adresses E-mails ;
• Adresses EP ;
• Texte d'information des entêtes HTML ;
• Informations WHOIS.
E-COL-32
P
Le système HÉRISSON permet la mise à jour d'une précédente collecte. Cette mise à jour concerne aussi les informations annexes (cf. exigence précédente).
E-COL-33
P
Pour chaque gisement collecté mis à jour, le système HÉRISSON fournit un rapport de mise à jour contenant les différences par rapport à la précédente collecte.
E-COL-34
P
Le système HÉRISSON doit récupérer les informations disponibles d'un site NMTP collecté, comme la location géographique du serveur, adresses E-mails, adresses IP, …
E-COL-35
P
Le système HÉRISSON a la capacité de gérer un éventail large, non restreint et évolutif de formats de documents de type :
• Vidéo (AVI, MPG, MOV, MP4, Real, FLV, OGM ...) ;
• Audio (WAV, MP3, OGG...) ;
• Image (BMP, JPG, TIFF...) ;
• Texte (HTML, MHTML, Open Document, Open XML/Microsoft Office, Adobe PS/PDF, Flash)
E-COL-36
P
Le système prend en compte la problématique du Web Invisible en proposant des moyens, méthodes et outils, permettant l'accès à ces sous ensembles du Web Invisible.
E-COL-37
I
Le système permet la collecte ciblée de données sur Internet.
E-COL-38
P
La collecte ciblée peut être paramétrée a minima avec les paramètres précisés dans les exigences [E-COL-6] à [E-COL-36].
E-COL-39
P
L'utilisateur peut mettre en place un système de collecte d'information par crawling à partir d'un ensemble de points de départ.
E-COL-40
P
La collecte ciblée peut être paramétrée a minima avec les paramètres précisés dans les exigences [E-COL-6] à [E-COL-36].
E-COL-41
I
Le système HÉRISSON permet de récupérer tous les résultats/liens renvoyés par un moteur de recherche.
E-COL-42
I
Le système HÉRISSON permet d'interroger plusieurs moteurs de recherche automatiquement et d'en récupérer tous les résultats/liens renvoyés. Ces listes sont alors fusionnées en une seule.
E-COL-43
I
Le système HÉRISSON permet à partir d'une liste de liens d'en extraire ceux qui sont inaccessibles dans une deuxième liste.
E-COL-44
P
Les données collectées des différents gisements sont stockées et sont fidèles aux originaux dans leur forme (arborescence) et leur contenu.
E-COL-45
P
Lors de la première collecte d'un gisement Web, FTP ou NMTP, les données sont entièrement stockées.
E-COL-46
P
Lors d'une mise à jour de la collecte d'un gisement Web, FTP ou NMTP, est téléchargée et stockée seulement la différence par rapport à l'ancienne version.
E-COL-47
P
Les différentes collectes et mises à jour sont consultables indépendamment.
E-COL-48
P
Le système HÉRISSON permet un suivi temporel de l'activité d'un gisement, en exhibant les modifications de manière synthétique.
E-COL-49
P
Pour chaque document, est stockée l'URL à partir de laquelle il était accessible, la date de sa récupération, le nom de l'auteur (si possible, en particulier pour les photographies), ces informations peuvent être prises en compte par d'autres fonctions (exemple : paramétrage d'un archivage ou d'une suppression de fichiers, moteur de recherche).
E-COL-50
P
Dans la suite des exigences la source Radio fait référence aux radios diffusées sur les bandes AM/FM, par satellite et par Internet (podcast ou via un flux).
E-COL-51
P
La collecte et la mise à jour de la source Radio se fait a minima suivant trois modes :
1) Une fois à la demande de l'utilisateur : enregistrement manuel ;
2) Plusieurs fois automatiquement : enregistrement programmé ;
3) Continuellement : enregistrement en flux continu.
E-COL-52
P
Pour un enregistrement manuel, l'utilisateur doit spécifier la station Radio concernée.
E-COL-53-a
P
Le système HÉRISSON doit permettre la collecte simultanée de 15 sources audio.
E-COL-53-b
I
Le système HÉRISSON doit permettre la collecte simultanée de 10 sources audio.
E-COL-53-c
S
Le système HÉRISSON doit permettre la collecte simultanée de 5 sources audio.
E-COL-54
P
Pour un enregistrement programmé, l'utilisateur doit spécifier les paramètres suivants :
• Heure de départ ;
• Heure de fin ou durée ;
• Périodicité (intervalle de temps, ou programmation par calendrier) ;
• Station radio.
E-COL-55
I
Pour chaque document enregistré, un rapport de collecte est créé et associé, contenant a minima :
• Le nom du document,
• Le chemin d'accès au document,
• La durée d'enregistrement,
• Le format d'enregistrement,
• L'heure de départ et de fin de l'enregistrement,
• La liste des alertes contenues dans le document (type et position),
• Le pays et le nom de l'émetteur,
• Le nom du programme si disponible,
• La source, (toutes informations disponibles).
E-COL-56
I
S'il est impossible d'enregistrer la source audio ou si l'enregistrement ne va pas à son terme, un rapport de défaut de collecte doit être crée et associé, contenant a minimale, rapport d'enregistrement plus la cause de défaut d'enregistrement.
E-COL-57
I
L'utilisateur doit pouvoir spécifier les paramètres de l'exigence [E-COL-54] pour un ensemble de station radio (sic).
E-COL-58
I
Le système permet à l'utilisateur de créer des profils de collecte pouvant être réutilisés ultérieurement ou appliqués à d'autre gisement (sic).
E-COL-59
P
Le titulaire proposera une liste exhaustive et représentative des formats de fichiers, flux et Codecs à considérer pour le système pour permettre le stockage du son.
E-COL-60
P
L'enregistrement de l'audio se fait dans le format d'origine lorsque que l'audio correspond à un fichier, dans les autres cas lorsque le flux audio nécessite un encodage ou une transformation, le format de sortie retenu est alors un format ouvert offrant une qualité suffisante pour les prétraitements. Ce format est alors le même que celui retenu pour les exigences [E-TRT-5] et [E-TRT-6].
E-COL-61
P
Dans la suite des exigences la source Télévision fait référence aux émissions diffusées en hertzien ou disponibles via le satellite et Internet (via flux).
E-COL-62
P
La collecte et la mise à jour de la source Télévision se fait a minima suivant trois modes :
1) Une fois à la demande de l'utilisateur : enregistrement manuel,
2) Plusieurs fois automatiquement : enregistrement programmé,
3) Continuellement : enregistrement en flux continu.
E-COL-63
P
Pour un enregistrement manuel, l'utilisateur doit spécifier la chaîne de télévision concernée.
E-COL64-a
P
Le système HÉRISSON doit permettre la collecte de 8 sources télévisuelles simultanément.
E-COL-64-b
I
Le système HÉRISSON doit permettre la collecte de 6 sources télévisuelles simultanément.
E-COL-64-c
S
Le système HÉRISSON doit permettre la collecte de 4 sources télévisuelles simultanément.
E-COL-65
P
Pour un enregistrement programmé, l'utilisateur doit spécifier les paramètres suivants :
• Heure de départ ;
• Heure de fin ou durée ;
• Périodicité (intervalle-de4emps,ou programmation par calendrier) ;
• Source.
E-COL-66
I
Pour chaque document enregistré, un rapport de collecte est créé et associé, contenant a minima :
• Le nom du document ;
• Le chemin d'accès au document ;
• La durée d'enregistrement ;
• Le format d'enregistrement ;
• L'heure de départ et de fin de l'enregistrement ;
• La liste des alertes contenues dans le document (type et position) ;
• Le pays et le nom de l'émetteur ;
• Le nom du programme si disponible ;
• La source, (toutes informations disponibles).
E-COL-67
I
S'il est impossible d'enregistrer la source audio ou si l'enregistrement ne va pas à son terme, un rapport de défaut de collecte doit être crée et associé, contenant a minima le rapport d'enregistrement plus la cause de défaut d'enregistrement.
E-COL-68
I
L'utilisateur doit pouvoir spécifier les paramètres de l'exigence [E-COL-64] pour un ensemble de gisements.
E-COL-69
I
Le système permet à l'utilisateur de créer des profils de collecte pouvant être réutilisés ultérieurement ou appliqués à d'autre gisement (sic).
E-COL-70
P
Le titulaire proposera une liste exhaustive et représentative des formats de fichiers, flux et Codée à considérer pour le système (ex : DVB, MMS...) pour permettre le stockage de vidéos et d'images.
E-COL-71
P
L'enregistrement de la vidéo se fait dans le format d'origine lorsque que la vidéo correspond à un fichier, dans les autres cas lorsque le flux vidéo nécessite un encodage ou une transformation, le format de sortie retenu est alors un format ouvert offrant une qualité suffisante pour les prétraitements. Ce format est alors le même que celui retenu pour les exigences [E-TRT-50] et [E-TRT-51].
E-COL-72
S
Le système HÉRISSON permet de numériser et stocker le contenu de document papier (tracts, journaux, etc.).
E-COL-73
I
La numérisation doit pouvoir se faire en masse (plusieurs feuilles automatiquement) ou manuellement (page par page).
E-COL-74
I
L'utilisateur doit pouvoir soumettre une image ou un ensemble d'image à un traitement OCR pour en extraire le contenu (texte, graphiques, colonnes, etc.).
E-COL-75
I
Pour chaque document numérisé et enregistré, un rapport de collecte doit être créé et associé, contenant a minima :
• Le nom du document,
• Le chemin d'accès à l'image,
• Le chemin d'accès au document texte.
E-COL-76
I
Si une erreur se produit pendant la collecte un rapport de défaut de collecte est crée et associé, contenant a minima le rapport d'enregistrement plus la cause de défaut d'enregistrement.
E-COL-77
P
Le titulaire proposera une liste exhaustive et représentative des formats de fichiers et Codecs à considérer pour permettre au système le stockage du texte.
E-COL-78
P
L'enregistrement du texte se fait dans le format d'origine lorsque que l'audio correspond à un fichier, dans les autres cas lorsque le fichier texte nécessite un encodage ou une transformation, le format de sortie retenu est alors un format ouvert offrant une qualité suffisante pour les traitements. Ce format est alors le même que celui retenu pour les exigences [E-TRT-67] et [E-TRT-68].
Les techniques de collecte de HÉRISSON méritent aussi d'être examinées. E-COL-14 prend acte du fait que certains serveurs, en général par crainte d'attaques DOS, bannissent les addresses effectuant un grand nombre de requêtes en un court laps de temps. Ainsi certaines précautions de furtivité –à la nmap– doivent être prises afin d'enregistrer l'intégralité de leur contenu. Le crawling est également considéré (E-COL-15) : en plus de l'approche "intelligente", basée sur les liens contenus dans les pages web, y compris, selon E-COL-11, dans les applications flash et codes javascript, il existe une approche "systématique", qui pourrait consister à rechercher des pages par force brute ou par des attaques par dictionnaire. Ces méthodes sont également envisagées dans la perspective du "web invisible" (E-COL-36).
Finalement les méthodes de HÉRISSON s'apparentent à celles des "hackers" et des pirates informatiques.
D'éventuelles approches de collecte basées sur des stratégies développées plus en amont ne sont pas évoquées ici.
Sur un plan complètement différent, les exigences E-COL-53 et E-COL-64 sont très bizarres. Peut-être que la personne qui a écrit ça n'était pas bien réveillée.
Traitement des données
E-TRT-1
P
Le système HÉRISSON conserve toutes les traces et manipulations faites à un fichier quelque soit son type ou son origine.
E-TRT-2
P
Le système conserve l'original d'un document.
E-TRT-3
P
Tout document créé fait référence à sa source.
E-TRT-4
I
Le système conserve l'historique de toutes les manipulations.
E-TRT-5
I
Le système HÉRISSON permet de convertir les documents audio dans un format commun à tout le système. Ce format est à déterminer en accord avec l'administration.
E-TRT-6
P
Le format audio commun retenu doit être ouvert et documenté, et être d'une qualité suffisante pour permettre l'application de l'ensemble des prétraitements (e.g. Ogg Speex à qualité 7, 16kHz, 16 bits, stéréo).
E-TRT-7
I
Le système HÉRISSON dédoublonne les documents audio de manière à ne conserver qu'un seul exemplaire du fichier. Sont considérés comme doublons deux fichiers audio produits à partir d'un même enregistrement. Il s'agit de conserver le fichier de meilleure qualité. La rapidité et la pertinence (rappel, précision) du dédoublonnage seront évaluées.
E-TRT-8
P
Le système HÉRISSON détecte la parole dans un document audio. On évaluera le système par le nombre de segments de parole manques ou faussement détectés, ainsi que la durée totale de ces segments. Les métriques d'évaluation seront équivalentes à celles des campagnes Technolangue/ESTER (tache SES, type trackeval 2.3 ou ultérieur) et NIST RT 04 (type md-eval vl7 ou ultérieur).
E-TRT-9
I
Le système HÉRISSON supprime d'un document audio les extraits inutiles à une veille informationnelle. Il s'agit d'épargner à l'utilisateur d'entendre (par exemple) les publicités, les chansons, les jeux radiodiffusés, d'identifier les passages éventuellement redondants. Cette fonctionnalité sera évaluée suivant le nombre d'extraits inutiles et le nombre de passages utiles supprimés, en utilisant une métrique du même type que pour l'exigence ["E-TRT-8].
E-TRT-10
I
Le système HÉRISSON permet à l'utilisateur d'accéder aux caractéristiques brutes d'un document audio (encapsulation, type d'encodage, mono/stéréo, fréquence d'échantillonnage,...).
E-TRT-11
I
Le système HÉRISSON segmente les différents locuteurs d'un document audio et en fait le suivi relatif {speaker diarization). On évaluera le nombre d'erreurs de détection de changement de locuteur, ainsi que la durée totale des parties mal segmentées. On utilise pour cela une métrique comme celle utilisée dans le cadre de l'évaluation ESTER (tache SRL, type SpkSegEval-v23 ou ultérieur).
E-TRT-12
I
Le système HÉRISSON identifie les différents locuteurs d'un document audio par rapport à une base de locuteurs de référence. Il permet d'enrichir cette base de référence à partir d'extraits audio d'une durée totale d'au moins 30 secondes par locuteur. On évaluera le nombre d'erreurs de détection locuteur en segment, ainsi qu'en durée. La métrique utilisée est du même type que pour l'exigence [E-TRT-8].
E-TRT-13
P
Le système HÉRISSON identifie la langue des locuteurs dans un document audio. Deux fonctionnalités :
• [P] indiquer la langue majoritaire dans un document audio - cette fonction est évaluée par une métrique du type manqué/fausse alarme (évaluations NIST LRE 01 à 07) ;
• [P] segmenter les changements de langues (avec indication de la langue utilisée dans chaque
segment) - cette fonction est évaluée avec une métrique identique à celle de l'exigence [E-
TRT-8].
E-TRT-14
P
Les langues des documents audio devant être identifiées dans le système HÉRISSON sont :
- [P]rimordial : le français, l'anglais, l'arabe, le russe, le farsi.
- [I]mportant ; l'espagnol, l'allemand, , le chinois mandarin, l'italien,k le serbo-croate, l'hindi, le japonais, le coréen, le turc, l'ukrainien, l'hébreu, l'urdu, l'albanais, le macédonien.
- [S]ouhaitable : le néerlandais, le grec, le portugais, le polonais.
E-TRT-15
S
Le système HÉRISSON peut apprendre à identifier une nouvelle langue par apprentissage à l'aide d'un ensemble de documents audio monolingues. Il existe un système de gestion des modèles d'identification de la langue permettant de revenir en arrière après tout rajout ou modification de modèle.
E-TRT-16
P
Le système HÉRISSON transcrit un document audio en un document texte.
E-TRT-17
P
Les documents audio contenant les langues du tableau ci-après doivent pouvoir être transcrits. Cette fonctionnalité sera évaluée suivant le taux d'erreurs sur les mots lors d'une transcription d'enregistrements radiophoniques (pour comparer avec l'état de l'art) et d'enregistrements représentatifs de la tâche à accomplir. Les outils d'évaluations seront du type de la campagne Technolangue/ESTER (tâche TRS, type score-trs ou ultérieur) et NIST RT 04 (type sctk v2.0 ou ultérieur).
E-TRT-18
P
Suite à une transcription le système HÉRISSON permet de mettre en contraste les mots pour lesquels la transcription est le (sic) plus fiable (seuil de fiabilité paramétrable). L'évaluation portera sur le taux d'erreur sur les mots pondéré par leur fiabilité (outil NIST sctk v2.0 ou ultérieur).
E-TRT-19
P
Le système HÉRISSON permet à l'utilisateur d'enrichir et de modifier la transcription en modifiant des mots transcrits.
E-TRT-20
P
Le système HÉRISSON permet une prise en compte des mots incompris ou hors vocabulaire du système.
E-TRT-21
P
Le système HÉRISSON permet l'extraction et l'indexation des méta-données d'un document, audio, y compris pour les données issues des prétraitements automatiques des exigences précédentes (identification de la langue, du locuteur, transcription).
E-TRT-22
P
Le système HÉRISSON permet l'application de l'ensemble des traitements automatiques du texte (§2.1.3.2.5) sur les textes issus des transcriptions automatiques (détection d'entités nommées, détection et suivi de thème, traduction, résumé, etc.). L'application de ces traitements pouvant nécessiter des paramétrages particuliers, il est possible de les gérer de façon séparée avec les traitements génériques du texte.
E-TRT-23
S
Le système HÉRISSON fait le lien entre les locuteurs identifiés et la fonctionnalité de détection d'entités nommées notamment pour l'exploitation par les outils d'analyse.
E-TRT-24
I
Le système normalise les images dans un format commun à tout le système (de type JPG, TIFF, PNG ou autre). Ce format est à déterminer en accord avec l'administration.
E-TRT-25
P
Le format commun retenu doit être ouvert et documenté, et être d'une qualité suffisante pour permettre l'application de l'ensemble des traitements.
E-TRT-26
I
Le système HÉRISSON dédoublonne les documents images de manière à ne conserver qu'un seul exemplaire du fichier en cas de doublon. Pour les photographies, on considère comme doublons deux fichiers provenant de la même prise de vue mais ayant subi différents traitements, par exemple: changement de format de compression, changement de taux de compression, changement de résolution, modifications mineures des couleurs (changement de luminosité, de contraste). Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans l'évaluation Techno-Vision/ImagEval, tâche n°l, et un corpus spécifique est développé pour cette tâche.
E-TRT-27
I
Le système HÉRISSON permet l'accès aux caractéristiques brutes et les méta-données d'une image, comme le type et les caractéristiques d'encodage, la résolution, le taux de compression, les champs EXIF, les statistiques usuelles liées à l'image (histogramme, moments centrés...), ... il note aussi la provenance de l'image (URL pour les images obtenues via Internet) et éventuellement le nom du photographe.
E-TRT-28
I
Le système HÉRISSON reconnaît les images transformées (réf. Campagne ImagEVAL) : lorsqu'une photographie a subi des transformations (rotations, changement d'échelle, compression, modification des contrastes,...), le système HÉRISSON sait reconnaître l'image originale parmi les images qui en sont issues. Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans l'évaluation Techno-Vision/ImagEval, tâche n°l.
E-TRT-29
I
Le système HÉRISSON permet la détection d'éléments de contexte d'une image (photo couleur, photo noir&blanc, reproduction artistique, visage, scène intérieur/extérieur, ville/campagne/bord de mer/montagne/..., jour/nuit; présence/absence d'objets manufacturés où d'artefacts d'origine humaine, ...). Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans l'évaluation Techno-Vision/ImagEval, tâche n°5.
E-TRT-30
P
Le système HÉRISSON permet la détection et classification d'objets contenus dans une image (personne, véhicule, meuble...). Cette fonctionnalité sera évaluée avec les méthodologies utilisées dans les évaluations Techno-Vision/ImagEval, tâche n°4, PASCAL VOC (Visual Object Classes challenge), et CLEAR (tâche « 2D Face détection »).
E-TRT-31
P
Le système HÉRISSON permet la reconnaissance (identification) d'objets contenus dans une image (quelle personne, quel meuble, quel type de véhicule...). Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans les évaluations VACE et CLEAR (tâche «person identification ») ainsi que NIST FRVT (« 2D Face identification »).
E-TRT-32
P
Le système HÉRISSON classe les photographies dans des catégories définies par l'utilisateur (manifestation, parking rempli, embouteillage,...). Il s'agit ici d'organiser les données produites par les fonctionnalités [E-TRT-29], [E-TRT-30] et [E-TRT-31], pour obtenir une description de haut niveau du contenu de l'image. Cette fonctionnalité sera évaluée avec la méthodologie utilisées dans l'évaluation imageCLEF, tâche ad-hoc, et à défaut Techno-Vision/ImagEval, tâche n°5, en utilisant un corpus développé spécifiquement.
E-TRT-33
P
Le système HÉRISSON permet de regrouper les photographies de la même scène issues de différents capteurs. Cette fonctionnalité sera évaluée avec la méthodologie utilisées dans l'évaluation Techno-Vision/ImagEval, tâche n°l, et un corpus spécifique est développé pour cette tâche.
E-TRT-34
P
Le système HÉRISSON permet de reconnaître les images constituant des logos, et d'identifier ces logos. Cette fonctionnalité sera évaluée pour la détection avec la méthodologie utilisées dans l'évaluation Techno-Vision/ImagEval, tâche n°5, et avec les métriques des évaluations CLEAR ou NIST FRVT pour Pidentification. Un corpus sera développé spécifiquement pour cette tâche.
E-TRT-35
P
Dans les pages HTML, on trouve non seulement des photographies et des logos, mais aussi de nombreuses imagettes destinées à rendre sa visualisation plus agréable (par exemple la page http://x.org comporte 28 imagettes de la sorte et 2 logos). Il s'agit de reconnaître ces imagettes comme telles (pour élimination). Cette fonctionnalité sera évaluée avec la même méthodologie que pour la détection de logos, et un corpus spécifique sera développé.
E-TRT-36
P
Le système HÉRISSON permet la détection et localisation des zones de texte dans une image. Cette fonctionnalité sera évaluée avec les méthodologies utilisée dans les évaluations Techno-Vision/ImagEval tâche n°3 et ICDAR 2005 Robust Reading Compétition (text localization).
E-TRT-37
P
Le système HÉRISSON permet la structuration d'images de type document dactylographié scanné (détection du texte, détection des colonnes, détection de zones de texte, détection de tableaux, détection de formats de caractères et de polices, détection de graphiques, etc.). Cette fonctionnalité sera évaluée avec les méthodologies utilisées dans les évaluations Techno-Vision/ImagEval, tâche n°3, et ICDAR 2007 Page Segmentation.
E-TRT-38
P
Le système HÉRISSON permet la structuration d'images de ce document manuscrit scanné. Cette fonctionnalité sera évaluée avec les méthodologie utilisées dans les évaluations Techno-Vision/RIMES pour la tâche de segmentation, et ICDAR 2007 Handwriting Segmentation Compétition.
E-TRT-39
P
Le système HÉRISSON permet reconnaissance de caractères de type dactylographié (caractère, mot isolé, zone de texte). Ces fonctionnalités seront évaluées selon les méthodologies utilisées dans l'évaluation ICDAR 2005 Robust Reading Compétition.
E-TRT-40
P
Le système HÉRISSON permet reconnaissance de caractères de type manuscrit (caractère, mot isolé, zone de texte). Ces fonctionnalités seront évaluées selon les méthodologies utilisées dans les évaluations ICDAR Handrwiting Compétition et Techo-Vision/RIMES, tâche reconnaissance de caractère isolé, de mot et de texte.
E-TRT-41
P
Le système HÉRISSON permet la reconnaissance du scripteur d'un texte contenu dans une image. Cette fonctionnalité sera évaluées selon les méthodologies utilisées dans l'évaluation Techo-Vision/RIMES, tâche reconnaissance du scripteur.
E-TRT-42
P
Le système HÉRISSON permet la reconnaissance de caractères de type dactylographié (caractère, mot isolé, zone de texte). Ces fonctionnalités seront évaluées selon les méthodologies utilisées dans l'évaluation ICDAR 2005 Robust Reading Compétition.
E-TRT-43
P
Le système HÉRISSON permet le traitement des formats d'image et de vidéo les plus répandus.
E-TRT-44
P
Le système HÉRISSON permet la classification des images en plusieurs catégories (photographies, fax ou courrier numérisé, graphique fabriqué par synthèse...).
E-TRT-45
P
Le système HÉRISSON doit permettre le détourage et la reconnaissance de zones homogènes (zone d'adresse d'un courrier, zone de tableau, colonnes, graphiques...).
E-TRT-46
P
Le système HÉRISSON doit permettre l'indexation d'une image sur ses méta-données.
E-TRT-47
P
Le système HÉRISSON doit permettre l'indexation d'une image sur son contenu.
E-TRT-48
P
Le système HÉRISSON doit permettre l'indexation d'une image sur son contexte.
E-TRT-49
P
Les exigences [E-TRT-5] à [E-TRT-48] concernant les fonctionnalités de base applicables à l'audio et à l'image doivent aussi s'appliquer à la vidéo.
E-TRT-50
P
Le système normalise les vidéos dans un format commun à tout le système (de type AVI ou MPG) aussi bien en terme de contenant que de codées utilisés.
E-TRT-51
P
Le format commun retenu doit être ouvert et documenté, et être d'une qualité suffisante pour permettre l'application de l'ensemble des traitements. Ce format est à déterminer en accord avec l'administration.
E-TRT-52
P
Le système HÉRISSON dédoublonne les vidéos de manière à ne conserver qu'un seul exemplaire du fichier en cas de doublon.
E-TRT-53
P
Le système HÉRISSON permet l'accès aux informations brutes d'une séquence vidéo (type d'encodage, caractéristiques image et caractéristiques audio...)
E-TRT-54
P
Le système HÉRISSON doit permettre l'extraction du ou des flux audio d'une vidéo.
E-TRT-55
P
Le système HÉRISSON doit permettre l'extraction du flux d'images d'une vidéo.
E-TRT-56
P
Le système HÉRISSON doit permettre la sélection d'un segment temporel d'une vidéo défini.
E-TRT-57
P
Le système HÉRISSON découpe une vidéo en plans/scènes. Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans l'évaluation TRECVID), tâche SB.
E-TRT-58
P
Le système HÉRISSON produit un résumé de vidéo par l'extraction d'images de la vidéo. L'administrateur peut paramétrer le nombre d'images extraites. La répartition des images peut être contrainte par la détection des plans si calculée.
E-TRT-59
P
Le système HÉRISSON supprime les données inutiles d'une vidéo. Il s'agit d'épargner à l'utilisateur de voir (par exemple) les publicités, les vidéo-clips, les films, les jeux télédiffusés. Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans l'évaluation TRECVTD, tâche HLF, et un corpus spécifique est développé pour cette tâche.
E-TRT-60
P
Le système HÉRISSON permet la détection d'éléments de contexte des images d'une vidéo (sport, météo, bureau, paysage, maintien de l'ordre, personnels militaires, etc). Cette fonctionnalité sera évaluée avec la méthodologie utilisées dans l'évaluation TRECVTD, tâche HLF.
E-TRT-61
P
Le système HÉRISSON permet la détection et le suivi de personnes et de véhicules dans une vidéo. Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans l'évaluation CLEAR (tâches « Face tracking », « Person Tracking » et « Véhicule détection and tracking »).
E-TRT-62
P
Le système HÉRISSON permet la détection et l'identification de personne dans une vidéo. Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans l'évaluation CLEAR (tâche « person identification »).
E-TRT-63
P
Le système HÉRISSON permet l'indexation d'une vidéo sur ses méta-données.
E-TRT-64
P
Le système HÉRISSON permet l'indexation d'une vidéo sur son contenu image.
E-TRT-65
P
Le système HÉRISSON permet l'indexation d'une vidéo sur son contenu audio.
E-TRT-66
P
Le système HÉRISSON permet l'extraction du texte contenu dans une image.
E-TRT-67
P
Le système HÉRISSON normalise les documents textes dans un format commun à tout le système (tel que Open Office, HTML ou TXT.
E-TRT-68
P
Le format commun retenu doit être ouvert et documenté, et être d'une qualité suffisante pour permettre l'application de l'ensemble des traitements. Ce format est à déterminer en accord avec l'administration.
E-TRT-69
P
Le système HÉRISSON permet de traiter les caractères du système Unicode de 1 à 65535.
E-TRT-70
P
Le système HÉRISSON dédoublonne les documents textes de manière à ne conserver qu'un seul exemplaire du fichier en cas de doublon. Par exemple : au moment de l'enregistrement signaler l'existence d'un fichier identique (fonction évaluée suivant la rapidité et suivant les taux de détection et de fausse alarme).
E-TRT-71
P
Le système HÉRISSON permet la suppression de données inutiles d'un document texte. Exemple : supprimer d'une page Web les menus et les publicités. Fonction évaluée suivant la quantité de données inutiles mal supprimées et la quantité de données utiles supprimées. La métrique précise sera définie avec l'Administration au cours du projet, et un corpus sera créé pour évaluer la pertinence des filtrages effectués
E-TRT-72
P
Le système HÉRISSON permet à l'utilisateur du système de paramétrer une suppression des données inutiles d'un document texte.
E-TRT-73
P
Le système HÉRISSON récupère les méta-données d'un document texte (type d'encodage, auteur, date de création, etc..)
E-TRT-74
P
Le système HÉRISSON permet d'identifier la ou les langues d'un document texte. Cette fonctionnalité sera évaluée suivant le nombre de documents pour lesquels la (les) langues (langues) a (ont) été mal identifiée(s), pondéré par la quantité de texte concerné par l'erreur d'identification.
E-TRT-75
P
Les langues des documents texte qui sont identifiées dans le système HÉRISSON sont :
- [P]rimordial : le français, l'anglais, l'arabe, le chinois mandarin, le russe, le farsi.
- [I]mportant : l'espagnol, l'allemand, l'italien, le serbo-croate, l'hindi, le japonais, le coréen, le turc, l'ukrainien , l'hébreu, l'urdu, l'albanais, le macédonien.
- [S]ouhaitable : le néerlandais, le grec, le portugais, le polonais.
E-TRT-76
P
Le système HÉRISSON peut apprendre l'identification d'une nouvelle langue via un apprentissage à l'aide d'un ensemble de documents monolingues.
E-TRT-77
P
Le système HÉRISSON permet de traduire (à des fins d'indexation) un document texte (y compris provenant de transcriptions automatiques de documents audio ou vidéo) dans la langue souhaitée.
E-TRT-78
P
La qualité de la traduction est évaluée en utilisant les différentes métriques d'évaluation automatique usuelles (BLEU, NIST, WER, PER), en cours de développement (TER, METEOR, GTM, WNM, X-SCORE, D-SCORE) sur des corpus issus des différentes campagnes du domaines (NIST MT 06, GALE, IWSLT 06, WMT 07, CESTA). Un module de notation (type CESTA, WMT 07) est également inclus pour permettre de mener des évaluations de jugement humain (adéquation, fluidité).
E-TRT-79
P
Le système HÉRISSON définit des scores de confiance pour les mots ou expressions pour lesquels la traduction est la plus fiable, ces scores étant destinés à être utilisés par des fonctions ultérieurs de traitement automatique du langage.
E-TRT-80
P
Le système HÉRISSON permet à l'architecte d'enrichir le dictionnaire pour prendre en compte automatiquement des mots ou expressions inconnus du système.
E-TRT-81
P
Le système HÉRISSON permet à l'architecte d'introduire prendre en compte automatiquement des corpus bilingues alignés ou des corrections de traduction pour améliorer les traduction futures.
E-TRT-82
P
Le système HÉRISSON permet de supprimer la casse et la ponctuation séparément ou simultanément. Cette fonctionnalité est notamment requise en prétraitement pour de nombreux modules d'évaluation.
E-TRT-83
P
Le système HÉRISSON permet la tokenisation, c'est-à-dire la séparation en lexèmes du texte (e.g. séparation des mots, des signes de ponctuation, etc.). Cette fonctionnalité est notamment requise en prétraitement pour de nombreux modules d'évaluation.
E-TRT-84
P
Le système HÉRISSON permet la de-tokenisation, c'est-à-dire le regroupement usuel de lexèmes (e.g. recollement des signes de ponctuation, des dates, unités monétaires selon la langue etc.). Cette fonctionnalité est notamment requise en prétraitement pour de nombreux modules d'évaluation.
E-TRT-85
P
Le système HÉRISSON permet de supprimer les retours à la ligne d'un texte, si ceux-ci ne correspondent pas à des sauts de paragraphe mais se trouvent au milieu d'une phrase. Cette fonctionnalité serait utile pour certains logiciels qui considèrent le retour à la ligne comme le début d'une nouvelle phrase.
E-TRT-86
P
Le système HÉRISSON permet la restauration de la casse et de la ponctuation pour des documents sans casse et sans ponctuation. Il permet également de supprimer les « disfluences » notamment dans les transcrits de parole. Cette fonctionnalité sera évaluée dans le cadre de transcription de parole selon la méthodologie utilisée dans les évaluations NIST RT 04, et ESTER 2.
E-TRT-87
P
Le système HÉRISSON permet l'annotation syntaxique de documents (POS tagger, etc.). Cette fonctionnalité est évaluée selon le principe de l'évaluation Technolangue/EASY pour le français, et en utilisant les ressource de type Treebank du LDC pour les langues disponibles (a minima anglais, arabe, chinois, tchèque, coréen, espagnol).
E-TRT-88
P
Le système HÉRISSON permet de détecter les entités nommées.
E-TRT-89
P
Le système HÉRISSON permet de reconnaître le type des entités nommées. Par exemple : personne, lieu, organisme, montant, quantité, géo-localisation, date, produit manufacturé, etc. La liste explicite des types d'entités à reconnaître est définie avec l'administration, et recouvre a minima la liste imposée dans les évaluations ESTER et NIST ACE 07.
E-TRT-90
P
Le système HÉRISSON permet d'identifier les entités nommées et d'en effectuer le suivi. Il s'agit d'identifier de façon absolue les entités nommées, par rapport à une base de référence qui peut être alimentée automatiquement par cette fonction.
E-TRT-91
P
Le système HÉRISSON permet la reconnaissance d'entités nommées par mention explicite.
E-TRT-92
P
Le système HÉRISSON permet la reconnaissance d'entités nommées par mention relative, par mention partielle, par anaphore ou par surnom.
E-TRT-93
P
Le système HÉRISSON permet l'extraction de relation entre entités nommées.
E-TRT-94
P
Le système HÉRISSON permet l'extraction du rôle d'entités nommées.
E-TRT-95
P
Le système HÉRISSON permet la traduction d'entités nommées notamment pour les langues de caractère non roman.
E-TRT-96
P
Les fonctionnalités d'extraction d'entités nommées ([E-TRT-87] à [E-TRT-95]) sont évaluées selon les métriques de type SER (Signal Error Rate, évaluation ESTER) et fonction de coût d'erreur (évaluation NIST ACE 07).
E-TRT-97
P
Le système HÉRISSON permet le suivi relatif de thèmes. Il s'agit d'annoter automatiquement les passages correspondant à un même thème ou événement dans un document ou un ensemble de documents. Cette fonctionnalité est évaluée selon le principe de l'évaluation TDT 2004 Topic Tracking et de l'évaluation TDT 2004 Story Link Détection, avec les mêmes métriques.
E-TRT-98
P
Le système HÉRISSON permet d'effectuer la détection d'événement ou thèmes nouveaux (premier passage correspondant à un événement). Cette fonctionnalité est évaluée selon le principe de l'évaluation TDT 2004 New event détection et TREC 2004 Novelty Track, avec les mêmes métriques.
E-TRT-99
P
Le système HÉRISSON permet la détection de thèmes dans un document. Il s'agit d'annoter automatiquement les passages correspondant à un thème défini soit automatiquement par la machine soit par l'utilisateur ([E-EXP-25]). Cette fonctionnalité est évaluée selon le principe de l'évaluation TDT 2004 Topic Détection, avec la même métrique.
E-TRT-100
P
Le système HÉRISSON permet l'indexation d'un document texte sur ses méta-données.
E-TRT-101
P
Le système HÉRISSON permet l'indexation d'un document texte sur son contenu.
E-TRT-102
P
Le système HÉRISSON permet l'indexation d'un document texte sur les prétraitements automatiques effectués.
La section des traitements de données est la plus intéressante pour l'amateur de technique. Les systèmes de reconnaissance optique de caractères (OCR) se développent de plus en plus (de même parallèlement que leur contrepoint, les tests de Turing que sont les CAPTCHAs). Cela concerne tant les caractères dactylographiés (E-TRT-42) que les caractères manuscrits (E-TRT-40).
Le traitement des divers langages est complexe. Le fait que l'humanité possède différentes langues remonte selon la Bible à la construction de la Tour de Babel. Pour une fois que les humains vivaient en symbiose en vue d'un unique objectif, Dieu n'est pas content et les sépare. Aujourd'hui, la reconnaissance automatique d'une langue n'est pas une tâche aisée, tant sur le plan oral (E-TRT-13) qu'écrit (E-TRT-74).
Le système HÉRISSON possède une fonction de recherche simple dans les données qui utilise un ou plusieurs mots-clés sans contrainte entre eux.
E-EXP-11
P
Le système HÉRISSON permet la formulation de requêtes en langage naturel. On distinguera ces différents types de formulation : les questions fermées (qui ? où ? combien ? quand ? etc.), les requêtes appelant une liste (« les hôtels-restaurants de Tel-Aviv »), les demandes de définition (« Qui était René Dubos ? »), les questions qui laissent seulement la possibilité de répondre « oui / non / ne sait pas ».
E-EXP-21
I
Le système HÉRISSON permet de résumer un document texte en précisant une taille qui peut être soit :
- Un ratio de la taille initiale en pourcent,
- Un nombre de mots.
La fonctionnalité de résumé automatique est évaluée avec la métrique ROUGE selon les principes mis en œuvre dans l'évaluation NIST DUC.
E-EXP-32
S
Le système HÉRISSON permet de regrouper un ensemble de documents par thèmes (clustering) et de parcourir facilement les groupes de documents formés, en affectant des concepts permettant de discriminer les différents groupes de documents. Il est par exemple possible d'afficher ces groupes sous forme de graphe, et d'effectuer des zooms au sein d'un groupe en effectuant un nouveau clustering au sein du groupe.
E-EXP-42
P
Le système HÉRISSON permet de rechercher des images similaires à partir d'une image donnée. Cette fonctionnalité sera évaluée à l'aide des métriques rappel/précision.
E-EXP-48
P
Le système HÉRISSON possède une fonction qui permet de rechercher des images similaires dans une vidéo à partir d'une image donnée.
E-EXP-54
P
Le système HÉRISSON permet l'extraction automatique de réseaux (structuration de l'information, détection de relation).
La plate-forme HÉRISSON est en fait une intelligence artificielle à la Wolfram Alpha.
A noter que grâce à E-EXP-42, HÉRISSON serait très fort à pic2mov.
Chaîne de traitement
E-ACC-39
P
Des composants spécialisés de lecture ou d'écriture de données dans un fichier organisé de manière séquentielle sont également réalisables, ainsi qu'un composant d'accès à la liste des fichiers d'un répertoire. Ce contrôleur ne nécessitant pas d'entrée, cela permet de créer des chaînes de traitements totalement automatiques ou encore de paramétrer des traitements de manière générique.
Les exigences concernant la chaîne de traîtement sont de ce genre-là.
Structure organisationnelle
E-ORG-1
I
Les postes clients sont tous localisés sur le même site que le système HÉRISSON.
E-ORG-2
I
Les postes clients sont génériques et seul le profil d'un utilisateur (administrateur, architecte, évaluateur, exploitant) définit les fonctionnalités du poste ou l'utilisateur s'est identifié.
E-ORG-3
I
La plate-forme est constituée de 4 postes clients connectés au système.
4 postes clients, c'est peu.
Matériel
En résumé, le système doit pouvoir se connecter à Internet, lire des disquettes, etc.
Système d'audit
Cette section examine les procédures d'évaluation quantitative des performances de la plate-forme.
Développement
E-DEV-1
I
Les parties logiciels développées dans et pour le système HÉRISSON relevant de l'interface homme machine doivent être écrit a minima dans un langage interprété connu et ayant fait ses preuves (ex : JAVA).
E-DEV-2
I
Les parties logicielles développées dans et pour le système HÉRISSON ne relevant pas de l'interface homme machine sont écrites dans un langage compilé connu et ayant fait ses preuves (ex : C, C++), néanmoins certaines tâches pourront être effectué via des scripts (sous accord de l'administration).
E-DEV-3
I
Les développements sont basés et réutilisent au maximum les méthodologies, des bibliothèques, systèmes, issues de la communauté des sources ouvertes.
E-DEV-4
P
Le titulaire justifiera toute dérive par rapport à l'utilisation des outils issus des sources ouvertes.
E-DEV-5
I
La présentation du système doit être faite module par module, sous la forme d'un diagramme de composants, avec un texte explicatif.
L'implémentation de HÉRISSON ne manquera pas de soulever de nombreuses questions. E-DEV-1 et E-DEV-2 indiquent dans quels types de langages doit être programmé le système, sans pour autant préciser sous quelle forme doit être délivrée la plate-forme. Sous forme binaire l'administration prendrait un risque certain, sous forme de code elle serait réduite à réaliser elle-même sa compilation (avec tous les aléas associés).
L'unicité de HÉRISSON n'est pas non plus assurée, le titulaire pouvant en garder un clone, ce qui constituerait un détournement à usage privé.
Interface homme-machine
E-IHM-7
S
Le cheminement est clairement explicité et l'utilisateur disposer pour certaines actions de l'aide "d'assistants". L'utilisateur peut facilement savoir à quel niveau du logiciel il se situe et comment continuer son action.
E-IHM-15
I
L'utilisateur est averti de l'arrivée d'un nouveau message. Ce signal ne doit toutefois pas perturber l'action en cours. L'utilisateur connaît en permanence l'état des messages en attente, par exemple par une petite fenêtre que l'utilisateur peut positionner sur son écran et indiquant le nombre et la nature des messages en attente : niveaux d'urgence, type du message (pour validation, pour action,...), si besoin en indiquant le délai de traitement.
Sécurité matérielle
Le système doit être conforme aux normes civiles sur la sécurité du travail, etc.
Système d'aide intégrée
Le système doit comporter des manuels, didacticiels, services de tutorat, glossaires, etc. A aucun moment le cahier des charges ne fait mention d'une formation des utilisateurs.
Communication
E-COM-1
P
Le titulaire réalisera des plaquettes à l'occasion de chaque version du démonstrateur. Ces plaquettes auront la forme d'une feuille A4 recto verso (2 feuilles maximum si nécessaire), en couleur, combinant images et texte en part égales. L'objectif est d'exposer les points forts des travaux mis en évidence dans le cadre de la démonstration. 50 plaquettes seront fournies en français. Préalablement à l'impression des plaquettes, la maquette devra être validée par l'administration. De plus, une livraison des fichiers informatiques des plaquettes sera à fournir à chaque édition, au format original de l'outil ayant servi à les produire ainsi qu'au format PDF.
E-COM-2
P
De la même façon, le titulaire réalisera et mettra à jour à l'occasion de chaque version du démonstrateur un poster de taille A0, recto uniquement, à des fins de présentation des résultats lors de séances de type séminaire. Ce poster intégrera les conclusions des postes terminés au moment de son élaboration. 2 posters seront livrés (en français). De même qu'à l'exigence précédente, les fichiers informatiques seront à fournir pour chaque livraison de poster au format original de l'outil ayant servi à les produire ainsi qu'au format PDF.
E-COM-3
P
Par ailleurs, deux jeux de présentations devront être maintenus tout au long de l'étude et fournis à l'administration sur demande. Le premier sera fait à destination de décideurs et devra synthétiser les résultats majeurs de l'étude, sans entrer finement dans la technique. Le deuxième sera fait à destination de spécialistes techniques. Une présentation d'une heure et demie est à viser. Il est à noter que ces jeux de présentations seront fournis sur CD Rom, au format de l'outil Powerpoint de Microsoft compatible avec la version 97, et devront être faits en français et en anglais.
E-COM-4
P
Le titulaire devra prévoir différentes restitutions des résultats. Une première restitution sera effectuée à destination de personnels étatiques (DGA, producteurs et opérationnels) à l'occasion de l'achèvement de la réalisation du démonstrateur. Il s'agira de prévoir à chaque fois une restitution d'une demi-journée, avec la possibilité de réajuster cette durée à la baisse si l'administration la demande. Une deuxième restitution aura comme public des industriels. Les hypothèses à considérer sont les suivantes :
• Le titulaire communiquera sur les résultats de l'étude en utilisant le "kit de communication" ;
• Ces réunions ne mettront pas en cause le contour technique de l'étude et ne l'orienteront en rien.
• Pour toutes ces restitutions, les présentations devront être fournies à l'administration qui les
aura, au préalable, validées. Les dates de ces restitutions seront fixées par l'administration.
Support technique et garantie
Un support technique télephonique doit être assuré les jours ouvrés 9h-12h 14h-17h, etc.
Sécurité internet
E-SIN-1
I
Le système HÉRISSON intègre le résultat et les modifications nécessaires issues de l'étude 4.1 sur la «discrétion dans la collecte et dans la recherche sur Internet.
E-SIN-2
I
Le système doit utiliser dans la mesure du possible pour ses fonctions de sécurité des produits du commerce spécialisés dans les fonctions de sécurité.
E-SIN-3
I
Les échanges entre les postes clients et le système HÉRISSON doivent se faire via une connexion authentifiée et sécurisée.
E-SIN-4
P
Le système doit prendre en compte la problématique de la sécurité lorsque qu'un ordinateur est relié au réseau Internet (virus, chevaux de Troie, spam, attaque) et proposer et mettre en place les mesures nécessaires et suffisantes (antivirus, firewall...) pour garantir la sécurité du système.
E-SIN-5
P
Le système HÉRISSON bloque et supprime les virus et codes malveillants (virus, chevaux de Troie (trojan)..., spyware etc..) téléchargés ou activés lors de la collecte.
Moralité : quelqu'un qui envoie un fichier contenant un message quelconque ainsi que la signature d'un virus connu verrait la copie de son fichier rapatriée par le système supprimée sans qu'elle ne soit traitée. Merci E-SIN-5.
Gestion
Les personnes qui trouveraient la section "gestion" intéressante sont invitées à se faire connaître.
L'élégance du hérisson est remarquable, et cependant une interrogation demeure. Comme l'indique le 'O' du HÉRISSON, cet habile extracteur joue sur le terrain des sources ouvertes, c'est-à-dire des protocoles dans lesquels les données sont transmises en clair, ou du moins encodées d'une façon facilement lisible. D'un autre côté ce système tel qu'il est présenté s'avère complètement dysfonctionnel lorsque les données échangées sont cryptées1. Cela aurait tendance à conférer un aspect bisounours à cette machinerie sophistiquée, tant il semble patent que lorsque des informations sensibles sont en jeu, comme dans le cas hypothétique où de vils terroristes planifieraient une opération secrète contre une société, elles ne sont en général pas transmises de façon "ouverte". On peut remarquer ainsi dans le système :
l'absence totale de capacité à la détection d'un traitement de chiffrement éventuellement effectué sur les données rapatriées
l'absence totale (a fortiori) de capacité à décoder des données chiffrées
l'absence totale de recherche d'information dans un canal stéganographique (e.g. via TCP).
De ce fait l'utilité d'un tel système afin de recueillir des informations sensibles en temps réel s'avère discutable ; cependant il est concevable que HÉRISSON, sous réserve d'une capacité de stockage suffisante, soit performant pour retrouver a posteriori des informations provenant d'échanges publics datant d'une époque à laquelle les parties concernées ne jugeaient pas nécessaires qu'ils soient cryptés. Mais comme le système pourrait agir sur des données circulant en clair et serait en même temps impuissant face à des données cryptées, tous les groupes et individus préoccupés par la surveillance potentiellement exercée sur eux tout en menant des activités parfaitement légales vont non seulement recourir à des moyens techniques de protection, mais en plus encourager et faciliter la mise à disposition de tels moyens de protection à l'ensemble des utilisateurs des réseaux. Les individus intéressés uniquement par les techniques de contournement du système HÉRISSON agiront dans le même sens. Aux protocoles de messagerie instantanée chiffrée (jabber...) et systèmes d'échanges de fichiers chiffrés (kommute...) vont s'adjoindre une systématisation de l'utilisation du http sécurisé et du cryptage des e-mails. Une telle banalisation massive des échanges chiffrés plongerait selon toute probabilité les moniteurs des réseaux dans un certain embarras.
L'étape suivante logique du jeu du chat et de la souris entre les systèmes monitorant les réseaux et leurs utilisateurs est donc l'émergence très vraisemblable d'un quelconque système PORC-ÉPIC (Puissant Outil de Repérage et de Cryptanalyse d'Éléments Protégés et d'Informations Chiffrées, évidemment) à même de complémenter les fonctionnalités de son compagnon le HÉRISSON.
Conclusion
Pour finir, il convient par avance d'admirer l'extraordinaire discernement dont feront preuve les "clients" et les "exploitants" d'une plate-forme si puissante, qui montreront une prudence et un sens critique hors normes pour éviter de tirer des conclusions trop hâtives des informations fournies par le sympathique HÉRISSON. Car, la lectrice ou le lecteur le croira ou non, il est déjà advenu que la véracité d'informations présentes sur un réseau ait été mise en doute. La maestria avec laquelle les exploitants sauront patiemment démêler le vrai du faux au cours de leurs enquêtes plonge tout observateur dans la béatitude la plus émerveillée. Et ce n'est pas ironique.
Brazil : une erreur technique involontaire et la vie d'un homme bascule.
[1]
La cryptographie est un point souvent délicat pour les systèmes législatifs. Aux Etats-Unis certains protocoles de chiffrement sont considérés comme une arme, ce qui a entraîné l'interdiction du programme informatique PGP sur le territoire américain. Au Royaume Uni la troisième partie du Regulation of Investigatory Powers Act (RIPA) force les citoyens britanniques à révéler leur clef secrète en cas de demande judiciaire sous peine d'aller en prison. Curieusement, cette loi a engendré des situations étranges. Les possibilités techniques de chiffement multiple – où la divulgation d'une clef révèle une certaine information sans qu'il soit techniquement possible de savoir si l'utilisation d'une autre clef n'aurait pas mis en lumière une autre information – combinée au concept juridique de "dénégation plausible" (plausible deniability) ne sont évidemment pas pour arranger lesdits systèmes législatifs. La lectrice ou le lecteur intéressé(e) pourra consulter un recueil de différentes législations concernant la cryptographie.