En 2011, les spécialistes de l’École des hautes études en sciences économiques (Moscou) ont développé, conjointement avec des chercheurs européens, un programme informatique permettant d’analyser une masse de textes non-structurés. Il peut servir à résoudre différents problèmes, mais son application la plus intéressante est de détecter les pédophiles dans les chats (conversations en ligne, ndlr) sur Internet.
Actuellement, le programme est utilisé par la police d’Amsterdam. Le nom du logiciel reste secret, tout comme certains détails de son utilisation.
Qu’est qu’un « pédophile » du point de vue de l’ordinateur ?
Le logiciel développé par les chercheurs russes analyse le contenu des chats pour détecter une utilisation fréquente du vocabulaire à caractère sexuel. Ainsi, les policiers obtiennent une représentation visuelle des liens entre les interlocuteurs, le vocabulaire utilisé et les agissements potentiels à caractère sexuel. C’est un criminaliste en chair et en os qui en tire des conclusions.
Le programme contient au moins six grands composants. Le composant russe ajuste l’analyse de la masse de textes à partir de notions formelles (Formal Concept Analysis). Il permet de réunir les informations dans un diagramme en treillis – un diagramme visuel pratique. Actuellement, ce composant fait partie du système automatisé de recherches scientifiques Formal Concept Analysis Research Toolbox (FCART).
« La base de données formalise les notions du point de vue de l’ordinateur : qu’est-ce qu’un pédophile, un crime, des avances ou une rencontre personnelle », explique Alexeï Neznanov, directeur de recherche du laboratoire des systèmes intellectuels et d’analyse structurel à l’École des hautes études en sciences économiques. « Ainsi, nous avons aidé à transmettre à l’ordinateur les connaissances des experts-criminalistes, qui peuvent désormais déterminer les caractéristiques recherchées des textes à partir de diagrammes. Auparavant, ils étaient contraints de lire et d’analyser la quasi-totalité des textes dans les sessions de chat ».
Les criminels utilisent également LOL
Le programme est capable de retrouver le criminel même s’il utilise différents acronymes - pour cela il se base sur les similitudes dans l’usage des mots. Ainsi, le programme analyse différentes sessions de chat pour déterminer l’ordre dans lequel les différents fragments du texte ont été créés, ainsi que leur ordre temporel. Cette fonction a été développée par des chercheurs belges et néerlandais.
Au cours de la création du programme, les développeurs ont dû prendre en compte les particularités des chats sur Internet. « Nous avons dû inscrire dans la base de données les noms argotiques des différentes parties du corps, le jargon, les abréviations d’une partie du mot au moyen d’un chiffre (comme 2 pour de), ainsi que les acronymes standards comme LOL et les fautes d’orthographe les plus répandues », explique M. Neznanov.
Par ailleurs, il a fallu sécuriser les chats professionnels. « Un exemple classique – les chats des photographes qui discutent des sessions de photos des groupes d’enfants lors des sorties nature », explique Alexeï Neznanov. « Pour ce genre de cas, nous avons dû préciser la notion "requête de photos et vidéos" qui prend en compte le fait que la plupart des photographes ne sont pas des pédophiles ».
Comment démasquer un pédophile russe ou français ?
Le programme a été testé sur la masse américaine de textes de la société de lutte contre la pédophilie, ainsi que sur les données de formation sur les crimes réellement commis. Outre les sessions de chat, il peut être utilisé pour d’autres textes sur Internet, notamment sur les réseaux sociaux.
Le programme scanne les chats publics des membres mineurs d’un réseau avec l’autorisation de leurs parents. Les chats privés sont traités par des policiers sous couverture, les sessions de chat sont alors conservées dans les bases de données de la police.
Actuellement, le programme est capable d’analyser l’anglais, le néerlandais et l’allemand. Les chercheurs n’ont pas travaillé sur d’autres langues comme le russe. Ils expliquent que pour le russe, le français et plusieurs autres langues, on manque actuellement d’outils accessibles et de niveau adéquat dans le domaine de la linguistique informatique.
Dans le cadre d'une utilisation des contenus de Russia Beyond, la mention des sources est obligatoire.
Abonnez-vous
gratuitement à notre newsletter!
Recevez le meilleur de nos publications directement dans votre messagerie.