Sans avoir recours à de coûteuses et incomplètes listes noires, l'analyse dynamique, ou analyse à la volée, permet de filtrer n'importe quel document numérique accessible en ligne, sur la totalité de l’Internet.
Une précision jamais atteinte, puisque l’analyse contextuelle (plus jamais de faux positifs, ni de pages inappropriées affichées sous les yeux de vos enfants) utilise des mots clés. Une efficacité de filtrage optimale, là où les listes noires sont dépassées et incapables de comprendre le contexte dans lequel sont employés les mots, ce qui entraîne des pages affichées ou bloquées à tord.
Un réel filtrage totalement dynamique et performant nécessite une compréhension du sens même des pages. C’est une vraie prouesse technologique face à la multiplicité des champs d'expertise nécessaires aux limites scientifiques des analyses automatiques et du Web sémantique.
Adamentium a développé trois véritables atouts technologiques :
- Un système d’analyse dynamique à la pointe de la technologie, que seules trois entreprises dans le monde maîtrisent, dont l’entreprise française Adamentium. Il intègre une analyse d’image qui permet de détecter des indices visuels dans chaque image du Web permettant d’identifier le caractère pornographique ou non des corps représentés. Voir notre analyse d'images.
- Une analyse multilingue d'une précision extrême : simplification linguistique par radicalisation, précision sémantique et recherche des co-occurrences.
- Un système voyant à large spectre éliminant beaucoup de faux positifs et négatifs : utilisation de classificateurs évolués et spécialisés par domaines, classification et isolement de clusters, recherche d'informations dans les graphismes (lecture des textes des boutons de navigation), analyse du contexte global de la page sur l'Internet et enfin analyse des photos.
Le filtrage totalement dynamique : la nouvelle génération de filtres internet
L'analyse dynamique examine à la volée et en temps réel le sens de l’ensemble des informations contenues dans la page demandée, avant même qu'elle ne soit affichée. Ainsi la totalité des pages présentes sur l’Internet peuvent être filtrées. Nous sommes bien loin des listes noires dépendantes de la présence ou non de l'URL. Aucune liste noire ne sera jamais exhaustive même avec de fréquentes mises à jour. Seule l'analyse dynamique offre une solution efficace et performante à long terme. Partant de ce constat nous n'avons pas cherché à catégoriser le Web mondial. Nous cherchions à connaître précisément le contenu de la page demandée par l'internaute.
Le filtrage dynamique se base sur un système apprenant : "Comme un chien policier à qui nous apprenons à flairer un type de contenu sur le web. Il doit marquer chaque page inappropriée, qu'elle soit sur un serveur d'hébergement d'un fournisseur d'accès ou qu'elle transite sur le réseau."
C’est l’innovation majeure des systèmes de filtrage web. Mais le niveau technologique nécessaire est très important, et seuls quelques acteurs au niveau mondial sont aujourd'hui capables de le réaliser.
En effet, l'analyse syntaxique et sémantique ne sont plus là pour pallier les manques d'une liste noire, mais pour déterminer précisément le sens de la page web. Cette solution intelligente nécessite les dernières avancées en matière d'intelligence artificielle et de traitement automatique du langage naturel (TALN). Le logiciel commence par apprendre un type d'information sur une fraction significative de pages Web en laboratoire (une catégorie de contenu par exemple). Puis, il analyse la page demandée par l'utilisateur et va détermine à quelle catégorie elle appartient. Enfin, il prend la décision qui s'impose en affichant ou non la page à l'écran. Il faut aussi intégrer l’analyse des images des pages Web : certaines comportent trop peu d'éléments pour assurer une bonne analyse sans tenir compte d'éléments de compréhension liés aux images.
Ce savoir faire n'est pas basé sur la simple occurrence de mots Le résultat de classification n'est pas une "supposition" du contenu, mais une évaluation fine éliminant tout surblocage. Un simple filtre textuel et syntaxique ne peut faire la différence entre deux pages utilisant le mot "sexe" dans différents contextes. Le contenu de certains sites de prévention et d'information pour les adolescents peut être considéré à tord comme à caractère pornographique.