AutreCikisi

Pourquoi un outil de Data Web Mining ?

Pourquoi un outil de Data Web Mining ?

Avez-vous déjà eu l’impression de passer à côté d’informations importantes pendant la recherche ?

Avez-vous déjà douté que les données recherchées pourraient se trouver dans un coin caché du Web ? Pourtant inaccessible pour vous ?

Vous souhaitez vous assurer d’avoir accès aux résultats de recherche les plus fiables et les plus précis ?

Les outils d’exploration de Data Web Mining sont une solution efficace. Ils vous permettent d’optimiser votre temps, de vous rapprocher de l’exhaustivité et de confirmer de l’abondance ou de l’absence d’informations sur vos sujets. 

Depuis 2016, Cikisi optimise la recherche d’informations et le cycle de l’information stratégique au sein des entreprises qu’elle équipe et conseille. Pour toutes démarches de veille, Cikisi automatise l’exploration et la recherche d’informations, sur le web de surface et le web profond, peu importe la langue. Mais qu’est-ce que le Data Web Mining et pourquoi devez-vous investir dans ces technologies ?  

Le Web Mining consiste à utiliser des techniques et algorithmes d’exploration de contenus provenant directement du Web de surface et Web profond pour en extraire des données qui peuvent être complétées par des informations attendues par les équipes métiers (innovation, marketing, recherche, direction, etc.). 

Qu’est-ce que le Web Visible ?  

Le web visible désigne l’ensemble des pages et des sites accessibles par les moteurs de recherche et indexés dans leurs résultats. Il constitue la partie du web qui peut être facilement trouvée et consultée par les utilisateurs via des moteurs de recherche connus comme Google, Bing, Yahoo, Ecosia, Quant, etc. 

Web Invisible, la partie cachée

Si le web visible est constitué de l’ensemble des pages du Web, indexées par des moteurs de recherche publics, ce dernier ne représente qu’une infime partie des données du Web (pages, documents, vidéos, images, etc.). Les experts estiment que la partie accessible du Web par ces moteurs est de l’ordre de 4 à 6 % de l’ensemble des données disponibles

Le web invisible ou web profond est constitué des documents web mal ou non indexés par les moteurs de recherche généralistes. En effet, le fonctionnement des moteurs pour crawler le web implique, d’une part, que les pages soient correctement liées entre elles et que, d’autre part, elles soient identifiables par les robots du moteur. Or dans certains cas, le parcours et l’identification de pages est difficile, voire impossible.  

Raisons pour lesquelles une partie du web n’est pas accessible aux moteurs de recherche classiques :

  • Les pages ou sites sont protégés par des balises méta qui peuvent stopper les robots ou alors ils sont avec un fichier robot.txt.  
  • Les documents ou bases de données sont trop volumineux pour être entièrement indexés. Les moteurs conventionnels n’indexent donc pas la totalité des contenus de plusieurs milliers de bases de données.
  • Les sites générant des pages dynamiques (par le biais de requêtes par exemple) ne possèdent souvent pas d’URL statique différenciant un contenu d’un autre.   
  • Les pages sont mal liées entre elles ou sont orphelines, c’est-à-dire qu’aucun lien présent sur d’autres pages ne pointe vers elles.  
  • Les pages sont protégées avec une authentification par identifiant et mot de passe, ce qui est le cas pour des contenus payants.  



Cette partie du Web, pourtant la plus vaste, est peu exploitée pour la recherche d’informations. Du simple fait qu’elle requiert des outils d’extraction tel que le Web Mining mais aussi des outils d’analyse adaptés. 

Le Web Mining

Cikisi a mis au point une technologie de fouille d’informations pilotée par des robots web intelligents (ou smart web bots). Le parcours des robots sur les pages et sur le web est autonome et pilotable selon différentes stratégies de recherche d’informations. 

Le robot effectue une préanalyse de l’information qui a pour effet d’améliorer la pertinence des résultats et de minimiser le bruit. En tant qu’analyste, en combinant cette approche avec des bouquets de sources déjà connus (approche plus déterministe), vous êtes beaucoup plus sûr de vos résultats. 

La possibilité d’explorer le web profond assure aux veilleurs de ne plus passer à côté d’une information clé qui n’aurait pas été indexée par un moteur classique.

Une exploration en profondeur est possible grâce à des plateformes telle que celle de Cikisi et vous donne plusieurs avantages :  

  • Automatiser vos recherches d’informations pour la prospective par l’exploration Web Mining
    Vous pourrez récolter l’ensemble des informations dont vous avez besoin dans le cadre de la recherche d’informations prospectives. Les smart web bots de Cikisi sont fiables, rapides et autonomes. Vous pouvez donc traiter des demandes d’informations de dernière minute. Aussi bien sur des sujets que vous connaissez peu, voire pour lesquels vous n’avez pas encore les bonnes sources d’informations ! 

  • Avoir confiance en ses données
    L’absence de résultats avec le logiciel Cikisi est bel et bien un résultat. C’est un point que nos clients plébiscitent ! Nos robots fouillent en continu, ce qui permet d’être alerté si de nouvelles informations paraissent sur des sources non surveillées. L’absence de résultats confirmée par le logiciel est très utile pour des questions de propriété intellectuelle, de rumeurs, de désinformations et donc de stratégies vis-à-vis de vos concurrents.  

  • Capter des informations rares, c’est-à-dire non disponibles sur le web visible
    Nos clients peuvent décrypter la roadmap de leurs concurrents et de leurs fournisseurs à l’aide d’informations sur le web profond, trouver des documents permettant d’attaquer l’antériorité d’un brevet, identifier des photographies très haute définition de produits, des listes d’acteurs, des plans, des cas de fraudes produits… qu’ils n’auraient pas pu avoir en passant par une simple recherche Google. 

  • Élargir sa vision et son sourcing avec le Web Mining
    Cikisi alimente vos sujets de veille en indexant des documents aussi issus de sources méconnues. Vous pourrez alors élargir votre sourcing et identifier de nouvelles sources pour vos bouquets de sources thématiques et internationaux.


L’outil de Web Mining Cikisi permet donc de collecter plus d’informations, mais aussi de préanalyser cette vaste quantité de contenus. Pour comprendre pleinement les tendances, nouveaux entrants et signaux faibles qui émergent de cette veille, Cikisi a développé ses propres outils d’analyse et de visualisation de données. L’analyse automatique des données vous donne aussi accès à des livrables dynamiques : tel que la cartographie relationnelle ou les tableaux de bord interactifs.  

Autant d’outils qui aideront vos projets de veille prospective depuis l’identification de sources, en passant par la collecte jusqu’au partage d’une information structurée et analysée. Et n’oubliez pas que pour être sûr qu’un manque d’information soit bien un résultat tangible, vous avez besoin de Cikisi.    




Envie de découvrir la solution ?

Libérez la puissance
des informations stratégiques

Camera Icon Réserver une démo