Le data scraping est devenu une méthode populaire pour collecter des données sur le Web. Le processus consiste à utiliser des outils logiciels pour extraire des informations de sites web et à les stocker sous un format structuré pour une analyse ou une utilisation ultérieure.
Bien que le scraping présente de nombreux avantages et que des outils permettent de plus ou moins facilement se lancer dans la récolte de données, faire du scraping n’est pas sans risques et sans coûts cachés pour les entreprises qui improvisent ce genre de récolte de données.
Dans cet article, Marc Wahba (co-fondateur et CTO d’Infobel) partage son expérience en matière de scraping de données. Il vous montre :
En définitive, vous comprendrez les différences fondamentales entre les données qu’on peut trouver en ligne et celles qui sont disponibles sur des plateformes spécialisées comme Infobel Pro.
Il y a une différence majeure entre les données que Infobel Pro propose et ce qui se trouve habituellement sur Internet.
Sur le web, on trouve beaucoup de contenus générés par les utilisateurs (on parle d’User Generated Content) ou du contenu généré automatiquement par certaines plateformes.
Par exemple, sur LinkedIn ou sur Google My Business, chacun peut créer du contenu pour être visible. L'utilisateur le crée au moment où il a besoin de faire connaître son activité ou son entreprise. Mais si son entreprise fait faillite, ce contenu restera en ligne sans que personne ne puisse le supprimer (ou que personne ne pense à le faire).
C'est un peu comme le principe de l'opt-in : quelqu'un donne son consentement, mais s’il décède, il ne peut pas faire d'opt-out.
Sur LinkedIn, environ 25% des fiches d'entreprises actuelles n'existent plus ou n'ont jamais existé. Sur des services tels que Google My Business ou Google Maps, on peut trouver des entreprises qui ont fait faillite depuis plusieurs années. On peut même trouver des sociétés qui ont fermé depuis plus de 10 ans sur la plateforme d'un des leaders spécialisés dans les reviews, en Europe.
Afin d’éviter ces problèmes, Infobel vérifie ses données en utilisant des flux de données basés sur les enregistrements auprès des chambres de commerce.
Par exemple, en Belgique, à la Banque-Carrefour des Entreprises, il est possible de savoir immédiatement lorsqu’une entreprise est liquidée ou fait faillite. Cette information est en plus certaine et irrévocable.
Ainsi, lorsque le User Generated Content est seul, il n’indique pas si l’information est toujours valide ou non. C’est pourquoi il est important de comparer ce contenu avec les données officielles. En rattachant ces deux sources, on obtient des données très puissantes.
Il existe de nombreuses données “scrapables” et collectables disponibles sur le marché.
Par exemple, vous trouverez des millions de données d'entreprises sur un site comme Infobel. Mais ce n’est pas pour cela que vous pouvez scraper ces données (en effet, la récolte de ces données est contraire aux conditions générales).
Par ailleurs, il existe également des données collectées sur les DNS pour obtenir la liste des noms de domaine enregistrés en Belgique ou en France, mais ces données sont souvent incomplètes et difficiles à exploiter telles quelles.
Donc, le scraping peut sembler gratuit, mais en réalité, il nécessite le développement de techniques coûteuses telles que :
Pour obtenir de grands volumes de données, le coût du scraping est souvent supérieur à celui de s'adresser à un prestataire (comme Infobel Pro) pour obtenir de bonnes données.
Il existe de nombreuses données scrapable et collectables disponibles sur le marché.
Comme expliqué précédemment, les données scrapées sont souvent incomplètes, dépassées, voire carrément fausses., et nécessite malgré tout un enrichissement par la suite.
Les personnes qui font du scraping pensent souvent économiser de l'argent, mais en réalité, elles perdent du temps et de l'argent en produisant des données de mauvaise qualité. Finalement, ils finissent souvent par faire appel à des prestataires pour obtenir des données de qualité.
Par exemple, il existe des données sur la mobilité disponibles en Inde pour le monde entier, y compris en Belgique, qui permettent d'identifier les mouvements de n'importe quel appareil.
Cependant, cela pose un problème en termes de protection des données personnelles, car même si les données sont anonymisées, il y a toujours l'ID du téléphone qui circule. Si cet ID peut être associé à une personne ou à un numéro de téléphone, les informations ne sont plus confidentielles et il est possible de suivre les mouvements de cette personne.
Le respect des réglementations est l'un des plus gros problèmes du scraping. Récupérer des données et faire une campagne ciblant des profils individuels est une infraction à la GDPR, même pour des données considérées comme publiques sur LinkedIn.
Bien que le scraping soit une méthode populaire pour collecter des données sur le web, il est important de comprendre les risques et les coûts cachés associés à cette pratique.
De plus en plus de personnes souhaitent acheter ou accéder à des données provenant de sources fiables et sûres.
Les données disponibles sur des plates-formes spécialisées comme la nôtre sont des données d'une qualité supérieure à 95 %, mises à jour en temps réel, et vous pouvez y accéder ou les acheter à des prix abordables.
Depuis 1994, nous collectons des données grâce à une équipe de spécialistes formée en continu sur l'évolution des techniques et des législations liées à la récolte de données en ligne. Cela nous permet de vous proposer des bases de données complètes, qualitatives et à jour.