Dataschrapen is een populaire methode geworden om gegevens van het web te verzamelen. Het proces bestaat uit het gebruik van softwaretools om informatie van websites te halen en deze op te slaan in een gestructureerd formaat voor latere analyse of gebruik.
Hoewel scraping veel voordelen heeft en er tools zijn die het min of meer eenvoudig maken om aan data harvesting te doen, is scraping niet zonder risico's en verborgen kosten voor bedrijven die deze vorm van data harvesting improviseren.
In dit artikel deelt Marc Wahba (medeoprichter en CTO van Infobel) zijn ervaring met data scraping. Hij laat het je zien:
Uiteindelijk zult u de fundamentele verschillen begrijpen tussen gegevens die online te vinden zijn en gegevens die beschikbaar zijn op gespecialiseerde platforms zoals Infobel Pro.
Er is een groot verschil tussen de gegevens die Infobel Pro aanbiedt en wat er meestal op internet te vinden is.
Op het web is er veel door gebruikers gegenereerde inhoud of inhoud die automatisch wordt gegenereerd door bepaalde platforms.
Op LinkedIn of Google My Business bijvoorbeeld kan iedereen inhoud creëren om zichtbaar te zijn. Gebruikers maken het wanneer ze hun activiteit of bedrijf bekend willen maken. Maar als hun bedrijf failliet gaat, blijft deze inhoud online staan zonder dat iemand het kan verwijderen (of eraan kan denken om dat te doen).
Het is een beetje zoals het opt-in principe: iemand geeft zijn toestemming, maar als hij sterft, kan hij zich niet terugtrekken.
Op LinkedIn bestaat ongeveer 25% van de huidige bedrijfsgegevens niet meer of heeft nooit bestaan. Op diensten zoals Google My Business of Google Maps kun je bedrijven vinden die jaren geleden failliet zijn gegaan. Je kunt zelfs bedrijven vinden die al meer dan 10 jaar gesloten zijn op het platform van een van Europa's grootste beoordelingsspecialisten.
Om deze problemen te vermijden, controleert Infobel zijn gegevens aan de hand van datafeeds die gebaseerd zijn op registraties bij kamers van koophandel.
In België is het bijvoorbeeld mogelijk om bij de Kruispuntbank van Ondernemingen onmiddellijk te weten te komen wanneer een bedrijf wordt geliquideerd of failliet gaat. Deze informatie is ook zeker en onherroepelijk.
Wanneer User Generated Content op zichzelf staat, geeft het dus niet aan of de informatie nog geldig is of niet. Daarom is het belangrijk om deze inhoud te vergelijken met officiële gegevens. Door deze twee bronnen te koppelen, kun je zeer krachtige gegevens verkrijgen.
Er is veel scrapbare en verzamelbare data beschikbaar op de markt.
Je vindt bijvoorbeeld miljoenen bedrijfsgegevens op een site als Infobel. Maar dat betekent niet dat je deze gegevens kunt scrapen (in feite is het oogsten van deze gegevens in strijd met de algemene voorwaarden).
Er worden ook gegevens verzameld op DNS om de lijst van domeinnamen te verkrijgen die geregistreerd zijn in België of Frankrijk, maar deze gegevens zijn vaak onvolledig en moeilijk te gebruiken in hun huidige vorm.
Scraping lijkt dus gratis, maar in werkelijkheid vereist het de ontwikkeling van dure technieken zoals :
Om grote hoeveelheden gegevens te verkrijgen, zijn de kosten van scraping vaak hoger dan die van het gebruik van een serviceprovider (zoals Infobel Pro) om goede gegevens te verkrijgen.
Er is een breed scala aan schrapbare en verzamelbare gegevens beschikbaar op de markt.
Zoals hierboven uitgelegd, zijn geschraapte gegevens vaak onvolledig, verouderd of zelfs ronduit verkeerd, en moeten ze achteraf nog worden verrijkt.
Mensen die scrapen denken vaak dat ze geld besparen, maar in werkelijkheid verspillen ze tijd en geld door gegevens van slechte kwaliteit te produceren. Uiteindelijk schakelen ze vaak dienstverleners in om gegevens van goede kwaliteit te verkrijgen.
In India zijn er bijvoorbeeld mobiliteitsgegevens beschikbaar voor de hele wereld, inclusief België, die de bewegingen van elk apparaat kunnen identificeren.
Dit levert echter een probleem op voor de bescherming van persoonsgegevens, want zelfs als de gegevens geanonimiseerd zijn, blijft de ID van het toestel circuleren. Als deze ID in verband kan worden gebracht met een persoon of een telefoonnummer, is de informatie niet langer vertrouwelijk en is het mogelijk om de bewegingen van die persoon te volgen.
Naleving van regelgeving is een van de grootste problemen bij scraping. Het ophalen van gegevens en het voeren van een campagne gericht op individuele profielen is een overtreding van de GDPR, zelfs voor gegevens die op LinkedIn als openbaar worden beschouwd.
Hoewel scraping een populaire methode is om gegevens op het web te verzamelen, is het belangrijk om de risico's en verborgen kosten van deze praktijk te begrijpen.
Steeds meer mensen willen gegevens kopen of toegang krijgen tot gegevens van betrouwbare en veilige bronnen.
De gegevens die beschikbaar zijn op gespecialiseerde platforms zoals het onze, zijn voor meer dan 95% van hoge kwaliteit, worden in realtime bijgewerkt en kunnen tegen betaalbare prijzen worden opgevraagd of gekocht.
Sinds 1994 verzamelen we gegevens dankzij een team van specialisten die voortdurend worden getraind in de nieuwste technieken en wetgeving met betrekking tot online gegevensverzameling. Hierdoor kunnen wij u uitgebreide, hoogwaardige en actuele databases bieden.