Infobel Pro Blog | B2B-gegevens, Marketing & Verkoop, Tips, Nieuws

Deduplicatie en ontdubbeling van gegevens om uw database te verbeteren

Geschreven door Marc Wahba | Dec 1, 2022 2:15:00 PM

Overbodige gegevens zijn een plaag voor uw database. Dubbele gegevens zadelen uw bedrijf op met een slecht imago. Want per ongeluk verschillende keren dezelfde persoon bellen … Professioneel is dat niet! Dubbele gegevens maken uw database zwaar en verhogen de back-upkosten. Ze kunnen ook uw rapporten vertekenen, omdat één klant op verschillende plaatsen terugkomt. Om uw database én uw bedrijf gezond te houden, zult u uw gegevens dus zo vaak mogelijk moeten ontdubbelen.


Deduplicatie en ontdubbeling: wat is het verschil?

Gegevens dedupliceren of ontdubbelen is niet hetzelfde. Beide handelingen hebben wel tot doel overbodige gegevens in uw databases te vinden, te schrappen en samen te voegen.

  • Deduplicatie - Deduplicatie is het opsporen van identieke gegevens in meerdere bestanden. We spreken in dit geval van gedupliceerde gegevens.
  • Ontdubbeling - Ontdubbeling is het opsporen en verwijderen van identieke gegevens in hetzelfde bestand. We spreken dan van dubbele informatie.

Hoe verwijdert u overbodige informatie uit uw bestanden?

Dubbele informatie en gedupliceerde gegevens aanpakken, lijkt huzarenwerk. Hoe groter uw gegevensvolume, hoe langer en moeilijker deze taak zal zijn. Dedupliceer en ontdubbel in 3 stappen: normaliseren, consolideren, en handmatig of automatisch controleren.


Gegevens normaliseren

Overbodige gegevens zijn vaak te wijten aan niet-genormaliseerde informatie.


U vindt in uw databases vast wel klanten die meermaals terugkomen door invoer- of importeerfouten:

  • typefouten
  • speciale tekens die verloren gaan tijdens de omzetting van de ene bron naar de andere
  • verschillende formaten voor datums, telefoonnummers, adressen, …
  • het gebruik van afkortingen
  • enz.

Bepaal normalisatieregels en pas die toe op alle velden van uw database.


Gegevens consolideren

Informatie over uw klanten en prospects in meerdere bestanden bewaren? Dat is vragen om problemen! Groepeer al uw gegevens op één plaats. Kies voor een CRM of een meer complex systeem voor databasebeheer, afhankelijk van uw noden. Met de huidige software kunt u de gegevens zelfs zonder grote computerkennis gemakkelijk gebruiken. Na een korte opleiding kunnen al uw werknemers ermee aan de slag gaan.


Handmatige behandeling of automatische dienst

Nadat u al uw gegevens hebt genormaliseerd en samengevoegd kunt u de jacht op overbodige informatie voor geopend verklaren. Hiervoor hebt u twee mogelijkheden: een handmatige controle of een gespecialiseerde tool.


Als u voor de manuele methode kiest, kunt u gewoon een spreadsheet zoals Excel gebruiken. Op deze manier kunt u een klein gegevensvolume verbeteren. Maak voor grotere bestanden SQL-query's om dubbele rijen op te sporen en samen te voegen.


Uw database rijtje per rijtje controleren is een vervelend klusje, zelfs met goede SQL-query's. Ondernemingen gespecialiseerd in de verbetering van databases kunnen u helpen. Ze bieden namelijk diensten voor de opschoning en verrijking van bestanden.


Laat herhalingen en dubbele gegevens de kwaliteit van uw database niet schaden. Doe hier iets aan, vóór deze overbodige informatie een weerslag krijgt op uw business. Normaliseer uw gegevens, consolideer uw bestanden, spoor dubbele lijnen op, schrap ze of voeg ze samen. Alleen zo kan uw database een onmisbare bondgenoot voor de groei van uw onderneming blijven.