Web scrapen voor auteursrechthandhaving: risico onder de AVG?

Sinds vele jaren bieden gespecialiseerde bedrijven aan fotografen en fotoagentschappen diensten aan om online inbreuken op auteursrechten op te sporen, stop te zetten, en vergoedingen te claimen voor dergelijke inbreuken. Hoewel het beschermen van intellectuele eigendomsrechten natuurlijk een legitiem doel is, roepen de methoden van grootschalig web scrapen of crawlen die sommige van deze bedrijven gebruiken, juridische vragen op.

In eerdere blogposts bespraken we hoe men kan reageren op auteursrechtclaims van dergelijke bedrijven en gaven we een overzicht van de algemene principes van auteursrechten op foto’s, met verwijzing naar een specifieke Belgische gerechtelijke uitspraak. Dit artikel focust op het gebruik van massale web scraping tools voor de online bestrijding van auteursrechtinbreuken en hoe deze praktijken problemen oproepen onder de Algemene Verordening Gegevensbescherming (AVG of GDPR), in het bijzonder wat betreft de basisprincipes van gerechtvaardigd belang, dataminimalisatie, transparantie, en de mogelijke gedeelde verantwoordelijkheid van klanten die deze diensten inschakelen.

 

Twee methoden voor vaststellen online auteursrechtinbreuken

In grote lijnen bestaan er twee modellen om online inbreuken op auteursrechten op foto’s op te sporen:

1. Grootschalig web scrapen en indexeren:

Bij deze methode bouwen dienstverleners hun eigen index of private databank op door grote delen van het internet te downloaden en op te slaan om zo ‘matches’ te detecteren (d.w.z. gevallen waarin de foto’s van een klant online worden gebruikt). Dit omvat doorgaans het grootschalig opslaan van afbeeldingen (vaak met identificeerbare personen), teksten (waaronder namen en contactgegevens van natuurlijke personen), IP-adressen en andere gegevens.

2. Gerichte opzoekingen via openbare databanken:

Bij deze tweede methode gebruiken dienstverleners openbare zoekmachines zoals Google Afbeeldingen om omgekeerde beeld-zoekopdrachten uit te voeren en zo na te gaan waar foto’s van klanten worden gebruikt. Bij een mogelijke auteursrechtinbreuk wordt dan doorgaans slechts een specifiek deel van de website gedownload, niet de gehele site.

De eerste methode roept meer en meer vragen op. In vergelijking met de meer gerichte tweede aanpak — waarbij sprake is van ‘post factum’ verwerking van specifieke gegevens — betreft de eerste methode een ‘ante factum’ grootschalige verzameling en opslag van gegevens. Dit artikel richt zich op de juridische risico’s verbonden aan de eerste methode. Helaas maken veel van deze dienstverleners niet bekend welke methode ze gebruiken, wat leidt tot onzekerheid bij zowel internetgebruikers als hun eigen klanten.[1]

 

Nederlandse Autoriteit Persoonsgegevens: Gerechtvaardigd belang geen grondslag voor grootschalig web scrapen

Op 2 april 2025 publiceerde de Nederlandse Autoriteit Persoonsgegevens (AP) gedetailleerde richtlijnen over web scrapen of crawlen door private organisaties (zie Handreiking scraping door particulieren en private organisaties). Hoewel dit document niet beperkt is tot scraping voor auteursrechtenhandhaving en ook andere toepassingen zoals AI-training bespreekt, bevat het belangrijke conclusies die relevant zijn in de context van de online bestrijding van auteursrechtinbreuken.

De Autoriteit Persoonsgegevens concludeerde: “Scraping van persoonsgegevens op internet maakt al snel een grote inbreuk op het recht op bescherming van persoonsgegevens van degenen van wie de gegevens worden gescrapet. Willen private organisaties en particulieren scraping of gescrapete persoonsgegevens gebruiken? Dan moet dit gebruik voldoen aan de beginselen en eisen die de AVG stelt.”

De Autoriteit Persoonsgegevens stelde met name dat web scrapen moeilijk, zo niet onmogelijk, te rechtvaardigen is op basis van het gerechtvaardigd belang (artikel 6, lid 1, sub f AVG): “Bij scraping of het gebruik van gescrapete gegevens zal het in veel gevallen lastig zijn om aan het beginsel van rechtmatigheid te voldoen.

Niet alleen moet het doel legitiem zijn, ook moeten de gegevensverwerkingen noodzakelijk en proportioneel zijn. In het kader van auteursrechthandhaving zal het doel doorgaans legitiem zijn, maar het massaal verzamelen en opslaan van gegevens — waaronder beelden en persoonsgegevens die geen verband houden met een concrete auteursrechtinbreuk — zal waarschijnlijk niet voldoen aan de vereisten van noodzakelijkheid en proportionaliteit.

De Autoriteit Persoonsgegevens merkte terecht op: “In algemene zin geldt: hoe breder de scraper zoekt, hoe groter de inbreuk op de persoonlijke levenssfeer van de betrokkenen.” Daarbij werd benadrukt dat wanneer personen redelijkerwijs niet verwachten dat hun persoonsgegevens worden gescrapet, hun privacybelang zwaarder zal wegen dan het belang van de scraper of diens klanten.

Met andere woorden: gerechtvaardigd belang zal vaak geen geldige grondslag vormen voor dergelijke grootschalige crawling- en verwerkingsactiviteiten. De Autoriteit Persoonsgegevens voegde daaraan toe dat ook de andere rechtsgronden voorzien in artikel 6, lid 1 AVG — toestemming van de betrokkene, uitvoering van een overeenkomst, wettelijke verplichting, vitale belangen en taak van algemeen belang/openbaar gezag — in deze context over het algemeen niet van toepassing zullen zijn.

 

Dataminimalisatie: basisprincipe van de AVG

Het beginsel van minimale gegevensverwerking of dataminimalisatie (artikel 5, lid 1, sub c AVG) vereist dat slechts de gegevens worden verzameld die noodzakelijk zijn voor een specifiek doel. Het lijkt ons dat massaal scrapen van grote delen van het internet — inclusief volledige websites, afbeeldingen van identificeerbare personen, IP-adressen, namen en contactgegevens — vrijwel onvermijdelijk leidt tot buitensporige verwerking van persoonsgegevens. Dit kan zelfs gevoelige persoonsgegevens betreffen, zoals beelden van kinderen of andere bijzondere persoonsgegevens.

Het Europees Hof van Justitie (HvJ-EU) heeft geoordeeld dat zelfs bij legitieme doeleinden de gegevensverwerking binnen strikt noodzakelijke grenzen moet blijven (zaak C-175/20, Rīgas satiksme). De Richtlijnen 4/2019 van de ‘European Data Protection Board’ (EDPB) over gegevensbescherming door ontwerp en standaardinstellingen (‘data protection by design and by default’) benadrukken ook de verplichting om enkel persoonsgegevens te verwerken die noodzakelijk zijn voor het specifieke doel.

Ook de ‘European Data Protection Supervisor’ (EDPS) uitte in zijn ‘Orientation for data protection compliance when using Generative AI systems’ bekommernissen over scrapingpraktijken, met name de grootschalige verzameling van gegevens van websites ten behoeve van AI-training. Deze spitsen zich toe op potentiële schendingen van de principes van minimale gegevensverwerking en juistheid van de verwerkte gegevens.

Kortom, het grootschalig verwerken van websites, inclusief beelden waarop natuurlijke personen zichtbaar zijn en andere persoonsgegevens van niet-betrokken derden, lijkt onverenigbaar met het beginsel van dataminimalisatie — zeker wanneer er minder ingrijpende, gerichte methoden bestaan om online auteursrechtinbreuken te bestrijden (zoals de tweede methode hierboven).

Transparantie bij crawlen en indexeren van het Internet

Een ander belangrijk aandachtspunt is het gebrek aan transparantie over deze internetcrawling-activiteiten (artikel 5, lid 1, sub a AVG). Veel scrapingdiensten informeren de betrokkenen niet of onvoldoende dat hun persoonsgegevens — zoals hun beelden — worden verzameld, opgeslagen en verwerkt. Deze scraping- en opslagactiviteiten worden doorgaans niet vermeld op hun websites, bijvoorbeeld in hun privacyverklaring of algemene voorwaarden.[2] Zelfs als dit wel gebeurt, is de informatie vaak onvoldoende om de betrokkenen daadwerkelijk in te lichten.

Dit gebrek aan transparantie is des te problematischer gezien de omvang en de impact van deze gegevensverwerking. Dit lijkt in strijd met de artikelen 13 en 14 AVG, die verplichten om de betrokkenen te informeren wanneer hun persoonsgegevens worden verwerkt. Het lijkt ons onwaarschijnlijk dat hier een beroep kan worden gedaan op de uitzondering van artikel 14, lid 5, sub b AVG.

Juistheid en bewaartermijn van gescrapete gegevens

Persoonsgegevens moeten juist zijn en zo nodig worden geactualiseerd (artikel 5, lid 1, sub d AVG). Bij het verwerken van gescrapete persoonsgegevens van diverse websites lijkt het moeilijk of zelfs onmogelijk om op elk moment de juistheid van de gegevens te verifiëren, zeker bij langdurige opslag. Dit roept bijkomende vragen op over bewaartermijnen en de naleving van opslagbeperkingen.

Gezamenlijke verantwoordelijkheid van klanten voor AVG-schendingen

De verantwoordelijkheid voor naleving van de AVG ligt niet enkel bij de dienstverleners die de scraping/crawling uitvoeren, maar ook bij de fotoagentschappen en fotografen die van deze diensten gebruikmaken. Onder de AVG kunnen klanten als gezamenlijke verwerkingsverantwoordelijken worden beschouwd en aansprakelijk worden gehouden voor eventuele inbreuken (zie HvJ-EU Fashion ID, C-40/17; en Wirtschaftsakademie, C-210/16). Of een klant kwalificeert als gezamenlijke verwerkingsverantwoordelijke hangt af van de omstandigheden, maar gebruikers van grootschalige scraping- en indexeringsdiensten riskeren mee aansprakelijk te zijn voor AVG-overtredingen, met boetes tot 20 miljoen euro of 4% van de wereldwijde jaaromzet (artikel 83, lid 5 AVG).

Deze aansprakelijkheid kan contractueel niet worden uitgesloten. Klanten moeten kunnen aantonen dat zij voldoen aan de regels van de AVG en verzoeken van betrokkenen behandelen, o.a. verzoeken tot inzage, rectificatie of wissing van persoonsgegevens.

Het lijkt ons dat weinig klanten van dergelijke scrapingdiensten expliciet op hun websites (of elders) vermelden dat zij grootschalige scrapingdiensten inschakelen om persoonsgegevens van het internet te verwerken.

Conclusie: risico-gebaseerde benadering

Hoewel handhaving van auteursrechten een legitiem doel is, moeten de gehanteerde methoden de principes inzake gegevensbescherming respecteren. De houders van auteursrechten en hun juridische adviseurs moeten nagaan of hun dienstverleners de fundamentele regels van gegevensbescherming van de AVG naleven.

Vragen die men zich hierbij zou moten stellen, zijn onder meer:

  • Welke methode gebruikt uw dienstverlener voor de bestrijding van online auteursrechtinbreuken? Gebruikt hij grootschalige web scraping om eigen databanken op te bouwen, of werkt hij met gerichte zoekacties in openbare databanken?
  • Is uw dienstverlener transparant over zijn gegevensverwerkingspraktijken? Worden betrokkenen – en klanten – voldoende geïnformeerd (zo niet, waarom niet)?
  • Houdt uw dienstverlener zich aan het beginsel van dataminimalisatie?
  • Is de verwerking op basis van grootschalig web scrapen werkelijk noodzakelijk en proportioneel?
  • Is er een risico dat uw organisatie als gezamenlijke verwerkingsverantwoordelijke kan worden beschouwd met gedeelde AVG-aansprakelijkheid? Aangezien deze aansprakelijkheid contractueel niet kan worden uitgesloten, welke garanties, ondersteuning of informatie biedt uw dienstverlener?

Waarschijnlijk zullen in de toekomst meer richtsnoeren van toezichthouders en rechtbanken over dit onderwerp volgen. In afwachting daarvan doen de houders van auteursrechten er goed aan om de methoden van hun handhavingsdiensten grondig te beoordelen om risico’s op AVG-inbreuken te vermijden.

Disclaimer: Dit artikel is uitsluitend bedoeld ter informatie en vormt geen juridisch advies met betrekking tot het gebruik van een specifieke dienst, technologie of methode. Dit artikel is gebaseerd op de beperkte publiek beschikbare informatie op het ogenblik van schrijven. Gezien het gebrek aan transparantie bij veel aanbieders van online auteursrecht-handhavingsdiensten, doen wij geen uitspraak over de juistheid, volledigheid of actualiteit van de informatie in dit artikel. Wij wijzen uitdrukkelijk iedere aansprakelijkheid af voor enig verlies of schade voortvloeiend uit dit artikel. Wij raden lezers aan om onafhankelijk juridisch advies in te winnen over hun specifieke situatie.

Voor meer informatie over gegevensbescherming en auteursrechtenhandhaving, of om de naleving binnen uw organisatie te laten beoordelen, kan u contact opnemen met Finnian & Columba.

 

 

Voetnoten:

[1] Bijvoorbeeld: Maik Piel, CTO van Pixray (commerciële naam Fair Licensing), verklaarde in een interview uit 2019 dat het bedrijf aangepaste versies van StormCrawler gebruikte om drie soorten webcrawls uit te voeren: brede regionale scans (bijv. over de hele EU of Noord-Amerika) die meer dan 10 miljard URL’s en tientallen miljoenen domeinen omvatten; diepgaande, domeinspecifieke crawls; en ‘near real-time’ detectiescans op duizenden gerichte domeinen. Volgens dat interview omvatte Pixray’s technologische infrastructuur StormCrawler, Elasticsearch en Kibana, geïntegreerd via RabbitMQ, en werd dit alles uitgevoerd op een aanzienlijke serverinfrastructuur. Op basis van deze informatie lijkt het waarschijnlijk dat Pixray gecrawlde webpagina’s en bijbehorende metadata opsloeg (in het bijzonder gezien het gebruik van Elasticsearch); dat Pixray een doorzoekbare index creëerde van URL’s, geëxtraheerde inhoud en metadata; en dat deze index de basis vormde voor haar activiteiten van beeldherkenning en auteursrecht-monitoring. Aangezien dit interview dateert uit 2019, kunnen we niet bevestigen of Pixray momenteel nog steeds deze aanpak of infrastructuur gebruikt.

Een ander voorbeeld is te vinden op de website van PicRights, waar dit bedrijf vermeldt dat hun beeldherkenningstechnologie commerciële websites crawlt en ‘matches’ rapporteert aan klanten, die vervolgens worden geüpload naar de klantenaccounts op het platform. Om ongeoorloofd gebruik van afbeeldingen op te sporen, lijkt het redelijk te veronderstellen dat PicRights een breed scala aan websites crawlt – ook veel websites waar geen vermoeden van auteursrechtinbreuk bestaat – aangezien inbreuken doorgaans niet op voorhand gekend zijn. Dergelijk crawlen vereist waarschijnlijk het indexeren en opslaan van inhoud, om deze vervolgens te kunnen vergelijken met foto’s die door klanten zijn aangeleverd. Hoewel we geen publiek beschikbare cijfers hebben gevonden over het aantal URL’s of domeinen dat door PicRights wordt gecrawld, wijst hun doel van wereldwijd auteursrechttoezicht op grootschalige en intensieve crawling- en indexeringsoperaties (de website van PicRights vermeldt: “Track specific image usage by website, in a country, region or worldwide.”, en “PicRights is working to extend its reach to every part of the world.”)

Disclaimer: Deze analyse is gebaseerd op publiek beschikbare informatie en redelijke veronderstellingen. Dit artikel pretendeert niet met absolute zekerheid de huidige werking of technologie van de genoemde bedrijven te beschrijven. Helaas bieden noch Pixray noch PicRights volledige publieke transparantie over de omvang, methoden of gegevensverwerkingen van hun crawling- en handhavingstechnologieën. Door dit gebrek aan openheid zijn we genoodzaakt te vertrouwen op redelijke aannames, historische bronnen en indirect bewijs – vandaar het gebruik van genuanceerde formuleringen en meerdere disclaimers doorheen dit artikel. Om elk mogelijk misverstand te vermijden: wij doen geen uitspraken over de juistheid, volledigheid of actualiteit van de hier gepresenteerde informatie en wijzen elke aansprakelijkheid af voor enig verlies of schade voortvloeiend uit dit artikel.

[2] Om dezelfde voorbeelden aan te halen: het privacybeleid van Pixray – Fair Licensing verwijst enkel naar persoonsgegevens die worden verzameld bij het bezoeken van hun eigen website. Er wordt niets vermeld over het crawlen, scrapen of opslaan van gegevens van websites van derden. Evenzo vermelden de algemene voorwaarden en het privacybeleid van PicRights (versie van maart 2024) nergens expliciet dat zij andere websites crawlen, scrapen of verwerken. In hun privacyverklaring wordt onder rubriek III beschreven welke gegevens worden verzameld bij het bezoeken van hun eigen website, het indienen van een dossier, het gebruik van het schikkingsportaal, enz., maar er wordt geen melding gemaakt van bredere gegevensverzamelingsactiviteiten op websites van derden. Verder in dit document – nadat de nummering van de rubrieken herstart – vermeldt rubriek XI ‘gerechtvaardigde belangen’ als rechtsgrond voor de verwerking. In rubriek XII stelt PicRights dat het gegevens verzamelt van websites waarop mogelijke inbreuken zijn vastgesteld, zonder te vermelden dat het ook gegevens verzamelt van niet-gerelateerde websites (hun privacyverklaring meldt: “We collect the data via freely accessible sources, i.e. from the website where we have established a possible infringement of copyright law, from the WhoIs data of the aforementioned website, yellow pages, commercial registers etc..”).