Common Crawl verwijdert twee miljoen artikelen op verzoek van Stichting Brein

Common Crawl, bron van trainingsmateriaal voor AI diensten, verwijdert op verzoek van Stichting Brein ruim twee miljoen nieuwsartikelen uit haar databank. Brein detecteert en bestrijdt grootschalige auteursrechtinbreuk. Thomas Bruning, algemeen secretaris van de NVJ, roept leden op om een melding te doen bij Brein als het vermoeden bestaat dat Common Crawl ook hun materiaal hebben gebruikt voor deze databank.

4 nov 2025, 11:46

Common Crawl is een Amerikaanse non-profitorganisatie die het internet kopieert (scraping) en haar databank gratis ter beschikking stelt aan consumenten en bedrijven waaronder generatieve AI diensten die deze datasets gebruiken om hun AI modellen op te trainen. Het webarchief van Common Crawl bestaat uit petabytes aan veelal auteursrechtelijk beschermde werken waaronder veel nieuwsartikelen die Common Crawl sinds 2008 verzamelt. Common Crawl vult haar data archief maandelijks aan met nieuw op het internet gepubliceerd materiaal.

In de databank van Common Crawl zitten onder meer artikelen die zijn gepubliceerd op bekende Nederlandse nieuwssites en in digitale kranten. Hiervoor is geen toestemming gegeven. BREIN verzocht Common Crawl namens een aantal Nederlandse nieuwsuitgevers deze zonder toestemming gekopieerde webpagina’s te verwijderen uit hun databank zodat AI diensten niet langer ongeautoriseerd op basis van deze content hun modellen kunnen trainen.

Uit onderzoek blijkt dat zo goed als alle grote Generatieve AI taalmodellen (mede) getraind zijn op Common Crawl data. Het betreft in ieder geval openELM van Apple, Phi van Microsoft, ChatgPT van OpenAI, Nemo Megatron van NVIDIA, DeepseekV3 van Deepseek en Claude van Anthropic.

Common Crawl heeft voldaan aan BREIN’s verzoek en alle ruim twee miljoen artikelen verwijderd uit hun archief.

BREIN directeur Bastiaan van Ramshorst: “Het grootschalige ongeautoriseerd gebruik van beschermde werken om generatieve artificial intelligence modellen te trainen is een gigantische inbreuk op auteursrechten. In deze zaak gaat het om het wegnemen van de mogelijkheid om eenvoudig miljoenen persartikelen te kunnen overnemen uit de database van Common Crawl. Eerder haalde BREIN ook al andere Nederlandstalige trainingsdatasets offline.”

Legaal kan ook

GPT-NL is het eerste grootschalige Nederlandse AI-taalmodel dat volledig wordt getraind op legaal verkregen data. In juni 2025 is begonnen met de training van dit model. Het is een initiatief van de Nederlandse organisaties TNO, NFI en SURF in samenwerking met o.a. brancheorganisatie NDP Nieuwsmedia, waarvan de leden een enorme dataset ter beschikking stelden. Het model wordt daardoor getraind op zorgvuldig geselecteerde, rechtmatig verkregen data, dus niet op basis van scraping zoals bij Common Crawl. Onderwijl zijn sommige buitenlandse kranten ook bezig om hun data beschikbaar te stellen voor training, in ruil voor een vergoeding. The Guardian heeft dit al gedaan met OpenAI. Die deal is in februari 2025 gesloten, dus ziet wel alleen op artikelen die vanaf toen zijn gepubliceerd. Wie weet volgen er nog anderen.

Oproep

BREIN roept rechthebbenden op zich te melden als het vermoeden bestaat dat uw auteursrechtelijk beschermd materiaal ook door Common Crawl is gekopieerd. Wij controleren dit en indien gewenst kan BREIN een verwijderingsverzoek indienen.

NDP Nieuwsmedia, de brancheorganisatie voor nieuwsbedrijven, is blij met de actie van BREIN. Directeur Herman Wolswinkel: ‘We juichen het toe dat er wordt opgetreden tegen illegale scraping, zeker als de gescrapete content ook gebruikt wordt voor het bouwen van AI-modellen. Wat ons betreft is dit een eerste stap in het aanpakken van partijen die met deze werkwijze illegaal parasiteren op het werk van journalisten.’ Het is hoog tijd dat de waarde van nieuwsartikelen in het AI-ecosysteem erkend wordt. Zonder die erkenning zal deze cruciale grondstof voor AI-innovatie opdrogen.’

Thomas Bruning, algemeen secretaris van de NVJ roept haar leden en freelancers op om een melding te doen bij Brein als het vermoeden bestaat dat Common Crawl ook hun materiaal hebben gebruikt voor deze databank. 'Werk van journalistieke makers mag nooit zonder toestemming of vergoeding gebruikt worden voor taalmodellen. Scraping leidt tot dit soort illegaal gebruik door taalmodellen, dus het is goed dit probleem bij de bron aan te pakken.'

De NVJ pleit voor een collectieve vergoedingsregeling om ervoor te zorgen dat journalisten (en andere makers) een redelijke beloning ontvangen als hun werk in het kader van AI training wordt gebruikt. Zolang zo’n verbods- of vergoedingsafspraak met de bedrijven achter de taalmodellen en de uitgevers nog niet gerealiseerd is, is het zaak om dit soort databases offline te krijgen.

Common Crawl verwijdert twee miljoen artikelen op verzoek van Stichting Brein

Legaal kan ook

Oproep

Meer nieuws