AI botovi i masovno skeniranje interneta

ažurirano 2026-01-12

Nedavno su se na GNOME Gitlab instanci pojavile provere sa anime ilustracijama. Počeli su da koriste Anubis, novi Proof-of-Work sistem za blokiranje AI botova koji agresivno troše protok i resurse.

Za razliku od alata koji truju podatke (eng. data poisoning), Anubis i slična rešenja funkcionišu kao zid čiji je cilj zaštita infrastrukture, a ne sabotaža modela. S obzirom na to da je noai zaglavlje (eng. header) postalo beskorisno jer ga kompanije ignorišu, ovakva "tarpit" i "PoW" rešenja postaju bitna.

Da se razumemo: sabotaža modela nema smisla. U momentu pisanja ovog teksta, AI je odličan alat za sumiranje, pomoć, pretragu i slično. Svi imamo koristi od njih. No, moralno gledano, mnogi imaju poteškoća sa prihvatanjem činjenice da se slobodno dostupan sadržaj na internetu koristi bez kontrole. Ne bih dublje ulazio u tu temu jer je izuzetno kompleksna. Ovde se bavim odbranom "malog veba" od maskiranog DDoS-a :-)

Ovo je moja lista resursa i alata za praćenje ove "trke u naoružanju":

FOSS infrastructure is under attack by AI companies - prvi članak koji sam pokupio negde na Mastodonu
Anubis: Proof-of-work proxy to prevent AI crawlers (techaro.lol) - Anubis diskusija na portalu Hacker News
Block AI scrapers with Anubis - prvi Anubis članak na sajtu tvorca. Sve je počelo sa Amazon's AI crawler is making my git server unstable
Dennis Schubert@Geraspora diaspora - (da, diaspora* i dalje postoji!)
PHP-HTTP-Tarpit - "Confuse and waste bot scanners time"
Nepenthes - "This is a tarpit intended to catch web crawlers"
Markov Tarpits: An Evolving Strategy Against AI Crawlers
Iocaine - "The deadliest poison known to AI"
Quixotic - "Quixotic is a program that will feed fake content to bots and robots.txt-ignoring LLM scrapers"
Trapping misbehaving bots in an AI Labyrinth
AI bots strain Wikimedia as bandwidth surges 50%
PoW Shield - "Project dedicated to fight Layer 7 DDoS with proof of work, with an additional WAF and controller"
Checkpoint - "Checkpoint is a tiny reverse proxy that attempts to block AI by serving a cryptographic challenge"

Listu ću ažurirati kako se budu pojavljivala nova rešenja. Ovo je trenutno jedini način da se "mali veb" zaštiti od parazitiranja velikih modela.