Obučavanje naprednih AI modela s vlasničkim materijalom postalo je kontroverzno pitanje. Mnoge se tvrtke sada suočavaju s pravnim izazovima autora i medijskih organizacija na sudu. Meta je priznala da koristi dobro poznati “piratski” skup podataka, Books3, ali tvrtka nije voljna adekvatno kompenzirati pisce.
Grupa autora podnijela je tužbu protiv Mete, navodeći nezakonitu upotrebu materijala zaštićenog autorskim pravima u razvoju njezinih velikih jezičnih modela Llama 1 i Llama 2. Kao odgovor, Facebook se obratio spisateljici i komičarki Sarah Silverman, autoru Richardu Kadreyju i drugim nositeljima prava koji predvode pravni postupak, priznajući da su njegovi LLM-i obučavani korištenjem knjiga zaštićenih autorskim pravima.
Meta je priznala da je koristila skup podataka Books3, među mnogim drugim materijalima, za treniranje LLM-a Llama 1 i Llama 2. Books3 je dobro poznati skup koji se sastoji od zbirke otvorenog teksta od preko 195 000 knjiga ukupne veličine od gotovo 37 GB. Arhivu je izradio istraživač umjetne inteligencije Shawn Presser 2020. godine kao način pružanja boljeg izvora podataka za poboljšanje algoritama strojnog učenja .
Rasprostranjena dostupnost skupa podataka Books3 dovela je do njegove široke upotrebe u obuci AI od strane mnogih istraživača. Velike tehnološke tvrtke, uključujući Metu, koristile su Books3 i druge sporne skupove podataka za svoje komercijalne AI proizvode. Zbog toga je New York Times tužio OpenAI i Microsoft zbog navodnog korištenja milijuna članaka zaštićenih autorskim pravima za razvoj ChatGPT chatbota.
OpenAI je otvoreno izjavio da je obuka AI modela bez korištenja materijala zaštićenog autorskim pravima “nemoguća”, tvrdeći da bi suci i sudovi trebali odbaciti tužbe za odštetu koje su pokrenuli nositelji prava. Ponavljajući ovaj stav, Meta je priznala da koristi Books3, ali je zanijekala bilo kakvo namjerno nedolično ponašanje.
Meta je priznala korištenje dijelova skupa podataka Books3, ali je tvrdila da njezino korištenje djela zaštićenih autorskim pravima za obuku LLM-a ne zahtijeva “pristanak, kredit ili kompenzaciju”. Tvrtka odbacuje tvrdnje o kršenju “navodnih” autorskih prava tužitelja, tvrdeći da se sve neovlaštene kopije djela zaštićenih autorskim pravima u Books3 trebaju smatrati poštenom upotrebom.
Nadalje, Meta osporava valjanost zadržavanja tužbe kao grupne tužbe, odbijajući pružiti bilo kakvu novčanu “olakšicu” autorima koji tuže ili drugima uključenima u kontroverzu oko Books3. Skup podataka, koji uključuje materijal zaštićen autorskim pravima dobiven s piratske stranice Bibliotik, bio je 2023. godine na meti danske skupine za borbu protiv piratstva Rights Alliance, zahtijevajući da se zabrani digitalno arhiviranje skupa podataka Books3.
(Agencije)