externe

Un start-up francez tocmai a demonstrat ca OpenAI s-a inselat. Inteligenta artificiala se poate antrena pe date care nu sunt protejate de drepturi de autor

Anul trecut, OpenAI a declarat ca este „imposibil” sa se creeze instrumente precum ChatGPT fara acces la materiale protejate de drepturi de autor. Dar un start-up francez a demonstrat ca se poate, relateaza Euronews.

Acest lucru intervine intr-un moment crucial in care bataliile juridice legate de materialele protejate de drepturi de autor iau amploare, cel mai important caz fiind cel al cotidianului New York Times care a dat in judecata OpenAI si investitorul sau Microsoft pentru ca ar fi folosit articole de presa pentru a antrena ChatGPT.

Initiativa Common Corpus pare sa fi gasit solutia la problemele juridice, deoarece a dezvaluit cel mai mare set de date publice pentru antrenarea modelelor lingvistice mari (LLM).

Aceasta initiativa internationala, coordonata de start-up-ul francez Pleias, include cercetatori si alte companii de inteligenta artificiala cu stiinta deschisa, precum HuggingFace, Occiglot, Eleuther si Nomic AI.

De asemenea, este sprijinita de Langu:IA, un proiect condus de unitatea de limba franceza a Ministerului francez al Culturii, care are ca scop, printre altele, „facilitarea accesului la date in limba franceza pentru formarea si specializarea in domeniul LLM”.

Corpusul comun se mandreste cu cel mai mare set de date de limba engleza de pana acum, cu 180 de miliarde de cuvinte, care include 21 de milioane de ziare digitizate si milioane de carti. Dar este, de asemenea, multilingv si are cel mai mare set de date deschise in franceza (110 miliarde de cuvinte), germana (30 de miliarde de cuvinte), spaniola, olandeza si italiana.

„Cred ca [Corpus este] foarte important pentru a putea crea un stimulent pentru concurenta [cu companii precum OpenAI]”, a declarat cofondatorul Pleias, Pierre-Carl Langlais.

Exista limitari in ceea ce priveste Corpusul comun, deoarece acesta utilizeaza materiale care nu sunt protejate prin drepturi de autor.

In Europa, pentru ca un text sa nu faca obiectul drepturilor de autor, acesta trebuie sa se afle la 70 de ani dupa moartea autorului. Acest lucru inseamna ca setul de date nu este antrenat pe materiale mai noi.

„Evident, vine cu o serie de probleme legate de faptul ca limba trebuie sa fie actualizata… cred ca si problemele etice pot fi diferite, dar, deocamdata, este doar o parte din continutul deschis pe care il avem”, a declarat Langlais.

Celelalte doua parti care vor face ca datele sa fie mai recente sunt datele administrative deschise si miscarea pentru stiinta deschisa, care pune cercetarea stiintifica la dispozitia tuturor.

Langlais a spus ca o alta modalitate de a imbunatati Corpusul comun este utilizarea datelor sintetice, care sunt date generate artificial si reproduc tiparele, relatiile si caracteristicile gasite in datele din lumea reala.

In 2022, cercetatorii de la MIT au descoperit ca modelele antrenate sintetic au avut performante chiar mai bune decat modelele antrenate pe date reale pentru videoclipurile care au mai putine obiecte de fundal.

„Si astfel, o mare parte din initiativa noastra este de a ne asigura ca va fi mai bogat, va fi mai divers, ca poate fi modificat”, a spus Langlais, adaugand ca in viitor spera sa includa mai multe limbi europene in proiect.

Urmareste-ne si pe:

Victor Mihalache

Next Germania va aloca 576 de milioane de euro pentru initiativa ceha de achizitionare de obuze pentru Ucraina. Cate obuze vor putea fi cumparate »

Previous « Parintii lui Alex Nedea (Recorder) pregatesc gratuit copii din familii defavorizate pentru admiterea la Medicina: "Hai sa facem fapta asta buna, poate reusim sa salvam cateva destine"

Published by

Victor Mihalache

Tags: antrenarea pe date fara drepturi de autorchatGPTmodele lingvistice mariopen ai

8 luni ago

Polonia, a doua tara occidentala dupa Suedia care urmareste sa restabileasca prezenta diplomatica permanenta in Coreea de Nord
Oficiali polonezi se afla in vizita la Phenian pentru a restabili prezenta diplomatica permanenta a…
Noul director al British Museum este in favoarea unui „parteneriat mai degraba decat o discutie privind proprietatea” in legatura cu sculpturile Partenonului
Intr-un interviu pentru Financial Times, noul director al British Museum, Nicholas Cullinan, a vorbit despre…
Guvernul grec ia in considerare stimulente pentru proprietarii care ofera spre inchiriere locuinte pe termen lung
Pentru a atenua criza locuintelor, guvernul grec ia in considerare acordarea de stimulente suplimentare proprietarilor…

Guvernul Ciolacu a facut public documentul trimis de Ucraina in legatura cu Simion: „Actiuni contra intereselor nationale ale Ucrainei”

Guvernul Ciolacu a dat publicitatii, vineri seara, dcumentul primit din partea Kievului in legatura cu…

9 ore ago

externe

Polonia, a doua tara occidentala dupa Suedia care urmareste sa restabileasca prezenta diplomatica permanenta in Coreea de Nord

Oficiali polonezi se afla in vizita la Phenian pentru a restabili prezenta diplomatica permanenta a…

9 ore ago

externe

Noul director al British Museum este in favoarea unui „parteneriat mai degraba decat o discutie privind proprietatea” in legatura cu sculpturile Partenonului

Intr-un interviu pentru Financial Times, noul director al British Museum, Nicholas Cullinan, a vorbit despre…

9 ore ago

politica

Rares Bogdan acuza: „Ciolacu minte in legatura cu documentul ‘declasificat’ din Ucraina”. Miscarea ar fi fost premedita din luna februarie si este in favoarea lui Simion

Rares Bogdan, prim-vicepresedinte PNL, sustine ca premierul Ciolacu minte in legatura documentul primit de la…

7 ore ago

externe

Guvernul grec ia in considerare stimulente pentru proprietarii care ofera spre inchiriere locuinte pe termen lung

Pentru a atenua criza locuintelor, guvernul grec ia in considerare acordarea de stimulente suplimentare proprietarilor…

10 ore ago

politica

Scholz l-a informat pe Iohannis despre discutia cu Putin. Iohannis: „Germania este un aliat de incredere al tarii noastre”

Presedintele Klaus Iohannis a avut, vineri, consultari bilaterale cu cancelarul Republicii Federale Germania, Olaf Scholz,…

7 ore ago

Un start-up francez tocmai a demonstrat ca OpenAI s-a inselat. Inteligenta artificiala se poate antrena pe date care nu sunt protejate de drepturi de autor

Related Post

Recent Posts

Guvernul Ciolacu a facut public documentul trimis de Ucraina in legatura cu Simion: „Actiuni contra intereselor nationale ale Ucrainei”

Polonia, a doua tara occidentala dupa Suedia care urmareste sa restabileasca prezenta diplomatica permanenta in Coreea de Nord

Noul director al British Museum este in favoarea unui „parteneriat mai degraba decat o discutie privind proprietatea” in legatura cu sculpturile Partenonului

Rares Bogdan acuza: „Ciolacu minte in legatura cu documentul ‘declasificat’ din Ucraina”. Miscarea ar fi fost premedita din luna februarie si este in favoarea lui Simion

Guvernul grec ia in considerare stimulente pentru proprietarii care ofera spre inchiriere locuinte pe termen lung

Scholz l-a informat pe Iohannis despre discutia cu Putin. Iohannis: „Germania este un aliat de incredere al tarii noastre”