Aceste carti sunt folosite pentru a antrena inteligenta artificiala. Nimeni nu le-a spus autorilor

Karina Macovei | 9 octombrie 2023

Aproape 200.000 de carti sunt folosite pentru a antrena sisteme de inteligenta artificiala de catre unele dintre cele mai mari companii din domeniul tehnologiei. Care este problema? Nimeni nu le-a spus autorilor.

Sistemul se numeste Books3 si, potrivit unei investigatii realizate de The Atlantic, setul de date se bazeaza pe o colectie de carti electronice piratate care acopera toate genurile, de la fictiune erotica la poezie si proza. Cartile ajuta sistemele generative de inteligenta artificiala sa invete cum sa comunice informatii, potrivit CNN .

O parte din textele de antrenament pentru IA pot fi extrase din articole postate pe internet, dar o IA de inalta calitate necesita un text de inalta calitate din care sa absoarba limbajul, potrivit The Atlantic, si aici intervin cartile. Books3 este deja subiectul mai multor procese impotriva Meta si a altor companii care folosesc sistemul pentru a antrena AI.

Acum, datorita unei baze de date publicate saptamana trecuta de The Atlantic, care provine de la Books3, autorii pot vedea daca cartile lor sunt folosite pentru a antrena aceste sisteme de inteligenta artificiala. Si multi nu sunt multumiti.

„Sunt complet distrusa. Sunt indignata si, in acelasi timp, ma simt complet neajutorata”, a scris Mary H. K. Choi pe retelele de socializare, dupa ce a descoperit ca lucrarea sa era folosita in acest sistem. „Sunt furioasa si vreau sa lupt, dar sunt si foarte obosita”.

Choi, al carei roman de debut „Emergency Contact” a aparut in baza de date, si-a explicat mai departe sentimentele intr-un e-mail. Cartea, care se concentreaza pe o tanara americanca de origine coreeana care navigheaza intr-o noua relatie, era „profund personala”, iar lui Choi i s-a spus initial ca povestea ei era „prea linistita si de nisa”. Ulterior, cartea a devenit un bestseller New York Times.

Min Jin Lee, autoarea romanelor „Pachinko” si „Free Food for Millionaires”, a exprimat ganduri similare pe retelele de socializare, numind fara menajamente utilizarea cartilor sale „un furt”.

„Mi-am petrecut trei decenii din viata pentru a-mi scrie cartile”, a spus ea. „Modelele lingvistice Al large nu au „ingerat” sau „razuit” „date”. Companiile Al mi-au furat munca, timpul si creativitatea. Mi-au furat povestile. Au furat o parte din mine”.

Nora Roberts, prolifica scriitoare de romane de dragoste, are 206 carti folosite in baza de date Books3, potrivit The Atlantic. Acest numar este cel mai mare al unui autor in viata si este al doilea dupa William Shakespeare. Ea a calificat baza de date si utilizarea acesteia de catre companiile de tehnologie drept „o serie intreaga de greseli”.

„Suntem fiinte umane, suntem scriitori si suntem exploatati de oameni care vor sa ne foloseasca munca, din nou fara permisiune sau compensatie, pentru a `scrie` carti, scenarii, eseuri, pentru ca este ieftin si usor”, a declarat Roberts pentru CNN.

Aceasta exploatare a scriitorilor nu l-a socat pe autorul Nik Sharma, a carui carte de bucate „Season” a fost gasita in baza de date.

„Sunt oripilat, dar nu surprins ca s-a profitat de mine”, a spus el intr-o postare pe retelele de socializare. „Evident, nici macar nu mi s-a cerut permisiunea si nici nu am primit vreo compensatie pentru utilizarea operei mele pentru a antrena AI.”

IA este inevitabila, a declarat Sharma mai tarziu intr-un e-mail – de unde si lipsa sa de surprindere. Ceea ce a fost cel mai agravant, a spus el, este ca nimeni nu a fost contactat in legatura cu utilizarea sau plata. La urma urmei, educatia nu este gratuita in SUA, a spus el; profesorii sunt platiti, iar manualele sunt cumparate.

„Este Vestul Salbatic in acest moment cu inteligenta artificiala, iar politica guvernamentala in acest sens este in faza incipienta”, a spus Sharma. „Si, in consecinta, companiile de tehnologie profita din plin cat pot. Ma bucur ca a fost doar o singura carte de bucate si nu celelalte.”

Meta, care a folosit baza de date Books3, potrivit The Atlantic, nu a raspuns la o solicitare de comentarii.

Un purtator de cuvant al Bloomberg a precizat intr-o declaratie ca societatea „a folosit mai multe surse de date diferite”, inclusiv Books3, pentru a antrena modelul initial BloombergGPT, un model de inteligenta artificiala pentru industria financiara. Insa, potrivit purtatorului de cuvant, Bloomberg „nu va include setul de date Books3 printre sursele de date utilizate pentru antrenarea viitoarelor versiuni comerciale ale BloombergGPT”.

Nu toti autorii sunt suparati ca munca lor este folosita de AI. James Chappel, a carui carte academica despre biserica catolica moderna a fost folosita in baza de date, a declarat pe retelele de socializare ca nu-i „pasa deloc”.

„Vreau sa- mi fie citita cartea !”, a scris el. „Vreau ca ea sa educe!”

IA, in mainile marilor corporatii, s-a transformat intr-o preocupare semnificativa pentru multi scriitori. Writers Guild of America a intrat in greva in aceasta vara, in parte pentru a cere limite in ceea ce priveste utilizarea IA in scrierea de filme si emisiuni de televiziune. ChatGPT, in special, a fost folosit pentru orice, de la redactarea temelor la memorii juridice.

Scriitorii nu sunt singurii care isi exprima ingrijorarea. Odata cu popularitatea sistemelor de inteligenta artificiala text-imagine, artistii vizuali au fost in aceeasi situatie anul trecut, descoperind ca lucrarile lor erau folosite pentru a antrena inteligenta artificiala fara permisiune. Impreuna, ambele cazuri evidentiaza preocuparile legate de extinderea tot mai mare a IA in toate formele de arta, unde munca poate fi uneori intens personala sau intima.

Conversatia ridicata de Books3 are loc chiar in momentul in care presedintele SUA, Joe Biden, a anuntat ca intentioneaza sa introduca un ordin executiv privind IA in aceasta toamna, afirmand ca tara va deschide „calea catre o inovare responsabila in domeniul IA”.

Urmareste-ne si pe: