ChatGPT vive all'ombra di uno scandalo di big data; capire

UN intelligenza artificiale (AI) ha conquistato il mondo negli ultimi mesi grazie ai progressi nei grandi paradigmi linguistici (del Maestro), che supporta servizi popolari come chiacchierata. A prima vista, la tecnologia può sembrare magica, ma dietro di essa ci sono enormi quantità di informazioni che alimentano risposte intelligenti ed eloquenti. Tuttavia, questo modello potrebbe essere all’ombra dello scandalo dei big data.

sistemi Intelligenza artificiale generativacome ChatGPT, sono macchine ad alta probabilità: analizzano enormi quantità di testo e abbinano i termini (noto come confine) per generare testo non pubblicato su richiesta: più parametri ci sono, più sofisticata è l’intelligenza artificiale. La prima versione di ChatGPT, rilasciata lo scorso novembre, contiene 175 miliardi di variabili.

Ciò che ha iniziato a perseguitare sia le autorità che gli esperti è la natura dei dati utilizzati per addestrare questi sistemi: è difficile sapere da dove provengono le informazioni e cosa alimenta esattamente le macchine. UN Documento scientifico GPT-3, la prima versione del “cervello” di ChatGPT, dà un’idea di cosa serviva. Sono stati utilizzati Common Crawl, WebText2 (pacchetti di testo filtrati da Internet e dai social network), Books1 e Books2 (pacchetti di libri disponibili sul web) e la versione inglese di Wikipedia.

Sebbene i pacchetti siano stati rivelati, non si sa esattamente di cosa siano fatti: nessuno può dire se c’era un post da un blog personale o da un social network che alimenta il modello, per esempio. Il WashingtonPost Analisi di un pacchetto denominato C4utilizzato per addestrare gli LLM T5E Google e LamaFare Facebook. Ha trovato 15 milioni di siti, che includono testate giornalistiche, forum di gioco, depositi di libri piratati e due database contenenti informazioni sugli elettori negli Stati Uniti.

L’origine dei database per i grandi modelli di intelligenza artificiale solleva preoccupazioni immagine: Joel Saget/AFP

Con la forte concorrenza nel mercato dell’IA generativa, la trasparenza sull’utilizzo dei dati è peggiorata. OpenAI non ha rivelato quali database ha utilizzato per l’addestramento GPT-4, l’attuale cervello di ChatGPT. quando parliamo di Freddochattalo Recentemente arrivato in BrasileS Google Ha anche adottato una vaga dichiarazione secondo cui addestra i suoi modelli con “informazioni pubblicamente disponibili su Internet”.

movimento delle autorità

Ciò ha portato all’azione delle autorità di regolamentazione in diversi paesi. a marzo , Italia ChatGPT sospeso Per timori di violare le leggi sulla protezione dei dati. A maggio, le autorità di regolamentazione canadesi hanno avviato un’indagine contro OpenAI sulla sua raccolta e utilizzo dei dati. In questa settimana , Commissione federale del commercio (FTC) negli Stati Uniti per indagare se il servizio abbia causato danni ai consumatori e se OpenAI si sia impegnata in pratiche “sleali o ingannevoli” sulla privacy e sulla sicurezza dei dati. Secondo l’agenzia, queste pratiche potrebbero aver causato “danni reputazionali alle persone”.

Anche l’Ibero-American Data Protection Network (RIPD), che comprende 16 autorità di dati di 12 paesi, incluso il Brasile, ha deciso di indagare sulle pratiche di OpenAI. Qui , Estadao cercato Autorità nazionale per la protezione dei dati personali (ANPD), che ha precisato in una nota che sta “conducendo uno studio preliminare, seppur non esclusivamente dedicato a ChatGPT, volto a supportare concetti legati a modelli generativi di intelligenza artificiale, nonché a identificare potenziali rischi per la privacy e la protezione dei dati”. In precedenza, era la festa dell’ANPD Pubblica un documento In cui ha indicato il suo desiderio di essere l’autorità di vigilanza e regolamentazione sull’intelligenza artificiale.

Le cose cambiano solo quando c’è uno scandalo. Sta cominciando a diventare chiaro che non abbiamo imparato dagli errori del passato. ChatGPT è molto vago sui database utilizzati

Luã Cruz, specialista in comunicazione presso l’Istituto brasiliano per la difesa dei consumatori (Idec)

Luca Pelli, professore di diritto e coordinatore del Centro per la tecnologia e la società presso la Fondazione Getulio Vargas (FGV) di Rio, ha presentato una petizione all’ANPD sull’uso dei dati da parte dei grandi modelli di intelligenza artificiale. “In qualità di proprietario dei dati personali, ho il diritto di sapere come OpenAI emette risposte su di me. Ovviamente, ChatGPT ha generato risultati da un enorme database che include anche le mie informazioni personali”, dice a Estadão. Esiste il consenso affinché utilizzino i miei dati personali? No. Esiste una base legale per l’utilizzo dei miei dati per l’addestramento di modelli di intelligenza artificiale? No.

Belli afferma di non aver ricevuto alcuna risposta dall’ANPD. Alla domanda sull’argomento nel rapporto, l’agenzia non ha risposto, né ha indicato se stesse lavorando con il RIPD sull’argomento.

Ricorda le turbolenze che hanno portato allo scandalo Cambridge Analytic, poiché i dati di 87 milioni di persone su Facebook sono stati utilizzati in modo improprio. Gli esperti di privacy e protezione dei dati hanno sottolineato il problema dell’utilizzo dei dati sulle grandi piattaforme, ma le azioni delle autorità non hanno affrontato il problema.

“Le cose cambiano solo quando c’è uno scandalo. Sta iniziando a diventare chiaro che non abbiamo imparato dagli errori del passato. È molto vago riguardo ai database utilizzati”, afferma Luã Cruz, specialista delle comunicazioni di ChatGPT. Istituto brasiliano per la difesa dei consumatori (Idec).

Tuttavia, a differenza del caso di Facebook, l’uso improprio dei dati da parte di LLM può generare non solo uno scandalo sulla privacy, ma anche uno scandalo sul copyright. Negli Stati Uniti, gli scrittori Mona Awad e Paul Tremblay hanno citato in giudizio IA aperta Perché credono che i loro libri siano stati usati per addestrare ChatGPT.

Inoltre, gli artisti visivi temono anche che il loro lavoro venga alimentato da generatori di immagini, come ad esempio DALL-E 2, Midjourney e diffusione stabile. Questa settimana, OpenAI ha stipulato un accordo con l’Associated Press per utilizzare i suoi script di stampa per addestrare i suoi modelli. È un timido passo avanti rispetto a ciò che l’azienda ha già costruito.

“In futuro assisteremo a una marea di azioni collettive che vanno contro i limiti dell’uso dei dati. Privacy e copyright sono idee molto vicine”, afferma Rafael Zanata, direttore dell’Associação. privacy dei dati brasile. Per lui, l’agenda sul copyright ha più fascino e dovrebbe esercitare maggiore pressione sui giganti della tecnologia.

Google ha modificato i suoi termini di utilizzo per l’utilizzo di dati pubblici sul Web per addestrare i sistemi di intelligenza artificiale immagine: Josh Adelson/AFP

Zanata sostiene che i grandi modelli di intelligenza artificiale sfidano l’idea che i dati pubblici su Internet siano risorse disponibili per l’uso indipendentemente dal contesto in cui vengono applicati. “Bisogna rispettare l’integrità del contesto, ad esempio chi ha postato una foto photolog Anni fa, non l’avrebbe immaginato e non avrebbe nemmeno permesso che la sua immagine fosse usata per addestrare una banca di intelligenza artificiale.

Per cercare di ottenere una certa certezza giuridica, Google, ad esempio, ha modificato i propri termini di utilizzo il 1° luglio per indicare che i dati “disponibili sul Web” possono essere utilizzati per addestrare i sistemi di intelligenza artificiale.

“Potremmo, ad esempio, raccogliere informazioni pubblicamente disponibili online o da altre fonti pubbliche per aiutare ad addestrare i modelli Google per l’intelligenza artificiale e creare funzionalità come le funzionalità di Google Translate, Bard e AI nel cloud”, afferma il documento. , se le informazioni sulla tua attività vengono visualizzate su un sito Web, potremmo indicizzarle e visualizzarle tramite i servizi di Google. Ricercato da EstadaoGiant non commenta la questione.

Fino ad ora, i giganti dell’IA hanno trattato i loro database quasi come una “ricetta”. Coca Cola– Nessun segreto industriale. Tuttavia, per chi segue l’argomento, questo non può essere una scusa per la mancanza di garanzie e trasparenza.

“Anvisa non ha bisogno di conoscere la formula specifica di Coca-Cola. Ha bisogno di sapere se sono state seguite regole di base nella costruzione e nella regolamentazione del prodotto e se il prodotto causa o meno un danno alla popolazione. Se fa male, dovrebbe avere un avviso Cruz dice: “Ci sono livelli di trasparenza che possono essere rispettati che non raggiungono l’oro della tecnologia”.