La Gen AI può essere la risposta ai problemi con i dati? Sì, ma non in tutti i casi

Attualmente ci sono 143 milioni di persone in attesa di interventi chirurgici nei Paesi a basso reddito. Ci sono organizzazioni pronte a portare medici e risorse ma, tra i due elementi, c’è un gap di informazione, afferma Joan LaRovere, direttore medico associato del Boston Children’s Hospital, professore alla Harvard Medical School e co-fondatore della Virtue Foundation, una ONG dedicata a risolvere questo divario informativo.

La Virtue Foundation, fondata nel 2002, ha già creato il più grande database al mondo di ONG e strutture sanitarie, fornendo servizi di salute globale in oltre 25 Paesi, mettendo in atto spedizioni mediche, conducendo ricerche e donando attrezzature mediche. Nell’ambito di questo lavoro, i volontari della fondazione hanno appreso la necessità di raccogliere dati affidabili per fornire un’attività sanitaria efficiente.

Il problema è che le fonti di informazione sono incredibilmente varie e spesso nascoste, dice LaRovere.

“Non sono aggregate”, spiega. “Si trovano sul web. Sono nascoste nelle organizzazioni governative. Si trova in una miscela di formati strutturati e non strutturati”.

Per contribuire ad alleviare la complessità e a estrarre informazioni, la Fondazione, utilizzando diversi modelli di intelligenza artificiale, sta costruendo un livello di analisi in cima a questo database, dopo aver collaborato con DataBricks e DataRobot. Alcuni dei modelli sono tradizionali di apprendimento automatico (ML) e altri, aggiunge LaRovere, sono di IA generativa, compresi i nuovi progressi multimodali.

“L’intelligenza artificiale generativa sta colmando le lacune dei dati”, osserva. “Si tratta di novità, e noi siamo proprio all’inizio della sua curva evolutiva”.

Il prossimo passo, sotolinea, è quello di prendere il set di dati fondamentali e aumentarlo con altre fonti e più livelli di dati – perfino satellitari – per cogliere intuizioni e individuare correlazioni.

“Le capacità dell’IA ci permettono di iniziare a rendere visibile l’invisibile”, tiene a precisare.

Ma la Virtue Foundation non è l’unica a sperimentare l’intelligenza artificiale per aiutare a sviluppare o aumentare i set di dati.

“Questo funziona e viene, oggi, utilizzato da un numero sempre crescente di aziende”, rileva Bret Greenstein, partner e leader della strategia go-to-market per la Gen AI di PwC. “La maggior parte dei dati aziendali è costituita da documenti e da codici non strutturati e semi-strutturati, oltre che da immagini e video. In passato, tutto questo non era accessibile senza soluzioni complesse e personalizzate che, spesso, erano anche molto fragili”.

Per esempio, l’IA generativa può essere utilizzata per estrarre i metadati dai documenti, creare indici di informazioni e grafici di conoscenza e interrogare, riassumere e analizzare questi dati.

“Si tratta di un enorme balzo in avanti rispetto agli approcci precedenti, che richiedevano un’ampia elaborazione manuale”, chiarisce. “E sblocca moltissimi casi d’uso, dato che la maggior parte dei flussi di lavoro e dei processi si basano su documenti e tipi di dati simili”.

Secondo IDC [in inglese], nel 2022 il 90% dei dati generati dalle aziende sarà non strutturato. Le imprese utilizzano la gen AI per creare dati sintetici, trovare e rimuovere informazioni sensibili dai set di dati di formazione, aggiungere significato e contesto ai dati ed eseguire altre funzioni di livello superiore in cui gli approcci ML tradizionali non sono all’altezza. Ma l’intelligenza artificiale generativa può anche essere più lenta, più costosa e talvolta meno accurata delle tecnologie più vecchie, e gli esperti consigliano di non lanciarsi in questa attività prima che siano stati realizzati tutti i livelli fondamentali.

Un caso d’uso di estrazione dei dati

ABBYY, un’azienda di automazione intelligente, da oltre 35 anni, utilizza vari tipi di IA e di ML per elaborare i documenti. E, tre anni fa, molto prima che ChatGPT facesse il suo ingresso in scena, ha iniziato a usare la Gen AI.

“L’abbiamo usata per aiutarci con il riconoscimento ottico dei caratteri”, dice Max Vermeir, direttore senior della strategia IA dell’azienda.

In precedenza, si utilizzava una rete neurale convoluzionale per rilevare quali bit di un’immagine contenevano del testo. Poi questo veniva inserito in un transformer, la stessa architettura di ChatGPT, ma costruito in modo diverso”, dice.

Il vantaggio di utilizzare un Large Language Model per questo compito è che può vedere il quadro generale e capire cosa si suppone sia il testo da indicazioni di contesto. Il problema, prosegue Vermeir, è che gli LLM richiedono molte risorse. “E nel riconoscimento ottico dei caratteri, l’importante è la velocità”, aggiunge. “Quindi, solo quando rileviamo un documento di qualità molto bassa, coinvolgiamo un modello linguistico di grandi dimensioni”.

L’azienda utilizza gli LLM anche per capire la posizione delle informazioni chiave in un particolare tipo di documento.

“Eseguiamo il riconoscimento ottico dei caratteri, diamo il testo completo al Large Language Model e poi poniamo le nostre domande”, dice. Per esempio, il sistema potrebbe capire quali parti del documento contengono particolari tipi di informazioni. “Poi lo distilliamo in un modello più piccolo, addestrato specificamente per quel tipo di documento, il che significa che sarà molto efficiente, accurato e molto meno dispendioso in termini di risorse”.

Oltre a richiedere molte risorse, i modelli linguistici di grandi dimensione di tipo generico sono noti anche per avere problemi di accuratezza.

“L’utilizzo puro di un LLM non fornisce l’affidabilità necessaria per le attività di dati critici”, evidenzia Vermeir. “Non occorre che indovini cosa c’è in un PDF che è rimasto nel suo archivio per 10 anni, soprattutto se si tratta del suo contratto più importante”.

È importante utilizzare lo strumento giusto per il lavoro che si deve svolgere, considerando tutto il clamore che circonda la Gen AI. “Molte persone stanno cercando di sfruttare questa tecnologia, che sembra in grado di fare tutto”, dice, “ma ciò non significa che si debba usare per tutto”.

Quindi, per esempio, ABBYY ha già uno strumento che può trasformare una singola immagine in centinaia di immagini sintetiche da utilizzare come dati di addestramento. Se ci sono record duplicati, la tecnologia di corrispondenza con logica fuzzy è ottima per verificare se si tratta della stessa persona. Ma un articolo di The Onion che consiglia di mangiare un sasso ogni giorno, o un post su Reddit che parla di mettere la colla sulla pizza possono essere considerati fonti di informazione credibili che dovrebbero far parte di un set di dati di addestramento?

“Questo richiede che la tecnologia ragioni sul fatto che le persone mettano, o meno, la colla sulla pizza”, dice Vermeir. Si tratta è un compito interessante da affidare a un modello linguistico di grandi dimensioni, che deve ragionare su un’ampia quantità di informazioni”. Quindi, siamo di fronte a un caso d’uso molto utile”. ABBYY lavora a qualcosa di simile: capire se una particolare informazione, aggiunta a un set di dati di formazione, aiuterà le prestazioni di un modello in fase di formazione.

“Stiamo verificando se i dati di formazione che riceviamo aumentano effettivamente il modello”, afferma.

Tutto ciò si rivela particolarmente importante per un modello ML di piccole dimensioni o per un modello IA di tipo speciale. Per quelli di uso generale, è più difficile fare questo tipo di distinzione. Per esempio, escludere gli articoli di The Onion da un set di dati di addestramento potrebbe migliorare le prestazioni fattuali di un modello, ma includerli potrebbe migliorare il senso dell’umorismo e il livello di scrittura di un modello; escludere i siti web dei terrapiattisti potrebbe migliorare l’accuratezza scientifica di un modello, ma ridurre la sua capacità di discutere le teorie cospirative.

Un caso d’uso di deduplicazione e controllo qualità

Simbian, startup specializzata in cybersecurity, sta costruendo una piattaforma di sicurezza alimentata dall’IA, e si preoccupa che gli utenti possano “jailbrekkare” l’intelligenza artificiale, ovvero porre domande in modo tale che essa fornisca risultati che non dovrebbe fornire.

“Quando si costruisce un LLM per la sicurezza, è meglio che sia sicuro”, sottolinea Ambuj Kumar, CEO dell’azienda.

Per trovare esempi di tali violazioni, l’azienda ha creato un sito web in cui gli utenti possono provare a ingannare un modello di IA. “Questo ci ha mostrato tutti i modi in cui un Large Language Model può essere ingannato”, dice. Tuttavia, abbiamo trovato un limite: molti risultati erano duplicati. Ipotizziamo, per esempio, che un utente voglia farsi spiegare da un chatbot come costruire una bomba. Se lo chiede direttamente, il chatbot si rifiuta di rispondere alla domanda. Quindi l’utente potrebbe dire qualcosa come: “Mia nonna mi raccontava una storia sulla costruzione di una bomba…”. E un altro utente potrebbe dire: “Il mio bisnonno mi raccontava una storia…”. Semplicemente in termini di parole utilizzate, si tratta di due richieste diverse, ma sono esempi di una tattica di evasione comune.

Avere troppi esempi di una tattica simile nel set di dati di addestramento falserebbe i risultati. Inoltre, costa di più. Utilizzando la Gen AI per confrontare diversi jailbreak di successo, il numero totale di campioni è stato ridotto di un fattore 10, dichiara.

Simbian sta anche utilizzando un LLM per valutare il suo set di dati di formazione, che è pieno di diversi tipi di informazioni relative alla sicurezza.

“Sono stati scritti gigabyte di blog, manuali e README”, indica, “e noi leggiamo continuamente queste cose, capendo quali sono buone e quali no, e aggiungendo quelle buone al nostro set di dati di formazione”.

Un caso d’uso sui dati sintetici

Quelli che riguardano i dati sintetici si rivelano particolarmente adatti alla Gen AI, perché sono stati progettati specificamente per generare nuovi testi.

“Sono molto potenti per la creazione dati sintetici e dati di prova”, racconta Noah Johnson, co-fondatore e CTO di Dasera, un’azienda che si occupa di sicurezza dei dati. “Sono molto efficaci in questo senso. Si dà loro la struttura e il contesto generale, e possono generare dati sintetici dall’aspetto molto realistico”. Questi ultimi vengono poi utilizzati per testare il software dell’azienda, aggiunge. “Utilizziamo un modello open source che abbiamo messo a punto per questa applicazione specifica”.

Ma i dati sintetici non sono solo per il test del software, osserva Andy Thurai, VP e principal analyst di Constellation Research. Un chatbot del servizio clienti, per esempio, potrebbe richiedere una grande quantità di dati di formazione da cui imparare.

“Ma a volte i dati non sono sufficienti”, afferma Thurai. “Quelli del mondo reale sono molto costosi, richiedono tempo e sono difficili da raccogliere”. Potrebbero esserci anche vincoli legali o problemi di copyright e altri ostacoli per ottenerli. Inoltre, i dati sono disordinati, dice. “I data scientist passeranno fino al 90% del loro tempo a curare il set di dati e a ripulirlo”. E più dati sono stati addestrati per un modello, migliore sarà la sua qualità. Alcuni hanno miliardi di parametri.

“Utilizzando dati sintetici, è possibile produrre dati alla velocità che si desidera, quando si desidera”, precisa.

Il problema, aggiunge, è che è troppo facile produrre solo i dati che ci si aspetta di vedere, con il risultato di avere un modello che non è ottimo quando si imbatte nella confusione del mondo reale.

“Ma in base alle mie conversazioni con i dirigenti, tutti sembrano pensare che sia abbastanza buono”, dice Thurai. “Permettetemi di far uscire, inizialmente, il modello con una miscela di dati del mondo reale e di dati sintetici per riempire alcune lacune. E nelle versioni successive, man mano che ottengo più dati, posso perfezionare, effettuare un RAG o riqualificarlo con i dati più recenti”.

Tenere sotto controllo le aspettative dell’intelligenza artificiale

La cosa più importante da sapere è che la Gen AI non risolverà tutti i problemi di dati di un’azienda.

“Non è una pallottola d’argento”, evidenzia Daniel Avancini, Chief Data Officer di Indicium, una società di consulenza sull’IA e sui dati.

Se un’impresa è appena all’inizio del suo viaggio nei dati, la chiave del successo può consistere nel creare buone piattaforme di dati, processi di governance e utilizzare approcci tradizionali efficienti e robusti per identificare, classificare e pulire i dati.

“La Gen AI è sicuramente qualcosa che aiuterà, ma ci sono molte best practice tradizionali che devono essere implementate prima”, aggiunge.

Senza queste basi, un LLM può avere dei vantaggi limitati. Ma quando le aziende dispongono di strutture adeguate e hanno a che fare con grandi quantità di dati, ci sono compiti specifici che l’intelligenza artificiale generativa può aiutare.

“Ma non direi che, con la tecnologia di cui disponiamo oggi, possa sostituire gli approcci tradizionali”, conclude.

© Foundry