Chatbot basati sull'IA e informazioni aziendali: come superare i limiti dei LLM per ottenere dati ufficiali sempre aggiornati

Quando si parla di company data, i limiti strutturali dei chatbot IA sono particolarmente evidenti: informazioni obsolete, dati non accurati e allucinazioni sono molto comuni, quando ci si affida allo scraping di dati sul web.
I Large Language Model, tipicamente, non hanno accesso ai dati ufficiali di Camere di Commercio, Agenzia delle Entrate e altre fonti ufficiali e generano le loro risposte su base probabilistica.
Nel giro di pochissimi anni, i chatbot basati sull’intelligenza artificiale (ChatGPT, Google Gemini, Perplexity AI, Claude AI, Microsoft Copilot, etc.) hanno rivoluzionato il modo in cui gli utenti cercano informazioni online, entrando di prepotenza nel flusso di lavoro di piccole e grandi aziende.
Questi strumenti, in grado di generare rapidamente risposte a domande anche complesse, trovano ampio utilizzo nell’assistenza clienti e nelle campagne di comunicazione, ma anche nella lead generation - e quindi nella raccolta dati.
Ed è proprio sulla qualità dei dati che diventano più evidenti i limiti degli LLM: a prescindere dal fatto che peschino le informazioni all’interno di sistemi proprietari o nel web, i chatbot basati sull’IA funzionano essenzialmente tramite data scraping (estrazione di dati da siti web, documenti, etc.) e generazione di testo basata sulla probabilità.
Queste caratteristiche li espongono a diversi problemi in termini di accuratezza delle informazioni: dati di training obsoleti, per esempio, condurranno a informazioni non aggiornate e non affidabili, mentre la ricerca della “risposta più probabile” può dare luogo alle note allucinazioni dei LLM, ovvero a risposte plausibili ma completamente inventate.
Perciò, quando si tratta di cercare informazioni che possono influire sulle decisioni aziendali e sulla qualità dei propri database, come i dati sul fatturato delle aziende, sulla proprietà o sulla sede legale di un’impresa, non ci si può affidare ai chatbot.
Alcuni dati relativi alle imprese, come la Partita IVA o l’indirizzo PEC, possono essere comodamente disponibili sul web, e quindi alla portata di qualunque chatbot non specializzato. Quando però si cercano informazioni ufficiali e aggiornate sulle imprese per arricchire i propri database, alimentare statistiche e automatizzare il flusso di lavoro, non è consigliabile affidarsi alle risposte di un LLM.
I chatbot, infatti, acquisiscono le loro informazioni da blog, articoli di giornale e altre fonti non ufficiali, e non hanno la possibilità di accedere ai dati messi a disposizione da Camera di Commercio, Agenzia delle Entrate e altre fonti accreditate.
Al contrario, le piattaforme di business intelligence e quelle specializzate nella fornitura di company data, acquisiscono le loro informazioni tramite registri e database ufficiali, assicurando dati corretti e sempre aggiornati. L’accesso a questo tipo di registri, inoltre, è alla base dei servizi di arricchimento dati che permettono intrecciare i dati provenienti da diverse fonti per profilare gli utenti e offrire report sempre più specifici e dettagliati.
Un qualsiasi LLM può efficacemente riassumere le tendenze di mercato, analizzare i settori emergenti e le informazioni sulla concorrenza, ma può anche dare informazioni inaccurate o totalmente false sulla proprietà o sul fatturato di un’azienda, rischiando di ingannare venditori, investitori e altri utenti.
Per via del loro funzionamento, gli LLM tendono a “riempire gli spazi vuoti” su base probabilistica: nel momento in cui un chatbot non trova l’informazione richiesta, quindi, cercherà di fornire la risposta più plausibile - inventando di sana pianta numeri, nomi e addirittura intere aziende.
Oltre al rischio di ricevere informazioni false, l’uso di chatbot per la verifica dei dati aziendali espone a un limite strutturale: non avendo accesso a registri e documenti ufficiali, questi strumenti non possono fornire dati sulla struttura societaria, sull’effettiva proprietà dell’impresa e sull’eventuale presenza di protesti o segnalazioni.
Detto questo, si capisce facilmente che i rischi sono altissimi: affidandosi a dati così incerti, operazioni basilari come l’arricchimento delle anagrafiche possono facilmente tradursi in sistemi corrotti da errori e allucinazioni degli LLM.
Il fatto che i chatbot presentino dei limiti in termini di qualità dei dati non significa che non possano trovare ottima applicazione nella verifica dei dati aziendali. L’importante è fornirgli dati certificati provenienti da fonti ufficiali e “costringerli” a lavorare con quelli.
Per evitare di esporsi ai pericoli dello scraping di dati sul web senza privarsi delle enormi potenzialità offerte dall’integrazione dell’intelligenza artificiale nei propri sistemi, bisogna progettare un meccanismo in cui le diverse operazioni vengono affidate agli “agenti” giusti. Ed è chiaro che un chatbot, da solo, non può fornire un accesso sicuro ai dati aziendali.
Per ottenere informazioni sulle aziende che siano affidabili e sempre aggiornate, dicevamo, bisogna fare riferimento ai registri ufficiali, un processo che può essere facilmente automatizzato con l’integrazione di API che rendono disponibili in tempo reale centinaia di dati certificati e aggiornati sulle aziende.
Ed è qui che entrano in gioco i chatbot per la verifica dati aziende: da qualche tempo, infatti, gli assistenti basati sull’AI possono sfruttare il protocollo aperto MCP (Model Context Protocol) per connettersi a un’infinità di dati e strumenti esterni, tra cui le API di Business Information.
Ciò consente di interpellare le API direttamente tramite chatbot, cioè di ottenere informazioni certificate sulle aziende, aggiornate e in tempo reale, semplicemente interagendo con un assistente AI, utilizzando il linguaggio naturale.