Dominare la gestione degli errori dell’agente: Un tutorial pratico con esempi

📖 11 min read•2,139 words•Updated Apr 4, 2026

Introduzione: La realtà inevitabile degli errori degli agenti

Nel mondo degli agenti IA, dove entità autonome interagiscono con ambienti dinamici, l’unica costante è il cambiamento – e con esso, l’inevitabilità degli errori. Che il tuo agente navighi in un’API complessa, elabori input degli utenti o prenda decisioni basate su dati in tempo reale, si presenteranno situazioni inaspettate. Queste possono variare da interruzioni di rete e formati di dati non validi a risposte inattese provenienti da servizi esterni o incoerenze logiche nel processo di ragionamento dell’agente. Senza una gestione degli errori adeguata, un agente può rapidamente cadere in uno stato di mancata risposta, comportamento errato, o addirittura crash completo, minando la sua affidabilità e la fiducia che gli viene accordata. Questo tutorial esplorerà gli aspetti critici della gestione degli errori degli agenti, fornendo strategie pratiche ed esempi di codice per costruire agenti IA più resilienti e solidi.

Pensa alla gestione degli errori non come una riflessione a posteriori, ma come una parte integrante della progettazione del tuo agente. È la rete di sicurezza che afferra le cadute inaspettate, consentendo al tuo agente di riprendersi con grazia, di apprendere dai propri errori o, perlomeno, di fornire feedback significativi. Esploreremo vari tipi di errori, discuteremo strategie proattive e reattive, e dimostreremo come implementare meccanismi efficaci di gestione degli errori in un contesto pratico.

Comprendere lo spazio degli errori dell’agente

Prima di poter gestire gli errori, dobbiamo prima comprendere la loro natura e le loro origini comuni. Gli errori degli agenti possono essere ampiamente classificati in diversi tipi:

Errori di input/output: Questi si verificano quando l’agente interagisce con sistemi esterni. Gli esempi includono ritardi di rete, limiti di frequenza dell’API, risposte JSON mal formate, errori di file non trovato o input utente non validi.
Errori logici (bug): Deficit nel codice o nella logica di ragionamento dell’agente. Anche se un buon test mira a minimizzare questi errori, possono comunque apparire in scenari complessi e nuovi.
Errori ambientali: Problemi con l’ambiente di esecuzione dell’agente, come memoria insufficiente, spazio su disco insufficiente o riavvii di sistema imprevisti.
Errori di servizio esterno: Errori provenienti da API o servizi di terze parti su cui l’agente fa affidamento, come un errore di connessione a un database o un LLM che restituisce una risposta vuota.
Violazioni di vincoli: Quando l’agente tenta di eseguire un’azione che viola regole o vincoli predefiniti, come cercare di accedere a una risorsa senza l’autenticazione appropriata.

Ogni tipo di errore richiede spesso una strategia di gestione lievemente diversa, che va da semplici nuovi tentativi a fasi più complesse di ripristino di stato o intervento umano.

Strategie proattive: Prevenire gli errori prima che si verifichino

Il miglior errore è quello che non si verifica mai. Le strategie proattive si concentrano sulla prevenzione degli errori tramite una progettazione accurata, la validazione e una buona pulizia degli input.

1. Validazione e pulizia degli input

Tutti i dati che riceve un agente, sia da un utente, da un’API, o da un sensore, devono essere validati e puliti prima di essere elaborati. Questo previene problemi comuni come attacchi di iniezione, dati malformati o valori fuori intervallo.


def validate_user_input(user_query: str) -> bool:
 """Valida le entrate utente per problemi comuni."""
 if not isinstance(user_query, str) or not user_query.strip():
 print("Errore: La richiesta dell'utente non può essere vuota.")
 return False
 if len(user_query) > 500: # Esempio di vincolo di lunghezza
 print("Errore: La richiesta dell'utente supera la lunghezza massima.")
 return False
 # Controlli aggiuntivi: pulire per caratteri speciali, modelli potenzialmente dannosi
 # Per motivi di semplicità, qui controlliamo solo la validità di base
 return True

def process_user_request(query: str):
 if not validate_user_input(query):
 return {"status": "error", "message": "Entrata non valida fornita."}
 # Continuare con l'elaborazione della richiesta valida
 print(f"Elaborazione della richiesta: {query}")
 return {"status": "success", "data": f"Risposta a: {query}"}

print(process_user_request(""))
print(process_user_request("Parlami del meteo a Londra."))

2. Indicazioni di tipo e analisi statica

I linguaggi di programmazione moderni offrono indicazioni di tipo (ad esempio, mypy di Python) e strumenti di analisi statica che possono rilevare molti errori di programmazione comuni prima dell’esecuzione. Questo è particolarmente utile in sistemi di agenti più ampi dove diversi componenti interagiscono.


from typing import Optional

def fetch_data_from_api(url: str, timeout: int = 5) -> Optional[dict]:
 """Recupera dati da un'API con un timeout specificato."""
 # Le indicazioni di tipo garantiscono che 'url' sia una stringa e 'timeout' sia un int.
 # Gli strumenti di analisi statica possono segnalare se si cerca di passare un tipo errato.
 pass # L'implementazione reale andrebbe qui

3. Interruttori automatici

Ispirati all’ingegneria elettrica, gli interruttori automatici impediscono a un agente di tentare ripetutamente di accedere a un servizio esterno non funzionante. Se un servizio fallisce in modo consistente, il circuito “salta”, impedendo ulteriori chiamate per un periodo definito, permettendo al servizio di riprendersi e preservando le risorse dell’agente.


import time

class CircuitBreaker:
 def __init__(self, failure_threshold: int = 3, recovery_timeout: int = 60):
 self.failure_threshold = failure_threshold
 self.recovery_timeout = recovery_timeout
 self.failures = 0
 self.last_failure_time = 0
 self.is_open = False

 def call(self, func, *args, **kwargs):
 if self.is_open:
 if time.time() - self.last_failure_time > self.recovery_timeout:
 print("Circuito che cerca di chiudersi...")
 # Tentare di ripristinare dopo il timeout
 self.is_open = False
 self.failures = 0
 else:
 raise CircuitBreakerOpenError("Il circuito è aperto. Il servizio è probabilmente guasto.")

 try:
 result = func(*args, **kwargs)
 self.reset()
 return result
 except Exception as e:
 self.record_failure()
 raise e

 def record_failure(self):
 self.failures += 1
 self.last_failure_time = time.time()
 if self.failures >= self.failure_threshold:
 self.is_open = True
 print(f"Circuito aperto! Troppe interruzioni: {self.failures}")

 def reset(self):
 self.failures = 0
 self.is_open = False
 self.last_failure_time = 0
 print("Circuito ripristinato.")

class CircuitBreakerOpenError(Exception):
 pass

# Esempio di utilizzo:
# external_service_failures = 0
# def unreliable_api_call():
# global external_service_failures
# if external_service_failures < 4: # Simulare interruzioni iniziali
# external_service_failures += 1
# raise ConnectionError("Errore di connessione API simulata")
# print("Chiamata API riuscita!")
# return {"data": "some_data"}

# cb = CircuitBreaker()
# for i in range(10):
# try:
# print(f"Tentativo {i+1}:")
# cb.call(unreliable_api_call)
# except (ConnectionError, CircuitBreakerOpenError) as e:
# print(f"Errore catturata: {e}")
# time.sleep(1)

Strategie reattive: Gestire gli errori quando si verificano

Anche con le migliori misure proattive, gli errori si verificheranno inevitabilmente. Le strategie reattive si concentrano su come un agente risponde a queste eccezioni in fase di esecuzione.

1. Degradazione elegante e opzioni di emergenza

Quando il servizio principale fallisce, un agente dovrebbe idealmente degradare elegantemente piuttosto che bloccarsi. Questo può comportare l'uso di una risposta in cache, un'alternativa più semplice, o anche la comunicazione all'utente di una limitazione temporanea.


def get_weather_data(city: str) -> Optional[dict]:
 try:
 # Tentare di chiamare l'API meteo principale
 # response = api_client.get(f"weather.com/api/{city}")
 # return response.json()
 raise ConnectionError("Fuga API simulata") # Simulare una interruzione
 except ConnectionError:
 print("Avviso: API meteo principale non disponibile. Utilizzo servizio di emergenza.")
 # Ritorno a un servizio più semplice, forse meno preciso, o dati in cache
 if city == "London":
 return {"city": "Londra", "temperature": "15C", "condition": "Nuvoloso (cache)"}
 else:
 return {"city": city, "temperature": "N/A", "condition": "Sconosciuto (emergenza)"}
 except Exception as e:
 print(f"Si è verificato un errore inaspettato durante il recupero del meteo: {e}")
 return None

print(get_weather_data("London"))
print(get_weather_data("New York"))

2. Tentativi con ritardo esponenziale

Per errori transitori (come problemi di rete o un'indisponibilità temporanea del servizio), riprovare l'operazione può spesso risolvere il problema. Il backoff esponenziale aumenta il tempo tra i tentativi, evitando che l'agente sovraccarichi un servizio in difficoltà e dandogli il tempo per riprendersi.


import time
import random

def call_unreliable_service(attempt: int):
 """Simula una chiamata a un servizio poco affidabile."""
 if attempt < 3: # Riuscita al 3° tentativo
 print(f"La chiamata al servizio è fallita al tentativo {attempt+1}.")
 raise ConnectionError("Servizio temporaneamente non disponibile")
 print(f"La chiamata al servizio è riuscita al tentativo {attempt+1}!")
 return {"data": "Recuperato con successo!"}

def retry_with_backoff(func, max_retries: int = 5, initial_delay: float = 1.0):
 for attempt in range(max_retries):
 try:
 return func(attempt)
 except ConnectionError as e:
 delay = initial_delay * (2 ** attempt) + random.uniform(0, 1) # Delay esponenziale con jitter
 print(f"Errore: {e}. Nuovo tentativo tra {delay:.2f} secondi...")
 time.sleep(delay)
 except Exception as e:
 print(f"Si è verificato un errore irreversibile: {e}")
 raise
 raise ConnectionError(f"Fallimento dopo {max_retries} tentativi.")

# Esempio di utilizzo:
# try:
# result = retry_with_backoff(call_unreliable_service)
# print(f"Risultato finale: {result}")
# except ConnectionError as e:
# print(f"L'operazione alla fine è fallita: {e}")

3. Registrazione e monitoraggio centralizzati degli errori

Quando si verifica un errore, è fondamentale registrare informazioni dettagliate al riguardo. Ciò include il timestamp, il tipo di errore, lo stack trace, lo stato pertinente dell'agente e qualsiasi dato contestuale. La registrazione centralizzata (ad esempio, utilizzando la stack ELK, Splunk o servizi di logging nel cloud) consente agli sviluppatori di monitorare la salute degli agenti, identificare problemi ricorrenti e diagnosticare efficacemente i problemi.


import logging

# Configura la registrazione
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

def perform_critical_task(data):
 try:
 # Simula un compito che può fallire
 if not isinstance(data, dict) or "key" not in data:
 raise ValueError("Formato di dati non valido")
 result = 10 / data["key"]
 logging.info(f"Compito completato con successo con il risultato: {result}")
 return result
 except ValueError as e:
 logging.error(f"Errore di validazione dei dati: {e}. Dati di input: {data}")
 # Rialza o restituisci una risposta di errore specifica
 raise
 except ZeroDivisionError:
 logging.error("Tentativo di divisione per zero. Assicurati che 'key' non sia 0.")
 raise
 except Exception as e:
 logging.critical(f"Si è verificato un errore critico imprevisto: {e}", exc_info=True)
 raise

# Esempio di utilizzo:
# try:
# perform_critical_task({"key": 2})
# perform_critical_task({"wrong_key": 5})
# perform_critical_task({"key": 0})
# except Exception:
# pass # Gestito dalla registrazione, ma può essere catturato per altre azioni dell'agente

4. Intervento Umano per Errori Non Gestiti

Per errori complessi o nuovi che l'agente non riesce a risolvere autonomamente, la soluzione più adeguata consiste spesso nell'escalare a un operatore umano. Questo consente all'agente di continuare a lavorare su altre attività mentre un umano indaga e fornisce potenzialmente una soluzione o istruzioni aggiornate. Questo è particolarmente rilevante per gli agenti che interagiscono con sistemi del mondo reale dove un recupero autonomo errato potrebbe essere dannoso.


class HumanInterventionNeeded(Exception):
 pass

def process_complex_request(request_data: dict):
 try:
 # ... logica complessa che coinvolge più servizi esterni ...
 # Simula un caso limite non gestito
 if request_data.get("unhandled_case"):
 raise HumanInterventionNeeded("L'agente ha incontrato uno scenario nuovo e non gestito.")

 print("Richiesta complessa elaborata con successo.")
 return {"status": "success"}
 except HumanInterventionNeeded as e:
 logging.warning(f"Escalazione verso un umano: {e}. Dati della richiesta: {request_data}")
 # Invia un avviso, invia un'email, crea un ticket o notifica un operatore umano tramite un dashboard
 return {"status": "escalated", "message": str(e)}
 except Exception as e:
 logging.error(f"Errore imprevisto durante l'elaborazione della richiesta complessa: {e}", exc_info=True)
 return {"status": "error", "message": "Errore interno di elaborazione."}

# Esempio di utilizzo:
# print(process_complex_request({"data": "normal"}))
# print(process_complex_request({"data": "special", "unhandled_case": True}))

Migliori Pratiche per la Gestione degli Errori dell'Agente

Specificità: Cattura eccezioni specifiche piuttosto che generali (ad esempio, ValueError invece di un'eccezione generale Exception). Ciò consente un recupero più mirato.
Idempotenza: Progetta le operazioni affinché siano idempotenti quando possibile. Ciò significa che eseguire l'operazione più volte ha lo stesso effetto che eseguirla una sola volta, semplificando la logica di ripetizione.
Gestione dello Stato: In caso di errore, assicurati che lo stato interno dell'agente rimanga coerente o possa essere ripristinato in modo sicuro a uno stato conosciuto come buono.
Feedback Utilizzatore: Se l'agente interagisce con gli utenti, fornisci messaggi di errore chiari, concisi e utili. Evita il gergo tecnico.
Test: Testa attentamente i percorsi di errore. Test unitari, test di integrazione e ingegneria dei caos (iniezione deliberata di fallimenti) sono cruciali.
Documentazione: Documenta gli scenari di errore comuni e le rispettive strategie di gestione attese per la manutenzione e il debug futuri.

Conclusione

Costruire agenti IA resilienti richiede un approccio approfondito alla gestione degli errori. Combinando tecniche preventive proattive come la validazione delle entrate e i circuit breaker con strategie reattive come il degrado elegante, le ripetizioni e una registrazione solida, puoi migliorare notevolmente la stabilità e l'affidabilità del tuo agente. Ricorda che la gestione degli errori non consiste solo nel catturare le eccezioni; si tratta di progettare il tuo agente per anticipare i fallimenti, riprendersi in modo intelligente e mantenere la sua integrità operativa anche di fronte a sfide inaspettate. Man mano che gli agenti IA diventano sempre più integrati nei nostri sistemi, padroneggiare la gestione degli errori non è più un lusso ma una necessità fondamentale per il loro successo nel deployment e il funzionamento a lungo termine.

🕒 Published: April 4, 2026

✍️

Written by Jake Chen

AI technology writer and researcher.

Learn more →