Gestione efficace degli errori degli agenti: Un tutorial pratico con esempi

📖 13 min read•2,476 words•Updated Apr 4, 2026

Introduzione : La realtà inevitabile degli errori degli agenti

Nel dinamico mondo degli agenti IA, dove i sistemi interagiscono con ambienti imprevedibili, API esterne e catene logiche complesse, gli errori non sono un’eccezione, ma un’inevitabilità. Dalla risposta API mal formattata a un timeout, un’anomalia logica o un’input utente inaspettata, i potenziali punti di fallimento sono numerosi. Gli errori non gestiti possono portare a crash degli agenti, loop infiniti, output errati, esperienze utente scadenti, e persino vulnerabilità di sicurezza. Pertanto, una gestione degli errori solida non è solo una buona pratica; è un requisito fondamentale per costruire agenti IA affidabili, resilienti e pronti per la produzione.

Questo tutorial ti guiderà attraverso gli aspetti pratici dell’implementazione di strategie efficaci di gestione degli errori per i tuoi agenti IA. Esploreremo i tipi di errori comuni, discuteremo i diversi meccanismi di gestione e forniremo esempi concreti in Python per illustrare questi concetti. Alla fine, avrai una comprensione solida di come anticipare, rilevare e recuperare elegantemente dagli errori, garantendo che i tuoi agenti funzionino in modo ottimale anche quando le cose non vanno come previsto.

Comprendere i tipi di errori degli agenti comuni

Prima di poter gestire gli errori, dobbiamo comprendere i tipi di errori che potremmo incontrare. Gli errori degli agenti si suddividono generalmente in alcune categorie:

1. Errori API/servizi esterni

Problemi di rete: Timeout, connessione rifiutata, errori di risoluzione DNS.
Limiti di rate API: Superamento del numero di richieste autorizzate in un determinato lasso di tempo.
Chiavi API non valide / Errori di autenticazione: Credenziali errate che impediscono l’accesso.
Risposte malformate: API che restituiscono strutture JSON, XML o HTML inattese.
Codici di stato HTTP: 4xx (errori client come 404 Non trovato, 400 Richiesta non valida, 401 Non autorizzato) e 5xx (errori server come 500 Errore interno del server, 503 Servizio non disponibile).

2. Errori di input/output (I/O)

File non trovato: Tentativo di lettura o scrittura in un file inesistente.
Permesso negato: Mancanza di accesso in lettura/scrittura necessario per file o directory.
Disco pieno: Nessuno spazio disponibile sul dispositivo per nuovi dati.

3. Errori logici degli agenti

Errori di tipo: Operazioni eseguite su tipi di dati incompatibili (ad esempio, sommare una stringa a un numero intero).
Errori di valore: Tipo di dato corretto ma valore inappropriato (ad esempio, conversione di ‘abc’ in intero).
Errori di indice: Accesso a un indice di lista o array fuori dai limiti.
Errori di chiave: Accesso a una chiave inesistente in un dizionario.
ZeroDivisionError: Tentativo di divisione di un numero per zero.
Loop infiniti: Agente bloccato in un compito ripetitivo senza condizione di arresto.

4. Errori di risorse

Esaurimento della memoria: Agente che consuma troppa RAM, causando un crash.
Sovraccarico della CPU: Compiti che richiedono molti calcoli rallentando o bloccando l’agente.

Strategie fondamentali di gestione degli errori

Il principale meccanismo di gestione degli errori in Python è il blocco try-except-finally-else. Scomponiamo i suoi componenti e poi esploriamo strategie più avanzate.

1. Il blocco `try-except`: Catturare le eccezioni

Questa è la pietra angolare della gestione degli errori. Il codice che potrebbe generare un’eccezione è posizionato all’interno del blocco try. Se si verifica un’eccezione, l’esecuzione passa immediatamente al blocco except corrispondente.

Esempio di base: Gestione di un `ValueError`

def convert_to_int(value_str):
 try:
 num = int(value_str)
 print(f"Conversione riuscita di '{value_str}' in intero: {num}")
 return num
 except ValueError:
 print(f"Errore: Impossibile convertire '{value_str}' in intero. Si prega di fornire una stringa numerica valida.")
 return None

convert_to_int("123")
convert_to_int("hello")
convert_to_int("3.14") # Questo genererà anche ValueError se int() è usato direttamente

Catturare più eccezioni

Puoi catturare diversi tipi di eccezioni con più blocchi except o raggrupparli.

def process_data(data_list, index):
 try:
 value = data_list[index]
 result = 10 / value
 print(f"Risultato: {result}")
 except IndexError:
 print(f"Errore: L'indice {index} è fuori dai limiti per la lista.")
 except ZeroDivisionError:
 print(f"Errore: Impossibile dividere per zero. Il valore all'indice {index} è zero.")
 except TypeError as e:
 print(f"Errore: Incompatibilità di tipo durante l'operazione: {e}")
 except Exception as e: # Cattura tutte le altre errori inaspettate
 print(f"Si è verificato un errore inaspettato: {e}")

process_data([1, 2, 0, 4], 0) # Risultato: 10.0
process_data([1, 2, 0, 4], 2) # Errore: Impossibile dividere per zero...
process_data([1, 2, 0, 4], 5) # Errore: L'indice 5 è fuori dai limiti...
process_data(['a', 2], 0) # Errore: Incompatibilità di tipo...

2. Il blocco `finally`: Garantire la pulizia

Il codice all’interno di un blocco finally viene sempre eseguito, che si sia verificata o meno un’eccezione. Questo è ideale per operazioni di pulizia come chiudere file, rilasciare lock o terminare connessioni di rete.

def read_file_gracefully(filename):
 file = None
 try:
 file = open(filename, 'r')
 content = file.read()
 print(f"Contenuto del file:\n{content}")
 except FileNotFoundError:
 print(f"Errore: File '{filename}' non trovato.")
 except IOError as e:
 print(f"Errore durante la lettura del file '{filename}': {e}")
 finally:
 if file:
 file.close()
 print(f"File '{filename}' chiuso.")

# Creare un file fittizio per il test
with open("test_file.txt", "w") as f:
 f.write("Ciao, Agente!")

read_file_gracefully("test_file.txt")
read_file_gracefully("non_existent_file.txt")

3. Il blocco `else`: Codice per il successo

Il blocco else viene eseguito solo se il blocco try termina senza alcuna eccezione. È un buon posto per inserire codice che deve essere eseguito solo se l’operazione iniziale ha avuto successo.

def perform_api_call(url):
 import requests # Supponiamo che requests sia installato
 try:
 response = requests.get(url, timeout=5)
 response.raise_for_status() # Genera HTTPError per risposte errate (4xx o 5xx)
 except requests.exceptions.Timeout:
 print(f"L'appello API a {url} ha superato il tempo di attesa.")
 return None
 except requests.exceptions.RequestException as e:
 print(f"L'appello API a {url} è fallito: {e}")
 return None
 else:
 print(f"L'appello API a {url} è andato a buon fine. Stato: {response.status_code}")
 return response.json()
 finally:
 print("Il tentativo di chiamata API è terminato.")

# Esempio di utilizzo (sostituire con URL reali per testare)
perform_api_call("https://jsonplaceholder.typicode.com/todos/1") # Successo
perform_api_call("https://httpbin.org/status/500") # Errore server
perform_api_call("https://invalid-url-that-does-not-exist.com") # Eccezione richiesta

Modelli avanzati di gestione degli errori per gli agenti

1. Ritentativi con backoff esponenziale

Per errori transitori (come glitch di rete, sovraccarichi temporanei di API o limiti di rate), ripetere l’operazione dopo un breve ritardo può essere efficace. Il backoff esponenziale aumenta il ritardo tra i tentativi, evitando di sovraccaricare il servizio e dando tempo al tuo agente di recuperare.

import time
import random

def reliable_api_call(url, max_retries=5, initial_delay=1):
 for attempt in range(max_retries):
 try:
 # Simulare una chiamata API non affidabile che fallisce a volte
 if random.random() < 0.6 and attempt < max_retries - 1: # 60% di possibilità di fallimento fino all'ultimo tentativo
 raise requests.exceptions.RequestException("Errore API transitorio simulato")

 response = requests.get(url, timeout=5)
 response.raise_for_status()
 print(f"Tentativo {attempt + 1}: L'appello API ha avuto successo a {url}.")
 return response.json()
 except requests.exceptions.RequestException as e:
 print(f"Tentativo {attempt + 1}: L'appello API è fallito a {url}: {e}")
 if attempt < max_retries - 1:
 delay = initial_delay * (2 ** attempt) + random.uniform(0, 1)
 print(f"Nuovo tentativo tra {delay:.2f} secondi...")
 time.sleep(delay)
 else:
 print(f"Numero massimo di ritentativi raggiunto per {url}. Abbandono.")
 return None
 return None

# Esempio di utilizzo
# reliable_api_call("https://jsonplaceholder.typicode.com/todos/1")

2. Modello di interruttore di circuito

Quando un servizio esterno fallisce costantemente, riprovare continuamente può sprecare risorse e degradare ulteriormente il servizio. Il modello del circuit breaker impedisce a un agente di invocare più volte un servizio che fallisce. 'Apre' il circuito (smette di chiamare) dopo un certo numero di fallimenti, attende un periodo di timeout, poi 'mezza-apre' per testare se il servizio si è ristabilito.

Implementare un circuit breaker completo da zero può essere complesso. Librerie come pybreaker (per Python) offrono implementazioni solide.

Esempio concettuale (semplificato)

```html

import time

class CircuitBreaker:
 def __init__(self, failure_threshold=3, recovery_timeout=10, reset_timeout=5):
 self.failure_threshold = failure_threshold
 self.recovery_timeout = recovery_timeout # Tempo in stato 'aperto' prima di passare a mezza-aperto
 self.reset_timeout = reset_timeout # Tempo in stato 'mezza-aperto' prima di chiudersi
 self.failures = 0
 self.state = "CLOSED" # CHIUSO, APERTO, MEZZA-APERTA
 self.last_failure_time = None

 def call(self, func, *args, **kwargs):
 if self.state == "OPEN":
 if time.time() - self.last_failure_time > self.recovery_timeout:
 self.state = "HALF-OPEN"
 print("Circuit Breaker : Passaggio allo stato MEZZA-APERTA.")
 else:
 raise CircuitBreakerOpenError("Il circuito è APERTO. Servizio probabilmente offline.")
 
 try:
 result = func(*args, **kwargs)
 self._success()
 return result
 except Exception as e:
 self._failure()
 raise e

 def _success(self):
 if self.state == "HALF-OPEN":
 print("Circuit Breaker : Servizio ristabilito! Passaggio allo stato CHIUSO.")
 self._reset()
 elif self.state == "CLOSED":
 self.failures = 0 # Reimposta i fallimenti in caso di successo nello stato CHIUSO

 def _failure(self):
 self.failures += 1
 self.last_failure_time = time.time()
 if self.state == "HALF-OPEN" or self.failures >= self.failure_threshold:
 self.state = "OPEN"
 print(f"Circuit Breaker : Fallimenti raggiunti {self.failures}. Passaggio allo stato APERTO.")

 def _reset(self):
 self.failures = 0
 self.state = "CLOSED"
 self.last_failure_time = None

class CircuitBreakerOpenError(Exception):
 pass

# --- Esempio di utilizzo ---
cb = CircuitBreaker()

def unreliable_service():
 # Simulare un servizio che fallisce per un certo tempo, poi si ristabilisce
 if time.time() % 20 < 10: # Fallisce per i primi 10 secondi di ogni ciclo di 20 secondi
 print(" [Servizio] : Simulazione di un fallimento...")
 raise ValueError("Servizio temporaneamente non disponibile")
 else:
 print(" [Servizio] : Simulazione di un successo.")
 return "Dati del servizio"

# Simulare interazione dell'agente nel tempo
# for _ in range(30):
# try:
# print(f"L'agente tenta di chiamare il servizio. Stato del CB : {cb.state}")
# result = cb.call(unreliable_service)
# print(f" L'agente ha ricevuto : {result}")
# except CircuitBreakerOpenError as e:
# print(f" L'agente bloccato dal Circuit Breaker : {e}")
# except Exception as e:
# print(f" L'agente ha gestito l'errore del servizio : {e}")
# time.sleep(1)

3. Classi di Eccezione Personalizzate

Per agenti complessi, definire le proprie classi di eccezione personalizzate può rendere il trattamento degli errori più semantico e organizzato. Questo permette di catturare errori specifici a livello dell'agente senza intercettare eccezioni Python più ampie e meno specifiche.

class AgentError(Exception):
 """Eccezione di base per tutti gli errori specifici dell'agente."""
 pass

class ToolExecutionError(AgentError):
 """Sollevata quando uno strumento specifico dell'agente non riesce a eseguire."""
 def __init__(self, tool_name, original_error):
 self.tool_name = tool_name
 self.original_error = original_error
 super().__init__(f"Strumento '{tool_name}' fallito : {original_error}")

class MalformedInputError(AgentError):
 """Sollevata quando l'agente riceve un input che non corrisponde al formato atteso."""
 def __init__(self, input_data, expected_format):
 self.input_data = input_data
 self.expected_format = expected_format
 super().__init__(f"Input malformato : '{input_data}'. Formato atteso : {expected_format}")

def execute_tool_logic(tool_name, input_value):
 if tool_name == "calculator":
 try:
 return 10 / int(input_value) # Simulare un calcolo, potenziale ZeroDivisionError
 except (ValueError, ZeroDivisionError) as e:
 raise ToolExecutionError(tool_name, e) from e # Chaining exceptions
 elif tool_name == "data_parser":
 if not isinstance(input_value, dict):
 raise MalformedInputError(input_value, "dizionario")
 return input_value.get("key", "default")
 else:
 raise AgentError(f"Strumento sconosciuto : {tool_name}")

# Esempio di utilizzo
try:
 execute_tool_logic("calculator", "0")
except ToolExecutionError as e:
 print(f"L'agente ha catturato un errore dello strumento : {e.tool_name} -> {e.original_error}")
except MalformedInputError as e:
 print(f"L'agente ha catturato un input malformato : {e.input_data}")
except AgentError as e:
 print(f"L'agente ha catturato un errore generale : {e}")

try:
 execute_tool_logic("data_parser", "not_a_dict")
except ToolExecutionError as e:
 print(f"L'agente ha catturato un errore dello strumento : {e.tool_name} -> {e.original_error}")
except MalformedInputError as e:
 print(f"L'agente ha catturato un input malformato : {e.input_data}")
except AgentError as e:
 print(f"L'agente ha catturato un errore generale : {e}")

4. Registrazione e Rapporto di Errore Centralizzati

Sebbene il trattamento degli errori localmente sia cruciale, è altrettanto importante centralizzare la registrazione degli errori. Questo fornisce visibilità sul comportamento dell'agente, aiuta a fare debug ai problemi e consente un monitoraggio proattivo.

Il modulo logging di Python è potente per questo. Puoi configurare diversi livelli di registrazione (DEBUG, INFO, WARNING, ERROR, CRITICAL) e inviare registrazioni a varie destinazioni (console, file, servizi di registrazione esterni).

import logging

# Configurare la registrazione
logging.basicConfig(
 level=logging.ERROR, # Registrare solo ERROR e CRITICAL per impostazione predefinita
 format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
 handlers=[
 logging.FileHandler("agent_errors.log"),
 logging.StreamHandler()
 ]
)

agent_logger = logging.getLogger('my_agent')

def perform_risky_operation(value):
 try:
 result = 100 / int(value)
 agent_logger.info(f"Operazione riuscita con il valore {value}. Risultato : {result}")
 return result
 except ValueError as e:
 agent_logger.error(f"Input non valido per l'operazione : '{value}'. Dettagli : {e}", exc_info=True) # exc_info=True aggiunge la traccia
 return None
 except ZeroDivisionError as e:
 agent_logger.critical(f"Errore critico : Tentativo di divisione per zero con il valore '{value}'. Dettagli : {e}", exc_info=True)
 # Potenzialmente attivare un allerta qui
 return None

perform_risky_operation("5")
perform_risky_operation("abc")
perform_risky_operation("0")

Migliori Pratiche per il Trattamento degli Errori degli Agenti

Sii Specifico : Cattura eccezioni specifiche piuttosto che ampie classi Exception. Questo impedisce di catturare errori inaspettati e rende il tuo codice più prevedibile.
Fallisci Rapidmente (Ma con Eleganza) : Per gli errori irrimediabili, è spesso meglio fallire rapidamente e fornire informazioni diagnostiche chiare piuttosto che continuare con uno stato corrotto.
Tutto Registrare : Registra gli errori con sufficienti dettagli (inclusi i tracciamenti con exc_info=True) per facilitare il debug.
Feedback per l'Utente : Se il tuo agente interagisce con gli utenti, fornisci messaggi di errore chiari, concisi e utili che li guidino su cosa è andato storto e come porvi rimedio. Evita il gergo tecnico.
Idempotenza : Progetta le operazioni per essere idempotenti quando possibile. Questo significa che ripetere un'operazione (ad esempio, dopo un tentativo) ha lo stesso effetto che eseguirla una sola volta, evitando effetti collaterali indesiderati.
Monitoraggio e Allerta : Integra la registrazione degli errori con sistemi di monitoraggio che possono avvisarti di guasti critici, consentendo un intervento tempestivo.
Testa i Percorsi di Errore : Testa esplicitamente come il tuo agente si comporta in varie condizioni di errore. Non testare solo il percorso felice.
Non Ignorare Silenziosamente gli Errori : Evita except Exception: pass. Questo nasconde i problemi e rende il debug un incubo. Se devi ignorare un errore, almeno registralo.

Conclusione

Costruire agenti IA resilienti richiede un approccio proattivo e approfondito al trattamento degli errori. Comprendendo i tipi di errori comuni, utilizzando i potenti meccanismi di gestione delle eccezioni di Python e adottando modelli avanzati come i tentativi e i disconettori, puoi migliorare notevolmente la stabilità e l'affidabilità dei tuoi agenti. Non dimenticare di registrare efficacemente gli errori, fornire un feedback significativo e testare continuamente le tue strategie di trattamento degli errori. Un sistema di trattamento degli errori ben progettato non riguarda solo la risoluzione dei problemi quando si verificano, ma anche prevenirli dall'influenzare le prestazioni del tuo agente e la fiducia degli utenti in primo luogo.

```

🕒 Published: April 4, 2026

✍️

Written by Jake Chen

AI technology writer and researcher.

Learn more →