Correção de erros CUDA Out of Memory no PyTorch: Um guia completo

📖 14 min read•2,671 words•Updated Mar 31, 2026

Autor: Riley Debug – Especialista em depuração de IA e engenheiro de ML ops

A mensagem de erro angustiante “CUDA out of memory” é um obstáculo comum para quem trabalha com modelos de aprendizado profundo no PyTorch. Você projetou seu modelo com cuidado, preparou seus dados e começou o treinamento, apenas para se deparar com essa mensagem frustrante. É um sinal claro de que sua GPU não tem memória suficiente para conter todos os tensores necessários e os cálculos para a operação em andamento. Isso não é apenas um incômodo; bloqueia seu progresso, desperdiça um tempo precioso e pode se tornar um gargalo significativo no desenvolvimento de soluções de IA poderosas.

Este guia foi criado para lhe proporcionar uma compreensão aprofundada das razões pelas quais esses erros ocorrem no PyTorch e, mais importante, para fornecer uma caixa de ferramentas prática de estratégias para superá-los. Vamos explorar diversas técnicas, desde ajustes simples até considerações arquitetônicas mais avançadas, para garantir que você possa gerenciar suas recursos de GPU de forma eficaz e manter seus pipelines de treinamento em bom estado. Vamos explorar como diagnosticar, prevenir e corrigir erros de memória CUDA no PyTorch, permitindo que você construa e treine modelos maiores e mais complexos.

Entendendo o uso da memória GPU no PyTorch

Antes de corrigir os erros “CUDA out of memory”, é crucial entender o que consome memória GPU durante um treinamento no PyTorch. Vários componentes contribuem para a pegada total de memória, e identificar os principais responsáveis é o primeiro passo para uma otimização eficaz.

Tensores e parâmetros do modelo

Cada tensor no seu modelo, incluindo os dados de entrada, as ativações intermediárias e os parâmetros treináveis do modelo (pesos e viés), reside na GPU se você os moveu para lá. O tamanho desses tensores está diretamente correlacionado ao uso de memória. Modelos maiores, com mais camadas e parâmetros, naturalmente requerem mais memória. Da mesma forma, imagens de entrada de resolução mais alta ou comprimentos de sequência mais longos resultarão em tensores de entrada maiores.

Ativações intermediárias (Passagem para frente)

Durante a passagem para frente, o PyTorch deve armazenar as ativações de cada camada. Esses valores intermediários são essenciais para o cálculo dos gradientes durante a passagem para trás (retropropagação). Para redes profundas, a acumulação dessas ativações pode ser substancial. Por exemplo, um ResNet com muitos blocos gerará muitos mapas de características que precisam ser mantidos na memória.

Gradientes (Passagem para trás)

Quando a passagem para trás começa, os gradientes são calculados para cada parâmetro. Esses gradientes também ocupam memória GPU. O motor de diferenciação automática do PyTorch (Autograd) gerencia esse processo, mas a memória alocada para os gradientes pode ser significativa, especialmente para modelos com um grande número de parâmetros.

Estados dos otimizadores

Os otimizadores como Adam, RMSprop ou Adagrad mantêm estados internos para cada parâmetro (por exemplo, buffers de momentum, estimativas de variância). Esses estados frequentemente são tão grandes quanto os parâmetros em si, dobrando ou triplicando o espaço de memória necessário apenas para os parâmetros.

Tamanho do lote

Talvez o fator mais simples seja o tamanho do lote. Um tamanho de lote maior significa que mais amostras de entrada e suas ativações intermediárias correspondentes são processadas simultaneamente. Embora lotes maiores possam às vezes levar a estimativas de gradientes mais estáveis e uma convergência de treinamento mais rápida, eles representam um fator principal de consumo de memória GPU.

Sobrecarrega interna do PyTorch

Além dos dados específicos do seu modelo, o PyTorch também possui certa sobrecarga interna para gerenciar contextos CUDA, alocadores de memória e outros componentes operacionais. Embora geralmente seja menor do que a memória dos tensores, isso faz parte do uso total.

Diagnósticos iniciais e soluções rápidas

Quando o erro “CUDA out of memory” ocorre, não entre em pânico. Comece com estas etapas imediatas para diagnosticar e possivelmente resolver o problema rapidamente.

Limpar o cache CUDA do PyTorch

Às vezes, o alocador de memória do PyTorch pode manter memória em cache mesmo depois que os tensores não estão mais em uso, levando a uma fragmentação ou a uma visão imprecisa da memória disponível. Limpar explicitamente o cache pode liberar espaço.


import torch

torch.cuda.empty_cache()

É bom chamá-lo periodicamente, especialmente após excluir tensores grandes ou antes de alocar novos. Observe que isso apenas limpa o cache interno do PyTorch e não a memória ativamente utilizada pelos tensores.

Reduzir o tamanho do lote

Essa é frequentemente a primeira etapa mais eficaz e simples. Um tamanho de lote menor reduz diretamente o número de amostras processadas simultaneamente, diminuindo assim a memória necessária para as entradas, as ativações intermediárias e os gradientes.


# Tamanho de lote original
batch_size = 64
# Se OOM, tente
batch_size = 32
# Ou até mesmo
batch_size = 16

Divida iterativamente seu tamanho de lote pela metade até que o erro desapareça. Esteja ciente de que um tamanho de lote muito pequeno pode afetar a estabilidade do treinamento ou a velocidade de convergência, portanto, é um compromisso.

Remover tensores e variáveis desnecessárias

Certifique-se de não manter grandes tensores ou variáveis que não são mais necessárias. O coletor de lixo do Python eventualmente os liberará, mas excluí-los explicitamente pode liberar memória mais cedo. Não se esqueça de movê-los para o CPU ou desanexá-los se forem parte do gráfico de computação e você deseja preservar seus dados, mas não seu histórico de gradientes.


# Exemplo: Se você tem um grande tensor 'temp_data' que não é mais necessário
del temp_data
# Também chame explicitamente o coletor de lixo
import gc
gc.collect()
torch.cuda.empty_cache() # Chame novamente após a exclusão

Monitorar o uso da memória GPU

Ferramentas como nvidia-smi (no seu terminal) ou as funções de relatório de memória integradas do PyTorch podem fornecer informações sobre o consumo de memória da sua GPU. Isso ajuda a identificar se outro processo está consumindo memória ou se seu script PyTorch é o único responsável.


nvidia-smi

No PyTorch, você pode obter estatísticas detalhadas de memória:


print(torch.cuda.memory_summary(device=None, abbreviated=False))

Isso fornece uma discriminação da memória alocada em comparação com a reservada e pode, às vezes, dar pistas sobre a fragmentação.

Técnicas avançadas de otimização de memória

Quando as soluções rápidas não são suficientes, ou quando você precisa treinar modelos muito grandes, técnicas mais sofisticadas são necessárias. Esses métodos muitas vezes envolvem compromissos entre memória, tempo de computação e complexidade do código.

Acumulação de gradientes

A acumulação de gradientes permite simular um tamanho de lote efetivo maior sem aumentar a pegada de memória de uma única passagem para frente/para trás. Em vez de atualizar os pesos após cada lote, você acumula os gradientes em vários pequenos lotes e, em seguida, realiza uma única atualização.


model = MyModel().to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
accumulation_steps = 4 # Acumular gradientes em 4 mini-batches

for epoch in range(num_epochs):
 for i, (inputs, labels) in enumerate(dataloader):
 inputs, labels = inputs.to(device), labels.to(device)

 outputs = model(inputs)
 loss = criterion(outputs, labels)
 loss = loss / accumulation_steps # Normalizar a perda para a acumulação

 loss.backward() # Acumular os gradientes

 if (i + 1) % accumulation_steps == 0:
 optimizer.step() # Realizar a etapa de otimização
 optimizer.zero_grad() # Reiniciar os gradientes

 # Certificar-se de que todos os gradientes acumulados restantes sejam aplicados no final da epoch
 if (i + 1) % accumulation_steps != 0:
 optimizer.step()
 optimizer.zero_grad()

Essa técnica é poderosa para treinar com grandes tamanhos de lote efetivos em GPUs com memória limitada.

Ponto de controle de gradiente (Ponto de controle de ativação)

Como discutido, as ativações intermediárias consomem muita memória. O ponto de verificação de gradiente resolve esse problema ao não armazenar todas as ativações intermediárias durante a passagem para frente. Em vez disso, ele as recalcula durante a passagem para trás para os segmentos que necessitam de gradientes. Isso reduz consideravelmente a memória, mas aumenta o tempo de cálculo, já que algumas partes da passagem para frente são executadas duas vezes.


import torch.utils.checkpoint as checkpoint

class CheckpointBlock(torch.nn.Module):
 def __init__(self, layer):
 super().__init__()
 self.layer = layer

 def forward(self, x):
 # Usar o ponto de verificação para a passagem para frente desta camada
 return checkpoint.checkpoint(self.layer, x)

# Exemplo de uso: envolver um grande bloco sequencial
model = MyLargeModel()
# Substituir uma grande parte sequencial por uma versão com ponto de verificação
# Por exemplo, se seu modelo tiver `self.encoder = nn.Sequential(...)`
# Você poderia envolver o codificador:
# self.encoder = CheckpointBlock(nn.Sequential(*encoder_layers))

Isso é particularmente útil para redes muito profundas onde é impossível armazenar todas as ativações.

Treinamento em Precisão Mista (FP16/BF16)

O treinamento em precisão mista envolve realizar certas operações em precisão mais baixa (FP16 ou BF16) enquanto mantém outras em FP32. Isso pode reduzir pela metade a pegada de memória para os pesos, ativações e gradientes, e muitas vezes acelera o treinamento em GPUs modernas (como as arquiteturas NVIDIA Volta, Turing, Ampere, Ada Lovelace) que possuem núcleos Tensor projetados para cálculos FP16.

O módulo torch.cuda.amp do PyTorch torna isso mais fácil:


from torch.cuda.amp import autocast, GradScaler

model = MyModel().to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
scaler = GradScaler() # Para estabilidade FP16

for epoch in range(num_epochs):
 for inputs, labels in dataloader:
 inputs, labels = inputs.to(device), labels.to(device)

 optimizer.zero_grad()

 with autocast(): # As operações dentro deste contexto serão executadas em FP16 quando possível
 outputs = model(inputs)
 loss = criterion(outputs, labels)

 scaler.scale(loss).backward() # Escalar a perda para evitar sub-fluxo nos gradientes FP16
 scaler.step(optimizer) # Desescalar os gradientes e atualizar os pesos
 scaler.update() # Atualizar a escala para a próxima iteração

A precisão mista é uma técnica poderosa que muitas vezes oferece economia de memória e ganhos de desempenho.

Descarregar para o CPU (CPU Offloading)

Para modelos extremamente grandes ou tensores intermediários, você pode considerar mover algumas partes do seu modelo ou tensores específicos para o CPU quando não estão sendo usados ativamente, e depois trazê-los de volta para o GPU quando forem necessários. Isso é mais complexo de gerenciar e introduz um custo significativo devido à transferência de dados entre o CPU e o GPU, mas pode ser um último recurso para modelos que de outra forma não caberiam.


# Exemplo: Mover um grande tensor para o CPU após seu uso
large_tensor_on_gpu = torch.randn(10000, 10000).to(device)
# ... cálculos utilizando large_tensor_on_gpu ...

# Quando não for mais necessário no GPU
large_tensor_on_gpu = large_tensor_on_gpu.cpu()
# Ou simplesmente excluir se não for mais necessário
del large_tensor_on_gpu
torch.cuda.empty_cache()

Para as camadas do modelo, isso geralmente implica dividir o modelo e mover blocos sequenciais entre os dispositivos.

Considerações Arquitetônicas e de Design de Código

Além das técnicas específicas de otimização de memória, a forma como você projeta seu modelo e escreve seu código PyTorch pode ter um impacto significativo na utilização da memória GPU.

Arquiteturas de Modelo Eficientes

Certain model architectures are inherently more memory-intensive than others. For example, models with very wide layers or those that generate many high-resolution feature maps (e.g., in segmentation tasks) will consume more memory. Consider using more memory-efficient alternatives when possible:

Convoluções Separáveis em Profundidade: Frequentemente usadas em arquiteturas móveis (por exemplo, MobileNet), estas podem reduzir significativamente o número de parâmetros e o cálculo em comparação com convoluções padrão.
Compartilhamento de Parâmetros: Reutilizar pesos em diferentes partes da rede pode economizar memória.
Poda e Quantização: Embora geralmente aplicados após o treinamento, estes podem ser considerados para o deployment e poderiam influenciar as escolhas de design para ambientes com memória restrita.

Operações In-Place

As operações PyTorch frequentemente criam novos tensores para sua saída. As operações in-place (denotadas por um sublinhado final, por exemplo, x.add_(y) em vez de x = x + y) modificam diretamente o tensor sem alocar nova memória para o resultado. Embora possam economizar memória, use-as com cautela, pois podem quebrar o grafo de computação se não forem gerenciadas corretamente, especialmente quando usadas em tensores que requerem gradientes.


# Economia de memória (in-place)
x.relu_() # Modifica diretamente x

# Cria um novo tensor
x = torch.relu(x)

Evitar Clones/Cópias Desnecessárias de Tensores

Fique atento a operações que criam implicitamente cópias de tensores. Por exemplo, o fatiamento de um tensor pode, às vezes, criar uma visão, mas outras operações podem criar uma cópia completa. Use explicitamente .clone() somente quando uma cópia profunda for realmente necessária; caso contrário, trabalhe com visões sempre que possível.


# Cria uma visão (sem nova memória para os dados)
view_tensor = original_tensor[0:10]

# Cria um novo tensor (nova memória)
cloned_tensor = original_tensor.clone()

Uso de `torch.no_grad()` para Inferência/Avaliação

Ao avaliar ou inferir, você não precisa calcular ou armazenar gradientes. Envolver seu código de inferência no gerenciador de contexto torch.no_grad() impede o Autograd de construir o grafo de computação, o que economiza uma quantidade significativa de memória ao não armazenar as ativações intermediárias para a retropropagação.


model.eval() # Coloca o modelo em modo de avaliação
with torch.no_grad():
 for inputs, labels in val_dataloader:
 inputs, labels = inputs.to(device), labels.to(device)
 outputs = model(inputs)
 # ... calcular as métricas ...
model.train() # Coloca o modelo de volta em modo de treinamento

Essa é uma prática fundamental para quem trabalha com PyTorch e pode muitas vezes evitar erros de tipo OOM durante as etapas de validação.

Perfilando a Utilização de Memória

Para casos complexos, o PyTorch fornece ferramentas de perfilamento poderosas que podem identificar exatamente quais operações consomem mais memória. O módulo torch.profiler (ou o antigo torch.autograd.profiler) pode registrar as alocações de memória CUDA.


import torch
from torch.profiler import profile, record_function, ProfilerActivity

# Exemplo de perfilamento de uma passagem para frente/atras
model = MyModel().to(device)
inputs = torch.randn(4, 3, 224, 224).to(device)
labels = torch.randint(0, 10, (4,)).to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
criterion = torch.nn.CrossEntropyLoss()

with profile(activities=[
 ProfilerActivity.CPU, ProfilerActivity.CUDA], record_shapes=True) as prof:
 with record_function("model_inference"):
 outputs = model(inputs)
 with record_function("loss_computation"):
 loss = criterion(outputs, labels)
 with record_function("backward_pass"):
 loss.backward()
 with record_function("optimizer_step"):
 optimizer.step()
 optimizer.zero_grad()

print(prof.key_averages().table(sort_by="cuda_memory_usage", row_limit=10))

A saída do perfil pode mostrar detalhes sobre a utilização de memória

Correção de erros CUDA Out of Memory no PyTorch: Um guia completo

Entendendo o uso da memória GPU no PyTorch

Tensores e parâmetros do modelo

Ativações intermediárias (Passagem para frente)

Gradientes (Passagem para trás)

Estados dos otimizadores

Tamanho do lote

Sobrecarrega interna do PyTorch

Diagnósticos iniciais e soluções rápidas

Limpar o cache CUDA do PyTorch

Reduzir o tamanho do lote

Remover tensores e variáveis desnecessárias

Monitorar o uso da memória GPU

Técnicas avançadas de otimização de memória

Acumulação de gradientes

Ponto de controle de gradiente (Ponto de controle de ativação)

Treinamento em Precisão Mista (FP16/BF16)

Descarregar para o CPU (CPU Offloading)

Considerações Arquitetônicas e de Design de Código

Arquiteturas de Modelo Eficientes

Operações In-Place

Evitar Clones/Cópias Desnecessárias de Tensores

Uso de `torch.no_grad()` para Inferência/Avaliação

Perfilando a Utilização de Memória

Artigos Relacionados

Related Articles

Entendendo o uso da memória GPU no PyTorch

Tensores e parâmetros do modelo

Ativações intermediárias (Passagem para frente)

Gradientes (Passagem para trás)

Estados dos otimizadores

Tamanho do lote

Sobrecarrega interna do PyTorch

Diagnósticos iniciais e soluções rápidas

Limpar o cache CUDA do PyTorch

Reduzir o tamanho do lote

Remover tensores e variáveis desnecessárias

Monitorar o uso da memória GPU

Técnicas avançadas de otimização de memória

Acumulação de gradientes

Ponto de controle de gradiente (Ponto de controle de ativação)

Treinamento em Precisão Mista (FP16/BF16)

Descarregar para o CPU (CPU Offloading)

Considerações Arquitetônicas e de Design de Código

Arquiteturas de Modelo Eficientes

Operações In-Place

Evitar Clones/Cópias Desnecessárias de Tensores

Uso de torch.no_grad() para Inferência/Avaliação

Perfilando a Utilização de Memória

Artigos Relacionados

You May Also Like

📚 You Might Also Like

Related Articles

Uso de `torch.no_grad()` para Inferência/Avaliação