Correzione dos erros CUDA Out of Memory no PyTorch: Um guia detalhada

📖 14 min read•2,671 words•Updated Apr 5, 2026

Autor: Riley Debug – Especialista em depuração de IA e engenheiro em ML ops

A preocupante mensagem de erro “CUDA out of memory” representa um obstáculo comum para quem trabalha com modelos de aprendizado profundo no PyTorch. Você projetou cuidadosamente seu modelo, preparou seus dados e começou o treinamento, apenas para se deparar com essa mensagem frustrante. É um sinal claro de que sua GPU não tem memória suficiente para conter todos os tensores necessários e os cálculos para a operação em andamento. Não é apenas um incômodo; bloqueia seus progressos, desperdiça um tempo precioso e pode representar um gargalo significativo no desenvolvimento de soluções de IA poderosas.

Este guia foi pensado para te dar uma compreensão aprofundada das razões pelas quais esses erros ocorrem no PyTorch e, mais importante, para fornecer uma caixa de ferramentas prática de estratégias para superá-los. Vamos explorar várias técnicas, desde ajustes simples até considerações arquiteturais mais avançadas, para garantir que você possa gerenciar efetivamente seus recursos de GPU e manter seus pipelines de treinamento em boas condições. Vamos explorar como diagnosticar, prevenir e corrigir erros de memória CUDA no PyTorch, permitindo que você construa e treine modelos maiores e mais complexos.

Compreendendo o uso da memória GPU no PyTorch

Antes de corrigir os erros “CUDA out of memory”, é fundamental entender o que consome memória GPU durante um treinamento no PyTorch. Vários componentes contribuem para a pegada total de memória, e identificar os principais responsáveis é o primeiro passo para uma otimização eficaz.

Tensores e parâmetros do modelo

Cada tensor no seu modelo, incluindo os dados de entrada, as ativações intermediárias e os parâmetros aprendíveis do modelo (pesos e vieses), reside na GPU se você os transferiu. O tamanho desses tensores está diretamente relacionado ao uso da memória. Modelos maiores, com mais camadas e parâmetros, naturalmente exigem mais memória. Da mesma forma, imagens de entrada de alta resolução ou sequências mais longas levarão a tensores de entrada maiores.

Ativações intermediárias (Passo à frente)

Durante o passo à frente, o PyTorch deve armazenar as ativações de cada camada. Esses valores intermediários são essenciais para o cálculo dos gradientes durante o passo para trás (retropropagação). Para redes profundas, o acúmulo dessas ativações pode ser substancial. Por exemplo, uma ResNet com muitos blocos gerará muitos mapas de características que precisam ser mantidos na memória.

Gradientes (Passo para trás)

Quando o passo para trás começa, os gradientes são calculados para cada parâmetro. Esses gradientes também ocupam memória GPU. O mecanismo de diferenciação automática do PyTorch (Autograd) gerencia esse processo, mas a memória alocada para os gradientes pode ser significativa, especialmente para modelos com um grande número de parâmetros.

Estados dos otimizadores

Os otimizadores como Adam, RMSprop ou Adagrad mantêm estados internos para cada parâmetro (por exemplo, buffers de momentum, estimativas de variância). Esses estados geralmente são tão grandes quanto os próprios parâmetros, duplicando ou triplicando o espaço de memória requerido apenas para os parâmetros.

Tamanho do lote

Talvez o fator mais simples seja o tamanho do lote. Um tamanho de lote maior significa que mais amostras de entrada e suas respectivas ativações intermediárias são processadas simultaneamente. Embora lotes maiores possam algumas vezes levar a estimativas de gradientes mais estáveis e a uma convergência mais rápida do treinamento, eles representam um fator principal de consumo de memória GPU.

Sobrecarga interna do PyTorch

Além dos dados específicos do seu modelo, o PyTorch também possui uma certa sobrecarga interna para gerenciar os contextos CUDA, os alocadores de memória e outros componentes operacionais. Embora geralmente seja menor do que a memória dos tensores, faz parte do uso total.

Diagnósticos iniciais e soluções rápidas

Quando o erro “CUDA out of memory” ocorre, não entre em pânico. Comece com estes passos imediatos para diagnosticar e potencialmente resolver rapidamente o problema.

Limpar o cache CUDA do PyTorch

Às vezes, o alocador de memória do PyTorch pode manter memória em cache mesmo após os tensores não serem mais utilizados, levando a uma fragmentação ou a uma visão imprecisa da memória disponível. Limpar explicitamente o cache pode liberar espaço.

“`html


import torch

torch.cuda.empty_cache()

É bom chamá-lo periodicamente, especialmente depois de eliminar grandes tensores ou antes de alocar novos. Observe que isso esvazia apenas o cache interno do PyTorch, não a memória ativamente utilizada pelos tensores.

Reduzir o tamanho do lote

Esta é frequentemente a primeira e mais eficaz solução. Um tamanho de lote menor reduz diretamente o número de amostras processadas simultaneamente, diminuindo, portanto, a memória necessária para as entradas, as ativações intermediárias e os gradientes.


# Tamanho do lote original
batch_size = 64
# Se OOM, tente
batch_size = 32
# Ou até
batch_size = 16

Divida iterativamente seu tamanho de lote por dois até que o erro desapareça. Tenha em mente que um tamanho de lote muito pequeno pode afetar a estabilidade do treinamento ou a velocidade de convergência, portanto, é um compromisso.

Eliminar tensores e variáveis desnecessárias

Certifique-se de não manter grandes tensores ou variáveis que não são mais necessárias. O coletor de lixo do Python finalmente os liberará, mas eliminá-los explicitamente pode liberar memória antes. Não se esqueça de transferi-los para a CPU ou desassociá-los se fizerem parte do grafo de computação e você deseja manter seus dados, mas não seu histórico de gradientes.


# Exemplo: Se você tem um grande tensor 'temp_data' que não é mais necessário
del temp_data
# Também chame explicitamente o coletor de lixo
import gc
gc.collect()
torch.cuda.empty_cache() # Chame novamente após a exclusão

Monitorar o uso da memória GPU

Ferramentas como nvidia-smi (no seu terminal) ou as funções de relatório de memória integradas do PyTorch podem fornecer informações sobre o consumo de memória da sua GPU. Isso ajuda a identificar se outro processo está consumindo memória ou se seu script PyTorch é o único responsável.


nvidia-smi

No PyTorch, você pode obter estatísticas detalhadas sobre a memória:


print(torch.cuda.memory_summary(device=None, abbreviated=False))

Isso fornece um resumo da memória alocada em relação àquela reservada, e às vezes pode oferecer indícios sobre a fragmentação.

Técnicas avançadas de otimização da memória

Quando as soluções rápidas não são suficientes, ou você precisa treinar modelos muito grandes, são necessárias técnicas mais sofisticadas. Esses métodos muitas vezes envolvem compromissos entre memória, tempo de computação e complexidade do código.

Acúmulo de gradientes

O acúmulo de gradientes permite simular um tamanho de lote efetivo maior sem aumentar a impressão de memória de uma única passagem para frente/para trás. Em vez de atualizar os pesos após cada lote, você acumula os gradientes em vários pequenos lotes e depois faz uma única atualização.


model = MyModel().to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
accumulation_steps = 4 # Acumular gradientes em 4 mini-lotes

for epoch in range(num_epochs):
 for i, (inputs, labels) in enumerate(dataloader):
 inputs, labels = inputs.to(device), labels.to(device)

 outputs = model(inputs)
 loss = criterion(outputs, labels)
 loss = loss / accumulation_steps # Normalizar a perda para o acúmulo

 loss.backward() # Acumular os gradientes

 if (i + 1) % accumulation_steps == 0:
 optimizer.step() # Executar a otimização
 optimizer.zero_grad() # Reiniciar os gradientes

 # Certifique-se de que todos os gradientes acumulados restantes sejam aplicados no final da época
 if (i + 1) % accumulation_steps != 0:
 optimizer.step()
 optimizer.zero_grad()

Esta técnica é poderosa para o treinamento com grandes tamanhos de lotes efetivos em GPUs com memória limitada.

Ponto de controle do gradiente (Ponto de controle da ativação)

Como discutido, as ativações intermediárias requerem muita memória. O ponto de controle do gradiente resolve esse problema não armazenando todas as ativações intermediárias durante a passagem para frente. Em vez disso, elas são recalculadas durante a passagem para trás para os segmentos que requerem gradientes. Isso reduz significativamente a memória, mas aumenta o tempo de computação, pois algumas partes da passagem para frente são executadas duas vezes.

“`


import torch.utils.checkpoint as checkpoint

class CheckpointBlock(torch.nn.Module):
 def __init__(self, layer):
 super().__init__()
 self.layer = layer

 def forward(self, x):
 # Usar o ponto de verificação para a passagem para frente desta camada
 return checkpoint.checkpoint(self.layer, x)

# Exemplo de uso: envolver um grande bloco sequencial
model = MyLargeModel()
# Substituir uma grande parte sequencial por uma versão com ponto de verificação
# Por exemplo, se seu modelo tem `self.encoder = nn.Sequential(...)`
# Você poderia envolver o encoder:
# self.encoder = CheckpointBlock(nn.Sequential(*encoder_layers))

É particularmente útil para redes muito profundas onde é impossível armazenar todas as ativações.

Treinamento em precisão mista (FP16/BF16)

O treinamento em precisão mista envolve a execução de algumas operações em uma precisão inferior (FP16 ou BF16) mantendo outras em FP32. Isso pode reduzir pela metade a pegada de memória para pesos, ativações e gradientes, e muitas vezes acelera o treinamento em GPUs modernas (como as arquiteturas NVIDIA Volta, Turing, Ampere, Ada Lovelace) que possuem núcleos Tensor projetados para cálculos FP16.

O módulo torch.cuda.amp do PyTorch facilita isso:


from torch.cuda.amp import autocast, GradScaler

model = MyModel().to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
scaler = GradScaler() # Para a estabilidade FP16

for epoch in range(num_epochs):
 for inputs, labels in dataloader:
 inputs, labels = inputs.to(device), labels.to(device)

 optimizer.zero_grad()

 with autocast(): # As operações dentro deste contexto serão executadas em FP16 sempre que possível
 outputs = model(inputs)
 loss = criterion(outputs, labels)

 scaler.scale(loss).backward() # Escala a perda para evitar subfluxo nos gradientes FP16
 scaler.step(optimizer) # Desescala os gradientes e atualiza os pesos
 scaler.update() # Atualiza a escala para a próxima iteração

A precisão mista é uma técnica poderosa que frequentemente oferece economias de memória e ganhos de desempenho.

Descarregando para a CPU (CPU Offloading)

Para modelos extremamente grandes ou tensores intermediários, você pode considerar mover algumas partes do seu modelo ou tensores específicos para a CPU quando não estão ativamente usados, e depois trazê-los de volta para a GPU quando necessários. Isso é mais complexo de gerenciar e introduz uma sobrecarga significativa devido à transferência de dados entre a CPU e a GPU, mas pode ser um último recurso para modelos que não caberiam de outra forma.


# Exemplo: mover um grande tensor para a CPU após seu uso
large_tensor_on_gpu = torch.randn(10000, 10000).to(device)
# ... cálculos usando large_tensor_on_gpu ...

# Quando não é mais necessário na GPU
large_tensor_on_gpu = large_tensor_on_gpu.cpu()
# Ou simplesmente eliminá-lo se não for mais necessário
del large_tensor_on_gpu
torch.cuda.empty_cache()

Para os níveis do modelo, isso frequentemente implica dividir o modelo e mover blocos sequenciais entre os dispositivos.

Considerações Arquitetônicas e de Design do Código

Além das técnicas específicas de otimização de memória, a maneira como você projeta seu modelo e escreve seu código PyTorch pode ter um impacto significativo no uso da memória da GPU.

Arquiteturas de Modelo Eficientes

Algumas arquiteturas de modelo são intrinsecamente mais onerosas em termos de memória do que outras. Por exemplo, modelos com camadas muito largas ou aqueles que geram muitas mapas de características de alta resolução (por exemplo, em tarefas de segmentação) consumir mais memória. Considere usar alternativas mais econômicas em memória, se possível:

Convoluções Separáveis em Profundidade: Frequentemente utilizadas em arquitetura móvel (por exemplo, MobileNet), essas podem reduzir significativamente o número de parâmetros e o cálculo em comparação com convoluções padrão.
Compartilhamento de Parâmetros: Reutilizar pesos por várias partes da rede pode economizar memória.
Poda e Quantização: Embora geralmente aplicadas após o treinamento, essas podem ser consideradas para o deployment e podem influenciar as escolhas de design para ambientes com memória limitada.

Operações In-Place

As operações PyTorch muitas vezes criam novos tensores para a sua saída. As operações in-place (denotadas por um sublinhado final, por exemplo, x.add_(y) em vez de x = x + y) modificam diretamente o tensor sem alocar nova memória para o resultado. Embora possam economizar memória, use-as com cautela, pois podem quebrar o grafo de computação se não forem geridas corretamente, especialmente quando usadas em tensores que requerem gradientes.


# Economia de memória (in-place)
x.relu_() # Modifica diretamente x

# Cria um novo tensor
x = torch.relu(x)

Evite Clones/Cópias Desnecessárias de Tensores

Tenha cuidado com operações que criam implicitamente cópias de tensores. Por exemplo, o recorte de um tensor pode às vezes criar uma visão, mas outras operações podem criar uma cópia completa. Use explicitamente .clone() apenas quando uma cópia profunda for realmente necessária; caso contrário, trabalhe com visões sempre que possível.


# Cria uma visão (nenhuma nova memória para os dados)
view_tensor = original_tensor[0:10]

# Cria um novo tensor (nova memória)
cloned_tensor = original_tensor.clone()

Utilização de `torch.no_grad()` para Inferência/Avaliação

Durante a avaliação ou inferência, você não precisa calcular ou armazenar gradientes. Envolver seu código de inferência no gerenciador de contexto torch.no_grad() impede que o Autograd construa o grafo de computação, o que economiza uma quantidade significativa de memória, não armazenando as ativações intermediárias para a retropropagação.


model.eval() # Define o modelo em modo de avaliação
with torch.no_grad():
 for inputs, labels in val_dataloader:
 inputs, labels = inputs.to(device), labels.to(device)
 outputs = model(inputs)
 # ... calcula as métricas ...
model.train() # Retorna o modelo ao modo de treinamento

É uma prática fundamental para quem trabalha com PyTorch e pode muitas vezes evitar erros do tipo OOM durante as fases de validação.

Profilagem do Uso da Memória

Para casos complexos, o PyTorch fornece poderosas ferramentas de profilagem que podem identificar exatamente quais operações consomem mais memória. O módulo torch.profiler (ou o anterior torch.autograd.profiler) pode registrar as alocações de memória CUDA.


import torch
from torch.profiler import profile, record_function, ProfilerActivity

# Exemplo de profilagem de um passo para frente/para trás único
model = MyModel().to(device)
inputs = torch.randn(4, 3, 224, 224).to(device)
labels = torch.randint(0, 10, (4,)).to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
criterion = torch.nn.CrossEntropyLoss()

with profile(activities=[
 ProfilerActivity.CPU, ProfilerActivity.CUDA], record_shapes=True) as prof:
 with record_function("model_inference"):
 outputs = model(inputs)
 with record_function("loss_computation"):
 loss = criterion(outputs, labels)
 with record_function("backward_pass"):
 loss.backward()
 with record_function("optimizer_step"):
 optimizer.step()
 optimizer.zero_grad()

print(prof.key_averages().table(sort_by="cuda_memory_usage", row_limit=10))

A saída do perfil pode mostrar detalhes sobre o uso da memória

Correzione dos erros CUDA Out of Memory no PyTorch: Um guia detalhada

Compreendendo o uso da memória GPU no PyTorch

Tensores e parâmetros do modelo

Ativações intermediárias (Passo à frente)

Gradientes (Passo para trás)

Estados dos otimizadores

Tamanho do lote

Sobrecarga interna do PyTorch

Diagnósticos iniciais e soluções rápidas

Limpar o cache CUDA do PyTorch

Reduzir o tamanho do lote

Eliminar tensores e variáveis desnecessárias

Monitorar o uso da memória GPU

Técnicas avançadas de otimização da memória

Acúmulo de gradientes

Ponto de controle do gradiente (Ponto de controle da ativação)

Treinamento em precisão mista (FP16/BF16)

Descarregando para a CPU (CPU Offloading)

Considerações Arquitetônicas e de Design do Código

Arquiteturas de Modelo Eficientes

Operações In-Place

Evite Clones/Cópias Desnecessárias de Tensores

Utilização de `torch.no_grad()` para Inferência/Avaliação

Profilagem do Uso da Memória

Artigos Relacionados

Related Articles

Compreendendo o uso da memória GPU no PyTorch

Tensores e parâmetros do modelo

Ativações intermediárias (Passo à frente)

Gradientes (Passo para trás)

Estados dos otimizadores

Tamanho do lote

Sobrecarga interna do PyTorch

Diagnósticos iniciais e soluções rápidas

Limpar o cache CUDA do PyTorch

Reduzir o tamanho do lote

Eliminar tensores e variáveis desnecessárias

Monitorar o uso da memória GPU

Técnicas avançadas de otimização da memória

Acúmulo de gradientes

Ponto de controle do gradiente (Ponto de controle da ativação)

Treinamento em precisão mista (FP16/BF16)

Descarregando para a CPU (CPU Offloading)

Considerações Arquitetônicas e de Design do Código

Arquiteturas de Modelo Eficientes

Operações In-Place

Evite Clones/Cópias Desnecessárias de Tensores

Utilização de torch.no_grad() para Inferência/Avaliação

Profilagem do Uso da Memória

Artigos Relacionados

You May Also Like

📚 You Might Also Like

Related Articles

Utilização de `torch.no_grad()` para Inferência/Avaliação