Correzione dos erros de memória insuficiente CUDA em PyTorch: Um guia completo

📖 14 min read•2,658 words•Updated Apr 5, 2026

Autor: Riley Debug – especialista em depuração de IA e engenheiro de ML ops

O frustrante “CUDA out of memory” é um obstáculo comum para quem trabalha com modelos de aprendizado profundo no PyTorch. Você projetou meticulosamente seu modelo, preparou seus dados e iniciou o treinamento, apenas para se deparar com essa mensagem frustrante. É um sinal claro de que sua GPU não tem memória suficiente para conter todos os tensores e cálculos necessários para a operação atual. Não é apenas um incômodo; atrasa seu progresso, desperdiça um tempo precioso e pode se tornar um importante gargalo no desenvolvimento de soluções de IA poderosas.

Este guia foi projetado para fornecer uma compreensão aprofundada das razões pelas quais esses erros ocorrem no PyTorch e, ainda mais importante, oferecer um conjunto prático de estratégias para superá-los. Exploremos várias técnicas, desde ajustes simples até considerações arquitetônicas mais avançadas, para garantir que você possa gerenciar eficazmente seus recursos de GPU e manter seus pipelines de treinamento em boas condições. Vamos explorar como diagnosticar, prevenir e corrigir os erros de CUDA out of memory no PyTorch, permitindo que você construa e treine modelos maiores e mais complexos.

Compreendendo o uso da memória GPU no PyTorch

Antes de corrigir os erros “CUDA out of memory”, é crucial compreender o que consome memória GPU durante uma execução de treinamento com o PyTorch. Diferentes componentes contribuem para a pegada de memória total e identificar os principais culpados é o primeiro passo em direção a uma otimização eficaz.

Tensores e parâmetros do modelo

Cada tensor no seu modelo, incluindo os dados de entrada, as ativações intermediárias e os parâmetros aprendíveis do modelo (pesos e viés), está na GPU se você os transferiu para lá. O tamanho desses tensores está diretamente ligado ao uso da memória. Modelos maiores, com mais camadas e parâmetros, naturalmente exigem mais memória. Da mesma forma, imagens de entrada com resolução mais alta ou sequências mais longas resultarão em tensores de entrada maiores.

Ativações intermediárias (passo à frente)

Durante o passo à frente, o PyTorch precisa armazenar as ativações de cada camada. Esses valores intermediários são essenciais para o cálculo dos gradientes durante o passo à trás (retropropagação). Para redes profundas, o acúmulo dessas ativações pode ser substancial. Por exemplo, uma ResNet com muitos blocos gerará muitos mapas de características que precisam ser mantidos na memória.

Gradientes (passo à trás)

Quando começa o passo à trás, os gradientes são calculados para cada parâmetro. Esses gradientes também ocupam memória GPU. O motor de diferenciação automática do PyTorch (Autograd) gerencia esse processo, mas a memória alocada para os gradientes pode ser significativa, especialmente para modelos com um número elevado de parâmetros.

Estado dos otimizadores

Otimizadores como Adam, RMSprop ou Adagrad mantêm estados internos para cada parâmetro (ou seja, buffers dos momentos, estimativas de variância). Esses estados geralmente são tão grandes quanto os parâmetros em si, dobrando ou triplicando na verdade a memória exigida apenas para os parâmetros.

Tamanho do lote

Talvez o fator mais simples a considerar seja o tamanho do lote. Um tamanho de lote maior significa que mais amostras de entrada e suas ativações intermediárias correspondentes estão sendo processadas simultaneamente. Embora lotes maiores possam, às vezes, levar a estimativas de gradientes mais estáveis e a uma convergência de treinamento mais rápida, representam um fator principal de consumo de memória GPU.

Overhead interno do PyTorch

Além dos dados específicos do seu modelo, o próprio PyTorch tem um overhead interno para gerenciar os contextos CUDA, os alocadores de memória e outros componentes operacionais. Embora geralmente sejam menores em comparação com a memória dos tensores, eles fazem parte do uso total.

Diagnóstico inicial e correções rápidas

Quando o erro “CUDA out of memory” ocorre, não entre em pânico. Comece com esses passos imediatos para diagnosticar e potencialmente resolver rapidamente o problema.

Limpar o cache CUDA do PyTorch

Às vezes, o alocador de memória do PyTorch pode manter em cache até mesmo depois que os tensores não são mais utilizados, causando fragmentação ou uma visão imprecisa da memória disponível. Limpar explicitamente o cache pode liberar espaço.

“`html


import torch

torch.cuda.empty_cache()

É recomendável chamá-lo periodicamente, especialmente após remover grandes tensores ou antes de alocar novos. Note que isso apenas esvazia o cache interno do PyTorch, não a memória ativamente utilizada pelos tensores.

Reduzir o tamanho do lote

Esse é frequentemente o primeiro passo mais eficaz e simples. Um tamanho de lote menor reduz diretamente o número de amostras processadas simultaneamente, diminuindo assim a memória necessária para as entradas, ativações intermediárias e gradientes.


# Tamanho do lote original
batch_size = 64
# Se OOM, tente
batch_size = 32
# Ou até
batch_size = 16

Reduza o tamanho do lote pela metade de forma iterativa até que o erro desapareça. Esteja ciente de que um tamanho de lote muito pequeno pode afetar a estabilidade do treinamento ou a velocidade de convergência, então é um compromisso.

Excluir tensores e variáveis desnecessários

Certifique-se de não manter na memória grandes tensores ou variáveis que não são mais necessárias. O coletor de lixo do Python eventualmente os liberará, mas removê-los explicitamente pode liberar memória mais rapidamente. Não se esqueça de movê-los para a CPU ou desconectá-los se fizerem parte do gráfico computacional e você quiser preservar seus dados, mas não sua história de gradientes.


# Exemplo: Se você tem um grande tensor 'temp_data' que não é mais necessário
del temp_data
# Chame também explicitamente o coletor de lixo
import gc
gc.collect()
torch.cuda.empty_cache() # Chame novamente após a remoção

Monitorar o uso da memória da GPU

Ferramentas como nvidia-smi (no seu terminal) ou as funções de relatório de memória integradas do PyTorch podem lhe dar insights sobre o consumo de memória da sua GPU. Isso ajuda a identificar se outro processo está consumindo memória ou se seu script PyTorch é o único culpado.


nvidia-smi

Dentro do PyTorch, você pode obter estatísticas detalhadas sobre a memória :


print(torch.cuda.memory_summary(device=None, abbreviated=False))

Isso fornece uma divisão da memória alocada em relação à memória reservada e pode às vezes indicar fragmentação.

Técnicas avançadas de otimização de memória

Quando as correções rápidas não são suficientes, ou quando é necessário treinar modelos realmente grandes, técnicas mais sofisticadas são necessárias. Esses métodos frequentemente envolvem compromissos entre memória, tempo de computação e complexidade do código.

Acúmulo de gradientes

O acúmulo de gradientes permite simular um tamanho de lote efetivo maior sem aumentar a pegada de memória de um único passo para frente/para trás. Em vez de atualizar os pesos após cada lote, acumule os gradientes em lotes menores e depois faça uma única atualização.


model = MyModel().to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
accumulation_steps = 4 # Acumule os gradientes em 4 mini-batches

for epoch in range(num_epochs):
 for i, (inputs, labels) in enumerate(dataloader):
 inputs, labels = inputs.to(device), labels.to(device)

 outputs = model(inputs)
 loss = criterion(outputs, labels)
 loss = loss / accumulation_steps # Normalizar a perda para o acúmulo

 loss.backward() # Acumular os gradientes

 if (i + 1) % accumulation_steps == 0:
 optimizer.step() # Realizar a atualização do otimizador
 optimizer.zero_grad() # Zerar os gradientes

 # Certifique-se de que os gradientes acumulados restantes sejam aplicados no final da época
 if (i + 1) % accumulation_steps != 0:
 optimizer.step()
 optimizer.zero_grad()

Essa técnica é poderosa para o treinamento com grandes tamanhos de lote efetivos em GPUs com memória limitada.

Ponto de verificação dos gradientes (checkpointing de ativações)

Como discutido, as ativações intermediárias ocupam uma memória significativa. O checkpointing dos gradientes aborda esse problema não armazenando todas as ativações intermediárias durante o passo para frente. Em vez disso, elas são recalculadas durante o passo para trás para os segmentos que precisam de gradientes. Isso reduz consideravelmente a memória, mas aumenta o tempo de computação, pois algumas partes do passo para frente são executadas duas vezes.

“““html


import torch.utils.checkpoint as checkpoint

class CheckpointBlock(torch.nn.Module):
 def __init__(self, layer):
 super().__init__()
 self.layer = layer

 def forward(self, x):
 # Usar o checkpoint para a passagem para frente desta camada
 return checkpoint.checkpoint(self.layer, x)

# Exemplo de uso: envolver um grande bloco sequencial
model = MyLargeModel()
# Substituir uma grande parte sequencial por uma versão com checkpoint
# Por exemplo, se seu modelo tem `self.encoder = nn.Sequential(...)`
# Você poderia envolver o encoder:
# self.encoder = CheckpointBlock(nn.Sequential(*encoder_layers))

É particularmente útil para redes muito profundas em que armazenar todas as ativações é impossível.

Treinamento em precisão mista (FP16/BF16)

O treinamento em precisão mista consiste em executar algumas operações em precisão inferior (FP16 ou BF16) mantendo outras em FP32. Isso pode reduzir pela metade a pegada de memória para pesos, ativações e gradientes, e muitas vezes acelera o treinamento em GPUs modernas (como as arquiteturas NVIDIA Volta, Turing, Ampere, Ada Lovelace) que possuem núcleos Tensor projetados para cálculos em FP16.

O módulo torch.cuda.amp do PyTorch facilita a implementação disso:


from torch.cuda.amp import autocast, GradScaler

model = MyModel().to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
scaler = GradScaler() # Para estabilidade em FP16

for epoch in range(num_epochs):
 for inputs, labels in dataloader:
 inputs, labels = inputs.to(device), labels.to(device)

 optimizer.zero_grad()

 with autocast(): # As operações dentro deste contexto serão executadas em FP16 quando possível
 outputs = model(inputs)
 loss = criterion(outputs, labels)

 scaler.scale(loss).backward() # Escalar a perda para evitar estouro de gradientes em FP16
 scaler.step(optimizer) # Desescalar os gradientes e atualizar os pesos
 scaler.update() # Atualizar o scaler para a próxima iteração

A precisão mista é uma técnica poderosa que frequentemente oferece tanto economia de memória quanto ganhos de performance.

Descarregamento para a CPU (CPU Offloading)

Para modelos extremamente grandes ou tensores intermediários, você pode considerar mover algumas partes do seu modelo ou tensores específicos para a CPU quando não estão sendo usados ativamente, e então movê-los de volta para a GPU quando necessário. Isso é mais complexo de gerenciar e introduz uma sobrecarga significativa devido à transferência de dados entre CPU e GPU, mas pode ser um recurso final para modelos que de outra forma não funcionariam.


# Exemplo: mover um grande tensor para a CPU após seu uso
large_tensor_on_gpu = torch.randn(10000, 10000).to(device)
# ... cálculos utilizando large_tensor_on_gpu ...

# Quando não é mais necessário na GPU
large_tensor_on_gpu = large_tensor_on_gpu.cpu()
# Ou simplesmente excluí-lo se não for necessário
del large_tensor_on_gpu
torch.cuda.empty_cache()

Para os níveis do modelo, isso frequentemente implica dividir o modelo e mover blocos sequenciais entre dispositivos.

Considerações Arquitetônicas e de Design de Código

Além das técnicas específicas de otimização de memória, a maneira como você projeta seu modelo e escreve seu código PyTorch pode ter um impacto significativo no uso da memória da GPU.

Arquiteturas de Modelo Eficientes

Algumas arquiteturas de modelos são intrinsecamente mais ávidas por memória do que outras. Por exemplo, modelos com camadas muito largas ou aqueles que geram muitos mapas de características de alta resolução (por exemplo, em tarefas de segmentação) consumirã mais memória. Considere utilizar alternativas mais econômicas em memória, se possível:

Convoluções Separáveis em Profundidade: Muitas vezes usadas em arquiteturas móveis (por exemplo, MobileNet), estas podem reduzir significativamente os parâmetros e o cálculo em comparação às convoluções padrão.
Compartilhamento de Parâmetros: Reutilizar os pesos em diferentes partes da rede pode economizar memória.
Podagem e Quantização: Embora geralmente sejam aplicadas após o treinamento, estas podem ser consideradas para deployment e podem influenciar as escolhas de design para ambientes com memória limitada.

Operações In-place

“`

As operações PyTorch frequentemente criam novos tensores para sua saída. As operações in-place (indicadas por um underscore no final, por exemplo, x.add_(y) em vez de x = x + y) modificam diretamente o tensor sem alocar nova memória para o resultado. Embora possam economizar memória, use-as com cautela, pois podem quebrar o grafo de cálculo se não forem geridas corretamente, especialmente quando utilizadas em tensores que requerem gradientes.


# Economia de memória (in-place)
x.relu_() # Modifica x diretamente

# Cria um novo tensor
x = torch.relu(x)

Evite Clones/Cópias de Tensores Inúteis

Tenha cuidado com operações que criam implicitamente cópias de tensores. Por exemplo, o recorte de um tensor pode, às vezes, criar uma visão, mas outras operações podem criar uma cópia completa. Use explicitamente .clone() apenas quando uma cópia profunda for realmente necessária; caso contrário, trabalhe com as visões sempre que possível.


# Cria uma visão (sem nova memória para os dados)
view_tensor = original_tensor[0:10]

# Cria um novo tensor (nova memória)
cloned_tensor = original_tensor.clone()

Utilize `torch.no_grad()` para Inferência/Avaliação

Durante a avaliação ou inferência, não é necessário calcular ou armazenar gradientes. Envolvendo seu código de inferência no gerenciador de contexto torch.no_grad(), você impede que o Autograd construa o grafo de cálculo, o que economiza uma quantidade significativa de memória ao não armazenar as ativações intermediárias para retropropagação.


model.eval() # Define o modelo em modo de avaliação
with torch.no_grad():
 for inputs, labels in val_dataloader:
 inputs, labels = inputs.to(device), labels.to(device)
 outputs = model(inputs)
 # ... calcular as métricas ...
model.train() # Retorna o modelo para o modo de treinamento

É uma prática fundamental para quem trabalha com PyTorch e pode frequentemente prevenir erros OOM durante as fases de validação.

Profilação do Uso de Memória

Para casos complexos, o PyTorch fornece ferramentas de profilação poderosas que podem determinar exatamente quais operações consomem mais memória. O módulo torch.profiler (ou o antigo torch.autograd.profiler) pode registrar as alocações de memória CUDA.


import torch
from torch.profiler import profile, record_function, ProfilerActivity

# Exemplo de profilação de um único forward/backward pass
model = MyModel().to(device)
inputs = torch.randn(4, 3, 224, 224).to(device)
labels = torch.randint(0, 10, (4,)).to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
criterion = torch.nn.CrossEntropyLoss()

with profile(activities=[
 ProfilerActivity.CPU, ProfilerActivity.CUDA], record_shapes=True) as prof:
 with record_function("model_inference"):
 outputs = model(inputs)
 with record_function("loss_computation"):
 loss = criterion(outputs, labels)
 with record_function("backward_pass"):
 loss.backward()
 with record_function("optimizer_step"):
 optimizer.step()
 optimizer.zero_grad()

print(prof.key_averages().table(sort_by="cuda_memory_usage", row_limit=10))

A saída do profiler mostrará uma memória detalhada

Correzione dos erros de memória insuficiente CUDA em PyTorch: Um guia completo

Compreendendo o uso da memória GPU no PyTorch

Tensores e parâmetros do modelo

Ativações intermediárias (passo à frente)

Gradientes (passo à trás)

Estado dos otimizadores

Tamanho do lote

Overhead interno do PyTorch

Diagnóstico inicial e correções rápidas

Limpar o cache CUDA do PyTorch

Reduzir o tamanho do lote

Excluir tensores e variáveis desnecessários

Monitorar o uso da memória da GPU

Técnicas avançadas de otimização de memória

Acúmulo de gradientes

Ponto de verificação dos gradientes (checkpointing de ativações)

Treinamento em precisão mista (FP16/BF16)

Descarregamento para a CPU (CPU Offloading)

Considerações Arquitetônicas e de Design de Código

Arquiteturas de Modelo Eficientes

Operações In-place

Evite Clones/Cópias de Tensores Inúteis

Utilize `torch.no_grad()` para Inferência/Avaliação

Profilação do Uso de Memória

Artigos Relacionados

Related Articles

Compreendendo o uso da memória GPU no PyTorch

Tensores e parâmetros do modelo

Ativações intermediárias (passo à frente)

Gradientes (passo à trás)

Estado dos otimizadores

Tamanho do lote

Overhead interno do PyTorch

Diagnóstico inicial e correções rápidas

Limpar o cache CUDA do PyTorch

Reduzir o tamanho do lote

Excluir tensores e variáveis desnecessários

Monitorar o uso da memória da GPU

Técnicas avançadas de otimização de memória

Acúmulo de gradientes

Ponto de verificação dos gradientes (checkpointing de ativações)

Treinamento em precisão mista (FP16/BF16)

Descarregamento para a CPU (CPU Offloading)

Considerações Arquitetônicas e de Design de Código

Arquiteturas de Modelo Eficientes

Operações In-place

Evite Clones/Cópias de Tensores Inúteis

Utilize torch.no_grad() para Inferência/Avaliação

Profilação do Uso de Memória

Artigos Relacionados

You May Also Like

📚 You Might Also Like

Related Articles

Utilize `torch.no_grad()` para Inferência/Avaliação