Corrigindo Erros de Memória Insuficiente do CUDA no PyTorch: Um Guia Completo

📖 14 min read•2,628 words•Updated Mar 31, 2026

Autor: Riley Debug – especialista em depuração de IA e engenheiro de operações de ML

O temido erro “CUDA out of memory” é um bloqueio comum para quem trabalha com modelos de deep learning em PyTorch. Você projetou seu modelo com muito esforço, preparou seus dados e começou o treinamento, apenas para se deparar com essa mensagem frustrante. É um sinal claro de que sua GPU não tem memória suficiente para armazenar todos os tensores e cálculos necessários para a operação atual. Isso não é apenas um incômodo; interrompe seu progresso, desperdica tempo valioso e pode ser um gargalo significativo no desenvolvimento de soluções de IA poderosas.

Este guia foi projetado para fornecer a você uma compreensão detalhada de por que esses erros ocorrem no PyTorch e, mais importante, oferecer um conjunto prático de estratégias para superá-los. Vamos explorar várias técnicas, desde ajustes simples até considerações arquitetônicas mais avançadas, garantindo que você possa gerenciar de forma eficaz os recursos da sua GPU e manter seus pipelines de treinamento funcionando sem problemas. Vamos explorar como diagnosticar, prevenir e corrigir erros de CUDA out of memory no PyTorch, permitindo que você construa e treine modelos maiores e mais complexos.

Entendendo o Uso de Memória da GPU no PyTorch

Antes de podermos corrigir os erros “CUDA out of memory”, é crucial entender o que consome memória da GPU durante uma execução de treinamento no PyTorch. Vários componentes contribuem para a pegada total de memória, e identificar os principais culpados é o primeiro passo em direção a uma otimização eficaz.

Tensores e Parâmetros do Modelo

Cada tensor em seu modelo, incluindo dados de entrada, ativações intermediárias e os parâmetros aprendíveis do modelo (pesos e viés), reside na GPU se você os moveu para lá. O tamanho desses tensores se correlaciona diretamente com o uso de memória. Modelos maiores com mais camadas e parâmetros naturalmente exigem mais memória. Da mesma forma, imagens de entrada com maior resolução ou comprimentos de sequência mais longos levarão a tensores de entrada maiores.

Ativações Intermediárias (Passagem Direta)

Durante a passagem direta, o PyTorch precisa armazenar as ativações de cada camada. Esses valores intermediários são essenciais para calcular gradientes durante a passagem reversa (backpropagation). Para redes profundas, a acumulação dessas ativações pode ser substancial. Por exemplo, um ResNet com muitos blocos gerará numerosos mapas de características que devem ser mantidos na memória.

Gradientes (Passagem Reversa)

Quando a passagem reversa começa, os gradientes são computados para cada parâmetro. Esses gradientes também ocupam memória da GPU. O motor de diferenciação automática do PyTorch (Autograd) gerencia esse processo, mas a memória alocada para gradientes pode ser significativa, especialmente para modelos com um grande número de parâmetros.

Estados do Otimizador

Otimizadores como Adam, RMSprop ou Adagrad mantêm estados internos para cada parâmetro (por exemplo, buffers de momento, estimativas de variância). Esses estados frequentemente são tão grandes quanto os próprios parâmetros, efetivamente dobrando ou triplicando a memória necessária apenas para os parâmetros.

Tamanho do Lote

Talvez o fator mais simples seja o tamanho do lote. Um tamanho de lote maior significa que mais amostras de entrada e suas respectivas ativações intermediárias são processadas simultaneamente. Embora lotes maiores possam, às vezes, levar a estimativas de gradientes mais estáveis e uma convergência de treinamento mais rápida, eles são um dos principais responsáveis pelo consumo de memória da GPU.

Sobrecarga Interna do PyTorch

Além dos dados específicos do seu modelo, o próprio PyTorch tem alguma sobrecarga interna para gerenciar contextos CUDA, alocadores de memória e outros componentes operacionais. Embora geralmente seja menor que a memória dos tensores, faz parte do uso total.

Diagnósticos Iniciais e Correções Rápidas

Quando o erro “CUDA out of memory” aparece, não entre em pânico. Comece com estas etapas imediatas para diagnosticar e potencialmente resolver o problema rapidamente.

Limpar o Cache CUDA do PyTorch

Às vezes, o alocador de memória do PyTorch pode reter memória em cache mesmo após os tensores não estarem mais em uso, levando a fragmentação ou uma visão não precisa da memória disponível. Limpar explicitamente o cache pode liberar espaço.


import torch

torch.cuda.empty_cache()

É uma boa prática chamar isso periodicamente, especialmente após excluir tensores grandes ou antes de alocar novos. Note que isso apenas limpa o cache interno do PyTorch, não a memória ativamente usada pelos tensores.

Reduzir o Tamanho do Lote

Este é frequentemente o primeiro passo mais eficaz e mais fácil. Um tamanho de lote menor reduz diretamente o número de amostras processadas simultaneamente, diminuindo assim a memória necessária para entradas, ativações intermediárias e gradientes.


# Tamanho do lote original
batch_size = 64
# Se OOM, tente
batch_size = 32
# Ou até mesmo
batch_size = 16

Divida iterativamente seu tamanho de lote pela metade até o erro desaparecer. Esteja ciente de que um tamanho de lote muito pequeno pode afetar a estabilidade do treinamento ou a velocidade de convergência, então é um compromisso.

Excluir Tensores e Variáveis Desnecessários

Certifique-se de que você não está mantendo tensores grandes ou variáveis que não são mais necessárias. O coletor de lixo do Python eventualmente os liberará, mas excluí-los explicitamente pode liberar memória mais cedo. Lembre-se de movê-los para a CPU ou destacá-los se fizerem parte do gráfico de computação e você quiser manter os dados deles, mas não seu histórico de gradientes.


# Exemplo: Se você tiver um tensor grande 'temp_data' que não é mais necessário
del temp_data
# Além disso, chame explicitamente o coletor de lixo
import gc
gc.collect()
torch.cuda.empty_cache() # Chame novamente após a exclusão

Monitorar o Uso de Memória da GPU

Ferramentas como nvidia-smi (no seu terminal) ou as funções de relatórios de memória integradas do PyTorch podem dar a você insights sobre o consumo de memória da sua GPU. Isso ajuda a identificar se outro processo está consumindo memória ou se seu script PyTorch é o único culpado.


nvidia-smi

Dentro do PyTorch, você pode obter estatísticas de memória detalhadas:


print(torch.cuda.memory_summary(device=None, abbreviated=False))

Isso fornece uma análise da memória alocada vs. reservada e pode, às vezes, sugerir fragmentação.

Técnicas Avançadas de Otimização de Memória

Quando correções rápidas não são suficientes, ou você precisa treinar modelos verdadeiramente grandes, técnicas mais sofisticadas são necessárias. Esses métodos geralmente envolvem compromissos entre memória, tempo de computação e complexidade do código.

Acumulação de Gradientes

A acumulação de gradientes permite simular um tamanho de lote efetivo maior sem aumentar a pegada de memória de uma única passagem direta/reversa. Em vez de atualizar os pesos após cada lote, você acumula gradientes ao longo de vários lotes menores e, em seguida, realiza uma única atualização.


model = MyModel().to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
accumulation_steps = 4 # Acumular gradientes ao longo de 4 mini-lotes

for epoch in range(num_epochs):
 for i, (inputs, labels) in enumerate(dataloader):
 inputs, labels = inputs.to(device), labels.to(device)

 outputs = model(inputs)
 loss = criterion(outputs, labels)
 loss = loss / accumulation_steps # Normalizar a perda para acumulação

 loss.backward() # Acumular gradientes

 if (i + 1) % accumulation_steps == 0:
 optimizer.step() # Realizar etapa de otimização
 optimizer.zero_grad() # Limpar gradientes

 # Garantir que quaisquer gradientes acumulados restantes sejam aplicados ao final da época
 if (i + 1) % accumulation_steps != 0:
 optimizer.step()
 optimizer.zero_grad()

Essa técnica é poderosa para treinar com grandes tamanhos de lotes efetivos em GPUs com memória limitada.

Ponto de Verificação de Gradientes (Checkpoint de Ativações)

Como discutido, ativações intermediárias ocupam memória significativa. O ponto de verificação de gradientes aborda isso ao não armazenar todas as ativações intermediárias durante a passagem direta. Em vez disso, ele as recomputa durante a passagem reversa para os segmentos que exigem gradientes. Isso reduz dramaticamente a memória, mas aumenta o tempo de computação, pois partes da passagem direta são executadas duas vezes.


import torch.utils.checkpoint as checkpoint

class CheckpointBlock(torch.nn.Module):
 def __init__(self, layer):
 super().__init__()
 self.layer = layer

 def forward(self, x):
 # Usar ponto de verificação para a passagem direta desta camada
 return checkpoint.checkpoint(self.layer, x)

# Exemplo de uso: envolver um grande bloco sequencial
model = MyLargeModel()
# Substitua uma grande parte sequencial por uma versão com ponto de verificação
# Por exemplo, se seu modelo tiver `self.encoder = nn.Sequential(...)`
# Você pode envolver o codificador:
# self.encoder = CheckpointBlock(nn.Sequential(*encoder_layers))

Isso é particularmente útil para redes muito profundas onde armazenar todas as ativações é impossível.

Treinamento de Precisão Mista (FP16/BF16)

O treinamento de precisão mista envolve realizar algumas operações em precisão mais baixa (FP16 ou BF16) enquanto mantém outras em FP32. Isso pode reduzir pela metade a pegada de memória para pesos, ativações e gradientes, e frequentemente acelera o treinamento em GPUs modernas (como arquiteturas NVIDIA Volta, Turing, Ampere, Ada Lovelace) que possuem Núcleos Tensor projetados para cálculos FP16.

O módulo torch.cuda.amp do PyTorch torna isso fácil de implementar:


from torch.cuda.amp import autocast, GradScaler

model = MyModel().to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
scaler = GradScaler() # Para estabilidade FP16

for epoch in range(num_epochs):
 for inputs, labels in dataloader:
 inputs, labels = inputs.to(device), labels.to(device)

 optimizer.zero_grad()

 with autocast(): # Operações dentro deste contexto serão executadas em FP16 onde possível
 outputs = model(inputs)
 loss = criterion(outputs, labels)

 scaler.scale(loss).backward() # Escala a perda para evitar subfluxo nos gradientes FP16
 scaler.step(optimizer) # Desscale os gradientes e atualiza os pesos
 scaler.update() # Atualiza o escalador para a próxima iteração

A precisão mista é uma técnica poderosa que frequentemente proporciona tanto economia de memória quanto aumento de desempenho.

Descarregamento para CPU (CPU Offloading)

Para modelos extremamente grandes ou tensores intermediários, você pode considerar mover partes do seu modelo ou tensores específicos para a CPU quando não estiverem sendo usados ativamente, e então trazê-los de volta para a GPU quando necessário. Isso é mais complexo de gerenciar e introduz uma sobrecarga significativa devido à transferência de dados entre CPU e GPU, mas pode ser um último recurso para modelos que, de outra forma, não caberiam.


# Exemplo: Mover um tensor grande para a CPU após seu uso
large_tensor_on_gpu = torch.randn(10000, 10000).to(device)
# ... cálculos usando large_tensor_on_gpu ...

# Quando não for mais necessário na GPU
large_tensor_on_gpu = large_tensor_on_gpu.cpu()
# Ou simplesmente exclua se não for mais necessário
del large_tensor_on_gpu
torch.cuda.empty_cache()

Para camadas de modelos, isso frequentemente envolve dividir o modelo e mover blocos sequenciais entre os dispositivos.

Considerações sobre Design Arquitetônico e de Código

Além das técnicas específicas de otimização de memória, como você projeta seu modelo e escreve seu código em PyTorch pode impactar significativamente o uso de memória da GPU.

Arquiteturas de Modelo Eficientes

Algumas arquiteturas de modelo são inerentemente mais exigentes em termos de memória do que outras. Por exemplo, modelos com camadas muito largas ou aqueles que geram muitos mapas de características em alta resolução (por exemplo, em tarefas de segmentação) consumirão mais memória. Considere usar alternativas mais eficientes em termos de memória, se possível:

Convoluções Separáveis em Profundidade: Frequentemente usadas em arquiteturas móveis (por exemplo, MobileNet), essas podem reduzir significativamente parâmetros e computações em comparação com convoluções padrão.
Compartilhamento de Parâmetros: Reutilizar pesos em diferentes partes da rede pode economizar memória.
Poda e Quantização: Embora tipicamente aplicadas após o treinamento, estas podem ser consideradas para implantação e podem influenciar escolhas de design em ambientes com restrições de memória.

Operações In-Place

As operações em PyTorch frequentemente criam novos tensores para sua saída. Operações in-place (denotadas por um sublinhado no final, por exemplo, x.add_(y) em vez de x = x + y) modificam o tensor diretamente sem alocar nova memória para o resultado. Embora possam economizar memória, use-as com cautela, pois podem quebrar o gráfico de computação se não forem tratadas corretamente, especialmente quando usadas em tensores que requerem gradientes.


# Economia de memória (in-place)
x.relu_() # Modifica x diretamente

# Cria um novo tensor
x = torch.relu(x)

Evitando Clones/Cópias Desnecessárias de Tensores

Fique atento às operações que criam implicitamente cópias de tensores. Por exemplo, fatiar um tensor pode, às vezes, criar uma visão, mas outras operações podem criar uma cópia completa. Use explicitamente .clone() somente quando uma cópia profunda for realmente necessária; caso contrário, trabalhe com visões sempre que possível.


# Cria uma visão (sem nova memória para os dados)
view_tensor = original_tensor[0:10]

# Cria um novo tensor (nova memória)
cloned_tensor = original_tensor.clone()

Usando `torch.no_grad()` para Inferência/Avaliação

Durante a avaliação ou inferência, você não precisa calcular ou armazenar gradientes. Envolver seu código de inferência no contexto torch.no_grad() impede que o Autograd construa o gráfico de computação, o que economiza memória significativa ao não armazenar ativações intermediárias para retropropagação.


model.eval() # Define o modelo no modo de avaliação
with torch.no_grad():
 for inputs, labels in val_dataloader:
 inputs, labels = inputs.to(device), labels.to(device)
 outputs = model(inputs)
 # ... calcular métricas ...
model.train() # Define o modelo de volta para o modo de treinamento

Esta é uma prática fundamental para qualquer pessoa que trabalhe com PyTorch e pode frequentemente evitar erros de OOM durante etapas de validação.

Profiling de Uso de Memória

Para casos complexos, o PyTorch fornece ferramentas de profiling poderosas que podem identificar exatamente quais operações consomem mais memória. O módulo torch.profiler (ou o antigo torch.autograd.profiler) pode registrar alocações de memória CUDA.


import torch
from torch.profiler import profile, record_function, ProfilerActivity

# Exemplo de profiling de uma única passagem para frente/para trás
model = MyModel().to(device)
inputs = torch.randn(4, 3, 224, 224).to(device)
labels = torch.randint(0, 10, (4,)).to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
criterion = torch.nn.CrossEntropyLoss()

with profile(activities=[
 ProfilerActivity.CPU, ProfilerActivity.CUDA], record_shapes=True) as prof:
 with record_function("model_inference"):
 outputs = model(inputs)
 with record_function("loss_computation"):
 loss = criterion(outputs, labels)
 with record_function("backward_pass"):
 loss.backward()
 with record_function("optimizer_step"):
 optimizer.step()
 optimizer.zero_grad()

print(prof.key_averages().table(sort_by="cuda_memory_usage", row_limit=10))

A saída do profiler mostrará a memória detalhada

Corrigindo Erros de Memória Insuficiente do CUDA no PyTorch: Um Guia Completo

Entendendo o Uso de Memória da GPU no PyTorch

Tensores e Parâmetros do Modelo

Ativações Intermediárias (Passagem Direta)

Gradientes (Passagem Reversa)

Estados do Otimizador

Tamanho do Lote

Sobrecarga Interna do PyTorch

Diagnósticos Iniciais e Correções Rápidas

Limpar o Cache CUDA do PyTorch

Reduzir o Tamanho do Lote

Excluir Tensores e Variáveis Desnecessários

Monitorar o Uso de Memória da GPU

Técnicas Avançadas de Otimização de Memória

Acumulação de Gradientes

Ponto de Verificação de Gradientes (Checkpoint de Ativações)

Treinamento de Precisão Mista (FP16/BF16)

Descarregamento para CPU (CPU Offloading)

Considerações sobre Design Arquitetônico e de Código

Arquiteturas de Modelo Eficientes

Operações In-Place

Evitando Clones/Cópias Desnecessárias de Tensores

Usando `torch.no_grad()` para Inferência/Avaliação

Profiling de Uso de Memória

Artigos Relacionados

Related Articles

Entendendo o Uso de Memória da GPU no PyTorch

Tensores e Parâmetros do Modelo

Ativações Intermediárias (Passagem Direta)

Gradientes (Passagem Reversa)

Estados do Otimizador

Tamanho do Lote

Sobrecarga Interna do PyTorch

Diagnósticos Iniciais e Correções Rápidas

Limpar o Cache CUDA do PyTorch

Reduzir o Tamanho do Lote

Excluir Tensores e Variáveis Desnecessários

Monitorar o Uso de Memória da GPU

Técnicas Avançadas de Otimização de Memória

Acumulação de Gradientes

Ponto de Verificação de Gradientes (Checkpoint de Ativações)

Treinamento de Precisão Mista (FP16/BF16)

Descarregamento para CPU (CPU Offloading)

Considerações sobre Design Arquitetônico e de Código

Arquiteturas de Modelo Eficientes

Operações In-Place

Evitando Clones/Cópias Desnecessárias de Tensores

Usando torch.no_grad() para Inferência/Avaliação

Profiling de Uso de Memória

Artigos Relacionados

You May Also Like

📚 You Might Also Like

Related Articles

Usando `torch.no_grad()` para Inferência/Avaliação