Guia
Stable Diffusion.
A ferramenta de IA para imagens gratuita e open-source. Do primeiro prompt ao controle avançado com SDXL, Flux e LoRAs. Atualizado para 2026.
Leitura de 18 minutos. Do iniciante ao usuário avançado.
O que você vai aprender
- O que é Stable Diffusion e por que ele é diferente de DALL-E e Midjourney.
- Como instalar AUTOMATIC1111 ou ComfyUI, e alternativas online gratuitas.
- Como escrever prompts eficazes com a estrutura correta para SD.
- Os parâmetros que você precisa controlar: CFG, steps, sampler, seed e resolução.
- O que são LoRAs, ControlNet e como usá-los para resultados profissionais.
- Como resolver os erros mais comuns: mãos ruins, rostos distorcidos, VRAM insuficiente.
- Comparação prática: quando usar SD, DALL-E 3 ou Midjourney.
Capítulo 1
O que é Stable Diffusion
Stable Diffusion é um modelo de geração de imagens por IA de código aberto (open-source), desenvolvido originalmente pela Stability AI em parceria com pesquisadores da CompVis e Runway. Lançado em agosto de 2022, foi o primeiro modelo de geração de imagens de alta qualidade disponibilizado publicamente sem custo e sem restrição de uso local.
A característica que diferencia o Stable Diffusion de concorrentes como DALL-E e Midjourney é fundamental: ele roda no seu próprio computador. Isso significa privacidade total (nenhuma imagem é enviada a servidores externos), custo zero de geração após a instalação, e controle técnico absoluto sobre cada parâmetro do processo criativo.
Em 2026, o ecossistema evoluiu muito além do modelo original. As versões principais em uso são SDXL 1.0 (2023), SD 3 (2024) e Flux (2024, da Black Forest Labs, fundada por ex-membros da Stability AI). Cada geração traz melhorias significativas em qualidade, coerência de prompt e realismo fotográfico.
Capítulo 2
Como acessar e instalar o Stable Diffusion
Opção 1 — Instalação local com AUTOMATIC1111. A interface mais usada historicamente. Acesse github.com/AUTOMATIC1111/stable-diffusion-webui e siga as instruções para Windows, Linux ou Mac. O processo envolve instalar Python, Git, clonar o repositório e rodar um script de instalação que baixa dependências automaticamente. Exige GPU NVIDIA ou Apple Silicon.
Opção 2 — ComfyUI. Acesse github.com/comfyanonymous/ComfyUI. Baseada em nós visuais (workflow), é mais poderosa para automação e pipelines avançados. A comunidade publica workflows prontos que você importa diretamente. Em 2026, é a interface preferida de usuários avançados pelo controle granular e suporte amplo a modelos novos.
Opção 3 — Sem instalação online. Para quem não quer lidar com instalação: Leonardo AI (leonardoai.com) tem plano gratuito com modelos SD e Flux. Google Colab tem notebooks prontos para AUTOMATIC1111 usando GPU da nuvem gratuitamente (com cota diária). Tensor.Art e Mage.space são alternativas com tier gratuito.
Baixando modelos. Após instalar a interface, você baixa os modelos separadamente. O Hugging Face (huggingface.co) e CivitAI (civitai.com) são os dois repositórios principais. Para SDXL realista, busque 'Juggernaut XL' ou 'RealVisXL'. Para estilo artístico, 'DreamShaper XL'. Para Flux, 'Flux.1 Schnell' (mais rápido) ou 'Flux.1 Dev' (mais qualidade). Coloque o arquivo .safetensors na pasta models/Stable-diffusion.
Capítulo 3
Escrevendo o primeiro prompt no Stable Diffusion
A estrutura de prompt no Stable Diffusion é diferente do DALL-E 3. Enquanto o DALL-E aceita linguagem natural longa e fluente, o SD responde melhor a listas de termos separados por vírgulas, com os elementos mais importantes no início do prompt (atenção decresce com a posição no texto).
Estrutura básica recomendada: qualidade geral primeiro ('masterpiece, best quality, highly detailed, 8K resolution'), depois sujeito ('1girl, long black hair, smiling'), depois ambiente ('in a coffee shop in São Paulo, afternoon light, warm tones'), depois estilo e técnica ('photography, bokeh, f/1.8, 35mm lens, natural light'). Isso guia o modelo da qualidade geral ao detalhe específico.
Use pesos para enfatizar elementos. No AUTOMATIC1111, você pode dar mais peso a um termo usando parênteses: (olhos verdes:1.3) significa 30% mais ênfase nesse elemento. Para diminuir peso: [fundo:0.5] reduz a influência do fundo. No ComfyUI, o sistema de pesos é similar mas implementado diferente conforme o workflow.
Prompt negativo é essencial. Sempre preencha o campo de prompt negativo com termos de qualidade mínima. Um negativo funcional para fotorrealismo: 'low quality, blurry, distorted, bad anatomy, extra fingers, duplicate, watermark, text, ugly, deformed, bad proportions'. Para anime, adapte os termos ao estilo desejado.
Capítulo 4
Parâmetros fundamentais que você precisa entender
CFG Scale (Escala de Orientação). Controla o quanto o modelo segue seu prompt. Para fotorrealismo, use 7-9. Para arte estilizada, 9-13. Valores acima de 15 tendem a saturar as cores e criar resultados artificiais. CFG 7 é um ponto de partida seguro para qualquer estilo.
Steps (Passos de difusão). O número de iterações de refinamento. Para samplers modernos como DPM++ 2M Karras: 20-30 steps são suficientes para boa qualidade. Para Euler a: 25-40. Para LCM e turbo samplers: 4-8 steps com qualidade surpreendente. Mais steps acima de 50 raramente justifica o tempo de geração adicional.
Sampler (Amostrador). O algoritmo de geração. DPM++ 2M Karras é um dos mais populares pelo equilíbrio entre velocidade e qualidade. DDIM é mais rápido. Euler a é mais criativo e variado. LCM é turbo (4-8 steps). Para iniciantes, use DPM++ 2M Karras com 25 steps até se familiarizar com os resultados.
Seed (Semente aleatória). Um número que determina o 'ponto de partida' da geração. Com a mesma seed, prompt e parâmetros, você sempre obtém a mesma imagem. Use seed fixo quando quiser fazer variações mantendo a composição base. Use -1 para seed aleatória quando quiser explorar possibilidades.
Resolução. Para SD 1.5, mantenha 512×512 ou 768×768. Para SDXL, use 1024×1024 como base. Gerar em resoluções muito maiores que o treinamento do modelo causa artefatos. Se precisar de imagem maior, gere no tamanho nativo e depois use Hires.fix (upscale com refinamento) ou ferramentas externas de upscaling.
Capítulo 5
LoRAs, modelos customizados e extensões
LoRAs (Low-Rank Adaptations) são os grandes diferenciadores do Stable Diffusion. Arquivos pequenos (geralmente 50-300MB) que especializam o modelo para um estilo ou personagem específico. Baixe do CivitAI, coloque na pasta models/Lora, e ative no prompt com a sintaxe <lora:nome_da_lora:peso>. Peso 0.5-0.8 é geralmente ideal; muito alto distorce; muito baixo não ativa.
Modelos fine-tuned da comunidade. O CivitAI tem dezenas de milhares de modelos completos treinados pela comunidade para estilos específicos: fotorrealismo ultra-detalhado, anime, mangá, ilustração ocidental, arte 3D, concept art de games. Em 2026, Juggernaut XL é referência para fotorrealismo. DreamShaper XL para versatilidade. Pony Diffusion para estilo artístico ocidental.
ControlNet. Extensão que adiciona condicionamento por imagem de referência. Pose: você fornece um esqueleto de pose e o personagem adota aquela postura. Canny/Lineart: preserva as bordas de uma imagem de referência na geração. Depth: preserva a sensação de profundidade. IP-Adapter: transfere estilo de uma imagem para outra. ControlNet é indispensável para trabalho profissional consistente.
ADetailer e inpainting. A extensão ADetailer detecta automaticamente rostos e outras regiões na imagem gerada e faz refinamento localizado, melhorando drasticamente a qualidade de detalhes específicos. O inpainting manual permite selecionar uma área da imagem e regenerar somente aquela parte, mantendo o restante intacto — essencial para corrigir mãos, rostos e outros elementos problemáticos.
Capítulo 6
Erros comuns e como solucionar
Mãos e anatomia distorcidas. Este é o problema mais conhecido. Soluções: use ADetailer com modelo de mão no campo negativo adicione 'bad hands, extra fingers, fused fingers'; use ControlNet OpenPose para controlar pose; ou faça inpainting manual nas mãos com mais steps e CFG maior (12-15) na região problemática. Flux 1.1 resolve anatomia de mãos com qualidade muito superior a SDXL.
Imagens com baixa resolução ou borradas. Causas comuns: steps insuficientes (tente 25-30), CFG muito baixo (tente subir para 7-9), resolução inadequada para o modelo (use nativa do modelo). Use Hires.fix para gerar em alta resolução final a partir de base menor. Adicione 'detailed, sharp focus, high resolution' ao prompt positivo.
Prompt sendo ignorado. Se o modelo não segue seu prompt, tente: aumentar CFG para 10-12, usar parênteses com peso nos termos importantes ((sujeito_importante:1.4)), reformular usando termos mais comuns no dataset de treino, ou trocar para modelo mais coerente como Juggernaut XL ou Flux.
VRAM insuficiente. Se a geração falha por falta de memória: ative 'medvram' ou 'lowvram' nas configurações do a1111, reduza a resolução de geração, desative xformers temporariamente para diagnosticar. Para GPUs com 6GB, gerar SDXL requer medvram ativado.
Inconsistência de personagem entre gerações. O Stable Diffusion não tem memória entre gerações. Para manter consistência: salve a seed de uma geração boa e use ela como base para variações; use LoRA treinada com o personagem; use IP-Adapter com imagem do personagem como referência; use ControlNet de pose para controlar a postura mantendo aparência via LoRA.
Capítulo 7
Stable Diffusion vs DALL-E 3 vs Midjourney: como escolher
Stable Diffusion. Escolha se: você quer controle técnico total, privacidade absoluta (tudo roda local), custo zero a longo prazo, capacidade de treinar modelos customizados nos seus próprios dados, ou se você gosta de experimentação técnica. A curva de aprendizado é maior, mas o teto de capacidade é o mais alto dos três.
DALL-E 3. Escolha se: você quer o mínimo de configuração, integração com ChatGPT para iterar por conversa em linguagem natural, usar pelo Bing gratuitamente para projetos casuais, ou se precisa gerar texto legível dentro das imagens. Ideal para não-técnicos e para uso integrado ao fluxo de trabalho com IA de texto.
Midjourney. Escolha se: você prioriza a estética artística do resultado final acima de tudo, trabalha com moda, publicidade ou arte conceitual de nível premium, ou se quer uma comunidade ativa para inspiração e prompts compartilhados. É o favorito de designers profissionais pela consistência estética dos resultados.
Uso combinado. Profissionais avançados usam os três para tarefas diferentes: Midjourney para conceitos iniciais de alto impacto visual, DALL-E 3 via ChatGPT para iteração rápida com linguagem natural, e Stable Diffusion para pós-processamento, refinamento e geração em volume com automação via API.
Recomendação para o contexto brasileiro. Para quem está começando: experimente o Bing Image Creator (DALL-E 3 gratuito) para entender geração por prompt. Depois, teste o Leonardo AI (SD gratuito online). Quando quiser controle real, instale o ComfyUI localmente e baixe um modelo SDXL do CivitAI. Midjourney faz mais sentido quando há orçamento e a estética artística é prioridade de negócio.
Continue
Próximos passos.
Guia DALL-E 3
A alternativa da OpenAI, gratuita via Bing e integrada ao ChatGPT.
Guia Midjourney
O favorito de designers para arte de alto nível.
Gerador de Prompts SD
Monte prompts para Stable Diffusion com estrutura profissional.
Guia ChatGPT
O assistente de IA que integra DALL-E 3 nativamente.
FAQ
Perguntas sobre Stable Diffusion.
O Stable Diffusion é gratuito?+
Sim, o Stable Diffusion é open-source e gratuito para usar localmente no seu computador. Os modelos são disponibilizados gratuitamente pela Stability AI e pela comunidade no Hugging Face e CivitAI. Se você não quiser instalar localmente, existem opções online como Automatic1111 no Google Colab (gratuito com limitações), DreamStudio (pago, da Stability AI) e Leonardo AI (plano gratuito limitado).
Qual computador preciso para rodar Stable Diffusion?+
Para rodar localmente com performance razoável, você precisa de uma GPU NVIDIA com no mínimo 6GB de VRAM (para SD 1.5 e SDXL com otimizações). Para SDXL sem limitações, recomenda-se 8GB VRAM. Para Flux e modelos mais recentes, 12GB+ são ideais. Sem GPU adequada, você pode usar CPU, mas a geração leva minutos em vez de segundos. MacBooks com chips M1/M2/M3 rodam via suporte MPS com boas velocidades.
Qual a diferença entre Stable Diffusion 1.5, SDXL e Flux?+
SD 1.5 (2022) é o modelo original, ainda amplamente suportado, com enorme biblioteca de LoRAs e extensões. É leve e roda em GPUs modestas. SDXL (2023) produz imagens em 1024×1024 com qualidade superior, especialmente rostos e mãos. Flux (2024, desenvolvido por ex-membros da Stability AI) é o estado da arte em qualidade fotorrealista e coerência de prompt, mas exige hardware mais potente. Em 2026, Flux é o favorito para geração profissional.
O que são LoRAs e para que servem?+
LoRA (Low-Rank Adaptation) são pequenos arquivos de peso que se somam ao modelo base para especializar o estilo ou personagem gerado. Com uma LoRA de anime, o modelo base passa a gerar imagens em estilo anime. Com uma LoRA de personagem específico, você reproduz esse personagem com consistência. Centenas de milhares de LoRAs estão disponíveis gratuitamente no CivitAI.com.
Qual interface devo usar para Stable Diffusion?+
As duas interfaces mais populares são: AUTOMATIC1111 (a111), mais popular historicamente, com enorme biblioteca de extensões e suporte amplo da comunidade; e ComfyUI, baseada em nós visuais, mais poderosa e flexível para workflows avançados, mas com curva de aprendizado maior. Para iniciantes, a1111 é mais intuitiva. Para usuários avançados, ComfyUI oferece controle superior com ControlNet, IP-Adapter e fluxos customizados.
Como melhorar a qualidade dos rostos gerados?+
Rostos são o calcanhar de Aquiles histórico de modelos de difusão. As soluções: (1) use modelos treinados especificamente para retratos como RealisticVision ou Deliberate; (2) ative a extensão ADetailer (Inpaint After Detailer) no a1111, que refina automaticamente rostos detectados; (3) use LoRAs de rosto; (4) faça inpainting manual na área do rosto com CFG maior; (5) no Flux, rostos já são significativamente melhores que no SD 1.5.
O que são negative prompts e como usá-los?+
Negative prompts são termos que você quer que o modelo EVITE. Listados no campo separado das interfaces, funcionam como guias de qualidade mínima. Uma lista negativa clássica para fotorrealismo: 'low quality, bad anatomy, blurry, distorted, extra limbs, watermark, signature, text, ugly, deformed, disfigured, mutation'. Para anime, trocam-se por termos relevantes a esse estilo.
O que é CFG Scale e qual valor usar?+
CFG Scale (Classifier-Free Guidance) controla o quanto o modelo segue seu prompt. Valores baixos (1-5): mais criativo e aleatório, pode ignorar partes do prompt. Valores médios (7-12): equilíbrio recomendado para a maioria dos casos. Valores altos (15-30): o modelo segue o prompt rigidamente, mas imagens ficam saturadas e artificiais. Para fotorrealismo, CFG 7 a 9. Para arte estilizada, experimente valores entre 9 e 14.
Quantos steps devo usar na geração?+
Steps são as iterações de refinamento. Mais steps = melhor qualidade até certo ponto, com retornos decrescentes. Para samplers como Euler a e DPM++ 2M Karras: 20-30 steps já entregam boa qualidade. Para DPM++ SDE, 15-20 são suficientes. Acima de 50 steps raramente há melhora visível e só aumenta o tempo. Para prototipagem rápida, use 15-20 steps com sampler eficiente.
Posso usar imagens do Stable Diffusion comercialmente?+
Os modelos base da Stability AI são licenciados sob a Creative ML Open Rail-M, que permite uso comercial com algumas restrições (não pode usar para conteúdo ilegal ou para treinar modelos concorrentes sem conformidade com os termos). Modelos da comunidade no CivitAI têm licenças variadas. Verifique a licença específica de cada modelo antes do uso comercial. Flux tem licença própria da Black Forest Labs.
O que é ControlNet e quando usar?+
ControlNet é uma extensão que adiciona condicionamento extra à geração: você pode controlar a pose de um personagem a partir de uma imagem de esqueleto, seguir a estrutura de composição de uma foto de referência, ou preservar bordas e profundidade. Essencial para geração consistente de personagens em poses específicas, storyboards e quando você precisa que o resultado siga uma referência visual sem ser um simples img2img.
Como usar Stable Diffusion online sem instalar nada?+
Opções sem instalação: Leonardo AI (leonardoai.com) tem plano gratuito limitado com modelos SD e Flux; Tensor.Art oferece geração gratuita; Mage.space tem tier gratuito; DreamStudio (dreamstudio.ai) da Stability AI é pago mas sem instalação. Para máximo controle sem custo, Google Colab oferece notebooks pré-configurados para a1111 usando GPU gratuita do Colab (com limitações de uso diário).