Arquivos de Tag: Inpainting

Como remover membros extras com Stable Diffusion inpainting

Como remover membros extras com Stable Diffusion inpainting

Um problema comum em imagens de IA de difusão estável é que os membros podem não ser gerados corretamente. Às vezes, uma pessoa pode ter um braço a mais e, em outras ocasiões, uma de suas pernas pode estar faltando. Finalmente, obtivemos 4 membros, mas a anatomia não está correta.

Um leitor sugeriu fazer um tutorial especial para remover membros extras. Então aqui vai! Neste post, mostrarei como usar inpainting para consertar essas duas imagens com membros problemáticos.

Como remover objetos indesejados com AI inpainting

Como remover objetos indesejados com AI inpainting

Há uma  postagem antiga no Reddit  mostrando uma tarefa assustadora de remover a ex-esposa de uma foto de família. Certamente não consigo fazer isso com minha habilidade amadora no Photoshop. Mas isso foi antes da época da Stable Diffusion… Vamos descobrir o que podemos conseguir com o inpainting.

Neste post, vou mostrar como usar  a função de pintura interna  do Stable Diffusion para remover um objeto (uma pessoa neste caso) e reconstruir o fundo.

Guia para iniciantes em pintura (exemplos passo a passo)

Inpainting – Guia para iniciantes em pintura (exemplos passo a passo)

Não importa quão bons sejam seu prompt e modelo, é raro obter uma imagem perfeita em uma única foto.

Inpainting é uma maneira indispensável de consertar pequenos defeitos. Neste post, vou passar por alguns exemplos básicos de uso de inpainting para consertar defeitos.

Se você é novo em imagens de IA, talvez seja interessante ler primeiro o guia para iniciantes.

Esta é a parte 3 da série do guias para iniciantes.
Leia a parte 1: Guia para iniciantes absolutos 
Leia a parte 2: Construção de prompts 
Leia a parte 4: Modelos .

Índice

  • Modelo de imagem e GUI
  • Configurações básicas de pintura
    • Use um modelo de pintura interna (opcional)
    • Criando uma máscara de pintura
    • Configurações para pintura interna
      • Incitar
      • Tamanho da imagem
      • Restauração facial
      • Conteúdo da máscara
      • Força de redução de ruído
      • Tamanho do lote
    • Resultados de pintura interna
    • Mais uma rodada de pintura interna
  • Adicionando novos objetos
  • Explicação dos parâmetros de pintura interna
    • Força de redução de ruído
    • Escala CFG
    • Conteúdo mascarado
  • Dicas para pintura interna

Modelo de imagem e GUI

Usaremos Stable Diffusion AI e AUTOMATIC1111 GUI. Veja meu  guia de início rápido  para configuração no servidor de nuvem do Google.

Configurações básicas de pintura

Nesta seção, mostrarei passo a passo como usar o inpainting para corrigir pequenos defeitos.

Usarei uma imagem original do prompt do Lonely Palace :

[emma watson: amber hear: 0,5], (cabelo longo: 0,5), headLeaf, vestindo estola, vasto palácio romano, grande janela, palácio renascentista medieval, ((sala grande)), 4k, arstation, intrincado, elegante, altamente detalhado(Configurações detalhadas podem ser encontradas aqui .)

É uma boa imagem, mas gostaria de corrigir os seguintes problemas

  • O rosto parece artificial.
  • O braço direito está faltando.

Use um modelo Inpainting – Pintura Interna (opcional)

Você sabia que existe um modelo de Difusão Estável treinado para inpainting? Você pode usá-lo se quiser obter o melhor resultado. Mas, normalmente, é OK usar o mesmo modelo com o qual você gerou a imagem para inpainting.

Para instalar o modelo de pintura v1.5 , baixe o arquivo de ponto de verificação do modelo e coloque-o na pasta

stable-diffusion-webui/models/Stable-diffusion

No AUTOMATIC1111, pressione o ícone de atualização ao lado da caixa suspensa de seleção de ponto de verificação no canto superior esquerdo. Selecione sd-v1-5-inpainting.ckptpara habilitar o modelo.

Criando uma máscara de pintura

Na GUI do AUTOMATIC1111, selecione a aba img2img e selecione a subaba Inpaint . Carregue a imagem para a tela inpainting.

Vamos pintar o braço direito e o rosto ao mesmo tempo. Use a ferramenta pincel para criar uma máscara . Esta é a área em que você quer que o Stable Diffusion regenere a imagem.

Configurações para pintura interna

Prompt

Você pode reutilizar o prompt original para corrigir defeitos. Isso é como gerar múltiplas imagens, mas apenas em uma área específica.

Tamanho da imagem

O tamanho da imagem precisa ser ajustado para ser o mesmo da imagem original. (704 x 512 neste caso).

Restauração facial

Se você estiver pintando rostos, você pode ativar a restauração de rostos . Você também precisará selecionar e aplicar o modelo de restauração de rosto a ser usado na aba Configurações . O CodeFormer é um bom.

Cuidado, pois esta opção pode gerar visuais não naturais. Também pode gerar algo inconsistente com o estilo do modelo.

Conteúdo da máscara

A próxima configuração importante é Conteúdo da Máscara .

Selecione original se quiser que o resultado seja guiado pela cor e forma do conteúdo original. Original é frequentemente usado ao pintar rostos porque a forma geral e a anatomia estavam ok. Queremos apenas que pareça um pouco diferente.

Na maioria dos casos, você usará o Original e alterará a intensidade da redução de ruído para obter efeitos diferentes.

Você pode usar latent noise ou latent nothing se quiser regenerar algo completamente diferente do original, por exemplo, remover um membro ou esconder uma mão. Essas opções inicializam a área mascarada com algo diferente da imagem original. Ela produzirá algo completamente diferente.

Força de redução de ruído

A intensidade do denoising controla quanta mudança ele fará em comparação com a imagem original. Nada mudará quando você definir como 0. Você obterá uma pintura interna não relacionada quando definir como 1.

0,75 geralmente é um bom ponto de partida. Diminua se quiser mudar menos.

Tamanho do lote

Certifique-se de gerar algumas imagens por vez para que você possa escolher as melhores. Defina a semente para -1 para que cada imagem seja diferente.

Prompt(Igual ao original)
Etapas de amostragem20
Seed-1
Tamanho da imagem704 x 512
Restauração facialCodeformer
Método de amostragemEuler a
ModeloStable Diffusion v1.5 inpainting
Conteúdo da máscararuído latente ou nada latente
Inpaint em resolução máximaOn
Força de redução de ruído0,75

Resultados de pintura interna

Abaixo estão algumas das imagens com inpainted aplicado.

Mais uma rodada de inpainted – pintura interna

Gosto do último, mas há uma mão extra sob o braço recém-pintado. Siga etapas semelhantes de upload desta imagem e criação de uma máscara. O conteúdo mascarado deve ser definido como ruído latente para gerar algo completamente diferente.

A mão sob o braço é removida com a segunda rodada de pintura:

E esta é minha imagem final.

Uma comparação lado a lado

Inpainting é um processo iterativo. Você pode aplicá-lo quantas vezes quiser para refinar uma imagem.

Veja esta postagem para outro exemplo mais extremo de inpainting.

Veja o tutorial para remover membros extras com pintura interna .

Adicionando novos objetos

Às vezes você quer adicionar algo novo à imagem.

Vamos tentar adicionar um leque à imagem.

Primeiro, carregue a imagem na tela de pintura e crie uma máscara ao redor do peito e do braço direito.

Adicione o prompt “segurando um leque de mão” ao início do prompt original. O prompt para inpainting é

(segurando um leque: 1,2), [emma watson: âmbar ouvido: 0,5], (cabelo longo: 0,5), headLeaf, vestindo estola, vasto palácio romano, grande janela, palácio renascentista medieval, ((sala grande)), 4k, arstation, intrincado, elegante, altamente detalhado

Adicionar novos objetos ao prompt original garante consistência no estilo. Você pode ajustar o peso da palavra-chave (1.2 acima) para fazer o leque aparecer.

Defina o conteúdo mascarado como ruído latente .

Ajuste a intensidade da redução de ruído e a escala CFG para refinar as imagens pintadas.

Depois de alguma experimentação, nossa missão foi cumprida:

Explicação dos parâmetros de pintura interna

Força de redução de ruído

A intensidade do denoising controla o quanto a imagem final deve respeitar o conteúdo original. Definindo como 0 não muda nada. Definindo como 1, você tem uma imagem não relacionada.

Defina um valor baixo se quiser uma pequena mudança e um valor alto se quiser uma grande mudança.

Escala CFG

Semelhante ao uso em texto para imagem , a escala de Orientação Livre do Classificador  é um parâmetro para controlar o quanto o modelo deve respeitar seu prompt.

1 – Ignore principalmente seu prompt.
3 – Seja mais criativo.
7 – Um bom equilíbrio entre seguir o prompt e a liberdade.
15 – Aderir mais ao prompt.
30 – Siga o prompt rigorosamente.

Conteúdo mascarado

O conteúdo mascarado controla como a área mascarada é inicializada.

  • Preenchimento : Inicializa com uma parte altamente desfocada da imagem original.
  • Original : Sem modificações.
  • Ruído latente : área mascarada inicializada com preenchimento e ruído aleatório é adicionado ao espaço latente.
  • Nada latente : como ruído latente, exceto que nenhum ruído é adicionado ao espaço latente.

Abaixo estão os conteúdos iniciais da máscara antes de quaisquer etapas de amostragem. Isso dá a você uma ideia do que eles são.

Dicas para pintura interna

A pintura interna bem-sucedida requer paciência e habilidade. Aqui estão algumas dicas para usar a pintura interna

  • Uma pequena área de cada vez.
  • Manter o conteúdo mascarado no Original e ajustar a intensidade da redução de ruído funciona 90% das vezes.
  • Experimente o conteúdo mascarado para ver qual funciona melhor.
  • Se nada funcionar bem dentro das configurações do AUTOMATIC1111, use um software de edição de fotos como Photoshop ou GIMP para pintar a área de interesse com a forma e a cor aproximadas que você queria. Carregue essa imagem e pinte com o conteúdo original.

Confira o Curso de Difusão Estável para um curso guiado passo a passo.

Ou continue para a parte 4 abaixo.

Esta é a parte 3 da série de guias para iniciantes.
Leia a parte 1: Guia para iniciantes absolutos .
Leia a parte 2: Construção de prompts .
Leia a parte 4: Modelos .

Como usar o Stable Diffusion

Como usar o Stable Diffusion

Quer aprender Stable Diffusion AI? Este guia para iniciantes é destinado aos novatos e sem experiência com Stable Diffusion, Flux ou outros geradores de imagem por IA. Ele dará a você uma visão geral do Stable Diffusion/Flux AI e por onde começar.

Esta é a primeira parte da série de guias para iniciantes.
Leia a parte 2: Construção de prompts .
Leia a parte 3: Pintura interna.
Leia a parte 4: Modelos.

Índice

  • O que é Stable Diffusion (difusão estável)?
  • Como usar o Stable Diffusion?
  • Qual é a vantagem do Stable Diffusion?
  • O Stable Diffusion AI é gratuito?
  • Estou dentro! Como começar a usar Stable Diffusion e Flux AI?
    • Geradores online
    • Execute no seu PC
    • GUI avançada
  • O que o Stable Diffusion pode fazer?
    • Gerar imagens a partir de texto
    • Gerar uma imagem a partir de uma imagem
    • Edição de fotos
    • Faça vídeos
  • Como criar um bom prompt?
  • Regras básicas para criar bons prompts
    • Seja detalhado e específico
    • Use palavras-chave poderosas
  • Quais são esses parâmetros e devo alterá-los?
  • Quantas imagens devo gerar?
  • Maneiras comuns de corrigir defeitos em imagens
    • Restauração Facial
    • Corrigindo pequenos artefatos com pintura interna
  • O que são modelos personalizados?
    • Qual modelo devo usar?
    • Como treinar um novo modelo?
  • Avisos negativos
  • Como fazer impressões grandes com Stable Diffusion?
  • Como controlar a composição da imagem?
    • Imagem para imagem
    • ControlNet (Rede de controle)
    • Regional prompting (Incitação regional)
    • Profundidade para imagem
  • Gerando assuntos específicos
    • Pessoas realistas
    • Animais
  • O que é Unstable Diffusion?
  • Próximo passo

O que é Stable Diffusion?

Stable Diffusion AI é um modelo de difusão latente para gerar imagens de IA. As imagens podem ser foto realistas, como aquelas capturadas por uma câmera, ou artísticas, como se fossem produzidas por um artista profissional.

A melhor parte é que ele é gratuito. Você pode executá-lo no seu PC ou pode usá-lo online por uma taxa.

Falarei sobre as opções para usar Stable Diffusion e Flux na parte final deste artigo. Mas se você não puder esperar, pegue o Guia de Início Rápido no Stable Diffusion e mergulhe de cabeça.

Como usar a difusão estável?

Tudo o que você precisa é de um prompt que descreva uma imagem . Por exemplo:

casa de gengibre, diorama, em foco, fundo branco, torrada, cereal crocante

A Difusão Estável transforma esse prompt em imagens como as abaixo.

Você pode gerar quantas variações quiser a partir do mesmo prompt.

Qual é a vantagem da difusão estável?

Existem serviços de geração de texto para imagem semelhantes, como o DALLE o MidJourney da OpenAI . Por que Stable Diffusion? As vantagens do Stable Diffusion AI são:

  • Código aberto: muitos entusiastas criaram ferramentas e modelos gratuitos.
  • Projetado para computadores de baixo consumo: é gratuito ou barato de usar.

O Stable Diffusion AI é gratuito?

O Stable Diffusion é gratuito para uso quando executado em suas próprias máquinas Windows ou Mac . Um serviço online custará uma taxa modesta.

Estou dentro! Como começar a usar Stable Diffusion e Flux AI?

Há muitas maneiras de usar modelos de IA de difusão estável e fluxo. Você precisa decidir:

  1. Executar no seu PC ou usar um serviço online?
  2. Qual interface gráfica você deseja usar?

Geradores online

Para iniciantes absolutos, recomendo usar um gerador online gratuito . Você pode começar a gerar sem o incômodo de configurar as coisas.

Gere algumas imagens e veja se a IA é sua praia.

Execute no seu PC

A melhor opção de PC é executar o Windows com uma placa GPU Nvidia . A maioria dos modelos de IA são otimizados para GPUs Nvidia. As GPUs AMD estão começando a ganhar força, mas espere passar por obstáculos para usá-las. Quanto mais VRAM sua GPU tiver, menos problemas você precisará

Você precisa de um Apple Silicon (M1/M2/M3/M4) para rodar em um Mac.

GUI avançada

A desvantagem dos geradores online gratuitos é que as funcionalidades são bastante limitadas.

Use uma GUI (Graphical User Interface) avançada se você já não as usa mais. Uma gama completa de ferramentas está à sua disposição. Para citar algumas:

As GUIs mais populares são:

  • AUTOMATIC1111 – Fácil de usar, mas o desenvolvimento está atrasado. Suporta apenas Stable Diffusion.
  • Forge – Derivado de A1111. Suporta Stable Diffusion e Flux AI. Rápido, mas algumas extensões A1111 não funcionam.
  • ComfyUI – Curva de aprendizado íngreme. Suporta tanto Stable Diffusion quanto Flux.

Consulte o Guia de início rápido para configurá-los localmente ou no Google Colab.

O que a difusão estável pode fazer?

1. Gerar imagens a partir de texto

O uso mais básico do Stable Diffusion é texto para imagem (txt2img). Aqui estão alguns exemplos de imagens que você pode gerar com o Stable Diffusion.

Estilo anime

Estilo foto realista

Aprenda a gerar pessoas realistas e humanos de rua realistas .

Paisagem

Fantasia

Estilo artístico

Animais

Aprenda a gerar animais .

Guia do iniciante – Stable Diffusion (2ª edição)

Elimine as suposições para se tornar um artista de IA. Aprenda Stable Diffusion passo a passo.

Obtenha o Guia do Iniciante

2. Gerar uma imagem a partir de uma imagem

Imagem para imagem (img2img) transforma uma imagem em outra usando IA de difusão estável.

Abaixo está um exemplo de como transformar meu desenho de uma maçã em um desenho foto realista. ( Tutorial )

Imagem para imagem gera uma imagem com base em uma imagem de entrada e um prompt.

3. Edição de fotos

Você pode usar inpainting para regenerar parte de uma imagem real ou de IA . Isso é o mesmo que a nova função de preenchimento generativo do Photoshop, mas grátis.

4. Faça vídeos

Existem duas maneiras principais de fazer vídeos com Stable Diffusion: (1) a partir de um prompt de texto e (2) a partir de outro vídeo.

Deforum é uma maneira popular de fazer um vídeo a partir de um prompt de texto. Você provavelmente já viu um deles nas mídias sociais. Parece com isso:

Como fazer vídeos com Stable Diffusion

A segunda maneira é estilizar um vídeo usando Stable Diffusion. Veja o tutorial de vídeo para vídeo .

Este é um tópico mais avançado. É melhor dominar texto para imagem e imagem para imagem antes de mergulhar nele.

Como criar um bom prompt?

Há muito o que aprender para elaborar um bom prompt . Mas o básico é descrever seu assunto com o máximo de detalhes possível. Certifique-se de incluir palavras-chave poderosas para definir o estilo.

Usar um gerador de prompts é uma ótima maneira de aprender um processo passo a passo e palavras-chave importantes. É essencial para iniciantes aprender um conjunto de palavras-chave poderosas e seus efeitos esperados. Isso é como aprender vocabulário para um novo idioma. Você também pode encontrar uma pequena lista de palavras-chave e notas aqui .

Um atalho para gerar imagens de alta qualidade é reutilizar prompts existentes. Vá para a coleção de prompts, escolha uma imagem que você goste e roube o prompt! A desvantagem é que você pode não entender por que ele gera imagens de alta qualidade. Leia as notas e altere o prompt para ver o efeito.

Como alternativa, use sites de coleta de imagens como o PlaygroundAI . Escolha uma imagem que você goste e remixe o prompt. Mas pode ser como encontrar uma agulha em um palheiro para um prompt de alta qualidade.

Trate o prompt como um ponto de partida. Modifique para atender às suas necessidades.

Regras básicas para criar bons prompts

Duas regras: (1) Seja detalhado e específico e (2) use palavras-chave poderosas.

Seja detalhado e específico

Embora a IA avance a passos largos, a Stable Diffusion ainda não consegue ler sua mente. Você precisa descrever sua imagem com o máximo de detalhes possível.

Digamos que você queira gerar uma imagem de uma mulher em uma cena de rua. Um prompt simplista uma mulher na rua fornece uma imagem como esta:

Prompt sem detalhes

Bem, você pode não querer gerar uma avó, mas isso tecnicamente corresponde ao seu prompt. Você não pode culpar a Stable Diffusion…

Então, em vez disso, você deveria escrever mais.

uma jovem senhora, olhos castanhos, mechas no cabelo, sorriso, vestindo traje casual de negócios elegante, sentada do lado de fora, rua tranquila da cidade, iluminação de borda

Prompt com detalhes

Veja a diferença drástica. Então trabalhe em suas habilidades de construção de prompts !

Use palavras-chave poderosas

Algumas palavras-chave são mais poderosas do que outras. Exemplos são

  • Nomes de celebridades (por exemplo, Emma Watson)
  • Nomes de artistas (por exemplo, van Gogh)
  • Meio artístico (por exemplo, ilustração, pintura, fotografia)

Usá-los com cuidado pode direcionar a imagem na direção desejada.

Você pode aprender mais sobre a criação de prompts e exemplos de palavras-chave em Noções básicas sobre a criação de prompts .

Quer trapacear? Assim como fazer lição de casa, você pode usar o ChatGPT para gerar prompts!

Quais são esses parâmetros e como devo alterá-los?

A maioria dos geradores online permite que você altere um conjunto limitado de parâmetros. Abaixo estão alguns importantes:

  • Tamanho da imagem : O tamanho da imagem de saída. O tamanho padrão é 512×512 pixels. Mudá-lo para o tamanho retrato ou paisagem pode ter um grande impacto na imagem. Por exemplo, use o tamanho retrato para gerar uma imagem de corpo inteiro.
  • Etapas de amostragem : Use pelo menos 20 etapas. Aumente se você vir uma imagem borrada.
  • Escala CFG : O valor típico é 7. Aumente se quiser que a imagem siga mais o prompt.
  • Valor semente : -1 gera uma imagem aleatória. Especifique um valor se quiser a mesma imagem.

Veja recomendações para outras configurações .

Quais são esses parâmetros e como devo alterá-los?

Quantas imagens devo gerar?

Você deve sempre gerar várias imagens ao testar um prompt.

Eu gero de 2 a 4 imagens por vez ao fazer grandes mudanças no prompt para que eu possa acelerar a busca. Eu geraria 4 por vez ao fazer pequenas mudanças para aumentar a chance de ver algo utilizável.

Alguns prompts funcionam apenas metade do tempo ou menos. Então, não descarte um prompt com base em uma imagem.

Maneiras comuns de corrigir defeitos em imagens

Quando você vê imagens de IA impressionantes compartilhadas em mídias sociais, há uma boa chance de que elas tenham passado por uma série de etapas de pós-processamento. Vamos abordar algumas delas nesta seção.

Restauração Facial

Esquerda: Imagens originais. Direita: Após restauração da face.

É bem conhecido na comunidade de artistas de IA que Stable Diffusion não é bom em gerar rostos. Muitas vezes, os rostos gerados têm artefatos.

Frequentemente usamos modelos de IA de imagem que são treinados para restaurar faces, por exemplo, CodeFormer , que AUTOMATIC1111 GUI tem suporte integrado. Veja como ativá-lo .

Você sabia que há uma atualização para os modelos v1.4 e v1.5 para consertar os olhos? Veja como instalar um VAE .

Corrigindo pequenos artefatos com pintura interna

É difícil obter a imagem que você quer na primeira tentativa. Uma abordagem melhor é gerar uma imagem com boa composição. Então repare os defeitos com inpainting .

Abaixo está um exemplo de uma imagem antes e depois do inpainting. Usar o prompt original para inpainting funciona 90% das vezes.

Esquerda: Imagem original com defeitos. Direita: O rosto e o braço são corrigidos por inpainting.

Existem outras técnicas para consertar as coisas. Leia mais sobre como consertar problemas comuns .

O que são modelos personalizados?

Os modelos oficiais lançados pela Stability AI e seus parceiros são chamados de modelos base . Alguns exemplos de modelos base são Stable Diffusion 1.4 1.5 2.0 2.1 .

Modelos personalizados são treinados a partir dos modelos base. Atualmente, a maioria dos modelos é treinada a partir da v1.4 ou v1.5. Eles são treinados com dados adicionais para gerar imagens de estilos ou objetos específicos.

Somente o céu é o limite quando se trata de modelos personalizados. Pode ser estilo anime, estilo Disney ou o estilo de outra IA. Você escolhe.

Abaixo está uma comparação de 5 modelos diferentes.

Imagens geradas por 5 modelos diferentes.

Também é fácil mesclar dois modelos para criar um estilo intermediário.

Qual modelo devo usar?

Fique com os modelos básicos se estiver começando. Há muitos para aprender e brincar para mantê-lo ocupado por meses.

As três versões principais do Stable Diffusion são v1, v2 e Stable Diffusion XL (SDXL).

  • Os modelos v1 são 1.4 e 1.5.
  • Os modelos v2 são 2.0 e 2.1.
  • SDXL 1.0

Você pode pensar que deveria começar com os modelos v2 mais novos. As pessoas ainda estão tentando descobrir como usar os modelos v2. Imagens do v2 não são necessariamente melhores que as do v1.

Houve uma série de modelos SDXL lançados: SDXL beta , SDXL 0.9 e o mais recente SDXL 1.0.

Recomendo usar os modelos v1.5 e SDXL 1.0 se você for novo no Stable Diffusion.

Como treinar um novo modelo?

Uma vantagem de usar Stable Diffusion é que você tem controle total do modelo. Você pode criar seu próprio modelo com um estilo único se quiser. Duas maneiras principais de treinar modelos: (1) Dreambooth e (2) embedding .

O Dreambooth é considerado mais poderoso porque ele ajusta o peso de todo o modelo. Os embeddings deixam o modelo intocado, mas encontram palavras-chave para descrever o novo assunto ou estilo.

Você pode experimentar o caderno Colab no artigo do dreambooth .

Avisos negativos

Você coloca o que quer ver no prompt. Você coloca o que não quer ver no prompt negativo. Nem todos os serviços de Stable Diffusion suportam prompts negativos. Mas é valioso para modelos v1 e essencial para modelos v2. Não faz mal para um iniciante usar um prompt negativo universal. Leia mais sobre prompts negativos:

Como fazer impressões grandes com difusão estável?

A resolução nativa do Stable Diffusion é 512×512 pixels para modelos v1. Você NÃO deve gerar imagens com largura e altura que desviem muito de 512 pixels. Use as seguintes configurações de tamanho para gerar a imagem inicial.

  • Imagem de paisagem : Defina a altura para 512 pixels. Defina a largura para mais alto, por exemplo, 768 pixels (proporção de aspecto 2:3)
  • Imagem de retrato : Defina a largura para 512 pixels. Defina a altura para mais alto, por exemplo, 768 pixels (proporção de aspecto 3:2)

Se você definir a largura e a altura iniciais muito altas, verá assuntos duplicados.

O próximo passo é aumentar a escala da imagem. A GUI AUTOMATIC1111 gratuita vem com alguns upscalers de IA populares.

Como controlar a composição da imagem?

A tecnologia Stable Diffusion está melhorando rapidamente. Existem algumas maneiras.

Imagem para imagem

Você pode pedir ao Stable Diffusion para seguir aproximadamente uma imagem de entrada ao gerar uma nova. É chamado de imagem para imagem . Abaixo está um exemplo de uso de uma imagem de entrada de uma águia para gerar um dragão. A composição da imagem de saída segue a entrada.

Rede de controle

O ControlNet usa similarmente uma imagem de entrada para direcionar a saída. Mas ele pode extrair informações específicas, por exemplo, poses humanas. Abaixo está um exemplo de uso do ControlNet para copiar uma pose humana da imagem de entrada.

Imagem de entrada

Além de poses humanas, o ControlNet pode extrair outras informações, como contornos.

Regional Prompter

Você pode especificar prompts para certas partes de imagens usando uma extensão chamada Regional Prompter . Essa técnica é muito útil para desenhar objetos somente em certas partes da imagem.

Abaixo está um exemplo de como colocar um lobo no canto inferior esquerdo e caveiras no canto inferior direito.

Prompt de Região – Regional Prompter

Leia o tutorial do Regional Prompter para saber mais sobre como usá-lo.

Profundidade para imagem

Depth-to-image é outra maneira de controlar a composição por meio de uma imagem de entrada. Ele pode detectar o primeiro plano e o segundo plano da imagem de entrada. A imagem de saída seguirá o mesmo primeiro plano e segundo plano. Abaixo está um exemplo.

Imagem de entrada

Gerando assuntos específicos

Pessoas realistas

Você pode usar Stable Diffusion para gerar pessoas realistas em estilo de foto. Vamos ver alguns exemplos.

Pessoas realistas

Tudo se resume a usar o prompt certo e um modelo especial treinado para produzir humanos realistas no estilo de foto. Aprenda mais no tutorial para gerar pessoas realistas .

Animais

Animais são temas populares entre os usuários do Stable Diffusion.

Aqui estão alguns exemplos.

Animais

Leia o tutorial para gerar animais para aprender como.

O que é difusão instável?

Unstable Diffusion é uma empresa que desenvolve modelos de Stable Diffusion para pornografia de IA. Eles viraram manchetes quando sua campanha de arrecadação de fundos no Kickstarter foi encerrada . Até agora, eles não divulgaram nenhum modelo publicamente.

A empresa não tem relação com a Stability AI, a empresa que lançou o Stable Diffusion AI.

Próximo passo

Então, você concluiu o primeiro tutorial do Guia do Iniciante!

Confira o Curso de Difusão Estável para um curso guiado passo a passo.

Ou continue para a parte 2 abaixo.

Esta é a parte 1 da série de guias para iniciantes.
Leia a parte 2: Construção de prompts .
Leia a parte 3: Pintura interna.
Leia a parte 4: Modelos .