O Google lança o Whisk, uma ferramenta de inteligência artificial que permite aos usuários gerar imagens utilizando outras imagens como prompts, em vez de depender exclusivamente de descrições textuais.
Funcionamento do Whisk
Com o Whisk, os usuários podem fornecer imagens que definem o assunto, a cena e o estilo da imagem a ser gerada.
É possível utilizar múltiplas imagens para cada um desses elementos, permitindo uma combinação rica e personalizada.
Caso o usuário não possua imagens próprias, o Whisk oferece a opção de gerar sugestões automáticas.
Além disso, há a possibilidade de adicionar detalhes adicionais por meio de texto, embora isso não seja obrigatório.
Processo de criação de imagens
Após o fornecimento dos prompts visuais, o Whisk gera diversas imagens e os respectivos prompts textuais para cada uma.
Os usuários podem favoritar, baixar ou refinar as imagens geradas, seja inserindo mais detalhes textuais ou editando diretamente os prompts das imagens.
O Google destaca que o Whisk é projetado para exploração visual rápida, não para edições precisas, e reconhece que os resultados podem não ser perfeitos, oferecendo ferramentas de edição para ajustes conforme necessário.
Tecnologia por trás do Whisk
O Whisk utiliza a mais recente versão do modelo de geração de imagens do Google, o Imagen 3.
Essa tecnologia avançada permite a criação de imagens de alta qualidade a partir de combinações de prompts visuais e textuais, oferecendo aos usuários uma ferramenta poderosa para exploração criativa.
Veo 2: Avanços em Geração de Vídeos
Além do Whisk, o Google anunciou o Veo 2, a nova versão de seu modelo de geração de vídeos.
O Veo 2 possui uma compreensão aprimorada da linguagem cinematográfica e reduz a ocorrência de inconsistências comuns em modelos anteriores.
Inicialmente, o Veo 2 estará disponível no VideoFX, com planos de expansão para o YouTube Shorts e outros produtos no futuro.
Impacto no Campo da Inteligência Artificial
As inovações apresentadas pelo Google, como o Whisk e o Veo 2, demonstram o compromisso da empresa em avançar no campo da inteligência artificial, oferecendo ferramentas que facilitam a criação de conteúdo visual e audiovisual.
Essas tecnologias não apenas ampliam as possibilidades criativas para usuários individuais, mas também sinalizam uma evolução significativa na forma como interagimos com sistemas de IA.
Disponibilidade e Acesso
O Whisk já está disponível nos Estados Unidos, permitindo que usuários experimentem essa nova abordagem na geração de imagens por meio de prompts visuais.
Para acessar o Whisk, os interessados podem visitar o site oficial do Google Labs e se inscrever para utilizar a ferramenta.
Em resumo, o lançamento do Whisk representa um passo significativo na integração de inteligência artificial com processos criativos, oferecendo uma plataforma intuitiva e poderosa para a geração de imagens a partir de referências visuais.
Fonte: Engadget