Use prompts, letras, timing, BPM e imagens do jeito certo
Este guia condensa os recursos do Google Lyria 3 em um fluxo amigável para criadores. Ele cobre Clip vs Pro, letras personalizadas, estrutura por timestamps, imagem-para-música, prompts instrumentais, controle de idioma, leitura da saída e guardrails práticos.
Por que esta página existe
O construtor é impulsionado pelo Google Lyria 3, mas o fluxo é moldado pela nossa camada de produto: prompting estruturado, controles mais claros de letra e timing, padrões de geração melhores, orquestração assíncrona e gerenciamento reutilizável de faixas.
Lyria 3 Clip
lyria-3-clip-preview
Ideal para
Testes rápidos, hooks, loops, prévias
Duração
Sempre 30 segundos
Saída
MP3
Lyria 3 Pro
lyria-3-pro-preview
Ideal para
Músicas mais completas com versos, refrões e pontes
Duração
Alguns minutos, guiados pelo seu prompt
Saída
Áudio escolhido pelo modelo + texto
1. Comece com o modelo certo
Use Clip quando quiser explorar ideias rapidamente. Use Pro quando já souber a direção e quiser uma peça mais longa e estruturada.
Clip é fixo em 30 segundos, então é ideal para testar gêneros, climas e hooks.
Pro é melhor quando você precisa de versos, refrões, pontes ou um arco emocional mais longo.
Um fluxo forte é Clip primeiro, Pro depois.
2. Escreva um prompt musical específico
O Lyria funciona melhor quando você descreve o briefing musical real, em vez de apenas uma vibe genérica.
Mencione gênero ou mistura de gêneros: lo-fi hip hop, cinematic orchestral, indie pop, jazz fusion.
Nomeie instrumentos: Rhodes, cordas, metais, 808, violão, harmonias vocais.
Defina tempo e tom quando for relevante: 85 BPM, Ré menor, Sol maior.
Descreva clima e energia: nostálgico, agressivo, sonhador, inspirador, tenso.
Para o Pro, mencione a duração desejada no prompt quando isso importar.
3. Use letras personalizadas quando as palavras importarem
Se você já souber a direção das letras, cole-as com clareza e separe-as das instruções de produção.
Use tags de seção como [Verse], [Chorus], [Bridge], [Intro], [Outro].
Mantenha a direção musical acima das letras para que o modelo veja tanto a intenção quanto as palavras.
Se você não quiser vocais, não forneça letras e diga explicitamente instrumental only.
4. Controle timing e estrutura com timestamps
Quando você precisar de um andamento mais preciso, diga ao modelo o que deve acontecer em cada janela de tempo.
Exemplo: [0:00 - 0:10] Intro, [0:10 - 0:30] Verse, [0:30 - 0:50] Chorus.
Use timestamps para controlar elevação de energia, entrada de instrumentos, timing vocal e fade-out.
Isso é especialmente útil para trailers, músicas de cena e construções guiadas.
5. Adicione imagens quando o visual precisar influenciar a música
O Google Lyria 3 suporta geração multimodal de música. Você pode fornecer até 10 imagens e pedir que a música siga o clima, as cores e a história delas.
Use moodboards, concept art, esboços de capa, stills de cena ou visuais de produto.
Adicione imagens apenas quando a direção visual realmente importar. Caso contrário, mantenha o pedido mais simples.
As imagens funcionam melhor quando seu prompt também explica qual sensação musical elas devem provocar.
6. Force saída instrumental quando necessário
Para música de fundo, trailers, jogos e beats, diga explicitamente ao Lyria que você não quer vocais.
Use uma frase como: Instrumental only, no vocals.
Isso deve aparecer diretamente no prompt, não apenas como preferência implícita.
Clip geralmente basta para testar conceitos instrumentais antes de migrar para Pro.
7. Combine o idioma do prompt com o idioma da letra
O Lyria adapta o estilo vocal e a pronúncia ao idioma do seu prompt.
Se quiser letras em francês, faça o prompt em francês.
Se quiser vocais em inglês com tags ou notas em japonês, deixe isso explícito.
O controle de idioma funciona melhor quando você evita misturar idiomas demais em uma mesma solicitação.
8. Entenda a resposta corretamente
O modelo retorna várias partes. Algumas são texto e outras são bytes de áudio.
Não assuma que a primeira parte será sempre letra ou sempre áudio.
Itere por todas as partes retornadas e detecte texto versus dados de áudio inline.
A saída de texto pode conter letras, notas de estrutura ou outro material escrito junto com o áudio.