Google’s enterprise cloud gets a music-generating AI model

El miércoles, Google lanzó actualizaciones de varios de sus modelos de inteligencia artificial de generación de medios propios disponibles a través de su plataforma en la nube Vertex AI.

Lyria , el modelo de texto a música de Google, ya está disponible en versión preliminar para clientes selectos, y el modelo de creación de videos Veo 2 de la compañía se ha mejorado con nuevas opciones de edición y personalización de efectos visuales. La compañía también ha lanzado una función de clonación de voz impulsada por Chirp 3 , el modelo de comprensión de audio de Google, para usuarios de la lista de permitidos. Además, el generador de imágenes Imagen 3 ahora ofrece lo que la compañía describe como un rendimiento significativamente mejor.

Las actualizaciones, programadas para Cloud Next, son el último esfuerzo de Google por acaparar el mercado empresarial de la IA generativa. La compañía compite quizás más directamente con Amazon, que ofrece una plataforma de IA en la nube comparable llamada Bedrock, con su propio conjunto de modelos de IA generativa patentados.

Google presenta Lyria como una alternativa a las bibliotecas de música sin regalías. Con este modelo, los clientes pueden crear canciones de diversos estilos y géneros, desde solos de piano con aires jazzísticos hasta pistas lo-fi, según la compañía.


Chirp 3, por su parte, puede sintetizar voz en unos 35 idiomas. Presentado por primera vez a principios de este año, Chirp 3 utiliza la función Instant Custom Voice, que supuestamente puede clonar una voz con 10 segundos de audio. Ya está disponible para el público general. Este modelo también es la base de una nueva herramienta, Transcripción con Diarización, que se lanza en versión preliminar y separa e identifica a los hablantes en grabaciones con varios participantes.

Para evitar abusos, Instant Custom Voice está sujeto a un proceso de “diligencia” para verificar los “permisos de uso de voz adecuados”, dice Google.

En cuanto a Veo 2, el modelo ahora puede eliminar imágenes de fondo, logotipos y objetos de vídeos existentes, y ampliar el fotograma del metraje (por ejemplo, para convertir vídeos de formato horizontal a vertical). También puede ajustar los ángulos y el ritmo de la cámara en escenas generadas por IA para crear time-lapses, clips de estilo dron y más, y puede interpolar entre fotogramas iniciales y finales específicos.

Estas funciones de Veo están disponibles en versión preliminar por ahora.

En cuanto a las mejoras de Imagen 3 mencionadas anteriormente, Google dijo que mejoran la capacidad del modelo para eliminar objetos y reconstruir partes faltantes o dañadas de las imágenes.

Todos los medios generados por Imagen, Veo y Lyria (excepto Chirp) cuentan con una marca de agua mediante la tecnología SynthID de Google . La compañía afirmó que todos sus modelos de IA generativa cuentan con "protecciones integradas" para proteger contra la creación de contenido dañino.

Google no ha indicado históricamente qué datos específicos utiliza para entrenar sus modelos, y el gigante tecnológico se ha mantenido fiel a ese precedente. Los datos de entrenamiento suelen ser un tema controvertido por razones relacionadas con la propiedad intelectual. Algunas empresas entrenan sus modelos con obras protegidas por derechos de autor sin obtener previamente la autorización de los titulares de los derechos. Si bien estas empresas afirman que la doctrina estadounidense de uso legítimo protege esta práctica, algunos creadores, comprensiblemente, discrepan. Muchos están litigando contra los proveedores en los tribunales .

Google le dijo anteriormente a TechCrunch que ofrece mecanismos de exclusión voluntaria para el entrenamiento de modelos, así como una política de indemnización para proteger a los clientes de Google Cloud y Vertex AI de disputas de derechos de autor relacionadas con la IA. 


2 comentarios: