acambronero
acambronero
@acambronero@blogpocket.es

Este es el blog federado de Antonio Cambronero, fundador, autor y CEO de Blogpocket. Informático, blogger y profesor, con más de 20 años de experiencia en departamentos de soporte técnico informático, análisis de sistemas, productividad, optimización de procesos, atención al cliente y formación, en empresas multinacionales.

104 publicaciones
50 seguidores

Una habilidad (skill) de Claude para hacer ducking

El ducking de audio es una técnica de postproducción que reduce automáticamente el volumen de una pista (ej. música) cuando otra pista (ej. voz) se vuelve activa, garantizando claridad en la voz sin silenciar el fondo. Se usa comúnmente en podcasts, radio y videos para mejorar la inteligibilidad del diálogo

Editando con Audacity

Audacity posee la función de «Auto Duck» por lo que simplemente hay que seleccionar las regiones de la pista 1 (música) donde hay locución en la pista 2 y aplicar dicho efecto. «Repetir Auto Duck» evita tener que ir configurando el efecto para cada locución.

Antes de aplicar el auto duck, iguala los decibelios de ambas pistas para que suenen al mismo nivel. Puedes bajar un par de decibelios la pista de música, por ejemplo.

Claude lo hace automáticamente

Probé trabajando en Claude (modo Cowork en mi ordenador) a crear una habilidad (skill) con el fin de automatizar el efecto ducking.

Con la skill creada solo hay que darle los dos archivos por separado (música y locución) y pedirle que aplique el ducking:

Apply ducking to episode [nº episodio] — I have 
the music and voice tracks.

En segundos recibes un MP3 profesional listo para publicar. Sin tocar un solo botón de un editor de audio.

¿Qué es una skill de Cowork?

Cowork es una funcionalidad de la aplicación de escritorio de Claude que permite automatizar tareas con archivos y herramientas. Una skill (habilidad) es un conjunto de instrucciones y scripts que enseñan a Claude a realizar una tarea especializada. Piensa en ella como una «receta» que Claude sigue cuando le pides algo concreto.

En este caso, la skill podcast-audio-ducking le enseña a Claude cómo:

  1. Normalizar el volumen de ambas pistas para que estén equilibradas.
  2. Detectar automáticamente cuándo hay voz y cuándo hay silencio.
  3. Reducir el volumen de la música un 94,4% (es decir, a solo el 5,6% del volumen original, una reducción de -25 dB) cuando detecta que estás hablando.
  4. Subir suavemente la música cuando dejas de hablar, con transiciones graduales de 300 a 500 milisegundos para que no haya cortes ni «clicks».
  5. Entregar un archivo MP3 limpio y listo para publicar.

¿Cómo se usa?

El flujo es muy sencillo:

Paso 1. Abre Claude en modo Cowork con la skill instalada (más abajo explico cómo instalarla).

Paso 2. Sube tus dos archivos: uno con la música de fondo y otro con tu locución o narración.

Paso 3. Dile algo como: «Aplica ducking al episodio 5, aquí tienes la música y la locución.»

Paso 4. Claude procesa los archivos y te devuelve un MP3 con la mezcla profesional. Un episodio de 38 minutos se procesa en unos 11 segundos.

El resultado: tu voz suena clara y en primer plano, y la música sigue ahí de fondo aportando ambiente, sin desaparecer del todo. Transiciones suaves, sin artefactos, sin distorsión.

¿Qué contiene la skill?

La skill es una carpeta con tres archivos:

  • SKILL.md — El archivo principal que describe a Claude qué debe hacer, cómo detectar la voz, qué parámetros usar (nivel de ducking, tiempos de transición, formato de salida) y cómo resolver problemas comunes. Es como el «manual de instrucciones» que Claude lee antes de ponerse a trabajar.
  • scripts/apply_ducking.py — El script en Python que hace el trabajo pesado: lee los archivos de audio, analiza la actividad de voz en ventanas de 50 milisegundos, construye una curva de volumen suave y mezcla todo.
  • scripts/README.md — Documentación técnica del script para quien quiera entender los detalles internos.

Cómo instalar la skill en tu cuenta

Requisitos previos: necesitas tener la aplicación de escritorio de Claude con el modo Cowork activado.

Pasos de instalación:

1. Descarga el archivo zip desde el enlace que encontrarás al final de este post.

2. En Claude Desktop, ve a Customize → Habilidades (o Skills).

3. Haz clic en el botón + y selecciona Subir habilidad (o Upload skill).

4. Selecciona el archvio podcast-audio-ducking.zip que descargaste en el paso 1.

5. La skill aparecerá en tu lista de habilidades y estará lista para usar. Para probarla, sube dos archivos de audio (música y locución) y pide: «Aplica audio ducking a estos archivos.»

Consejos prácticos

  • La locución debe tener un nivel de volumen razonable. Si es muy baja o tiene mucho ruido, Claude puede tener dificultad para detectar cuándo hablas. Cuando crees los archivos de música y locución procura que ambos tengan los mismos decibelios.
  • Funciona con cualquier tipo de música de fondo y cualquier duración de episodio.
  • El formato de entrada recomendado es MP3, aunque también acepta WAV y otros formatos.
  • Si alguna vez necesitas ajustar los parámetros (por ejemplo, que la música baje menos durante la voz), simplemente pídelo en la conversación y Claude lo adaptará.

Descarga

Puedes descargar la skill aquí: podcast-audio-ducking.zip (enlaza aquí el archivo ZIP que subas a tu servidor o servicio de alojamiento).

Descarga, instala desde Customize → Habilidades, y empieza a mezclar tus episodios como un profesional sin salir de Claude.

Actualización: 29-04-26

Los dos cambios que se han incorporado:

  1. Ducking mucho más agresivo — doble cascada de sidechaincompress (ratio=20 × 2, threshold=0.005), lo que garantiza una reducción muy superior a -25 dB cuando hay voz.
  2. Duración = pista de música — la voz se rellena con silencio (apad) hasta igualar la duración de la música, y el output usa duration=first sobre la música duckeada. Así, tras la última locución, la música sigue sonando a volumen completo hasta su final natural.

Además, se ha reemplazado el motor Python/numpy (que causaba errores de memoria en episodios largos) por un enfoque 100% ffmpeg, mucho más eficiente y rápido.

Código abierto y seguro

Todo el contenido de la skill es transparente y verificable. El archivo SKILL.md es solo texto con instrucciones, y el script de Python es un programa de procesamiento de audio que trabaja exclusivamente con los archivos que tú le proporcionas: no se conecta a internet, no accede a otros archivos de tu sistema y no envía datos a ningún sitio. Puedes abrir cualquiera de los archivos con un editor de texto y comprobar exactamente qué hacen antes de instalar nada. Eso sí, como con cualquier descarga, asegúrate de obtener el ZIP únicamente desde este blog para evitar versiones manipuladas por terceros.

Consideraciones finales

El ducking de la skill es más preciso (y lo puede ser tanto como seas capaz de describirlo en las instrucciones de la misma). Por ejemplo, en la que yo he generado, el ducking no es a nivel de región seleccionada como en Audacity, sino a nivel de detección de locución. Es decir, que si durante la locución hay pausas, en dichas pausas se subirá el volumen de la música. Voy a intentar optimizar la skill para conseguir que funcione como en Audacity si selecciono una región.

Para un archivo con pocas locuciones, quizá no sea necesaria la automatización con la skill.