Volver al blog
Soporte de audio en WhatsApp: cómo tu agente de IA entiende y responde mensajes de voz
Guías

Soporte de audio en WhatsApp: cómo tu agente de IA entiende y responde mensajes de voz

17 de marzo de 20268 min de lecturaPor Diego, de Nexus

El 30% de los mensajes de WhatsApp en negocios son notas de voz. Un agente de IA con soporte de audio transcribe el mensaje, entiende la intención y responde — todo en el mismo canal, sin perder ninguna consulta por llegar en formato de audio.

Soporte de audio en WhatsApp: cómo tu agente de IA entiende y responde mensajes de voz

En España, entre el 25 % y el 35 % de los mensajes de WhatsApp en contextos de negocio son notas de voz. Los clientes las usan porque son más rápidas de grabar que de escribir, especialmente desde el móvil. Si tu agente de IA solo procesa texto, está ignorando entre un cuarto y un tercio de los mensajes que recibe.

Esta guía explica cómo funciona el soporte de audio en un agente de WhatsApp, qué pasos hay desde que el cliente graba la nota hasta que el agente responde, y qué limitaciones debes conocer antes de activarlo.


Cómo llega un mensaje de audio al agente

Cuando un cliente envía una nota de voz a tu número de WhatsApp, Meta entrega el evento al webhook de tu agente con la siguiente estructura:

{
  "type": "audio",
  "audio": {
    "mime_type": "audio/ogg; codecs=opus",
    "sha256": "...",
    "id": "1234567890",
    "voice": true
  }
}

El campo voice: true indica que es una nota de voz grabada directamente en WhatsApp (no un archivo de audio subido). El campo id es el identificador del archivo en los servidores de Meta.

El agente usa ese id para descargar el archivo de audio desde la API de medios de Meta:

GET https://graph.facebook.com/v19.0/{media_id}
Authorization: Bearer {access_token}

La respuesta devuelve la URL temporal del archivo. El agente descarga el audio (formato OGG/Opus, típicamente entre 3 segundos y 2 minutos de duración) y lo pasa al servicio de transcripción.


Transcripción: de audio a texto

El audio descargado se envía a un servicio de Speech-to-Text (STT) para convertirlo en texto. Los motores actuales alcanzan una precisión muy alta en español, incluyendo acentos regionales (castellano, latinoamericano, catalán), términos de negocio y lenguaje coloquial. La latencia típica de transcripción está entre 1 y 4 segundos, lo que en la práctica es imperceptible para el cliente.

El resultado de la transcripción es texto plano:

"Hola buenas, quería saber si todavía tenéis disponible el modelo en color negro,
porque el otro día miré la web y ponía que quedaban dos unidades,
y quería reservar uno antes de que se agoten, muchas gracias."

Del texto transcrito a la respuesta

Una vez transcrito, el procesamiento del audio sigue exactamente el mismo flujo que un mensaje de texto:

  1. El agente extrae la intención del mensaje ("consulta de disponibilidad de producto + solicitud de reserva").
  2. Consulta la base de conocimiento o el sistema de inventario.
  3. Genera la respuesta.
  4. Envía la respuesta al cliente.

La transcripción añade unos pocos segundos al tiempo de respuesta total, lo que en la práctica es imperceptible para el cliente.


Formato de respuesta: ¿texto o audio?

La mayoría de los agentes responden con texto aunque el cliente haya enviado audio. Esto es correcto en casi todos los casos:

  • El texto es más fácil de guardar y releer para el cliente.
  • El texto es más rápido de generar que el audio sintetizado.
  • El cliente puede responder más fácilmente a una respuesta en texto.

Cuándo tiene sentido responder en audio:

  • El negocio tiene una identidad de marca muy vocal (podcasts, radio, formadores).
  • El cliente ha enviado 3+ mensajes de audio consecutivos y claramente prefiere ese formato.
  • El contenido de la respuesta es conversacional y corto (< 30 segundos de audio).

Para responder en audio se necesita un servicio de Text-to-Speech (TTS). Los servicios actuales permiten desde voces genéricas de alta calidad hasta voces personalizadas con la identidad del negocio. El audio generado se sube a los servidores de Meta y se envía como mensaje de audio con "voice": false (es un archivo de audio, no una nota de voz grabada).


Casos de uso donde el audio marca la diferencia

Clientes mayores o con baja alfabetización digital

En algunos sectores (servicios para la tercera edad, oficios, zonas rurales), los clientes se sienten más cómodos enviando notas de voz que escribiendo. Sin soporte de audio, el agente no puede atender a estos clientes, que normalmente son los más fieles y con mayor valor de vida.

Consultas complejas o largas

Un cliente puede explicar en 45 segundos de audio una situación que le llevaría 5 minutos escribir. Ignorar el audio fuerza al cliente a escribir (mal, frustrado) o a llamar por teléfono.

Contextos de conducción o manos libres

Muchos autónomos y comerciales usan WhatsApp de camino al trabajo. El audio es el único canal práctico en esas situaciones.


Limitaciones y casos problemáticos

Audio de baja calidad

Ruido de fondo intenso (obra, bar, calle transitada), micrófono de mala calidad o acento muy marcado pueden reducir la precisión de la transcripción. En esos casos el agente puede detectar la baja calidad y pedir confirmación:

"He recibido tu nota de voz pero hay algo de ruido de fondo y no he podido entender todo bien. ¿Me lo puedes escribir o mandas otra nota en un lugar más tranquilo?"

Audios muy largos

WhatsApp permite notas de voz de hasta 16 MB. En audio OGG/Opus, eso equivale a aproximadamente 30 minutos de grabación. En la práctica, los audios de negocio rara vez superan los 2 minutos. Para audios de más de 5 minutos, el agente puede transcribir y procesar solo los primeros 90 segundos y preguntar si hay algo más.

Idiomas mixtos o Spanglish

Si el cliente mezcla español e inglés (o catalán, euskera, gallego), los motores de STT modernos lo manejan razonablemente bien. La precisión depende del motor y del modelo elegido; para negocios con clientes en lenguas cooficiales vale la pena probar con una muestra de audios reales antes de activar en producción.

Privacidad y retención del audio

El audio se descarga de Meta, se transcribe y (en la configuración estándar) el archivo de audio no se almacena — solo se guarda la transcripción en texto. Esto reduce el volumen de datos almacenados y simplifica el cumplimiento RGPD. Si necesitas conservar el audio original por razones legales o de auditoría, debes configurarlo explícitamente y reflejarlo en tu política de privacidad.


Checklist de activación del soporte de audio

  • El webhook está configurado para recibir eventos de tipo audio (no solo text).
  • El agente tiene credenciales de la API de Meta para descargar el archivo de audio.
  • El servicio de transcripción está configurado y probado con audios en español.
  • El agente responde correctamente a una nota de voz de prueba (< 5 segundos de latencia total).
  • El agente maneja correctamente el caso de audio de baja calidad o no transcribible.
  • La política de privacidad menciona el tratamiento de mensajes de voz y el uso de servicios de transcripción externos.
  • El audio no se almacena tras la transcripción (o si se almacena, la retención está definida y documentada).

Preguntas frecuentes

¿El soporte de audio funciona también para archivos de audio (no notas de voz)?

Sí. WhatsApp permite enviar archivos de audio en formato MP3, M4A, AAC, OGG y otros. El flujo de procesamiento es el mismo: descarga → transcripción → procesamiento. La única diferencia es que el campo voice del mensaje llega como false.

¿Puede el agente transcribir audios en catalán, euskera o gallego?

Los motores de STT actuales tienen soporte para estas lenguas, aunque la precisión es algo menor que en castellano. Para negocios con base de clientes principalmente en una lengua cooficial, vale la pena probar con una muestra de audios reales antes de activar en producción.

¿La transcripción automática puede usarse como evidencia en una disputa con un cliente?

La transcripción es una representación aproximada del audio, no una transcripción certificada. Para casos legales, el audio original (si se ha conservado) es la fuente válida. La transcripción automática no tiene valor legal propio.

¿El cliente sabe que su nota de voz se transcribe?

Debe saberlo. En la cláusula de privacidad que se muestra al inicio de la conversación (o en la página web del negocio), debe indicarse que los mensajes de voz se transcriben mediante servicios de terceros para poder ser procesados por el agente. Nexus incluye esta cláusula en la plantilla de aviso de privacidad estándar.

¿Qué pasa si el cliente envía una imagen o un documento en lugar de texto o audio?

Los mensajes de tipo image, document y video tienen su propio flujo de procesamiento. El soporte de imágenes (por ejemplo, para reconocer una factura o el estado de un producto averiado) requiere un modelo de visión además del de lenguaje. Nexus tiene soporte experimental de imágenes disponible bajo petición.


Conclusión

El soporte de audio no es un feature opcional para los negocios que operan en WhatsApp — es una necesidad para no perder el 30 % de los mensajes que llegan en ese formato. La implementación es técnicamente sencilla y la precisión de los sistemas de transcripción actuales en español es lo suficientemente alta para un uso en producción.

¿Quieres activar el soporte de audio en tu agente? Solicita una demo y te mostramos cómo funciona con ejemplos de tu sector.

¿Listo para empezar?

Únete a la lista de espera y sé de los primeros en experimentar el futuro de la automatización con IA.

Únete a la lista de espera