OpenAI Whisper: Cómo es la IA que te permite transcribir audios

(La información es de FayerWayer)

Contenidos

¿De dónde salió Whisper?Todo bien, pero… ¿Cómo usarlo?

Aunque existen múltiples herramientas para la transcripción de audios, muchas de ellas suelen presentar fallos. En ese escenario aparece Whisper, sistema de inteligencia artificial de OpenAI que en su versión v3 ya entrega los mejores resultados.

¿De dónde salió Whisper?

En áreas como el periodismo, la transcripción de entrevistas suele ser tediosa. Escuchar el audio y escribir todo lo que se dice implica detenerse continuamente, demandando mucho tiempo y esfuerzo. Con esta herramienta, la transcripción es realizada por una IA.

La mayoría de herramientas gratuitas habituales presentan errores frecuentes, como confusiones en palabras, malas ubicaciones o inclusión de datos inventados, lo que resulta en la necesidad de revisar y corregir el texto, sin un ahorro significativo de tiempo.

En ese escenario, Whisper es una tecnología basada en inteligencia artificial para transcribir audios. Consiste en subir un archivo de audio a su sistema, que luego analiza y transcribe todas las palabras pronunciadas en el audio, facilitándote la labor de transcripción.

OpenAI propone Whisper como una herramienta mucho más fiable para transcripciones. Aunque puede tener errores puntuales, es más eficaz que la mayoría, siendo rápida, efectiva y de libre uso.

Whisper, en su versión actual, es un sistema de reconocimiento automático de voz (ASR), empleando IA para procesar audios y transformar su contenido en texto. Esta versión ha sido entrenada con más de un millón de horas de audio, superando las 680,000 horas de su versión anterior y reduciendo los errores entre un 10 y 20 por ciento.

Actualmente, tiene una tasa de error de menos del 5% al transcribir español, situándola como una de las mejores herramientas. También puede transcribir inglés y otros idiomas, e incluso detectar cambios de idioma en una conversación en audio.

Entre sus ventajas está la capacidad para interpretar las pausas en las conversaciones, utilizando este entendimiento para agregar comas y puntos de manera adecuada según la duración de la pausa.

Whisper es un modelo de lenguaje que sirve como base para desarrollar aplicaciones y recursos. Las empresas pueden conectar su web a este modelo a través de su API para crear herramientas de transcripción o traducción.

Existen diferentes tamaños de Whisper para diversas aplicaciones, desde una versión ligera de menos de 1 GB de VRAM hasta un modelo más grande con 1,550 millones de parámetros y requerimientos de alrededor de 10 GB de VRAM.

Todo bien, pero… ¿Cómo usarlo?

Para utilizar Whisper, puedes acceder a su página en Github para instrucciones técnicas avanzadas o recurrir a la plataforma replicate.com/openai/whisper, que ofrece el uso de Whisper y otros modelos de IA de forma sencilla.

Allí podrás subir tus archivos de audio y seleccionar el modelo que desees, incluyendo el v3 en sus diferentes versiones, aunque para un uso más avanzado es necesario registrarse.