Whisper: Sistema libre de reconocimiento automático del habla

Whisper es un sistema de reconocimiento automático del habla (ASR) entrenado con 680.000 horas de datos multilingües y multitarea supervisados recogidos de la web. Gracias al uso de un conjunto de datos tan amplio y diverso, se mejora la solidez frente a los acentos, el ruido de fondo y el lenguaje técnico.
Whisper (OpenAI)
Seguramente, muchos ya conocen la tecnología GPT (Generative Pre-trained Transformer en inglés, o Transformador preentrenado generativo en español) de OpenAI. La cual, es un modelo de inteligencia artificial que permite generar lenguaje escrito mediante el empleo de un modelo de lenguaje auto-regresivo, es decir, un algoritmo que permite crear la siguiente mejor palabra que seguiría a un texto dado. Y que se ha hecho extremadamente famosa gracias a ChatGPT.

Sin embargo, OpenAI tiene muchos más proyectos de IA, entre los que destaca «Whisper». El cual, según su sitio web oficial, es descrito como un proyecto de código abierto que aporta un modelo versátil de reconocimiento del habla que puede transcribir, identificar y traducir varios idiomas.

Así como, ChatGPT ha llegado para quedarse y ayudar en tareas como búsquedas más precisas y amigables por internet; generar, resumir y traducir textos; y sostener charlas o asistir a personas con diferentes necesidades, todo mediante la introducción de texto. Whisper puede fácilmente aportarle a esas mismas tareas los oídos y boca que tan necesarios pueden ser para hacer mucho más amigable la tarea de hacer todo esto mediante un ratón (mouse) y teclado.

Por ende, tanto en Linux como en otros Sistemas Operativos de Escritorio y Móviles, pudiéramos estar pronto viendo una nueva generación de aplicaciones AI, con un nivel extremadamente avanzado de interacción, las cuales pudieran fácilmente prescindir de la introducción manual de texto. Es decir, que pudieran escuchar, entender y responder a su usuario interlocutor, mediante un micrófono y unos altavoces.

Por lo que, no sería nada raro que, en la próxima década, al encender tu ordenador con GNU/Linux, lo primero que salga en pantalla sea el rostro (GUI) de una IA, dándonos un saludo de bienvenida, y preguntándonos que deseamos hacer, para ella misma abrir las aplicaciones y empezar a ejecutar las órdenes solicitadas.

Tales como: Realizar un búsqueda en Internet, tomar un dictado para escribir un documento, abrir un editor de imágenes o videos para crear o cargar un archivo a modificar, entre muchísimas más.

Por último, Whisper actualmente puede ser instalado sobre Linux y Windows o probado en línea en la web de Playground de OpenAI. Mientras que existen interesantes herramientas que ya utilizan dicha tecnología, siendo 2 buenos ejemplos las siguientes: Whisper Typer Tool y Speech Translate.

En resumen, esperemos que todas estas nuevas tecnologías de Inteligencia Artificial disponibles y en construcción, sobre todo las que tienen un origen, base o licenciamiento libre y abierto, como ChatGPT y «Whisper» de OpenAI, contribuyan a muchas cosas positivas para la humanidad. Pero, sobre todo, a que nuestros actuales sistemas operativos libres y abiertos puedan seguir mejorando en usabilidad y accesibilidad, al contar con apps y características mucho más avanzadas y amigables para cualquier tipo de usuario.

Fuente: DesdeLinux