Reconocimiento automático de habla e identificación de locutores

Diego Evin, Laboratorio de Investigaciones Sensoriales, Instituto de Neurociencias, Universidad de Buenos Aires

 

El empleo de interfaces orales para la interacción con sistemas informáticos es un área de activo interés y desarrollo. Se pueden mencionar por ejemplo algunas aplicaciones recientes como el lanzamiento de agentes personales que corren sobre dispositivos móviles y que son capaces de interactuar con sus usuarios a través de la voz y el procesamiento del lenguaje natural, o sistemas de identificación biométrica basados en la voz.
El objetivo de este curso es brindar los conocimientos básicos para el desarrollo de sistemas de reconocimiento automático del habla (RAH) y de locutores (RAL). En el primer caso, se intenta desarrollar sistemas capaces de identificar las palabras pronunciadas por un locutor, mientras que en el segundo, el objetivo es reconocer la identidad de la persona que las está pronunciando.
En la primera parte del curso se brindarán los conceptos básicos del reconocimiento y producción del habla humana, necesarios para comprender aspectos funcionales de los sistemas de RAH. Posteriormente se presentarán los principios metodológicos utilizados por los sistemas de RAH y RAL. Específicamente se expondrá en detalle la definición de modelos ocultos de Markov (HMM), el paradigma de clasificación probabilística utilizado por la mayoría de los sistemas de RAH actuales, los algoritmos empleados para el aprendizaje y utilización de estos modelos, y los componentes de un sistema de RAH convencional.
Por último, se estudiará el problema del reconocimiento automático de locutores y su relación con el RAH. Se expondrá el modelo de variabilidad total, comúnmente llamado modelo i-vector, que se considera el estado del arte en el área de RAL. También se estudiará el modelo MLLR-SVM que parte de un reconocedor de habla independiente del locutor y utiliza la matriz de adaptación MLLR como vector de características para realizar una clasificación por medio de máquinas de vectores de soporte.
En el aspecto práctico se trabajará empleando la metodología de talleres, con el objetivo que al finalizar el curso los alumnos sean capaces de entrenar un sistema básico de RAH y de evaluarlo.

Temario:

  1. Día 1: Modelo general de la producción y percepción del habla humana. Introducción al procesamiento de señales acústicas.
  2. Día 2: Procesamiento de la señal acústicas. Reconocimiento de habla: Algoritmos y modelos.
  3. Día 3: Modelos estadísticos para la representación del lenguaje.
  4. Día 4: Reconocimiento de locutores. Taller de reconocimiento de locutores.
  5. Día 5: Taller de reconocimiento de habla.

 

Nuevo! Está disponible el material adicional para el curso, haciendo click aquí. Este material complementa los apuntes impresos que los estudiantes recibirán al comenzar el curso.

El curso será dictado en castellano.