En el estudio de la voz humana hay algunos términos que, por su parecido o traducción del inglés, pueden llevar a confusión. Para que nunca más te pase, en este post te explicamos los conceptos básicos en el campo de la biometría de voz.

RECONOCIMIENTO DE VOZ vs. HABLANTE
Reconocimiento de voz vs. Reconocimiento de hablante

Dos términos que suelen confundirse son el reconocimiento de voz, o del habla, y el reconocimiento de hablante o de locutor.

En el reconocimiento de voz el objetivo es que la máquina sea capaz de saber lo que se ha dicho: de reconocer las palabras. Es lo que hacemos, cada vez con más frecuencia, cuando realizamos búsquedas por voz con nuestro móvil, le decimos al coche que baje el aire acondicionado o un sistema automatizado nos pregunta si queremos contratar un nuevo servicio o tenemos una incidencia técnica.

Mucho más desconocido, sin duda, es el reconocimiento de hablante. Éste consiste en conocer la identidad de una persona a partir de las características únicas de su voz. Este proceso se basa en la medida de parámetros fisiológicos, por lo que también se conoce como biometría de voz.

VERIFICACIÓN vs. IDENTIFICACIÓN

Verificación vs. Identificación

Hablamos de verificación cuando lo que queremos es comprobar que la identidad de una persona efectivamente se corresponde con la de quien dice ser. Si, por ejemplo, quiero acceder mediante mi voz a mi cuenta bancaria, el sistema me pedirá que diga una frase o contraseña y verificará que efectivamente la voz me pertenece. En caso contrario no me permitirá acceder a la cuenta.
La identificación consiste en saber quién, de entre un conjunto de personas, es el que habla. Si llego a mi casa y le digo a mi sistema domótico “pon música”, el sistema podría identificarme a través de mi voz y cargar mi lista de reproducción favorita.

DEPENDIENTE vs. INDEPENDIENTE DE TEXTO

Dependiente vs. Independiente de texto

Tanto la identificación como la verificación de hablante pueden ser dependientes o independientes de texto. Es dependiente de texto cuando el sistema sabe de antemano lo que la persona va a decir, por ejemplo, “El sonido de mi voz me identifica”. Esto permite al sistema especializarse y funcionar con mayor precisión y en menos tiempo.

Es independiente de texto cuando la persona puede decir cualquier cosa, por ejemplo si verificamos la identidad de una persona mientras mantiene una conversación espontánea.