Los pasados 14, 15 y 16 de diciembre, tuvo lugar el workshop del NIST Speaker Recognition Evaluation 2021. Esta evaluación periódica, organizada por el National Institute of Standards and Technology (NIST) desde 1996, se ha constituido, desde su origen, en la referencia mundial en el campo de la tecnología de reconocimiento de hablante. En cada edición, los principales grupos de investigación, tanto del ámbito académico como del sector privado, compiten por obtener los mejores resultados e intercambian información e ideas sobre sus más recientes innovaciones.
Impulsando la tecnología
Biometric Vox ha obtenido grandes resultados en la evaluación de biometría de voz, que evaluó la precisión de nuestros algoritmos biométricos para autenticación por voz. Nuestro objetivo inicial de seguir desarrollando nuestra tecnología ha sido superado con creces, obteniendo resultados que nos sitúan a la vanguardia de la tecnología de biometría de voz.
Como uno de los equipos con mejores resultados, Biometric Vox fue invitado a realizar dos presentaciones en el workshop que reunió a todos los participantes en la evaluación de este año y al resto de la comunidad científica: una centrada en sus resultados en el 2020 Conversational Speech Challenge y otra centrada en el sistema desarrollado para la participación en la evaluación de 2021.
Ambas evaluaciones plantearon escenarios complejos de gran interés práctico, como la combinación de diferentes idiomas o canales de comunicación, como llamadas telefónicas o videoconferencias. Estos retos, que Biometric Vox ha superado con nota, contribuyen a reforzar la universalidad y la masiva adopción de la biometría vocal como uno de los medios más seguros, accesibles y naturales para la gestión de la identidad, la lucha contra el fraude o, incluso, la firma remota de documentos, gracias a herramientas como FirVox.
Roberto Font, Responsable de I+D de Biometric Vox: «Cuando empezamos, en 2015, participar en una evaluación del NIST era un reto casi inalcanzable para nosotros, ya que el NIST es la referencia mundial del sector. Después, en los años siguientes, los papers de los participantes fueron nuestra referencia para ir construyendo nuestra tecnología. Haber cerrado nuestra primera participación tiene un gran valor de realización profesional y es una muestra del compromiso, trabajo y esfuerzo de todo el equipo de I+D y de Biometric Vox. Gracias a todos nuestros clientes por hacerlo posible».
Técnicas antispoofing
Las medidas anti spoofing son parte fundamental de todo sistema biométrico por voz. Estás nos permiten asegurarnos de que estamos hablando con una persona real y no con una grabación o una voz sintética. Nuestro motor biométrico incorpora tres sistemas diferentes para garantizar la máxima protección:
- Playback detection: algoritmos que permiten detectar de forma automática si el audio recibido es audio en vivo o ha sido reproducido a través de un altavoz.
- Audio matcher: El motor biométrico comprueba, de forma automática, si la locución de autenticación es excesivamente similar a un acceso previo (audios pregrabados).
- Synthesis detector: detección automática de voz sintética o transformada.
Como fabricantes y desarrolladores de biometría por voz, prestamos la máxima atención a nuestros sistemas y estamos implicados, a nivel nacional e internacional, colaborando activamente con algunas de las universidades y centros de investigación más destacados en el campo del anti spoofing. Una muestra de ello es, además de la participación en el NIST CTS Challenge and SRE’21, que formamos parte de TReSPAsS-ETN, proyecto europeo que aborda la seguridad y la privacidad de sistemas biométricos, desde una perspectiva tecnológica y ético-legal.
Evaluación biométrica
Los resultados del NIST CTS Challenge and SRE’21 vienen avalados por la puesta a prueba de nuestra tecnología. Para la evaluación, había que enviar al NIST puntuaciones calibradas de forma que el umbral de corte para aceptar o rechazar fuera 0. C es de coste. Es una función que mide cómo de bien funciona el sistema asignando diferentes pesos a los Falsos Positivos y a los Falsos Negativos. Si, por ejemplo, un FP vale 10 y un FN 1 y hemos cometido un error de cada tipo, tendríamos C=11. Cuanto más pequeño, mejor.
Entonces, C real, o ‘act_C’, es el coste que se obtiene de esta manera, que es la métrica real que se tiene en cuenta para la evaluación. C mínimo, o ‘min_C’ es el coste que se obtendría si, en vez de tomar como umbral 0, se toma el que, a toro pasado, hubiera dado el mejor C para este conjunto concreto. Esta última medida mide cómo funciona el sistema dejando al margen la calibración. Cuanto mejor es la calibración más cerca están una de la otra.