[go: up one dir, main page]

Academia.eduAcademia.edu
ESTIMACIÓN DEL PITCH EN SEÑALES MONOFÓNICAS DE VOZ CANTADA ANDRÉS EDUARDO COCA SALAZAR Universidad Nacional de Colombia Sede Manizales Facultad de Ingenierı́a y Arquitectura Departamento de Electricidad, Electrónica y Computación Manizales 2004 ESTIMACIÓN DEL PITCH EN SEÑALES MONOFÓNICAS DE VOZ CANTADA ANDRÉS EDUARDO COCA SALAZAR Trabajo de Grado para optar al tı́tulo de Ingeniero Electrónico Director Ph.D Germán Castellanos Universidad Nacional de Colombia Sede Manizales Facultad de Ingenierı́a y Arquitectura Departamento de Electricidad, Electrónica y Computación Manizales 2004 Dedicado con mucho cariño a: Mi Padre por creer siempre en mı́. Mi Madre por su gran amor. Ángela por estar a mi lado. La música por ser mi gran inspiración. Andrés Eduardo Coca S. AGRADECIMIENTOS El autor expresa sus agradecimientos a: Ph.D. Cesar German Castellanos, por proponerme este tema y de esta forma introducirme en el mundo del pitch. Maestro Hector Fabio Torres C. por sus grandes enseñanzas y a los estudiantes de Lic. en Música de la Universidad de Caldas: Natalia, Andrea, Nelly, Diana, Carlos y Oscar. M.sc. Franklin A. Sepulveda, Ing. Ricardo Alzate, Ing. Alexander Cerquera y toda la gente del GC&P DS. A mis amigos: Cristina Valencia, Gustavo Lagos, Felipe Orozco, Luis F.Posada, Juan P.Ovalle, Julio A.Betancourth y demás compañeros de estudio. Lina Marı́a Izasa, Felipe Perdomo, Gustavo López, Juan Pablo Castaño; por la amistad y las alegrı́as y tristezas en las noches de bohemia compartidas. Y por último un cariñoso agradecimiento a toda mi familia. “Solo cuando se han marchado los dı́as sabemos lo triste y hermoso que han dejado en nuestras vidas; que alegrı́a saber que lo maravilloso esta aun por llegar. . . ” Gracias Universidad Nacional Tabla de Contenido Tabla de contenido III Lista de Figuras V Lista de Tablas VI Resumen VII Abstract VIII Objetivos IX Glosario X 1. Estado del arte en la estimación del pitch 1 1.1. Parámetros acústicos de la voz cantada . . . . . . . . . . . . . . . . . . . . . 2 1.1.1. Formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.1.2. Pitch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.1.3. Parámetros de perturbación . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2. Caracterı́sticas del canto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2.1. Impostación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2.2. El formante del canto en la soprano . . . . . . . . . . . . . . . . . . . 7 1.2.3. Clasificación musical de la voces . . . . . . . . . . . . . . . . . . . . . 7 1.2.4. Diferencias entre la voz cantada y la voz hablada . . . . . . . . . . . . 8 2. Algoritmos para la estimación del pitch 9 2.1. Algoritmos en el dominio del tiempo . . . . . . . . . . . . . . . . . . . . . . . 10 2.1.1. Autocorrelación con center clipping (AUTOC) . . . . . . . . . . . . . 10 i TABLA DE CONTENIDO ii 2.1.2. Autocorrelación del error de predicción (FAEP) . . . . . . . . . . . . . 13 2.1.3. Cepstrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.1.4. Simplified Inverse Filter Technique (SIFT) . . . . . . . . . . . . . . . . 14 2.1.5. Separación y acumulación armónica (SAA) . . . . . . . . . . . . . . . 19 2.2. Algoritmo de estimación en el dominio de la frecuencia . . . . . . . . . . . . . 26 2.2.1. Harmonic Product Spectrum (HPS) . . . . . . . . . . . . . . . . . . . 26 2.2.2. Maximum Likelihood (ML) . . . . . . . . . . . . . . . . . . . . . . . . 28 2.2.3. Multiplicidad de armónicos . . . . . . . . . . . . . . . . . . . . . . . . 31 2.3. Otras funciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.3.1. Segmentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.3.2. Contorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.3.3. Filtro de mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3. Pruebas y Resultados 3.1. 34 Base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.1.1. Señales musicales de prueba . . . . . . . . . . . . . . . . . . . . . . . . 34 3.1.2. Caracterı́sticas de las muestras . . . . . . . . . . . . . . . . . . . . . . 34 3.2. Resultados de la estimación del pitch . . . . . . . . . . . . . . . . . . . . . . . 35 3.2.1. Segmentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.2.2. Resultados con señales musicales de prueba . . . . . . . . . . . . . . . 36 3.2.3. Resultados con señales de voz cantada . . . . . . . . . . . . . . . . . . 40 3.3. Análisis Estadı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.3.1. Prueba de hipótesis aplicada a la estimación del pitch . . . . . . . . . 43 3.3.2. Prueba de hipótesis para la estimación con ruido . . . . . . . . . . . . 44 Conclusiones 46 Observaciones 48 Bibliografı́a 50 A. Conceptos Musicales 54 A.1. Nomenclatura de la notas musicales . . . . . . . . . . . . . . . . . . . . . . . 54 A.2. Frecuencias de las notas musicales . . . . . . . . . . . . . . . . . . . . . . . . 54 A.2.1. El pentagrama musical . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 A.3. Efectos usados en el canto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 A.4. Definición de algunos términos musicales . . . . . . . . . . . . . . . . . . . . . 56 A.5. Clasificación de los comienzos y finales de la frase musical . . . . . . . . . . . 57 B. Test de Kolmogorov-Smirnov 58 B.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 B.2. Ajuste de bondad del test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . 58 B.3. Hipótesis nula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 B.4. Ventajas y desventajas del test . . . . . . . . . . . . . . . . . . . . . . . . . . 60 C. Prueba de hipótesis 62 D. Estimación del pitch para diferentes registros 63 D.1. Estimaciones con el algoritmo AUTOC . . . . . . . . . . . . . . . . . . . . . . 63 D.2. Estimaciones con el algoritmo FAEP . . . . . . . . . . . . . . . . . . . . . . . 64 D.3. Estimaciones con el algoritmo ML . . . . . . . . . . . . . . . . . . . . . . . . 65 D.4. Estimaciones para la primera frase de la obra “Nel cor più non mi sento”. . . 65 D.5. Estimaciones para la primera frase de la obra “Bella prova e d’alma forte”. . 66 D.6. Estimaciones para la primera frase del Réquiem de Mozart . . . . . . . . . . . 67 D.6.1. Estimación con el algoritmo AUTOC y SIFT. . . . . . . . . . . . . . . 67 D.6.2. Estimación con el algoritmo ML configurado para diferentes microtonalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . E. Tabla de muestras de pitch con ruido y sin ruido 67 69 E.1. Tablas para los algoritmos en el dominio del tiempo . . . . . . . . . . . . . . 69 E.2. Tablas para los algoritmos en el dominio de la frecuencia . . . . . . . . . . . . 73 iii Lista de Figuras 1.1. Modelo del tracto vocal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2. Modelo de la producción de la voz . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3. Clasificación musical de las voces en el pentagrama . . . . . . . . . . . . . . . 8 2.1. Señal de voz con center clipping . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2. Técnica center clipping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3. Diagrama en bloques del algoritmo FAEP . . . . . . . . . . . . . . . . . . . . 13 2.4. Diagrama en bloques del algoritmo SIFT . . . . . . . . . . . . . . . . . . . . . 16 2.5. Diagrama de flujo para el criterio de sonoridad de SIFT . . . . . . . . . . . . 19 2.6. Escala de los armónicos para C2 . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.7. Primera etapa del algoritmo SAA. . . . . . . . . . . . . . . . . . . . . . . . . 25 2.8. Segunda etapa del algoritmo SAA. . . . . . . . . . . . . . . . . . . . . . . . . 26 2.9. Representación gráfica del algoritmo HPS . . . . . . . . . . . . . . . . . . . . 27 2.10. Diagrama en bloques del algoritmo HPS . . . . . . . . . . . . . . . . . . . . . 27 2.11. Representación gráfica del algoritmo ML . . . . . . . . . . . . . . . . . . . . . 29 2.12. Diagrama en bloques del algoritmo ML . . . . . . . . . . . . . . . . . . . . . 29 2.13. Diagrama en bloques del algoritmo MA . . . . . . . . . . . . . . . . . . . . . 31 3.1. Melodı́a cantada por una mezzo-soprano . . . . . . . . . . . . . . . . . . . . . 36 3.2. Segmentación para una señal de voz cantada . . . . . . . . . . . . . . . . . . 37 3.3. Resultado algoritmo AUTOC para A5 = 880 Hz . . . . . . . . . . . . . . . . 37 3.4. Resultado algoritmo FAEP para A3 = 220 Hz . . . . . . . . . . . . . . . . . . 38 3.5. Resultado algoritmo Cepstrum C6 = 1046 Hz . . . . . . . . . . . . . . . . . . 38 3.6. Contorno del pitch de SIFT para D3 = 146,83 Hz . . . . . . . . . . . . . . . . 38 3.7. Resultado algoritmo SAA para E4 = 329,63 Hz . . . . . . . . . . . . . . . . . 39 3.8. Resultado algoritmo HPS para G♯2 = 103,83 . . . . . . . . . . . . . . . . . . 39 iv 3.9. Resultado algoritmo ML para C7 = 2093 Hz . . . . . . . . . . . . . . . . . . 40 3.10. Resultado algoritmo MA para B5 = 987,77 Hz . . . . . . . . . . . . . . . . . 40 3.11. Estimación del pitch con el algoritmo ML para la primera frase del Réquiem en D menor de Mozart interpretada por una contralto. . . . . . . . . . . . . . 41 3.12. Partitura del Réquiem de Mozart para contralto. . . . . . . . . . . . . . . . . 41 3.13. Estimación del pitch con SIFT para el arpegio de E mayor interpretado por un tenor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.14. Partitura del arpegio de E mayor. . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.15. Estimación del pitch con FAEP para la escala en E mayor interpretada por una soprano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.16. Partitura de la escala de E mayor. . . . . . . . . . . . . . . . . . . . . . . . . 43 3.17. Gráfica de las funciones de distribución acumulativas. . . . . . . . . . . . . . 44 A.1. Pentagrama de la escala cromática. . . . . . . . . . . . . . . . . . . . . . . . . 55 D.1. Estimación del arpegio de E mayor interpretado por un bajo. . . . . . . . . . 63 D.2. Estimación del arpegio de C mayor interpretado por una mezzo-soprano. . . . 63 D.3. Estimación del arpegio de E mayor interpretado por una soprano. . . . . . . . 64 D.4. Estimación de un intervalo de 2a menor interpretado por un barı́tono. . . . . 64 D.5. Estimación de la escala y el arpegio de E mayor interpretado por una soprano. 64 D.6. Estimación con ML para intervalos interpretados por una bajo. . . . . . . . . 65 D.7. Estimación de la obra “Nel cor più non mi sento” con ML. . . . . . . . . . . 65 D.8. Partitura de la obra “Nel cor più non mi sento”. . . . . . . . . . . . . . . . . 66 D.9. Estimación de la obra “Nel cor più non mi sento” con AUTOC y SIFT. . . . 66 D.10.Estimación de la obra “Bella prova e d’alma forte” con SIFT. . . . . . . . . . 66 D.11.Partitura de la obra “Bella prova e d’alma forte”. . . . . . . . . . . . . . . . 67 D.12.Estimación del Réquiem de Mozart con el algoritmo AUTOC y SIFT. . . . . 67 D.13.Estimación con ML configurado para tercios de tono (λ = 13 ). . . . . . . . . . 68 D.14.Estimación con ML configurado para cuartos de tono (λ = 41 ). . . . . . . . . . 68 D.15.Estimación con ML configurado para sextos de tono (λ = 61 ). . . . . . . . . . 68 v Lista de Tablas 1.1. Caracterı́sticas de los formantes de la voz . . . . . . . . . . . . . . . . . . . . 3 1.2. Clasificación musical de la voz . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.1. Valores de λ para el sistema de afinación usado en ML. . . . . . . . . . . . . 29 3.1. Caracterı́sticas musicales de las muestras de canto. . . . . . . . . . . . . . . . 35 3.2. Frecuencias de las notas usadas en la primera frase del Réquiem de Mozart. . 41 3.3. Frecuencias del Arpegio de E mayor en la tercera octava . . . . . . . . . . . . 41 3.4. Frecuencias de las notas de la escala de E mayor. . . . . . . . . . . . . . . . . 43 3.5. Resultados del test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . 44 3.6. Resultados de la prueba de hipótesis para ruido de 20 dB . . . . . . . . . . . 45 A.1. Cifrado de las notas musicales . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 A.2. Frecuencia de las notas musicales del sistema temperado . . . . . . . . . . . . 55 B.1. Frecuencias relativas acumuladas para el test de Kolmogorov-Smirnov . . . . 59 E.1. Tabla de muestras de pitch para los algoritmos en el dominio del tiempo . . . 70 E.2. Tabla de muestras de pitch para los algoritmos en el dominio de la frecuencia 74 vi Resumen Se describen los fundamentos teóricos de diferentes algoritmos para la estimación de la frecuencia fundamental con un enfoque especial para señales monofónicas de voz cantada y señales musicales en general. Se usa el ajuste de bondad no paramétrico de Kolmogorov-Smirnov para contrastar las muestras de pitch de los algoritmos implementados, con los resultados obtenidos por medio de software especializado para análisis de voz; que se toman como referencia. También se aplica una prueba de inmunidad ante el ruido con el estadı́stico t-student para determinar el comportamiento de cada uno de los algoritmos al adherir ruido gaussiano a la señal de entrada. Además se describen las ventajas y desventajas encontradas para cada algoritmo, se estudian algunos parámetros acústicos de la voz y las principales caracterı́sticas de la voz cantada. Palabras claves: Pitch, Música, Canto, SAA, ML, SIFT. vii Abstract The theoretical foundations of different algorithms, used to estimate the fundamental frequency with a special approach for monophonic signals of sung voice and musical signals in general are described. The non-parametric adjustment of kindness of Kolmogorov-Smirnov is used, in order to contrast the samples of pitch of the implemented algorithms, with the results obtained by software means of specialized for voice analysis; that they are taken like reference. A test of immunity to noise is also applied through a statistical t-student in order to state the behavior of each one of the algorithms when adding gaussiano noise to the input signal. Besides that, the advantages and disadvantages found for each of the algorithms are described. In addition to that, some acoustic parameters of voice, as well as the main characteristics of the sung voice are studied. Keywords: Pitch, Music, Sing, SAA, ML, SIFT. viii Objetivos General Implementar un algoritmo que permita la estimación del pitch en señales de voz cantada sin acompañamiento musical y en condiciones de grabación con niveles aceptables de ruido de fondo. Especı́ficos 1. Implementación de un método de segmentación de voz cantada sobre palabras de contenido conocido. 2. Implementación del procedimiento de estimación del contorno del pitch sobre algunos métodos de representación de señales de voz, tanto acústicas como sin interpretación fı́sica. ix Glosario PPQ (Pitch Period Perturbation Quotient): El cociente de perturbación del perı́odo tonal es una evaluación de la variabilidad del ciclo tonal de la muestra con un factor de nivelación de cinco perı́odos [22]. sPPQ (smoothed PPQ): El cociente de perturbación del perı́odo tonal nivelado (sPPQ) entrega una evaluación de la variabilidad de corto y largo alcance de los perı́odos tonales de la muestra [22]. APQ (Amplitude Perturbation Quotient): El cociente de variación de la amplitud da una evaluación de la variabilidad de la amplitud de la muestra de voz con un factor de nivelación de 11 perı́odos [22]. sAPQ (smoothed APQ): El cociente de perturbación de la amplitud nivelada entrega una evaluación de corto o largo alcance de la variabilidad de la amplitud de la muestra de voz [22]. RAP (Relative Average Perturbation): La perturbación promedio relativa da una evaluación de la variabilidad de corto alcance del ciclo tonal de la muestra con un factor de nivelación de tres perı́odos [22]. ShdB (Shimmer deciBells ): Corresponde a una evaluación de la variabilidad a muy corto alcance de la amplitud, pico a pico, de la muestra de voz. Se trata de una medición absoluta en términos de decibeles (dB) [22]. Shim: El shimmer porcentual da una evaluación de la variabilidad de la amplitud, pico a pico, de la muestra de voz. Representa, en términos relativos, la variabilidad a muy corto alcance de la amplitud [22]. vAm: Variación de amplitud. x Capı́tulo 1 Estado del arte en la estimación del pitch Un paso decisivo en la historia de la evolución musical, fue la necesidad para el músico de contar con un sistema preciso para la afinación, la correcta creación de los instrumentos musicales y la entonación de las voces humanas usadas en el canto. Gracias a una exacta afinación se desarrolló el proceso de creación, dirección y montaje de las obras musicales; porque sin ello la música carecerı́a de interés. Para la detección de la frecuencia fundamental, el músico se debı́a sustentar únicamente en la percepción auditiva de la frecuencia de las notas, lo cual es poco preciso. Indudablemente para hacer esto se tenı́a que tener un buen desarrollo auditivo y algunos conocimientos musicales, buena preparación y algo de talento; siendo tales caracterı́sticas de una minorı́a. Para facilitar este procedimiento en 1711 el laudı́sta inglés John Shore inventó un instrumento llamado diapasón [9], el cual al ser golpeado produce un tono puro que sirve como referencia a los músicos para encontrar las demás notas. El uso del diapasón facilita la detección del pitch pero continua siendo una tarea para personas con altos conocimientos de solfeo y canto. La habilidad de una persona para determinar la frecuencia de la señal musical valiéndose del oı́do y con un tono de referencia se llama oı́do relativo, pero para algunas personas no es necesario escuchar previamente un sonido de referencia dando lugar a lo que se denomina oı́do absoluto [39]. El primer detector del pitch manual en el dominio de la frecuencia fue posible con la creación del primer espectrógrafo mecánico en 1946 [39]. Desde el siglo pasado, con el desarrollo de la tecnologı́a, se crearon detectores electrónicos 1 CAPÍTULO 1. ESTADO DEL ARTE EN LA ESTIMACIÓN DEL PITCH 2 y se empezaron a desarrollar algoritmos para la detección automática por computador. La detección del pitch fue primeramente estudiada por B.Gold en 1962 y a finales de la década de los 60, A.M Noll, M.Schroeder y M.Sondhi incluyeron mejoras [16]. Con el desarrollo de nuevas tecnologı́as, la estimación del pitch se ha desarrollado, se ha automatizado y se hizo necesaria para multiples aplicaciones como en los algoritmos de codificación de voz usados en telecomunicaciones y el uso en dispositivos técnicos con la introducción del protocolo MIDI [39]. Las ultimas investigaciones en este tema se han centrado en la estimación de la frecuencia fundamental para intervalos y acordes en música homofónica y polifónica (multi-pitch) [10]. 1.1. 1.1.1. Parámetros acústicos de la voz cantada Formantes El tracto vocal esta compuesto por varias cavidades de resonancia, cada una con su respectiva frecuencia denominada formante. Partiendo de este concepto el tracto vocal se puede modelar como un banco de filtros pasa banda; dado que las frecuencias que coinciden con las frecuencias de resonancia de los filtros, en este caso, los órganos que componen el conducto vocal, son menos atenuadas que las que no coinciden con dicha frecuencia de resonancia. Entonces estas frecuencias no atenuadas se emiten con mayor amplitud que las demás, es decir, a mayor diferencia entre la frecuencia del armónico y la frecuencia de resonancia menor amplitud en la emisión del armónico; modificando ası́ el timbre de los sonidos producidos. El timbre vocálico varı́a para cada vocal que tiene sus zonas caracterı́sticas de formantes [20]. En total son cuatro o cinco formantes dependiendo de la función que este cumpliendo la voz, es decir, si es voz hablada solo se contará con cuatro pero si se trata de voz cantada serán cinco porque se incluye el formante del canto. Los formantes modifican la envolvente del espectro introduciendo picos en las frecuencias de resonancia, produciéndose ası́ sonidos inteligibles al hablar. El tracto vocal se puede modelar como un tubo sonoro cerrado en el que la vibración es debida a la formación de una onda estacionaria [38]. En un tubo sonoro el punto de excitación no puede ser un nodo pero no necesariamente un vientre, entonces el vientre de la onda estará en la glotis y el nodo en los labios. Ası́ un tubo de longitud L produce un sonido de frecuencia fundamental Fo con una longitud de onda λ = 4L, y solamente los armónicos Fn de orden impar [12]: 3F o, 5F o, 7F o... CAPÍTULO 1. ESTADO DEL ARTE EN LA ESTIMACIÓN DEL PITCH 3 Figura 1.1: Modelo del tracto vocal Fn = (2n − 1). Vs 4.L (1.1) Donde L es la longitud aproximada del tracto vocal y Vs es la velocidad del sonido igual a 350m/sg (35o C), entonces: Fn = 500, 1500, 2500, 3000Hz N o Formante Órgano Articulado F1 F2 (1.2) Frecuencia (Hz) Armónico Apertura de la mandı́bula 500 1 Dorso de la lengua 1.5 k 3 F3 Ápice de la lengua 2.5 k 5 F4 Pos.Ları́nge. Long. T.Vocal 3k 7 Tabla 1.1: Caracterı́sticas de los formantes de la voz Si la longitud del conducto vocal desde la glotis hasta los labios es de 17,5 cms, en el caso de un adulto varón, entonces las frecuencias de corte del primero, segundo, tercero y cuarto formante estarán ubicadas alrededor de: 500 Hz (λ/4), 1.5 kHz (3λ/4), 2.5 kHz (5λ/4) y 3.5 kHz (7λ/4). Estas frecuencias de resonancia son directamente proporcionales a la longitud del conducto vocal de cada individuo y depende del sexo, la edad y otros factores; como la modificación de la longitud del conducto vocal por causa de los órganos articulados que desplazan la frecuencia de algunos formantes [27]. La mandı́bula puede reducir el conducto en la zona cercana a la glotis y ampliarlo en la región de los labios, modificando el valor del primer formante que es proporcional al tamaño de la abertura de la mandı́bula. La frecuencia del segundo formante es sensible a la forma del CAPÍTULO 1. ESTADO DEL ARTE EN LA ESTIMACIÓN DEL PITCH 4 cuerpo de la lengua y la del tercer formante es sensible a la posición de la punta de la lengua [38]. La belleza de la voz, el timbre y la amplitud dependen más de la calidad de los resonadores que del aparato fonador [24]. 1.1.2. Pitch La frecuencia fundamental de la voz (pitch), se produce por la vibración de las cuerdas vocales cuando la presión de aire de los pulmones pasa por la glotis (fuerza de Bernoulli) [38]. El tracto vocal se puede modelar como un filtro variable en el tiempo cuyas señales de entrada pueden ser de dos tipos de excitación: para señales sonoras la excitación será un tren de impulsos de frecuencia controlada mientras que para las señales no sonoras la excitación es ruido aleatorio [16], como se muestra en la figura 1.2. Figura 1.2: Modelo de la producción de la voz Edad y género Dentro de los factores que interfieren en la variación paulatina de la frecuencia fundamental de la voz humana están, la edad y el genero. La frecuencia fundamental promedio y la altura de los formantes de los humanos esta bastante ligada con la edad, el sexo y la respiración [4]. En la niñez la extensión de la voz puede tener más de dos octavas indiferente del sexo, en la adolescencia disminuye en los hombres y asciende en las mujeres, pero en el periodo senil ocurre el proceso contrario [27]. La altura de los formantes en los niños decrece con la edad y en la niñas es un 10 % mayor [4]. La voz del hombre es más grave que la de la mujer debido al grosor de los ligamentos vocales [27]. 5 CAPÍTULO 1. ESTADO DEL ARTE EN LA ESTIMACIÓN DEL PITCH 1.1.3. Parámetros de perturbación Los parámetros de perturbación nos indican el nivel de variación en el valor de un parámetro de la señal de voz. Entre los más representativos encontramos el jitter y el shimmer, éstos son medidas subjetivas de la calidad de la voz. El jitter es una medida de la variación entre periodos sucesivos mientras que el shimmer es una variación de la amplitud ciclo a ciclo. Tanto el pitch como la amplitud de la señal pueden variar lentamente aún en sonidos sostenidos, aumentando el valor de medida del jitter o el shimmer que no refleja un aumento real en las perturbaciones. Una forma de evitar estos incrementos se logra con la utilización de la formula genérica del cociente de perturbación PQ (Perturbation Quotient), de la cual se derivan las funciones RAP (Relative Average Perturbation), PPQ (Pitch Period Perturbation Quotient), sPPQ (smoothed PPQ) para la medición del jitter y el APQ (Amplitude Perturbation Quotient), sAPQ (smoothed APQ) para la medición del shimmer entre otras [13]. Existen muchos métodos para cuantificar estos parámetros, por ejemplo, para medir la perturbación de amplitud a través de los ciclos de la voz podemos encontrar: ShdB, Shim y vAm. Pero el método más usado para la medición del jitter y del shimmer se basa en el coeficiente de perturbación (PQ) dado por: 1 N −k+1 P Q (x, k) = N −k+1 P n=1 1 k k P r=1 1 N x (n + r − 1) − x (n + m) N P (1.3) x (n) n=1 Tomando más o menos (k) periodos en torno al actual para el cálculo. Donde m = 0,5·(k − 1), k es un número impar, y x(n) es la secuencia de parámetros a medir. Jitter Altas variaciones del periodo fundamental To en señales de voz hablada, indican problemas o disfunciones del aparato fonador. Pero en voz cantada esto es necesario e inevitable; porque el valor de la frecuencia fundamental debe cambiar para poder producir la melodı́a, formando secuencias de intervalos de una forma consciente y controlada. Se demuestra fácilmente que si la diferencia en valor absoluto entre los periodos vecinos hallados para el jitter absoluto (termino superior de la ecuación 1.4) es grande, entonces éste será alto y por lo tanto el jitter también. Partiendo de la ecuación del PQ con k, m y r iguales a cero, el jitter se halla con la 6 CAPÍTULO 1. ESTADO DEL ARTE EN LA ESTIMACIÓN DEL PITCH ecuación 1.4 [7]: 1 N −1 Jitter = NP −1 i=1 |To (i) − To (i − 1)| 1 N N P To (i) · 100 % (1.4) i=1 Donde To (i) es la secuencia de periodos de la señal y N es la longitud de la misma. Shimmer En la música para lograr mayor expresión, se varı́a la amplitud de las señal musical, esto es necesario porque el relieve de amplitud que se genera; evita la monotonı́a, da mayor belleza a la obra y crea mayor expresión y técnica. Ası́ que altos porcentajes en los resultados del shimmer para la voz cantada son normales y necesarios. Para hallar al valor porcentual del shimmer se usa la ecuación [7], donde A(i) es la secuencia de amplitudes de la señal y N es su tamaño. 1 N −1 Shimmer = NP −1 i=1 |A(i) − A(i − 1)| 1 N 1.2. 1.2.1. N P A(i) · 100 % (1.5) i=1 Caracterı́sticas del canto Impostación La parte aguda del espectro sonoro entre 2.8-3.5 kHz, no es importante para el reconocimiento de las vocales, pero si lo es para el canto [38]. Por tal motivo los cantantes de música clásica modifican intuitivamente su voz cuando cantan, lo que se llama como impostación [24, 19]. La distribución acústica de la energı́a en el espectro de la señal cantada muestra una energı́a espectral mayor entre 2.5 kHz y 3 kHz (ver tabla 1.1), esta región en el espectro se denomina formante del canto y se encuentra entre el tercero y cuarto formante. El formante del canto se produce cuando la superficie de la sección de la laringe que penetra en la faringe es de un sexto de su longitud transversal, esto sucede cuando se baja la laringe; haciendo coincidir su frecuencia de resonancia con el formante del canto [38]. La energı́a media espectral de los cantantes debe ser mayor a la de la orquesta para que su voz no sea opacada, entonces al incorporar el formante del canto, se logra aumentar CAPÍTULO 1. ESTADO DEL ARTE EN LA ESTIMACIÓN DEL PITCH 7 la distribución media exactamente en la parte donde la energı́a del sonido de la orquesta disminuye, sin perder el control musical [38]. Por el principio de resonancia se economiza esfuerzo al incrementar la amplitud de la voz, pero los sonidos vocálicos se desvı́an, perdiendo su brillo caracterı́stico [38]. La impostación desde el punto de vista musical consiste en apoyar la voz para economizar energı́a, lograr mayor amplitud, tener mayor potencia sin necesidad de esforzar la voz [24] y poder ser escuchado sin el uso del micrófono; aunque la orquesta este sonando en el fondo con su maxima potencia musical (forte, fortissimo) [38]. 1.2.2. El formante del canto en la soprano Dado que en el registro femenino agudo algunas frecuencias emitidas son mayores a la frecuencia del primer formante, éstas pierden amplitud. Para evitar esto las sopranos instintivamente modifican la frecuencia del primer formante, aumentando la apertura de la mandı́bula para acercar la frecuencia del primer formante al valor del pitch. De esta forma la soprano logra continuar en resonancia y mantener una variación mı́nima en la intensidad de las notas de la melodı́a [38]. 1.2.3. Clasificación musical de la voces Las voces cantadas se clasifican según el genero en: masculinas o femeninas. La voz se clasifica por la tesitura y por el timbre más que por su extensión [24]. Según el registro y el género surgen las siguientes clasificaciones para la voz: soprano, mezzo-soprano y contralto para las femeninas; tenor, barı́tono y bajo para las masculinas [24, 19]. Las notas más graves y más agudas del rango de frecuencias de la tabla 1.2, requieren de mayor dificultad y esfuerzo para el cantante; se llama tesitura al rango de frecuencias que el cantante puede producir sin esfuerzo y con claridad, por lo general son las notas medias del registro. Dentro de estas clasificaciones se aceptan subdivisiones al observasen diferencias de carácter, volumen, timbre, tesitura o extensión; que se usan según el repertorio de las obras musicales a interpretar, algunas de estas subdivisiones son: soprano ligera, mezzo-soprano lı́rica...,etc [24]. Además de estos tipos de voz, también se pueden encontrar las voces de los niños profesionales y de los antiguos castratis. El rango de frecuencias aproximado que el cantante puede producir se llama registro, en la tabla 1.2 se pueden apreciar los diferentes registros según su clasificación y además el valor CAPÍTULO 1. ESTADO DEL ARTE EN LA ESTIMACIÓN DEL PITCH 8 Figura 1.3: Clasificación musical de las voces en el pentagrama 1) Soprano 2) Mezzo-soprano 3) Contralto 4) Tenor 5) Barı́tono 6)Bajo de la frecuencia de la nota inferior (Ninf ) y de la superior (Nsup ) 1 . Género Femenino Masculino Registro Ninf Nsup Ninf (Hz) Nsup (Hz) Soprano C4 A5 523,25 880 Mezzo-soprano B3 G5 246,94 783,99 Contralto G3 E5 196 659,26 Tenor C3 A4 130,81 440 Barı́tono A2 F4 110 349,23 Bajo F2 D4 87,31 293,66 Tabla 1.2: Clasificación musical de la voz 1.2.4. Diferencias entre la voz cantada y la voz hablada 1. El canto requiere aproximadamente dos octavas y el habla menos de una. 2. La intensidad de la voz hablada está entre 40-60 dB, la cantada popular entre 70-80 dB y la lı́rica clásica hasta 120 dB [27]. 3. La frecuencia fundamental de la voz hablada oscila alrededor de una frecuencia fundamental media. En el canto esto no es posible por los intervalos usados en la melodı́a. 4. El espectro presenta una pendiente más pronunciada cuando se habla bajo, que cuando se canta bajo [38]. 5. La voz cantada requiere control sobre el pitch (estimulación cortical), en la hablada el pitch es involuntario (estimulación diancefálica). 1 ver observación 1 pag.48 Capı́tulo 2 Algoritmos para la estimación del pitch La estimación de la frecuencia fundamental ha sido uno de los estudios más importantes desde que se comenzó el análisis de las señales de voz [16]. Existen varios factores que dificultan la extracción del pitch: La vibración de las cuerdas vocales no necesariamente es completamente periódica, especialmente al principio y al final de los sonidos hablados. Es difı́cil extraer la señal de las cuerdas vocales de la onda hablada separadamente de los efectos del tracto vocal. El rango dinámico de la frecuencia fundamental es muy largo. Encontramos otros factores como: las variaciones en el tiempo del tracto vocal, las transiciones de sonoridad de voz o no voz (V-UV, Voiced-Unvoiced ) y los ruidos acústicos de fondo [18]. El estudio de la estimación de la frecuencia fundamental ha abierto el camino a nuevos temas de investigación como la posibilidad de extraer la periodicidad de señales cuasi-periódicas, extraer correctamente el pitch debido a los disturbios de periodicidad y de cómo remover los efectos del tracto vocal. Los errores en la extracción del pitch se clasifican en: doble-pitch y medios-pitch. Estos ocurren cuando la frecuencia hallada es el doble o la mitad de la esperada respectivamente, y el tipo de error depende del método de estimación usado [16]. Existen tres tipos de estimación de la frecuencia fundamental dependiendo del dominio en 9 CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 10 el que trabaje el algoritmo utilizado: estimación en el dominio del tiempo, estimación en el dominio de la frecuencia y estimación mixta, es decir, tanto en el dominio temporal como en el dominio de la frecuencia. En esta ultima clasificación se encuentran los algoritmos basados en la trasformada wavelets (WT) [2]. Últimamente se han venido desarrollando métodos estadı́sticos de detección [41] basados en histogramas [10]. Los métodos en el dominio del tiempo son clasificados en tres grupos [16]: algoritmos que parten de la forma de onda, algoritmos basados en la función de autocorrelación y algoritmos de procesamiento cepstral. 2.1. 2.1.1. Algoritmos en el dominio del tiempo Autocorrelación con center clipping (AUTOC) Los métodos más antiguos y populares para la detección de la frecuencia fundamental en el dominio del tiempo, son los que se basan en la función de autocorrelación (FAC) [25]. Esta función nos indica el nivel de correlación que tiene una señal con ella misma, es decir, que tanta dependencia posee con sus valores pasados [15, 11]. La FAC R(τ ) para señales discretas se define como: R(τ ) = N −1 1 X x(n)x(n + τ ) N (2.1) n=0 Donde τ es un factor de retardo, x(n) la señal que se desea autocorrelacionar y N su longitud. En [35, 25], se propone hallar la FAC por medio de la transformada discreta de Fourier (TDF) partiendo de una variación de la función cepstrum, lo cual trae como beneficio, la disminución del costo computacional. Una función derivada de la FAC es Average Magnitude Difference Function (AMDF). La AMDF produce valles donde la FAC produce picos, porque no se basa en el producto de la señal con una versión retrasada de ella misma sino en la diferencia. Con esto se logra que la AMDF sea computacionalmente menos costosa que la FAC. La FAC presenta un pico máximo cuando τ = 0, correspondiente a la energı́a de la señal, además este pico está en la posición central ya que la función es simétrica. Debido a que una señal periódica correlaciona fuertemente con ella misma, la posición del segundo pico nos da una estimación del perı́odo fundamental. La función FAC es insensible al ruido aditivo, pero sensible al efecto de los formantes [35]. CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 11 Figura 2.1: Señal de voz con center clipping Por tal razón antes de aplicar la autocorrelación se usa una técnica de distorsión no lineal en el dominio del tiempo llamada center clipping (CC) [16]. El objetivo de esta función es crear una nueva señal solo con los valores absolutos de la señal original que superen un umbral predefinido (fig.2.1), este valor de umbral por lo general se toma como un porcentaje del máximo valor de amplitud de la señal (generalmente del 30 %). La señal con center clipping y[n], para x[n], con un nivel de umbral CL se define ası́:   x[n] − sgn(x[n])C |x[n]| > C L L y[n] =  0 ∼ (2.2) Esta función adicional también ayuda a blanquear el espectro eliminando las influencias del tracto vocal como el primer formante [16], pero el beneficio que más se aprovecha es que hace más periódica la señal y se logran picos más sobresalientes en la señal autocorrelacionada; haciendo de esta forma más fácil la detección del segundo pico [16]. Valores altos de center clipping definen mejor la periodicidad pero con el riesgo de perder periodos enteros, y valores bajos producen pocos efectos (ver figura 2.1). Por tal razón se debe aplicar un método para la selección adecuada del porcentaje de CL , que depende de los parámetros propios de la señal. Dentro de los métodos usados se encuentran: 1. Primer Método: Se halla el máximo del primer tercio y del último tercio de la trama. Se halla el mı́nimo de estos dos máximos (min1 ). Se halla el mı́nimo del primer y ultimo tercio. Se halla el máximo de estos dos mı́nimos (max1 ). Si el máximo mı́nimo es mayor o igual a la media µ, éste será el máximo mı́nimo que se aplicará en la determinación de CL . Y si el mı́nimo máximo es menor o igual a la media, se establece éste como el único mı́nimo máximo necesario. CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 12 Se halla el nivel de clipping positivo CL (+) con los valores hallados y un porcentaje p preestablecido: CL (+) = [ p ∗ (max1 − µ)] + µ 100 (2.3) Se halla el nivel de clipping negativo CL (−): CL (−) = −[ p ∗ (µ − min1 )] + µ 100 (2.4) Criterio de decisión Si la amplitud de cada uno de los elementos de la señal es mayor al nivel de center clipping positivo CL (+), o en caso contrario, si es menor al nivel de center clipping negativo CL (−), se asigna este valor a la nueva señal, y sino se cumple con ninguna de estas dos condiciones, se asigna la media µ. Figura 2.2: Técnica center clipping 2. Segundo Método: Se halla el máximo del valor absoluto del vector x[n]. Se halla el nivel de clipping CL , con un porcentaje p predefinido. CL =  p% 100  · máx (x[n]) (2.5) Criterio de decisión Si el valor absoluto de cada elemento del vector es mayor al nivel del center clipping, a éste elemento sin valor absoluto se le resta el umbral pero con el signo del elemento actual de análisis. CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 2.1.2. 13 Autocorrelación del error de predicción (FAEP) Es conveniente depurar la señal de entrada por medio de un filtro inverso, cuyos coeficientes son los coeficientes de predicción lineal (LPC). Se aplica una distorsión espectral lineal por filtrado inverso [35, 25] que cancela la función de trasferencia del tracto vocal y reconstruye la señal de excitación 1.2 [35]. Con la separación de la señal de excitación de los efectos del tracto vocal, nos quedamos únicamente con la información necesaria que proporciona la estimación del pitch. Si se aplica la función de autocorrelación al error residual obtenida en el proceso de filtrado inverso del error de predicción, se reduce la complejidad en la detección del pico que se encuentra en la posición del perı́odo fundamental [15]. Además como ventaja adicional, los coeficientes del filtro nos dan una estimación de la respuesta frecuencial del tracto vocal. Figura 2.3: Diagrama en bloques del algoritmo FAEP 2.1.3. Cepstrum La función de transferencia del tracto vocal x(t), según el modelo de producción de la voz mostrado en la figura 1.2, es la convolución de la secuencia de excitación g(τ ) con la respuesta impulso del tracto vocal h(t) [16, 18, 20]: x(t) = Zt 0 g(τ )h(t − τ )dτ (2.6) Por la propiedad de la trasformada de Fourier, la ecuación 2.6 en el dominio de la frecuencia corresponde a una multiplicación de los espectros. Una de las caracterı́sticas especiales del cepstrum es que permite la separación de la envolvente espectral de la secuencia de excitación, y para ello se vale de la propiedad de los logaritmos log AB = log A + log B. Este proceso de separación se llama liftering [16] o deconvolución homomórfica [15]. CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 14 Las correspondientes transformaciones al dominio de la frecuencia de la función de transferencia del tracto vocal de la señal de excitación y de la respuesta impulso, convierten la ecuación 2.7 en: log |X(ω)| = log |G(ω)H(ω)| = log |G(ω)| + log |H(ω)| (2.7) Convergiendo de nuevo al dominio del tiempo: F −1 log |X(ω)| = F −1 log |G(ω)| + F −1 log |H(ω)| (2.8) La primera función al lado derecho indica la formación de un pico en la región de alta frecuencia, la cual se puede extraer el perı́odo fundamental. Y el segundo pico representa una concentración en la región de baja frecuencia, que permite la extracción de la envolvente espectral [16]. En consecuencia el cepstrum de una señal x(t), se define como la transformada inversa del logaritmo de la amplitud del espectro [16, 15]: cepstrum (x (t)) = F −1 {log |F {x(t)}|} (2.9) La ecuación 2.9, produce un pico máximo en el perı́odo fundamental. El algoritmo de decisión consiste en elegir el primer pico que supere un umbral de energı́a predefinido. La función cepstrum es insensible a los fuertes formantes en los armónicos altos pero sensible al ruido aditivo [35]. 2.1.4. Simplified Inverse Filter Technique (SIFT) El algoritmo SIFT es algoritmo es una versión simplificada de la técnica de filtrado inverso que reúne las ventajas de los métodos de la autocorrelación y cepstrum [25]. Fue propuesto por J.D Markel en 1972. El rango dinámico del perı́odo fundamental en la secuencia de autocorrelación, es usualmente inferior a 10 dB, un valor relativamente bajo con relación a los estimadores que parten de la forma de onda de la señal cuyo rango dinámico es superior a 30 dB. La técnica de la autocorrelación tiene dos desventajas [25]: La detección del pico no es fácil. Errores debido a los efectos de la respuesta impulso del tracto vocal. CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 15 El cepstrum resuelve los efectos de la respuesta impulso del tracto vocal, usando el hecho de que éste se encuentra en los primeros milisegundos de la señal de cepstrum. Es decir la técnica cepstrum resuelve el problema de la interacción entre los formantes y la frecuencia fundamental. Pero como inconveniente se encuentra que una decisión de V-UV no es posible y la difı́cil detección del pico continúa. Desafortunadamente por causa de la no linealidad logarı́tmica dos problemas se presentan [25]: El pico en el origen no puede ser usado como una referencia de normalización. La amplitud actual del pico es una función no solo del número de perı́odo del pitch dentro de la ventana, sino también de la forma cepstral. Si el segmento de análisis es completamente sonoro, los anteriores problemas son irrelevantes. Sin embargo, se convierten en inconvenientes cuando se desea determinar una decisión automática de sonoridad. La técnica de filtro inverso combina las caracterı́sticas de cepstrum y autocorrelación, además resuelve también sus desventajas; pero todo esto a cambio de una costosa carga computacional. El SIFT remueve esta desventaja y conserva las propiedades del filtrado inverso. Las mayores diferencias son [25]: El pico es ligeramente ensanchado. Los términos de alta frecuencia son suprimidos. Los armónicos del perı́odo del pitch son más aparentes. La relación de picos de señal deseados sobre picos de ruido no deseados es alta. El algoritmo SIFT consta de varias etapas las cuales se muestran en la figura 2.3, y se describen a continuación [25]: 1. Prefiltrado: La mayorı́a de las componentes de frecuencia de la señal de voz se encuentran en el rango de 0 - 1 kHz. Por tal razón es evidente que la señal debe ser limitada con una frecuencia de corte de 1 kHz. Los efectos extremos innecesarios que trae el filtro como la fase y el retardo, no son crı́ticos [25]. 2. Decimación: En el análisis digital de señales de voz se usa una frecuencia de muestreo alta para asegurar que todas las componentes de la señal sean exactamente representadas. Derivando un teorema de muestreo que corresponde a una forma de interpolación CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 16 Figura 2.4: Diagrama en bloques del algoritmo SIFT trigonométrica, la estimación de la frecuencia fundamental puede ser posible tan solo con la cuarta parte de la frecuencia de muestreo fs usada para el análisis. Usando esta frecuencia de muestreo baja se reduce en un factor de 4 el número necesario de operaciones [25]. 3. Preénfasis: Para hacer el procesamiento de la señal menos susceptible a truncamientos y aplanarla espectralmente, se pasa la señal digitalizada de voz a través de un filtro de bajo orden. Este filtro puede tener coeficientes fijos o ser adaptativo y ayuda a aumentar los niveles de las frecuencias agudas para que no sean despreciadas cuando se calculen las caracterı́sticas de la señal [40]. Para hacer el preénfasis se usa un filtro todo polos H(z) de primer orden: H(z) = 1 − α · z −1 (2.10) Donde α es el factor de preénfasis que puede tomar los valores: 0,9 ≤ α ≤ 1 (2.11) La salida del sistema de preénfasis S̃(n), esta relacionada a la entrada del sistema S(n) por la siguiente ecuación de diferencias [40]: S̃(n) = S(n) − α · S(n − 1) (2.12) 17 CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 4. Filtro inverso: El filtro inverso puede ser considerado como un filtro de pre-blanqueamiento el cual ayuda a limpiar el espectro de entrada para eliminar las tendencias caracterı́sticas o la forma espectral, debido predominantemente a la resonancia del tracto vocal o a los formantes; mientras retiene la fina estructura de los pulsos glotales [25]. La forma general de un filtro inverso A(z) es: A(z) = 1 + M X ai z −i (2.13) i=1 Para determinar los coeficientes ai , se usan los coeficientes de predicción lineal (LPC) de orden 4. 5. Autocorrelación: Si se aplica la función de autocorrelación a la salida del filtro inverso se logra resaltar más la periodicidad de la excitación [25]. 6. Interpolación trigonométrica: Para la estimación de la frecuencia fundamental se requiere aproximadamente un tiempo de resolución entre 0 - 0.15 ms (0 - 6.66 Hz) [25]. Debido a que se escogió un perı́odo de muestreo cuatro veces menor al perı́odo de muestreo de la señal fs , el máximo error de cuantización se incrementa en un factor de 4, lo cual se puede demostrar analizando la siguiente ecuación que describe el error de cuantización eq en términos del perı́odo de muestreo Ts y el perı́odo fundamental To ; fo es la frecuencia fundamental: eq = fo Ts = 2 · To 2 · fs (2.14) ∧ Con la aplicación de la decimación la nueva frecuencia de muestreo es: fs = ∧ eq = fo ∧ 2 · fs = 4 · eq fs 4, entonces: (2.15) El error de cuantización se incrementa en un factor de cuatro, que supera el tiempo de resolución requerido, volviéndose absolutamente sensible en voces sintéticas, además se incrementa el tiempo de computación y se hace necesario un gran filtro para eliminar los efectos de resonancia de los formantes más altos. Una solución simplificada a este problema se obtiene si se aplica una función de interpolación trigonométrica para la secuencia de autocorrelación obtenida del filtro inverso. CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 18 La interpolación trigonométrica se puede realizar por medio de la transformada rápida de Fourier (FFT, Fast Fourier Transformation) [25], pero en este trabajo se usa una interpolación parabólica que genera mayor simplicidad [17]: β = R(To + 1) − R(To − 1) (2.16) γ = 2R(To ) − R(To + 1) − R(To − 1) (2.17) Donde R(T ) es la secuencia de valores resultantes de aplicar la función FAC a la señal ∧ filtrada. El pico interpolado Y se obtiene con: ∧ Y =   (2.18) β2 8γ (2.19) β To + 2γ ∧ Y su posición X es: ∧ X = R(To ) + 7. Decisión de sonoridad: Para asegurar que la probabilidad de muestras ruidosas en la secuencia de autocorrelación sea menor a un valor especificado, se asume que el ruido es de naturaleza gausiana y se halla un valor de umbral teniendo en cuenta el número N de muestras usadas. Si se usan 64 muestras (tramas de 32ms) y una probabilidad de 0.001, el valor de umbral es 0.378 [25]. Si la salida del filtro inverso es modelada como un tren de deltas de Kronecker periodicos, la secuencia de autocorrelación normalizada es descrita por una función lineal del ∧ perı́odo con pendiente negativa, dada por: Xp = −0,03 X +0,9. El periodo fundamental se limita en el intervalo de 2 ≤ To ≤ 16ms (62.5 - 500 Hz), y el valor de umbral se fija en 0.4. Además se puede aprovechar lo anterior para realizar una decisión de sonoridad V-UV. Si el pico interpolado supera el valor de umbral preestablecido la trama se define como sonora, en caso contrario como sorda. Si la trama se define como sorda estando entre dos tramas sonoras, ocurre una anomalı́a, ya que esta combinación no es posible y se debe a que la trama está levemente por debajo del valor de umbral. CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 19 También puede ocurrir que debido a cualquier variación considerable en los valores del periodo fundamental o a variaciones fonéticas dentro de la ventana; tramas sonoras se definan como sordas, entonces si la trama se define como sorda se prueba si las dos tramas anteriores no lo son, en tal caso se reduce el valor de umbral en un 25 % y nuevamente se toma una decisión de sonoridad con este nuevo valor de umbral para la trama actual, pero si las dos tramas anteriores no son sonoras indica que realmente la trama es sorda. Se reduce el valor de umbral porque cuando ocurren cambios rápidos en el periodo fundamental dentro de la ventana, el valor del pico correlacionado puede ser reducido del 15 al 20 %. En la figura 2.5, se muestra el algoritmo de decisión usado con todas las especificaciones necesarias. Figura 2.5: Diagrama de flujo para el criterio de sonoridad de SIFT 2.1.5. Separación y acumulación armónica (SAA) El análisis de Fourier de señales periódicas, en este caso las señales musicales, muestra como la energı́a de la señal se concentra en las frecuencias que son múltiplos enteros de la frecuencia CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 20 fundamental {fo,2fo,3fo,...nfo}; formando ası́ la serie armónica [29]. El valor en frecuencia de este conjunto discreto coincide con los valores de las frecuencias fundamentales de algunas notas musicales de la escala temperada y forman una relación interválica con la nota fundamental. En música a esta serie se le da el nombre de escala de los armónicos [12] y es el principio fundamental usado en el algoritmo SAA [36]. Figura 2.6: Escala de los armónicos para C2 El algoritmo SAA es especial para aplicaciones musicales, porque no pretende hallar el valor del pitch directamente, sino el nombre de la nota musical y su número de octava [36]. Luego partiendo de estos resultados y con un post-proceso, se halla el valor de la frecuencia exacta de la trama de análisis actual. Para lograr encontrar el valor del pitch el algoritmo requiere de tres etapas. En la música los valores de frecuencia de las notas son conocidas y estandarizadas mundialmente desde 1939. En esta fecha, se realizó en Paris una conferencia para asignar la frecuencia de 440 Hz al A4 (ver tabla de cifrados A.1) [14]. En el sistema occidental se usan doce notas por octava, que conforman la escala cromática; pero algunos compositores de música clásica del siglo XX como Alois Haba, y alguna música folclórica oriental, usan más. Creando ası́, sistemas microtonalı́stas como: los cuartos, tercios, sextos y doceavos de tono entre otros. Se tiene como único limite el mı́nimo umbral de sensibilidad del oı́do humano para diferenciar dos intervalos, que es aproximadamente 20 cents. Los valores de las frecuencias de las notas musicales de la escala temperada partiendo de una frecuencia inicial f0 , se obtienen multiplicando la frecuencia anterior por 1,0595, o de forma general con la ecuación de Chladni [12]: fi = f0 · √ 12 2i (2.20) CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 21 Sabiendo el nombre de la nota y su número de octava, se pasa a hallar su respectiva frecuencia. Desde luego la fuente sonora que produce el sonido musical debe emitir frecuencias discretas que correspondan a las de la escala por medios de tono o escala cromática, y la afinación debe ser exacta. Los instrumentos de teclado como el piano, órgano, sintetizador...etc, son ideales para este algoritmo; pero los instrumentos de cuerda y las voces no son completamente apropiadas debido a que pueden producir frecuencias microtonales. Este algoritmo está basado en el sistema afinación estándar occidental; que es la escala cromática [36]. Procedimiento: Etapa 1: Hallar el nombre de la nota. 1. Se crean las doce señales musicales de la escala cromática. Las señales se construyen en el dominio temporal con la función seno, cubriendo el rango de seis octavas [36]. Nk (t) = 6 X k=1 sen(2 · π · fn · t) (2.21) Para hallar la frecuencia de la octava n de fi se usa 1 : fn = 2(n−1) ∗ fi n≥1 (2.22) Donde fi se obtiene a partir de la ecuación 2.20: fi = 110 · √ 12 2i (2.23) Se usa f0 = 110 Hz que corresponde a la frecuencia de A2, para conservar la afinación estandarizada de A4 (440 Hz): 2. Se multiplica cada una de las doce señales por la trama de audio (convolución en frecuencia). La convolución desplaza al origen las partes espectrales del sonido que poseen igual valor, acumulando la energı́a del espectro [36]. Xn (t) = S(t) · Nk (t) 1 Ver observación 3 en la pág.49 (2.24) 22 CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 3. Se halla la energı́a de cada una de las señales resultantes de la multiplicación para lograr una representación espectral que los armónicos aportan a cada nota musical [36]. La energı́a de la señal resultante se halla con la ecuación 2.25: En = X |Xk (t)|2 (2.25) Donde Xk (t) es la señal resultante de la multiplicación de la señal musical k por la trama de audio. 4. Valor de energı́a más significativo: Es el valor de energı́a que más diferencia de amplitud tiene con sus respectivos vecinos locales, no necesariamente es el valor máximo. Este peso corresponde con un armónico de la señal [36]. Para que al primero y el último elemento del vector de los pesos se le pueda hallar la diferencia del que lo precede y del posterior, se convierte el vector en “circular” duplicando el primer elemento y poniendo la copia al final, y la copia del último al principio. Vector “circularizado” con los valores de energı́a de cada multiplicación: E= h B C C# D D# E F F # G G# A A# B C i (2.26) Ecuación para hallar los pesos γn : γn = |En − E(n−1) | + |En − E(n+1) | (2.27) Vector con los pesos de las doce señales: γn = h C C# D D# E F F # G G# A A# B i (2.28) Obteniéndose el valor del peso más significativo δn del vector γn : δn = máx(γn ) 5. (2.29) Se busca que posición ocupa el valor más significativo (armónico) en la escala de la serie armónica. El algoritmo funciona correctamente teniendo sólo en cuenta cuatro posibilidades en cuatro combinaciones posibles [36]. 23 CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH Se prueban los primeros nueve armónicos de la serie armónica, sin repetir los que son iguales (2,4,6,8), estas notas forman el acorde de novena de dominante D9 2 . Se prueba el peso más significativo cómo si fuera la tónica, la tercera mayor, la quinta justa o la séptima menor; pero siempre conservando su frecuencia. Es decir se halla el peso total de cuatro acordes de novena de dominante. Luego se busca el mayor de estos pesos, el que mayor peso tenga es el que contiene la posición correcta. Sabiendo la posición se conoce el nombre de la fundamental de dicho acorde y se pasa a buscar el número de octava. Cumpliendo con el principio de la conmutación de un proceso aditivo no importa el estado del acorde (fundamental, primera o segunda inversión). Se busca la posición ρn , del peso más significativo δn : ρn = pos(δn ) (2.30) Tónica: Se prueba si el valor más significativo es el primer armónico de la escala, es decir, si es la fundamental del acorde de novena de dominante. Se suma el valor de energı́a de cada una de las notas del acorde, pero sin tener en cuenta el peso de la nota en cuestión. Por no tener en cuenta la fundamental del acorde en este proceso, se puede considerar como un acorde de séptima de sensible: ψ1 = δρn +7 + δρn +4 + δρn +10 + δρn +2 (2.31) Donde ψn es la suma de las energı́as de las notas del acorde en cuestión y: δρn +7 : es la quinta justa de δn , que corresponde a la tercera nota de la escala de los armónicos. δρn +4 : es la tercera mayor de δn , y quinta nota de la escala de los armónicos. δρn +10 : es la séptima menor de δn , y séptima nota de la escala de los armónicos. δρn +2 : es la novena mayor de δn , y novena nota de la escala de los armónicos. Quinta Justa: Se prueba si el valor de energı́a más significativo hallado corresponde al tercer armónico de la escala, es decir, si es la quinta de la fundamental de otro acorde de D9 . Se suman los valores de los primeros nueve armónicos sin contar los que se repiten, ni el peso más significativo de prueba. ψ2 = δρn +5 + δρn +9 + δρn +3 + δρn +7 2 ver definición en el anexo A (2.32) CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 24 Tercera Mayor: Probar si es el quinto armónico. Éste armónico es la tercera de la fundamental del acorde de D9 . Se sigue un procedimiento igual a los anteriores. ψ3 = δρn +8 + δρn +3 + δρn +6 + δρn +10 (2.33) Séptima Menor: Probar si es séptimo armónico, es decir, si es la séptima menor de acorde de novena de dominante correspondiente. ψ4 = δρn +2 + δρn +9 + δρn +6 + δρn +4 (2.34) El número que se le suma a ρn corresponde a la cantidad de semitonos de separación entre ρn y el intervalo buscado para formar el acorde. 6. El valor máximo de estas cuatro combinaciones indica a que acorde pertenece el peso máximo de prueba. Sabiendo que posición ocupa éste se halla su respectiva nota fundamental, que corresponde con nombre de la nota buscada. Se halla cual de las sumas ψn , de los cuatro acordes de D9 es mayor. σ = pos (máx (ψn )) (2.35) Sabiendo el valor máximo se halla su posición σ, que indica que acorde contiene el peso buscado para luego encontrar su fundamental. De tal forma que:    1, δ (ρn )      2, δ (ρ n+5 ) σ=   3, δ (ρn+8 )      4, δ (ρn+2 ) El nombre de la nota buscada se indica por medio de: δ(ρn ) = posición de la fundamental (tónica). δ(ρn+5 ) = posición de la cuarta ascendente (quinta descendente). δ(ρn+8 ) = posición de la tercera mayor (sexta menor ascendente). δ(ρn+2 ) = posición de la séptima menor (segunda mayor ascendente). (2.36) 25 CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH Figura 2.7: Primera etapa del algoritmo SAA. Etapa 2: Hallar el número de octava. 1. Después de hallar el nombre de la nota, se encuentra el valor de su frecuencia en la octava inferior usada y se crean cinco señales (Nn (t)) con éste valor para cada una de las seis octavas [36]. Nn (t) = sin (2 · π · fn · t) (2.37) Para hallar la frecuencia de la octava n de fi . fn = 2(n−1) .fi , n≥1 (2.38) Donde: fi = 110 · √ 12 2i (2.39) Para comenzar la escala cromática en C, sabiendo que las señales se están creando a partir de A, se debe hacer un ajuste ası́:   > 9, ϕ − 9 ϕ=  < 9, ϕ + 3 (2.40) 2. Se multiplica cada una de estas seis señales por la trama de audio (ecuación 2.24). 3. Se halla la energı́a de cada una de las señales resultantes de la multiplicación (ecuación 2.25). CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 4. 26 Se halla el valor de energı́a más significativo de las seis señales resultantes. La posición de este valor corresponde al número de octava. Figura 2.8: Segunda etapa del algoritmo SAA. Etapa 3: Hallar la frecuencia final de la trama actual. Como la variable más importante que se busca es el valor de la frecuencia, y el algoritmo, como se escribió anteriormente da como respuesta el nombre de la nota musical y su octava. Con esta información se puede hallar el valor en frecuencia de la nota musical ası́: fo (Hz) = Fx · 4( 2+a 24 ) · 2(b−1) (2.41) Donde a es el valor numérico en semitonos de la nota en la escala cromática, resultado de la etapa 1. Y b es el número de octava del nombre de la nota hallada, resultado de la etapa 2. La constante Fx , es la frecuencia de un A en una octava grave, se usa el valor de 55 Hz (A1) para conservar la afinación estándar. 2.2. 2.2.1. Algoritmo de estimación en el dominio de la frecuencia Harmonic Product Spectrum (HPS) Una señal acústica esta compuesta por una serie de picos con componentes armónicas múltiplos enteros de la frecuencia fundamental; entonces si se comprime el espectro en un factor n, el pico n del espectro comprimido se alinea con el pico de la frecuencia fundamental del espectro original, es decir, el primer pico en el espectro original coincide con el segundo pico, si el espectro se comprime en un factor de dos, el cual coincide con el tercer pico en el espectro comprimido por un factor de tres, y ası́ sucesivamente [2]. CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 27 Cuando todos los espectros comprimidos y el espectro original se multiplican, el espectro resultante tendrá un pico máximo en la frecuencia fundamental [11]. Figura 2.9: Representación gráfica del algoritmo HPS Por lo anterior se concluye que el algoritmo HPS mide la máxima coincidencia de los armónicos para cada trama spectral X(ω). Para aplicar el producto de los armonicos Y (ω) se usa [11]: Y (ω) = N Y r=1 |X (ωr)| (2.42) Donde N es el número de armónicos empleados. El pico máximo en la frecuencia fundamental del espectro resultante se obtiene por [11]: ∧ Y = máx {Y (ωi )} (2.43) ωi Figura 2.10: Diagrama en bloques del algoritmo HPS Para hallar el valor en Hz de la frecuencia fundamental, se debe hacer una conversión de la forma: fo (Hz ) =  i NFFT  · fs (2.44) CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 28 Donde i es la posición del pico máximo hallado, fs es la frecuencia de muestreo y N F F T es el número de puntos usado en la FFT. Un problema común de este algoritmo son los errores de octava o errores de doble-pitch y para corregirlos se debe hacer un post-proceso. Una solución que se plantea en [11], es escoger el pico de la octava más baja como el pitch de la trama actual, SI la amplitud del segundo pico es aproximadamente la mitad del pico máximo Y si la razón de amplitudes supera un umbral (0.2 para 5 armónicos). Pero esta forma de corrección propuesta debe ser modificada para que la detección del segundo pico no coincida con los bordes del pico máximo. Entonces se halla un pico en el ±20 % del pico máximo y separado del pico inicial a una distancia entre 0.4 y 0.6. Se toma éste como nuevo pico fundamental corregido, si la razón de amplitudes es mayor a 0.2. 2.2.2. Maximum Likelihood (ML) Este algoritmo busca en un conjunto de espectros ideales predefinidos, el que mayor similitud tenga con el espectro de la trama de análisis. Estos espectros ideales están conformados por un tren de pulsos [11] que se pueden forman con ondas cosenos, cuyas frecuencias ω, son las frecuencias de las notas musicales de la escala cromática (sistema de afinación usado por defecto) para el número de octavas requerido. Si el error E(ω) de la diferencia entre estos dos espectros es mı́nimo, significa que el espectro de prueba posee gran similitud con la trama en cuestión y su frecuencia que es conocida de antemano, se asignará como el valor de la frecuencia fundamental de la trama de análisis actual. Como se indica en la ecuación 2.45 [11]. E(ω) = kY − Yω k2 = kY k2 + kYω k2 − 2Y YωT (2.45) Donde Y es el espectro de la trama actual y Yω es el espectro de prueba con frecuencia localizada en ω. Dado que el termino kY k2 es constante y kYω k2 también permanece constante para todas las frecuencias ω de interés, el termino kY − Yω k2 (error entre Y y Yω ) se hace ∧ mı́nimo cuando el producto Y de los dos espectros es máximo [11]:  ∧ T Y = mı́n {E(ω)} = máx Y Yω ω ω (2.46) Se asigna como valor de pitch, la frecuencia ω de la señal que tenga el producto máximo con la ventana de análisis. La frecuencia ω, que es previamente conocida, corresponde a la CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 29 frecuencia de la nota musical buscada dentro del sistema especificado λ. Figura 2.11: Representación gráfica del algoritmo ML Estas señales ideales de prueba se crean en el dominio del tiempo y después de convolucionar con la señal ventana, su espectro se multiplica con el espectro de la trama de entrada [11]. Figura 2.12: Diagrama en bloques del algoritmo ML Creación de las señales musicales de prueba: Partiendo de la frecuencia mı́nima f1 y la frecuencia máxima f2 necesarias, se halla el número de notas (tren de pulsos). Además para hacer una generalización del sistema usado y lograr mayor precisión en el valor de la frecuencia, se debe tener en cuenta el tipo de sistema de afinación usado, según el factor λ mostrado en la tabla 2.1. Sistema λ Escala cromática 1/ 2 Tercios de tono 1/ 3 Cuartos de tono 1/ 4 Sextos de tono 1/ 6 Eneavos de tono 1/ n Tabla 2.1: Valores de λ para el sistema de afinación usado en ML. Para hallar las frecuencias de las notas musicales fi , partiendo de la frecuencia inicial f0 y generalizando con el sistema de afinación especificado (factor λ), se emplea la ecuación de Chladni (ec. 2.47) en el rango de una octava: λ fi = f0 · 2( 6 )·i (2.47) 30 CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH Si se necesita usar más de doce frecuencias de prueba, no se puede usar la ecuación de Chladni 2.20. Porque cuando se van a hallar las frecuencias de las notas superiores a 6 λ (más de una octava), el valor del factor de la progresión geométrica cambia porque para estos casos el numerador del exponente de 2 es mayor al denominador; modificando los valores de las frecuencias de las notas siguientes. Por tal razón se debe hacer una corrección a dicha ecuación ası́: i fi+1 = f1 · x( 6·k )·λ , i = 1, 2, 3...N (2.48) Donde x = 2k y k es igual al número de octavas que se usan, este debe ser superior al número de notas N . Para hallar el número k de octavas entre dos frecuencias f1 y f2 , siendo f2 > f1 se emplea la ecuación 2.49 [14]: k= Logf2 − Logf1 Log2 (2.49) Y el número de notas entre dos frecuencias teniendo en cuenta el sistema de afinación musical usado (factor λ), se halla con:   log ff 12 √  N= 6 λ log 2 (2.50) En consecuencia la señales musicales Sn (t) se crean a partir de: Sn (t) = N X n=1  fi cos 2 · π · ·t·h fs  (2.51) Donde h es el número de armónicos empleados, por lo general 4. La ventaja de tener una respuesta de frecuencia exacta debido a la asignación de la frecuencia de prueba preestablecida ω, es aprovechada para hallar el nombre y el número de octava de la nota musical de la frecuencia de salida. Para la incorporación de esta nueva función se usa el formato MIDI (Musical Instrument Digital Interface), que discretiza las frecuencias de las notas musicales en el rango de 0 - 127, donde C0 = 0 y G9 = 127. Se convierte el valor de la frecuencia de salida, a su correspondiente valor en el formato MIDI (NM IDI ): NM IDI = 69 + 12 · log2  fo 12  (2.52) CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 31 Se halla el número de octava Nv : Nv = 8 −  131 − NM IDI 12  (2.53) Se halla la posición de la nota en la escala cromática (C = 0 - B = 11): N ota = NM IDI − 12 · (Nv + 2) (2.54) Sabiendo la posición de la nota en la escala cromática, fácilmente se determina su nombre. Este procedimiento se realiza únicamente para el sistema cromático (factor λ = 12 ), porque en otro sistema los nombres de las notas son más de doce y además no son exactamente iguales. 2.2.3. Multiplicidad de armónicos Con las frecuencias halladas para los primeros n armónicos del espectro de la trama de análisis, se puede hacer una estimación de la frecuencia fundamental [23] si se halla el promedio de la diferencia de los máximos locales de los n − 1 armónicos. Como lo indica la ecuación 2.55: fo = n−2 P i=0 f(n−i) − f(n−1)−i n−i (2.55) Donde fn es un vector que contiene las frecuencias de los n máximos de la trama de análisis actual. Figura 2.13: Diagrama en bloques del algoritmo MA 2.3. 2.3.1. Otras funciones Segmentación Es necesario en el proceso de análisis digital de señales, diferenciar las tramas de la señal que contiene información de las que no contienen información, es decir, se debe saber cuales son 32 CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH las tramas sonoras y cuales no. Se realizar un algoritmo de segmentación para detectar el inicio y el fin de cada palabra (V-UV). En cuanto a las señales de voz cantada, la segmentación se realiza a las frases musicales que incluyen secuencias de notas. El algoritmo para realizar esta tarea se basa en la energı́a y la densidad de cruces por cero de la señal ZCR (Zero Cross Rate) [40]. La energı́a E(n), de la señal X(n), se define como [4]: E (n) = N X n=1 |X (n)|2 (2.56) La densidad de cruces por cero indica el número de veces que la señal pasa por eje x, para determinar esta cantidad se cuentan los cambios de signo ascendentes y descendentes de la señal [4]. Aproximadamente corresponde a la frecuencia de mayor componente espectral [16]. N 1 X |sgn (X(n)) − sgn (X(n − 1))| ZCR(n) = N (2.57) n=1 Teniendo presente que la energı́a de la señal y la densidad de cruces por cero es mayor en la tramas sonoras que en las sordas. Se realiza un criterio de decisión basado en un umbral, el cual al ser superado indica el comienzo de una trama sonora, y el fin de sonoridad se determina cuando la energı́a y la ZCR de la tramas de análisis, son inferiores al umbral. Para hallar el umbral Ue , se tiene en cuenta la media µ y la desviación estándar σ de la trama actual de análisis: Ue = µ + 3 · σ 2.3.2. (2.58) Contorno La representación gráfica de la evolución del pitch se obtiene hallando un estimado de la frecuencia fundamental para cada una de las tramas de voz obtenidas, lográndose una representación de tramas vs frecuencia. Esta representación no proporciona información directa a cerca del tiempo de duración de cada frecuencia estimada. El contorno (pitch vs tiempo) posee más información de la estimación del pitch en señales de voz hablada y mucho más en señales de voz cantada; dado que la música se desarrolla a lo largo de la variable tiempo. La gráfica del contorno se obtiene haciendo una interpolación lineal o polinomial de alto orden [20] sobre los puntos del pitch obtenidos. La graficación puede ser en frecuencia lineal 33 CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH o logarı́tmica. Para realizar el contorno solo basta con hacer un cambio de variable en el eje de las abscisas, convirtiendo el número de muestras a la variable tiempo. Es indispensable conocer la frecuencia de muestreo debido a que el tiempo total (ttotal ) que dura una señal se calcula de la siguiente forma [4]: ttotal = V fs (2.59) Donde fs , es la frecuencia de muestreo y V el número de ventanas que caben en la señal. 2.3.3. Filtro de mediana Tramas consecutivas no siempre generan igual valor de pitch, creándose en la gráfica de la evolución de la frecuencia fundamental picos esporádicos que no son verdaderos valores de pitch sino errores transitorios. La solución que se plantea para suavizar la señal y eliminar los picos es aplicar un filtro de mediana de orden 5. Si se define L como la longitud del vector de entrada a filtrar, entonces el filtro de mediana de orden n, halla la mediana de L subconjuntos de n elementos seleccionados desde el primero hasta L − (n − 1). Previamente se debe hacer un ajuste añadiendo un determinado número de ceros al inicio y al final del vector de entrada, para que el primero y el último elemento del vector no sean excluidos de la operación. Si el orden del filtro es un número par, el filtro halla la media aritmética de los números  centrales [37, 26], los cuales se encuentran en la posición n2 y n2 + 1 del subconjunto actual. El número de ceros a la izquierda y a la derecha del vector de entrada para que el primer  elemento y el último se tengan en cuenta es n2 y n2 − 1 respectivamente. En cambio, si n es impar, el número de ceros a la izquierda y a la derecha para que el primero y el ultimo elemento sean el único número central del conjunto de análisis, y por consiguiente la respectiva mediana buscada es (n−1) 2 . El vector de salida tendrá el mismo tamaño del vector de entrada, lo que confirma que el número de subgrupos de análisis es igual a la longitud del vector de entrada [26]. Capı́tulo 3 Pruebas y Resultados 3.1. Base de datos Se usaron dos tipos de bases de datos de señales musicales, una de tipo instrumental y la otra de voz cantada. También se usó la base de datos de vocales sostenida propiedad de la Universidad Nacional de Colombia para realizar una prueba de hipótesis estadı́stica, dado que aún no se cuenta con una base de datos de señales de voz cantada apropiada para este tipo de pruebas. 3.1.1. Señales musicales de prueba En el proceso de implementación, corrección y edición de los diferentes algoritmos se usaron las señales de las notas musicales de una trompeta sintetizada por un teclado marca Yamaha PSR-620 en el rango de 5 octavas, desde el C2 = 65.41 Hz hasta C7 = 2096 Hz y de forma sostenida durante aproximadamente 2 segundos. El uso de estas señales de prueba facilitó el trabajo de implementación y corrección de los algoritmos, porque la frecuencia fundamental de cada una de éstas es conocida con anterioridad (ver tabla A.2 en los anexos). Además se tomaron muestras de voz para seis cantantes cubriendo todo el registro necesario. 3.1.2. Caracterı́sticas de las muestras Las muestras obtenidas por medio del software Mirla, están compuestas por una escala mayor y su respectivo arpegio, cuya tonalidad depende de la tesitura de cada cantante. En conjunto forman el acorde de C Mayor. Para la escala y el arpegio mayor, se pidió al cantante 34 35 CAPÍTULO 3. PRUEBAS Y RESULTADOS que interpretara lo pedido de tres formas diferentes, tomando tres muestras para cada una de las formas: en piano, en f orte, y crescendo ascendente - decrescendo descendente. Además se grabaron los intervalos diatónicos de la escala de forma separada y se concluyó cada sesión con el fragmento de una obra musical a selección del cantante dependiendo del gusto y la capacidad. El contenido de las muestras, se resume en tabla 3.1. Registro Escala y Arpegio Intervalos Obra (Fragmento) Autor Soprano E Mayor Diatónicos Nel cor più non mi sento G. Paisiello Mezzo-soprano C Mayor Diatónicos Ejercicio de calentamiento ... Contralto G Mayor Diat. y Cromáticos Réquiem en Dm K.626 (Introito) Mozart Tenor E Mayor Diat. y Cromáticos Bella prova e d’alma forte Nicola Vaccaj Barı́tono C Mayor Diat. y Cromáticos Opera Aida Giuseppe Verdi Diatónicos a Beethoven Bajo E Mayor Motivo 5 Sinfonia Tabla 3.1: Caracterı́sticas musicales de las muestras de canto. Las muestras se tomaron con un micrófono Shure SM58 dinámico unidireccional especial para cantantes. Con filtro esférico para eliminar los ruidos del aliento, los ruidos del viento y el seseo. Y dispersion polar de cardiode para aislar la fuente sonora principal y reducir ruidos de fondo. La distancia entre el cantante y el micrófono es de aproximadamente 10-15 cms. Las caracterı́sticas de los archivos de audio recolectadas son las siguientes: Formato: *.wav Frecuencia de muestreo: 22.050 Hz Bits por muestra: 16 Bits. Canales: 1 canal monofónico. 3.2. 3.2.1. Resultados de la estimación del pitch Segmentación En el proceso de segmentación se uso la energı́a de la señal y la densidad de cruces por cero, pero esta última función no produjo resultados satisfactorios y representativos de las tramas sordas, dando lugar a su omisión y encontrándose que con el uso de un umbral dependiente de la energı́a de la señal es suficiente. CAPÍTULO 3. PRUEBAS Y RESULTADOS 36 En señales de voz hablada se segmenta con el fin de economizar tiempo computacional al no tener que procesar información superflua, adoptándose inicialmente esta idea en la segmentación de señales de voz cantada, los resultados demostraron que las tramas sordas son parte importante en la música; porque representan silencios musicales necesarios en la obra. Para evitar excluir los silencios y asegurar que no afecten el análisis por la presencia de ruido que estos conllevan, se convirtieron las tramas sordas en ceros; depurando de esta forma el ruido para crear una señal semejante a la original. Luego con la señal depurada el algoritmo de estimación es obligado a dar el valor de cero a la frecuencia cuando encuentra tramas con valores consecutivos de ceros. Sin embargo no todos los silencios son necesarios, ya que solo una parte de estos situados al principio y al final de la señal de voz cantada hacen parte de la melodı́a, encontrándose el problema de tener que discriminar cual de estos es realmente importante. La primera parte de un frase musical (prótasis), contiene silencios cuando es protética (anacrúsica) o procataléctica (acéfala), y no es necesario que la última parte (apódosis), sea ı́ctica o postı́ctica para termina con silencios en el ultimo compás 1 . Para efectos del presente trabajo, se utilizó la solución sencilla de dejar únicamente silencios de 1 segundo al principio y al final; suponiendo que hacen parte del compás 2 . Figura 3.1: Melodı́a cantada por una mezzo-soprano 3.2.2. Resultados con señales musicales de prueba Para la implementación de los diferentes algoritmos, se uso la herramienta Matlab 6. Esta herramienta permite compilar en un lenguaje de programación simulado. Las gráficas de los resultados con estas señales son muy aproximadas y constantes porque la fuente sonora es de una afinación muy precisa. 1 2 ver definiciones en el anexo A ver observación 2 pag.48 CAPÍTULO 3. PRUEBAS Y RESULTADOS 37 Figura 3.2: Segmentación para una señal de voz cantada Estimación del pitch en el dominio del tiempo Los resultados de la estimación de la frecuencia fundamental en el dominio del tiempo de los algoritmos AUTOC, FAEP, Cepstrum, SIFT y SAA; se muestras en las figuras 3.3 - 3.7 respectivamente. Figura 3.3: Resultado algoritmo AUTOC para A5 = 880 Hz El algoritmo SIFT muestra como resultado el valor del pitch en la parte superior de la figura 3.6 y el vector binario del algoritmo de segmentación implı́cito en la parte inferior de la misma. Varios autores coinciden en que SIFT es bastante bueno para la estimación de la frecuencia fundamental de la voz hablada [18]. Se observa que el resultado del algoritmo para la detección del tono (SAA), es un vector discreto que indica el número de nota y el número de octava. Estos valores discretos sirven CAPÍTULO 3. PRUEBAS Y RESULTADOS 38 Figura 3.4: Resultado algoritmo FAEP para A3 = 220 Hz Figura 3.5: Resultado algoritmo Cepstrum C6 = 1046 Hz Figura 3.6: Contorno del pitch de SIFT para D3 = 146,83 Hz como entradas a la ecuación 2.41, para obtener el valor de la frecuencia. En la figura 3.7, se aprecia el resultado del algoritmo SAA para un E4. CAPÍTULO 3. PRUEBAS Y RESULTADOS 39 Figura 3.7: Resultado algoritmo SAA para E4 = 329,63 Hz Estimación del pitch en el dominio de la frecuencia Los resultados de la estimación de la frecuencia fundamental en el dominio de la frecuencia, para los algoritmos HPS, ML y MA; se muestras en las figuras 3.8 - 3.10 respectivamente. Figura 3.8: Resultado algoritmo HPS para G♯2 = 103,83 El resultado del algoritmo ML, es exactamente al valor de la frecuencia esperada porque se asigna la frecuencia de prueba de la la señal que posee mayor similitud con la trama de audio. Además la fuente sonora de entrada, tiene una afinación muy aproximada, por provenir de un dispositivo electrónico (indudablemente con un pequeño margen de error). La respuesta del nombre de la nota musical también es el la correcta: C7. El algoritmo multiplicidad de armónicos tiene buenos resultados a pesar de su sencillez, pero hay que reiterar que los resultados son mejores para altas frecuencias; como la frecuencia de entrada de B5 igual a 987, 77Hz, que se puede observar en la figura 3.10. 40 CAPÍTULO 3. PRUEBAS Y RESULTADOS Figura 3.9: Resultado algoritmo ML para C7 = 2093 Hz Figura 3.10: Resultado algoritmo MA para B5 = 987,77 Hz 3.2.3. Resultados con señales de voz cantada El resultado de la estimación del pitch con el algoritmo ML para la sección de la contralto interpretando la primera frase del introito del Réquiem en D menor K.626 de Mozart, se muestra en la figura 3.11 y su respectiva partitura 3 en la figura 3.12. Para constatar los resultados obtenidos en la figura 3.11, en la tabla 3.2 se encuentran los valores de frecuencias de las notas mostradas en la partitura de la figura 3.12. Se demuestra que los resultados son satisfactorios, sin embargo la frecuencia de B♭3 no concuerda con el valor esperado; esto se debe a una leve desafinacion de la cantante la cual se aproxima más a B♮3. Y las oscilaciones en el A3 se deben a un vibrato natural de semitono descendente, es decir, entre A3 y G♯3. En la última columna de la tabla se muestra la frecuencia de B♮3 y de G♯3 4 . 3 4 El signo al final del fragmento significa que la obra continua. Similar a los puntos suspensivos. En el anexo D se muestra la estimación con otros algoritmos y con ML configurado para diferentes microtonalidades 41 CAPÍTULO 3. PRUEBAS Y RESULTADOS Figura 3.11: Estimación del pitch con el algoritmo ML para la primera frase del Réquiem en D menor de Mozart interpretada por una contralto. Figura 3.12: Partitura del Réquiem de Mozart para contralto. D4 C♯4 C♮4 B♭3 E4 A3 F4 F♯4 B♮3 G♯3 293, 66 277, 18 261, 62 233, 08 329, 63 220 349, 23 369, 99 246, 94 207, 65 Tabla 3.2: Frecuencias de las notas usadas en la primera frase del Réquiem de Mozart. Los resultados de la estimación del pitch para un cantante tenor interpretando el arpegio de E mayor ascendente y descendente usando el algoritmo SIFT, se muestra en la figura 3.13. La partitura del arpegio de E mayor para este registro escrita en clave de DO, se observa en la figura 3.14 y las respectivas frecuencias de las notas en la tabla 3.3. E3 G♯3 B3 E4 164, 81 207, 65 246, 94 329, 63 Tabla 3.3: Frecuencias del Arpegio de E mayor en la tercera octava En la figura 3.15, se muestran los resultados de la estimación del pitch con el algoritmo FAEP para la escala de E mayor interpretada por una soprano. La notación musical de la escala CAPÍTULO 3. PRUEBAS Y RESULTADOS 42 Figura 3.13: Estimación del pitch con SIFT para el arpegio de E mayor interpretado por un tenor. Figura 3.14: Partitura del arpegio de E mayor. en el pentagrama y sus valores de frecuencia se muestran en la figura 3.16 y la tabla 3.4 respectivamente. Figura 3.15: Estimación del pitch con FAEP para la escala en E mayor interpretada por una soprano. 43 CAPÍTULO 3. PRUEBAS Y RESULTADOS Figura 3.16: Partitura de la escala de E mayor. E4 F♯4 G♯4 A4 B4 C♯5 D♯5 E5 329, 63 369, 99 415, 30 440 493, 88 554, 36 622, 25 659, 26 Tabla 3.4: Frecuencias de las notas de la escala de E mayor. 3.3. 3.3.1. Análisis Estadı́stico Prueba de hipótesis aplicada a la estimación del pitch Encontrando en promedio una respuesta aparentemente óptima según las señales de prueba, se pasó a determinar de una forma objetiva y cientı́fica el algoritmo que mejor desempeño proporciona tomando como referencia los resultados obtenidos con el software PRAAT. Este software es un analizador de voz de libre distribución del Institute of Phonetic Sciences de la universidad de Amsterdam. Las señales de prueba usadas son las contenidas en la base de datos Mirla propiedad de la UN. La base de datos de prueba consta de 455 voces, divididas en cinco grupo correspondientes a las cinco vocales del alfabeto español y cada grupo contiene 91 muestras de la vocal en forma sostenida. Con el valor medio de la frecuencia fundamental para cada uno de los algoritmos incluyendo el algoritmo PRAAT y el Childers [8], y excluyendo el algoritmo SAA y ML debido a que sus respuestas son discretas y además tienen como requisito una fuente musical de entrada exacta. Se halló cada una de las distribuciones de probabilidad acumulativa (FDA) de las poblaciones obtenidas, con el fin de aplicar el test estadı́stico de Kolmogorov-Smirnov, que permite comparar dos distribuciones de probabilidad de datos continuos univariados. Como hipótesis nula H0 , se tiene: H0 = Las muestras tiene igual distribución de probabilidad. En la figura 3.17, solo se muestran las distribuciones de probabilidad acumulativa para los algoritmos que más se asemejan a la distribución acumulativa de referencia. 44 CAPÍTULO 3. PRUEBAS Y RESULTADOS Figura 3.17: Gráfica de las funciones de distribución acumulativas. Para los niveles de significación α más comúnmente usados 0.05 y 0.01, se obtienen los resultados mostrados en la tabla 3.5. Método α=0.05 α=0.01 AUTOC Rechaza No rechaza Cepstrum Rechaza Rechaza FAEP Rechaza Rechaza SIFT Rechaza No rechaza HPS Rechaza Rechaza MA Rechaza Rechaza Childers Rechaza Rechaza Tabla 3.5: Resultados del test de Kolmogorov-Smirnov 3.3.2. Prueba de hipótesis para la estimación con ruido Para determinar el nivel de sensibilidad de cada uno de los algoritmos de estimación del pitch ante ruido ambiente de fondo, se obtuvieron muestras de valores de pitch para las notas musicales de prueba con sonido de trompeta, en el rango de 5 octavas (61 notas en forma 45 CAPÍTULO 3. PRUEBAS Y RESULTADOS cromática). Las muestras se obtuvieron sin ruido y con ruido gaussiano aditivo para un SNR de 20dB, con el cual se simula el ruido ambiente de fondo. Se aplico una prueba de hipótesis con el estadı́stico t-student, bajo el nivel de significación de 0.05 y 0.01. La hipótesis nula planteada Ho es: H0 = µ (x1 − x2 ) = 0 Donde x1 es el conjunto de datos de los valores de pitch sin ruido y x2 los valores de pitch con ruido aditivo de 20 dB. El número n de observaciones es igual a 61 para todos los algoritmos, excepto para SIFT con el cual únicamente se obtuvieron 36 muestras, porque su rango dinámico de operación es de 3 octava (36 notas). Los resultados obtenidos con la prueba de hipótesis se pueden apreciar en la tabla 3.6. Algoritmo α=0.05 α=0.01 AUTOC No rechaza No Rechaza FAEP No rechaza No Rechaza Cepstrum Rechaza Rechaza SIFT Rechaza No Rechaza SAA No rechaza No Rechaza HPS Rechaza Rechaza ML No Rechaza No Rechaza MA Rechaza No Rechaza Tabla 3.6: Resultados de la prueba de hipótesis para ruido de 20 dB Conclusiones La estimación de la frecuencia fundamental con el algoritmo ML produce muy buenos resultados, siempre y cuando la frecuencia buscada se encuentre en el vector de frecuencias de las señales musicales de prueba. De lo contrario se hace una aproximación a la frecuencia musical más cercana. Por esta razón obviamente es más recomendable realizar la estimación para instrumentos de afinación exacta como el piano, la guitarra...etc; y no para señales de voz cantada porque pueden producir frecuencias de notas musicales no discretas. Se planteó la solución de poner como entrada al algoritmo el sistema de afinación musical usado para dar mayor precisión, pero se incrementa el tiempo de computo. El algoritmo SAA trabaja bien para señales musicales de afinación exacta, pero únicamente para el sistema cromático; sin poderse hacer una generalización de la afinación debido a su misma esencia de operación. Además produce errores esporádicos, en especial en la primera etapa. Se pudo remediar hallando y aplicando la moda a todo el vector, pero esta solución solo es útil cuando se halla una sola frecuencia a la vez; impidiendo que se puedan hallar pitch para secuencias de notas (melodı́a) porque se pierden los valores que menos se repiten por la imposición de la moda. La resolución de los resultados de detección del algoritmo HPS, es tan buena como la cantidad de puntos que sean usados para hallar la FFT, pero es ineludible un post-proceso de corrección de octava. Los algoritmos cepstrum y FAEP tienen buen desempeño. El algoritmo MA a pesar de ser el más sencillo produce buenos resultados, pero son mejores y más exactos cuando se detectan altas frecuencias. Sin embargo, se demuestra estadı́sticamente en la tabla 3.5 y en la figura 3.17, que los algoritmos SIFT y AUTOC son mejores al aceptar la hipótesis nula Ho al nivel de significación de α=0.01. 46 El principio fundamental de SIFT está basado en el modelo del tracto vocal, por tal razón es totalmente apropiado para voces más que para instrumentos musicales. Además posee implı́citamente una función de segmentación. Tiene la desventaja de trabajar únicamente en el rango de (62, 5 − 500 Hz); excluyendo ası́ el análisis para los registros agudos. En el proceso de segmentación de señales de voz cantada se debe evitar eliminar las tramas sordas entre notas, porque éstas corresponden a silencios musicales de la obra que contienen información musical importante. También hay que tener cuidado de no eliminar la totalidad de los silencios iniciales y finales, porque como pueden ser tramas transitorias con ruido, también pueden ser parte indispensable de la melodı́a. Para estar seguro de la función de los silencios de la melodı́a y tomar decisión sobre ellos se plantea realizar un proceso de discriminación más complejo. Al nivel de significación de 0.05, SIFT y MA rechazan la hipótesis nula para la prueba de inmunidad ante el ruido gaussiano aditivo. HPS y Cepstrum no superan la prueba para ninguno de los dos niveles de significación usados. Por lo tanto AUTOC, FAEP, SAA y ML son más resistentes al ruido de fondo. 47 Observaciones Al termino del presente trabajo se hacen las siguientes observaciones que pueden servir como información adicional, o como recomendaciones que surgieron de la experiencia adquirida en la detección y corrección de problemas que se presentaron en el desarrollo del mismo. También se pueden considerar como problemas planteados, o como ideas para futuras investigación en el tema. 1. Se podrı́a pensar apresuradamente que entre más aguda sea la voz mayor es el rango de frecuencia, por consiguiente mayor “ancho de banda” (ver tabla 1.2). Pero este cálculo no es posible y se comete un error de concepto matemático debido a que el valor de frecuencia de las notas musicales provienen de una progresión geométrica con factor 2, por ejemplo, para hallar el valor de frecuencia de alguna de las octavas superior de una nota inicial, se debe elevar 2 el número de veces indicado y multiplicar por la frecuencia inicial. Es decir, es una operación logarı́tmica con base dos y el hecho de sustraer la frecuencia inferior de la frecuencia superior para hallar el “ancho de banda”, implica una incompatibilidad por ser la sustracción una operación lineal. 2. En el proceso de segmentación de señales musicales (frases melódicas), como se escribió en el capitulo 3, existe el problema de tener que hallar la información importante en los silencios iniciales y finales. Una mejora que se propone es la realización de un proceso de discriminación, en el cual se detecte el tempo de la señal, el tipo de compás y los tiempos fuertes (ictus). Luego con esta información, encontrar si el comienzo de la frase es tético, protético o procataléctico. Si el comienzo es protético o procataléctico, se calcula el número de figuras en silencio y su valor en tiempo. De esta forma solo se incluye en el análisis la información de tramas sodas necesarias. 48 3. Las ecuaciones 2.22, 2.26-2.36, 2.40, 2.41, 2.50, 2.55, fueron deducida especialmente por el autor en el desarrollo de este trabajo. La ecuaciones 2.47 y 2.48, son generalizaciones de la ecuación de Chladni; la primera para el sistema de afinación microtonal usado y la segunda para hallar los valores de las frecuencias superiores a una o más octavas. La conceptualización con armonı́a musical del algoritmo SAA y la mejora de obtener a partir de la respuesta en frecuencia de ML el nombre de la nota y su octava, también fueron mejoras que surgieron en el proceso de la realización del mismo. 49 Bibliografı́a [1] Test de kolmogorov-smirnov. www.math-info.univ-paris5.fr/~ycart/emel/cours/ ts/node7.html. [2] R. Alzate. Estimación de contornos del pitch en lı́nea sobre dsp. Tesis de grado, Universidad Nacional de Colombia, Sede Manizales, Colombia, 2003. [3] S. C. Arroyo. Otros contrastes no parametricos. www.uv.es/~carrascs/analDatos/ temas/TEMA71.pdf. [4] G. V. Bernal Bermudez Jesus., Bobadilla Sancho Jesús. Reconocimiento de Voz y Fonética Acústica. Alfaomega Grupo Editor, S.A.de C.V., Madrid, España, 2000. [5] Cardiff and Warwick. Kolmogorov - smirnov test. homepages.which.net/~gk.sherman/ mbaaaaal.htm. [6] A. Celorrio Sánchez. Pruebas de hipótesis no paramétricas de kolmogorov-smirnov para una y dos muestras. www.monografias.com/trabajos11/docima/docima.shtml. [7] M.-D. C.Ferrer. Medición de perturbaciones de frecuencias como indicador de la aspereza de la voz. Memorias II Congreso Latinoamericano de Ingenierı́a Biomédica. CEETI, Facultad de Ingenierı́a Eléctrica, UCLV. La Habana, Cuba., Mayo 23-25 2001. http: //www.hab2001.sld.cu/arrepdf/00123.pdf. [8] D. G. Childers. Speech Processing and Synthesis Toolboxes. John Wiley and Sons, 2000. [9] N. Cobiella. La música y los instrumentos musicales. http://www.educar.org/ inventos/Musica.asp. [10] M. Davy and S. Godsill. Bayesian harmonic models for musical pitch estimation and analysis. November 13 2002. http://www.irccyn.ec-nantes.fr/~davy/papers/Davy_ godsill_TR431.pdf. 50 [11] A. M. C. S. De la Cuadra, Patricio. teractive music. Efficient pitch detection techniques for in- Center For Computer Research In Music And Acoustics. Stan- ford University. http://www.stanford.edu/~pdelac/research/MyPublishedPapers/ icmc_2001-pitch_best.pdf. [12] T. Deolazabal. Acústica Musical y Organologı́a. Editorial Ricordi Americana S.A.E.C., Buenos Aires, Argentina, 1993. [13] H. W. S. Dirk Michaelis, Matthias Fröhlich. Some simulations concerning jitter and shimmer measurement. http://www.physik3.gwdg.de/~micha/aachen98/aachen98. html. [14] B. B. Electrónica. Música Electrónica: Órganos. Editorial Hedı́as. Ltda, Santafé de Bogota, Colombia. [15] Z. M. Faúndez. Tratamiento digital de voz e imagen. Alfaomega grupo editor,S.A. de C.V., Mexico,D.F., 2001. [16] S. Furui. Digital Speech Processing,Synthesis and Recognition. Marcel Dekker,Inc., New York,EU., 1985. [17] E. GEOFFROIS. The multi-lag-window method for robust extended-range f0 determination. [18] M.Ñ. Gold, Ben. Speech And Audio Signal Processing.Processing and Perception of Speech and Music. John Wiley and Sons,Inc., New York,EU., 2000. [19] L. F. Gomez Garcı́a. Ciencia y Técnica del Dominio de la Voz. Editorial Jurı́dica de Colombia, Santafé de Bogota, Colombia, Abril 15 1986. [20] A. A. H. H.-W. Huang, Xuedong. Spoken Language Processing. Prentice Hall PTR, New Jersey,EU., 2001. [21] H. Khamis. Kolmogorov-smirnov test. www.math.wright.edu/.../pages_based_on_ template/kolmogorov_smirnov_test/kolmogorov_smirnov_test.htm. [22] H. LEON VALDES, Hernán y VALDIVIESO. de las cuerdas vocales. yo 2004], p.65-75. Timbre vocálico y esfuerzo Estud. filol.. [online]. 2002, no.37 [citado 05 Ma- http://www.scielo.cl/scielo.php?script=sci_arttext&pid= S0071-17132002003700004&lng=es&nrm=iso. 51 [23] N. R.Ñ. López S, Alexander. Diseño y desarrollo de un sistema interactivo de análisis acústico de voz en manizales. Tesis de grado, Universidad Nacional de Colombia, Sede Manizales, Colombia, 2000. [24] M. Manson. El Estudio del Canto. Técnica de la Voz Hablada y Cantada. Ricordi Americana S.A.E.C., Buenos Aires, Argentina, 1975. [25] D. Markel. The sift algorithm for fundamental frequency estimation. Technical report, Speech Communications Research Laboratory (SCRL)Inc., Santa Barbara,California., 1972. [26] The MathWorks Inc. Ayuda Matlab 5.3.0.10183 (R11). The Lenguage of Technical Computing, January 21 1999. [27] C. B.-A. Mejı́a G, Gloria E. Ciencia y tecnologı́a en el análisis acústico de la voz y del habla. Investigaciones Universidad del Quindio, (No .9):64–73, Noviembre 2000. [28] D. C. Montgomery. Contro Estadı́stico de la Calidad. Grupo Editorial Iberoamérica, 1991. [29] A.Ñuñez. Informática y Electrónica Música. Editorial Paraninfo S.A, Madrid, España, 1992. [30] N.Ñ. I. of Standards and Technology). Kolmogorov-smirnov goodness-of-fit test. www. itl.nist.gov/div898/handbook/eda/section3/eda35g.htm. [31] N.Ñ. I. of Standards and Technology). Kolmogorov smirnov two sample. http://www. itl.nist.gov/div898/software/dataplot/refman1/auxillar/ks2samp.htm. [32] A. Palma. Tratado Completo de Armonı́a. Editorial Ricordi, Buenos Aires, Argentina, 1941. [33] D. D. Pedro. Manual de Formas Musicales. Real Musical, Publicac.Y Ediciones, 1 edition, Enero 1993. [34] P. F. S. Pértegas Dı́az S. La distribución normal. www.fisterra.com/mbe/investiga/ distr_normal/distr_normal2.pdf. [35] M. S. Sadaoki Furui. Advances in Speech Signal Processing. Electrical engineering and electronics, New York, E.U, 1991. 52 [36] C. G. J. L. Serquera Peyro, Jaime. Algoritmo para la detección en tiempo real del tono en señales musicales monofónicas,por separación-acumulación armónica (saa). http: //www.ia.csic.es/Sea/publicaciones/4375cd002.pdf. [37] M. Spiegel R. Serie de compendios Schaum. Teoria y problemas de estadı́stica. McGrawHill, 1978. [38] J. Sunberg. Acústica del canto. Libros de Investigación y Ciencia. Acústica Musical, 1a Edición:72–80, 1989. Barcelona, España. [39] S. Uppgård. Implementation and analysis of pitch tracking algorithms. Master´s thesis, Clavia and KTH S3, Stockholm, Sweden., Dicember 19 2001. [40] B. F. C. Vitola de la rosa, Fernando. Reconocimiento de voz utilizando dtw. Tesis de grado, Universidad Nacional de Colombia, Sede Manizales, Colombia, 1999. [41] D. Wu, Mingyang. Wang. Pitch tracking based on statical anticipation. http://www. cse.ohio-state.edu/~mwu/Public/IJCNNHandOutPaper.pdf. 53 Anexo A Conceptos Musicales A.1. Nomenclatura de la notas musicales Los nombres de las notas musicales reciben varias abreviaturas para referirse fácilmente a ellas. En la tabla A.1, se muestran las nomenclaturas usadas en diferentes escuelas musicales: Escuela DO RE MI FA SOL LA SI bemol SI Española - Italiana Do Re Mi Fa Sol La – Si Francesa Ut Re Mi Fa Sol La – Si Inglesa C D E F G A – B Alemana C D E F G A B H Tabla A.1: Cifrado de las notas musicales A.2. Frecuencias de las notas musicales La música tradicional clásica o popular occidental usa la escala temperada de 12 notas por octava, es decir, con 12 divisiones exactas llamadas semitonos para formar la escala cromática. A cada nota musical le corresponde una frecuencia según la tabla A.2. A.2.1. El pentagrama musical La correspondencia de cada nota musical en el pentagrama, se muestra en la figura A.1. Donde el sı́mbolo (♯) se llama sostenido y significa que a la nota que lo precede se le incrementa un semitono. El sı́mbolo (♭) se llama bemol y tiene el efecto contrario al sostenido. Una nota puede tener igual frecuencia pero diferente nombre, lo que se denomina como enarmónico, 54 55 ANEXO A. CONCEPTOS MUSICALES Nombre Orden de Octava Nota 1 2 3 4 (Central) 5 6 7 8 9 C 32, 70 65, 41 130, 81 261, 62 523, 25 1046, 50 2093 4186 8372, 02 C♯ 34, 65 69, 30 138, 59 277, 18 554, 36 1108, 73 2217, 46 4434, 92 D 36, 71 73, 42 146, 83 293, 66 587, 33 1174, 66 2349, 32 4698, 64 D♯ 38, 89 77, 78 155, 56 311, 13 622, 25 1244, 51 2489, 01 4978, 03 E 41, 20 82, 41 164, 81 329, 63 659, 26 1318, 51 2637, 02 5274, 04 F 43, 65 87, 31 174, 61 349, 23 698, 46 1396, 91 2793, 82 5587, 65 F♯ 46, 25 92, 50 185 369, 99 739, 99 1479, 98 2959, 95 5919, 90 G 49 98 196 392 783, 99 1661, 22 3135, 96 6270, 93 G♯ 51, 91 103, 83 207, 65 415, 30 830, 61 1661, 22 3322, 44 6644, 87 A 55 110 220 440 880 1760 3520 7040 A♯ 58, 27 116, 54 233, 08 466, 16 932, 33 1864, 65 3729, 31 7458, 62 B 61, 74 123, 47 246, 94 493, 88 987, 77 1975, 53 3951, 06 7902, 13 Tabla A.2: Frecuencia de las notas musicales del sistema temperado por ejemplo, Re sostenido (D♯) es el enarmónico de mi bemol (E♭) y viceversa. Las notas musicales se representan en el pentagrama como si éste fuera un “plano cartesiano”, donde el eje horizontal es el tiempo y el vertical la frecuencia. Figura A.1: Pentagrama de la escala cromática. A.3. Efectos usados en el canto Para dar mayor expresión al canto se usan algunos efectos, éstos tienen la función de alterar de forma consciente y momentánea algún atributo de la señal como: la frecuencia, la amplitud ANEXO A. CONCEPTOS MUSICALES 56 o el tiempo de duración. El uso de estos efectos en la voz cantada hace más difı́cil la detección del pitch. Vibrato: Desplazamiento rápido alrededor de una nota [24, 19]. Corresponde a una modulación FM a baja frecuencia [14]. Apoyatura: Nota musical de corta duración que se antepone a una nota real. Se ejecuta apoyando dicho sonido con una excitación nerviosa en la criba [19]. Grupeto: Ejecución de notas rápidas alrededor de la nota real sin perder su valor y manteniendo el ritmo [19]. Glissando: Deslizamiento de forma continua entre dos o más notas [19]. Picado: Ejecución corta y golpeada de una nota musical [19]. Rubato: Aceleración y desaceleración de tiempo musical en un fragmento determinado de la obra [19]. Trino: Sucesión continua de dos notas rápidamente. Pueden ser de semitono, de tono o de tercera [19]. Es el efecto más difı́cil de ejecutar y se efectúa en la garganta provocando una sacudida repetida de la laringe [24]. A.4. Definición de algunos términos musicales Crescendo: Variación dinámica del sonido en un fragmento musical de forma gradual desde suave a fuerte, se indica con (cresc) y la forma inversa se denomina decrescendo (decres). Piano: Indicación de expresión suave en el nivel de volumen de un fragmento de la obra musical. Forte: Indicación de expresión fuerte en el nivel de volumen de un fragmento de la obra musical. Cromática: Escala musical compuesta de 12 notas por octava con separaciones equidistantes de semitono. ANEXO A. CONCEPTOS MUSICALES 57 Acorde de dominante: Union simultanea de la quinta, la séptima y la segunda nota de la escala musical. Cuando incluye la cuarta nota de la escala se llama acorde de dominante con séptima y cuando contiene la sexta, acorde de dominante con novena. Motivo: Elemento primario y fundamental de una composición musical. La union de dos o más motivos componen la semifrase [33]. Frase: Unión de dos o más semifrases. Por lo general es de ocho compases [33]. Prótasis: Semifrase que se encuentra en los primeros cuatro compases de la frase musical [32]. Apódosis: Semifrase que se encuentra en los últimos cuatro compases de la frase musical [32]. Ictus: Primer tiempo fuerte del compás [33]. A.5. Clasificación de los comienzos y finales de la frase musical Clasificación según el comienzo: Según su posición con respecto al ictus inicial, se tienen: Tético: Cuando el comienzo de la frase se encuentra en el primer ictus [33]. Protético: Cuando la frase comienza antes del primer ictus. El conjunto de notas anteriores al ictus se denomina anacrusa. También recibe el nombre de anacrúsico [32, 33]. Procataléctico: El comienzo se halla inmediatamente después del ictus. Este comienzo también es llamado acéfalo [32, 33]. Clasificación según el final: Según su posición con respecto al ictus final, la apódosis se puede clasificar ası́: Íctico: Cuando la frase termina exactamente con en el ictus. Generalmente se le conoce como terminación masculina y puede o no dar lugar a silencios [32, 33]. Postı́ctico: La terminación se da después del ictus. Generalmente se le conoce como terminación femenina y puede o no dar lugar a silencios [32, 33]. Anexo B Test de Kolmogorov-Smirnov B.1. Introducción En la década de 1930 los matemáticos rusos Andrei M. Kolmogorov y Vladimir I. Smirnov, desarrollaron un test estadı́stico de ajuste de bondad [21] para muestras continuas que permite determinar si una muestra empı́rica dada proviene de una distribución teórica especifica [6, 3]. La distribución acumulada relativa teórica generalmente es la distribución normal [34]; aunque también pueden ser utilizada la distribución de Weibull, la exponencial o log-normal [30]. Pero en muchos casos es necesarios probar como referencia una distribución desconocida cuando se tienen dos muestras independientes [5, 6]. El test de Kolmogorov-Smirnov (K-S) es no-paramétrico [1], entonces no es necesario hacer suposiciones de la normalidad de las muestras, ni de la homogeneidad de las varianzas. Además esta caracterı́stica permite que no sea necesario el conocimiento del tipo de variable, ni la independencia de los datos. B.2. Ajuste de bondad del test de Kolmogorov-Smirnov Para determinar si razonablemente se puede aceptar que las mediciones muéstrales provienen de una población que tiene una distribución teórica dada, se compara la distribución de frecuencia acumulativa de la distribución teórica con la distribución de frecuencia acumulativa observada. Se determina el punto donde estas dos distribuciones muestran la mayor divergencia [6]. 58 59 ANEXO B. TEST DE KOLMOGOROV-SMIRNOV La distribución relativa acumulada de las muestras observadas F1 (x) y la distribución relativa acumulada de la muestra teórica F2 (x), se hallan ordenando los datos de las muestras observadas f1 (x) y de las muestras teóricas f2 (x), para organizarlas por clases. Para obtener la tabla B.1, teniendo en cuenta que [30, 31]: Ft (n) = n P f (xi ) i=1 , N i≤n (B.1) Donde t es el número del conjunto de las muestras, N es el tamaño de los datos y k es el número de clases. Esta función incrementa por pasos de 1/N el valor de cada punto de los datos [30, 31]. La maxima distancia entre las dos distribuciones de frecuencias relativas acumuladas se halla con [3]: D1 = máx |F1 (x) − F2 (x)| (B.2) D2 = máx |F2 (x) − F1 (x)| (B.3) D = máx{D1 , D2 } (B.4) En la tabla B.1, se muestran las dos distribuciones y su diferencia. Donde el primer ı́ndice corresponde al número de la clase y el segundo al orden de la muestra. Clases F1 (x) F2 (x) F1 (x) − F2 (x) 1 F1 (1) F2 (2) F1 (1) − F2 (2) 2 F1 (2) F2 (2) F1 (2) − F2 (2) ... ... ... ... k F1 (k) F2 (k) F1 (k) − F2 (k) Tabla B.1: Frecuencias relativas acumuladas para el test de Kolmogorov-Smirnov B.3. Hipótesis nula Según el nivel de significación α, el tamaño de las muestras N y la tabla de ajuste de bondad del test de K-S; se rechaza la hipótesis nula H0 , si D ≥ Dtabla con el nivel de confiabilidad asumido [3, 5, 34]. La hipótesis nula y la hipótesis alternativa para este test son las siguientes 60 ANEXO B. TEST DE KOLMOGOROV-SMIRNOV [30, 6]: H0 = Las muestras provienen de la misma distribución. H1 = Las muestras proviene de diferentes distribuciones. Cuando no se dispone de las tablas de ajuste de bondad del test K-S, es preferible hallar un valor de umbral p-valor p(k), que depende de la longitud del vector de la población de prueba n1 y el tamaño de la población de referencia n2 :  n= λ = max  √ n1 · n2 n1 + n2  0,11 n + 0,12 + √ n (B.5)  ·D  (B.6) El p-valor p(k), se halla con: p(k) = 2 +∞ X k=1 2 2 (−1)k−1 · e(−2·λ ·k ) (B.7) El nivel de significación α, tiene que ser menor que el p-valor p(k) para que se acepte la hipótesis nula H0 . Si se acepta la hipótesis nula, se concluye que los conjuntos de datos no difieren significativamente y provienen de la misma función de distribución acumulativa. B.4. Ventajas y desventajas del test Ventajas Admite que los tamaños de las muestras no sean iguales [6]. No es necesario conocer el tipo de distribución [30]. No hace suposición acerca de la distribución de los datos. Desventajas Es menos sensible a las observaciones de los extremos y más sensible a los puntos cerca de la mediana [34, 30]. La distribución debe ser completamente especificada estimando los parámetros de los datos [5, 30]. ANEXO B. TEST DE KOLMOGOROV-SMIRNOV 61 Solo se aplica a distribuciones continuas [30]. Tiene muy poca potencia con alta probabilidad de un error de tipo II (no encontrar una diferencia cuando la hay). El test de ajuste de bondad de Anderson-Darling, resuelve las dos primeras limitaciones [30]. Sin embargo solo es disponible para unas pocas distribuciones especificas [34, 1]. El test de Kolmogorov-Smirnov para muestras suficientemente grandes esta distribuido según χ2 (chi-cuadrado) con dos grados de libertad [6, 3]: χ2 = 4D2 (n1 n2 ) n1 + n2 (B.8) El test de Kolmogorov-Smirnov es siempre más potente que su prueba alternativa [6]. El contraste de Kolmogorov-Smirnov para muestras muy pequeñas es más potente que el de la U de Mann-Whitney, pero para muestras de tamaño grande ocurre lo contrario [6]. Anexo C Prueba de hipótesis Intervalo de confianza para la media de una distribución normal con varianza desconocida Se supone que x es una variable aleatoria normal, con media µ y varianza σ 2 , ambas desconocidas. A partir de una muestra aleatoria de n observaciones, se calculan la media muestral x̄ y la varianza muestral S 2 . Entonces, un intervalo de confianza bilateral al 100(1 − α) % para la media verdadera es [28]: s s x̄ − t( α ,n−1) √ ≤ µ ≤ x̄ + t( α ,n−1) √ 2 2 n n (C.1) El termino (1 − α) %, se denomina coeficiente de confianza y t(α/ ,n−1) representa el punto 2 porcentual de la distribución t con n − 1 grados de libertad [28]. La media y la desviación estándar muestrales se calculan a partir de [28]: n 1X x̄ = xi n (C.2) i=1 S= v u u n uP 2 u t i=1 xi −  n P i=1 n−1 62 xi 2 n (C.3) Anexo D Estimación del pitch para diferentes registros D.1. Estimaciones con el algoritmo AUTOC Figura D.1: Estimación del arpegio de E mayor interpretado por un bajo. Figura D.2: Estimación del arpegio de C mayor interpretado por una mezzo-soprano. 63 ANEXO D. ESTIMACIÓN DEL PITCH PARA DIFERENTES REGISTROS 64 Figura D.3: Estimación del arpegio de E mayor interpretado por una soprano. Figura D.4: Estimación de un intervalo de 2a menor interpretado por un barı́tono. D.2. Estimaciones con el algoritmo FAEP En la figura D.5, se muestra la estimación de la frecuencia fundamental de la escala y el arpegio de E mayor, interpretados por una soprano. Figura D.5: Estimación de la escala y el arpegio de E mayor interpretado por una soprano. ANEXO D. ESTIMACIÓN DEL PITCH PARA DIFERENTES REGISTROS D.3. 65 Estimaciones con el algoritmo ML Con el algoritmo ML se estima la frecuencia fundamental para el intervalo de 5a justa (E2 - B2) y 3a mayor (E2 - G♯2), interpretado por un bajo. Los resultados se muestran en las figura D.6. Figura D.6: Estimación con ML para intervalos interpretados por una bajo. D.4. Estimaciones para la primera frase de la obra “Nel cor più non mi sento”. En las figura D.7, se muestra el resultado de la estimación con el algoritmo ML de la primera frase de la obra “Nel cor più non mi sento” de Giovanni Paisiello (1741-1816), interpretada por una soprano, y en la figura D.8, la partitura. Figura D.7: Estimación de la obra “Nel cor più non mi sento” con ML. ANEXO D. ESTIMACIÓN DEL PITCH PARA DIFERENTES REGISTROS 66 Figura D.8: Partitura de la obra “Nel cor più non mi sento”. Figura D.9: Estimación de la obra “Nel cor più non mi sento” con AUTOC y SIFT. D.5. Estimaciones para la primera frase de la obra “Bella prova e d’alma forte”. En la figura D.10 y D.11, se muestran respectivamente, el resultado de la estimación con el algoritmo SIFT y la partitura de la primera frase de la obra “Bella prova e d’alma forte” de Nicola Vaccaj (1790-1848), interpretada por un tenor. Figura D.10: Estimación de la obra “Bella prova e d’alma forte” con SIFT. ANEXO D. ESTIMACIÓN DEL PITCH PARA DIFERENTES REGISTROS 67 Figura D.11: Partitura de la obra “Bella prova e d’alma forte”. D.6. Estimaciones para la primera frase del Réquiem de Mozart D.6.1. Estimación con el algoritmo AUTOC y SIFT. Para despejar dudas en cuanto al resultado obtenido para B♭3 en la estimación de la primera frase del Introito del Réquiem en D menor K.626 de Mozart mostrada en el capitulo 3; en la figura D.12, se muestra la estimación con otros algoritmos. Figura D.12: Estimación del Réquiem de Mozart con el algoritmo AUTOC y SIFT. D.6.2. Estimación con el algoritmo ML configurado para diferentes microtonalidades Es importante aclarar que los signos utilizados para indicar las alteraciones de las notas en los sistemas microtonalı́stas, no son los mismo que se usan en la escala cromática. Para mayor comprensión y facilidad de comparación, en las figuras D.13-D.15, se usan los signos tradicionales. ANEXO D. ESTIMACIÓN DEL PITCH PARA DIFERENTES REGISTROS Figura D.13: Estimación con ML configurado para tercios de tono (λ = 31 ). Figura D.14: Estimación con ML configurado para cuartos de tono (λ = 14 ). Figura D.15: Estimación con ML configurado para sextos de tono (λ = 16 ). 68 Anexo E Tabla de muestras de pitch con ruido y sin ruido E.1. Tablas para los algoritmos en el dominio del tiempo 69 Nº de Octava Nombre AUTOC FEP CEPSTRUM SIFT SAA Nota Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Octava 2 Octava 3 C C# D D# E F F# G G# A A# B 64,65 68,9 73,01 77,36 81,65 86,81 91,87 97,56 103,52 109,7 116,05 65,23 68,69 73,01 77,35 81,93 86,18 91,91 96,71 103,02 109,15 116,04 64,66 68,9 72,77 77,35 81,66 86,81 91,87 97,13 103,03 109,15 115,44 65,23 68,69 73,01 77,36 81,76 86,47 91,96 97,13 103,02 109,15 116,65 64,66 68,69 73,01 77,64 81,7 86,14 91,49 97,13 103,02 109,15 116,65 0 0 73,25 77,35 81,89 86,46 91,55 96,71 103,03 109,15 116,66 64,85 68,9 72,72 77,64 82,27 86,12 91,87 98,43 104 110,24 114,84 64,85 68,9 73,5 77,64 82,27 87,5 91,87 98,43 104 110,25 114,84 65,41 69,3 73,42 77,78 82,41 87,31 92,5 49 103,83 110 116,54 65,41 69,3 73,42 77,78 82,41 87,31 92,5 49 103,83 110 116,54 121,82 121,88 122,5 121,82 122,5 122,5 122,5 122,5 123,47 123,47 C C# D D# E F F# G G# A A# B 130,45 137,81 146,02 154,19 163,32 173,62 183,75 195,13 206,07 218,31 232,1 128,94 136,95 146,02 154,19 163,33 173,62 183,74 195,13 206,06 218,31 232,1 129,7 137,81 146,02 154,19 163,32 173,62 183,74 195,13 206,07 218,31 232,1 129,7 137,81 145,06 154,19 163,32 173,62 183,75 195,13 206,06 218,31 232,1 129,7 136,95 145,05 154,18 163,33 173,62 183,74 195,13 206,07 218,31 232,1 129,7 136,95 146,02 154,19 163,33 173,62 183,75 195,13 206,07 218,31 232,1 131,25 137,81 145,06 153,12 162,13 172,25 183,74 196,85 204,16 220,5 229,65 131,25 137,81 145,06 153,12 162,13 172,26 183,75 196,76 204,16 220,5 229,68 130,81 138,59 146,83 155,56 164,81 174,61 185 196 207,65 220 233,08 130,81 138,59 146,83 155,56 164,81 174,61 185 196 207,65 220 233,08 245 245 245 245 245 245 250,55 250,56 246,94 246,94 Nº de Octava Nombre AUTOC FEP CEPSTRUM SIFT SAA Nota Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Octava 4 Octava 5 C# D D# E F F# G G# A A# 275,62 275,62 275,62 275,62 275,62 275,62 275,62 275,62 261,62 261,62 290,13 290,13 290,13 290,13 290,13 290,13 290,12 290,13 277,18 277,18 310,56 310,55 310,55 306,25 310,55 310,55 306,25 306,24 293,66 293,66 329,1 324,25 329,1 324,26 324,26 324,26 324,25 324,26 311,13 311,13 350 350 344,53 344,52 344,53 344,53 344,53 344,53 329,63 329,63 367,5 367,5 367,5 367,5 367,5 367,5 367,5 367,5 349,23 349,23 195,13 195,13 386,84 386,84 386,84 386,84 393,75 393,75 369,99 369,99 408,33 408,33 408,33 408,33 408,33 408,33 431,56 459,37 392 392 441 218,31 441 441 441 441 445,38 459,37 415,3 415,3 459,37 459,37 459,37 459,37 459,36 459,35 459,35 459,37 440 440 B 490 490 490 490 490 490 482,52 501,13 466,16 466,16 C C# D D# E F F# G G# A 525 525 525 525 525 525 493,16 493,16 551,25 551,25 551,24 551,25 551,25 551,25 523,25 523,25 580,25 580,25 580,26 580,25 580,26 580,26 554,36 554,36 310,56 310,56 612,5 612,5 612,5 612,5 587,33 587,33 218,31 218,31 648,52 648,52 648,52 648,52 622,25 622,25 344,53 232,1 689,06 689,05 689,06 689,06 659,26 659,26 735 735 735 735 735 735 698,46 698,46 259,41 259,41 787,5 787,5 787,5 787,5 739,99 739,99 816,66 816,66 816,65 816,66 816,66 816,65 783,99 783,99 290,13 290,13 882 882 882 882 830,61 830,61 310,56 310,56 918,75 918,75 918,74 918,75 880 880 A# Nº de Octava Octava 6 7 Nombre AUTOC FEP CEPSTRUM SIFT SAA Nota Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido C# D D# E F F# G G# A A# B C Medidas de dispersión 1102,5 1102,5 1102,5 1102,5 1102,5 1102,5 1046,5 1046,5 1160,52 1160,52 1160,52 1160,52 1160,52 1160,52 1108,73 1108,73 1225 1225 0 0 1225 306,24 1174,66 1174,66 1297,04 1297,05 0 0 1297,05 648,52 1244,51 1244,51 1378,12 1378,12 0 0 1378,12 689,06 1318,51 1318,51 1470 1470 0 0 1470 0 1396,91 1396,91 1575 1575 0 0 1575 0 1479,98 1479,98 329,1 329,1 0 0 1696,15 816,66 1567,98 1567,98 580,26 580,26 0 0 1696,15 580,26 1661,22 1661,22 1837,5 1837,5 0 0 1837,5 0 1760 1760 648,53 648,52 0 0 2004,54 2004,54 1864,65 1864,65 689,05 689,05 0 0 2005,54 689,06 1975,53 1975,53 AUTOC FEP CEPSTRUM SIFT SAA Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Media 446,378689 440,736721 322,243443 322,09377 587,470492 413,98 212,9105556 214,648889 592,486721 592,486721 Varianza 178399,509 179866,32 99185,4696 99184,6791 298736,265 137772,2321 15333,97166 16149,3646 306490,671 306490,671 Desv. estándar 422,37366 424,106496 314,937247 314,935992 546,567713 371,1768205 123,8304149 127,08015 553,615996 553,615996 ANEXO E. TABLA DE MUESTRAS DE PITCH CON RUIDO Y SIN RUIDO E.2. Tablas para los algoritmos en el dominio de la frecuencia 73 Nº de Octava Nombre Nota Octava 2 C C# D D# E F F# G G# A A# B Octava 3 C C# D D# E F F# G G# A A# B HPS ML MA Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido 86,1 86,13 110 110 114,84 114,84 96,89 96,89 116,54 116,54 143,54 143,55 107,65 107,65 123,47 123,47 129,19 129,19 118,43 118,43 130,82 130,82 129,19 129,19 107,65 129,19 138,59 138,59 186,62 186,62 139,96 139,96 87,31 87,31 143,55 143,55 64,59 150,73 92,5 92,5 157,91 157,91 75,36 161,49 98 98 100,48 100,48 86,13 86,13 103,82 103,82 129,19 129,19 96,9 96,9 110 110 143,54 143,54 96,9 96,9 116,54 116,54 157,91 157,91 107,66 107,66 123,47 123,47 157,91 157,91 118,43 118,43 130,82 130,82 172,26 172,25 118,43 258,39 277,19 277,19 186,62 186,62 129,19 129,19 293,68 293,68 186,62 186,62 140 140 311,14 311,14 200,96 200,97 150,73 150,73 329,64 329,64 215,32 215,33 161,48 161,49 349,24 349,24 229,68 229,68 172,26 172,26 370,014 370,014 244,04 244,04 183,03 183,03 392,016 392,016 258,38 258,39 183,03 193,79 415,32 415,32 272,75 272,75 204,56 204,56 440,02 440,02 287,1 287,1 215,33 215,33 466 466,18 301,46 301,46 226,09 226,09 494 493,91 330,15 330,17 Nº de Octava Nombre HPS ML MA Nota Con ruido Con ruido Con ruido Con ruido Con ruido Con ruido Octava 4 Octava 5 C C# D D# E F F# G G# A A# B 236,86 247,63 261,64 261,64 344,53 344,53 258,39 258,39 554,39 554,39 373,24 373,24 269,16 279,93 293,68 293,68 387,59 488,08 290,69 290,69 311,14 311,14 301,45 301,45 301,46 312,23 329,64 329,64 430,66 545,5 322,99 333,76 349,24 349,24 344,53 574,21 344,52 355,29 370,01 370,01 358,88 488,08 366,06 376,83 784,03 784,03 387,59 387,59 387,59 398,36 415,32 415,32 545,5 545,5 409,12 419,89 440,02 440,02 445,01 445,01 430,66 441,43 932,37 932,37 459,37 459,37 462,95 473,73 493,91 493,91 488,08 488,08 C C# D D# E F F# G G# A A# B 484,45 495,26 523,28 523,28 516,79 516,79 495,26 527,56 554,39 554,39 545,5 545,5 538,33 559,86 587,36 587,36 588,55 588,57 581,39 592,16 622,28 622,28 617,25 617,28 613,65 635,22 659,29 659,29 660,35 660,35 656,76 667,52 698,49 698,49 689,06 689,06 689,06 699,82 740,029 740,029 732,12 732,12 732,12 753,66 784,03 784,03 775,18 775,19 785,96 796,72 830,65 830,65 832,61 832,61 829,02 838,79 880,04 880,04 875,68 875,68 882,86 893,62 932,37 932,37 933,1 933,1 936,69 947,46 987,82 987,82 976,17 976,17 Nº de Octava Nombre HPS ML MA Nota Con ruido Con ruido Con ruido Con ruido Con ruido Con ruido Octava 6 7 C C# D D# E F F# G G# A A# B 1001,29 1012,06 1046,6 1046,6 1047,94 1047,94 1065,85 1055,12 1108,08 1108,08 1105,37 1105,37 1119,72 1119,72 1174,7 1174,7 1177,14 1177,14 1195,09 1195,09 1244,6 1244,6 1234,56 1234,57 1270,45 1270,45 1318,6 1318,6 1320,7 1320,7 1345,82 1345,82 1397 1397 1392,48 1392,48 1431,95 1431,95 1480,1 1480,1 1478,61 1478,61 1518,05 1518,09 1568,1 1568,1 1564,74 1564,74 1593,45 1593,45 1661,3 1661,3 1650,85 1650,85 1711,88 1701,12 1760,1 1760,1 1751,36 1751,36 1819,55 1819,55 1864,8 1864,8 1851,84 1851,84 1927,22 1927,22 1975,6 1975,6 1966,69 1966,69 C 2045,65 2045,65 2093,12 2093,12 2081,54 2081,54 Medidas de dispersión Media Varianza Desviación estándar HPS ML MA Con ruido Con ruido Con ruido Con ruido Con ruido Con ruido 566,209016 576,433607 649,9729344 649,972934 619,865902 629,281148 287340,241 281906,171 277867,2792 277867,279 281135,907 277910,432 536,041268 530,94837 527,1311784 527,131178 530,222507 527,172108