(PDF) Estimación del pitch en senales monofónicas de voz cantada - Bachelor thesis, UNAL, 2004 | Andrés Eduardo Coca Salazar

En el marco de la educación vocal cantada el intercambio verbal entre docente y discente, se presenta como el recurso pedagógico más habitual. La selección de los términos de este intercambio, basados en la percepción del sonido de la voz, genera confusión por la dificultad de definición y de consenso de los mismos. En este trabajo se pretende consensuar algunos de estos conceptos y construir con ellos una escala de valoración de la calidad de la voz en el canto lírico. Para esto, y después de varios meses de discusión del grupo interno durante los que se elaboraron varias versiones de la escala, se construyó y administró un cuestionario de pertenencia y relevancia a 22 expertos. Finalmente, se organizó y celebró un grupo de discusión formado por siete encuestados más los componentes del grupo interno. La escala queda configurada con la selección y definición de 12 parámetros y la construcción de una escala visual perceptiva con adjetivos polares y graduada en diez tramos. La escala...

El objetivo de esta investigación es determinar el comportamiento de las alturas sonoras en la primera pieza de la serie Octoechos del compositor colombiano Héctor González desde la perspectiva de la teoría de los conjuntos de grados cromáticos (pitch class sets). Se derivan como objetivos específicos: determinar e implementar las unidades analíticas pertinentes, analizar la estructura melódica y codificarla en el contexto de la teoría de los pitch class sets (PCS) y finalmente develar las funcionalidades estructurales encontradas en la pieza. Se aplicó un protocolo analítico que consta de los parámetros siguientes: tipo de texturas, PCS, forma normal, forma prima, vector interválico, anotaciones del compositor. Como resultado se obtuvo el mapa de desarrollo de PCS usado en la pieza y sus implicaciones estructurales en relación con los demás parámetros estudiados.

ESTIMACIÓN DEL PITCH EN SEÑALES MONOFÓNICAS DE VOZ CANTADA ANDRÉS EDUARDO COCA SALAZAR Universidad Nacional de Colombia Sede Manizales Facultad de Ingenierı́a y Arquitectura Departamento de Electricidad, Electrónica y Computación Manizales 2004 ESTIMACIÓN DEL PITCH EN SEÑALES MONOFÓNICAS DE VOZ CANTADA ANDRÉS EDUARDO COCA SALAZAR Trabajo de Grado para optar al tı́tulo de Ingeniero Electrónico Director Ph.D Germán Castellanos Universidad Nacional de Colombia Sede Manizales Facultad de Ingenierı́a y Arquitectura Departamento de Electricidad, Electrónica y Computación Manizales 2004 Dedicado con mucho cariño a: Mi Padre por creer siempre en mı́. Mi Madre por su gran amor. Ángela por estar a mi lado. La música por ser mi gran inspiración. Andrés Eduardo Coca S. AGRADECIMIENTOS El autor expresa sus agradecimientos a: Ph.D. Cesar German Castellanos, por proponerme este tema y de esta forma introducirme en el mundo del pitch. Maestro Hector Fabio Torres C. por sus grandes enseñanzas y a los estudiantes de Lic. en Música de la Universidad de Caldas: Natalia, Andrea, Nelly, Diana, Carlos y Oscar. M.sc. Franklin A. Sepulveda, Ing. Ricardo Alzate, Ing. Alexander Cerquera y toda la gente del GC&P DS. A mis amigos: Cristina Valencia, Gustavo Lagos, Felipe Orozco, Luis F.Posada, Juan P.Ovalle, Julio A.Betancourth y demás compañeros de estudio. Lina Marı́a Izasa, Felipe Perdomo, Gustavo López, Juan Pablo Castaño; por la amistad y las alegrı́as y tristezas en las noches de bohemia compartidas. Y por último un cariñoso agradecimiento a toda mi familia. “Solo cuando se han marchado los dı́as sabemos lo triste y hermoso que han dejado en nuestras vidas; que alegrı́a saber que lo maravilloso esta aun por llegar. . . ” Gracias Universidad Nacional Tabla de Contenido Tabla de contenido III Lista de Figuras V Lista de Tablas VI Resumen VII Abstract VIII Objetivos IX Glosario X 1. Estado del arte en la estimación del pitch 1 1.1. Parámetros acústicos de la voz cantada . . . . . . . . . . . . . . . . . . . . . 2 1.1.1. Formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.1.2. Pitch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.1.3. Parámetros de perturbación . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2. Caracterı́sticas del canto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2.1. Impostación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2.2. El formante del canto en la soprano . . . . . . . . . . . . . . . . . . . 7 1.2.3. Clasificación musical de la voces . . . . . . . . . . . . . . . . . . . . . 7 1.2.4. Diferencias entre la voz cantada y la voz hablada . . . . . . . . . . . . 8 2. Algoritmos para la estimación del pitch 9 2.1. Algoritmos en el dominio del tiempo . . . . . . . . . . . . . . . . . . . . . . . 10 2.1.1. Autocorrelación con center clipping (AUTOC) . . . . . . . . . . . . . 10 i TABLA DE CONTENIDO ii 2.1.2. Autocorrelación del error de predicción (FAEP) . . . . . . . . . . . . . 13 2.1.3. Cepstrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.1.4. Simplified Inverse Filter Technique (SIFT) . . . . . . . . . . . . . . . . 14 2.1.5. Separación y acumulación armónica (SAA) . . . . . . . . . . . . . . . 19 2.2. Algoritmo de estimación en el dominio de la frecuencia . . . . . . . . . . . . . 26 2.2.1. Harmonic Product Spectrum (HPS) . . . . . . . . . . . . . . . . . . . 26 2.2.2. Maximum Likelihood (ML) . . . . . . . . . . . . . . . . . . . . . . . . 28 2.2.3. Multiplicidad de armónicos . . . . . . . . . . . . . . . . . . . . . . . . 31 2.3. Otras funciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.3.1. Segmentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.3.2. Contorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.3.3. Filtro de mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3. Pruebas y Resultados 3.1. 34 Base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.1.1. Señales musicales de prueba . . . . . . . . . . . . . . . . . . . . . . . . 34 3.1.2. Caracterı́sticas de las muestras . . . . . . . . . . . . . . . . . . . . . . 34 3.2. Resultados de la estimación del pitch . . . . . . . . . . . . . . . . . . . . . . . 35 3.2.1. Segmentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.2.2. Resultados con señales musicales de prueba . . . . . . . . . . . . . . . 36 3.2.3. Resultados con señales de voz cantada . . . . . . . . . . . . . . . . . . 40 3.3. Análisis Estadı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.3.1. Prueba de hipótesis aplicada a la estimación del pitch . . . . . . . . . 43 3.3.2. Prueba de hipótesis para la estimación con ruido . . . . . . . . . . . . 44 Conclusiones 46 Observaciones 48 Bibliografı́a 50 A. Conceptos Musicales 54 A.1. Nomenclatura de la notas musicales . . . . . . . . . . . . . . . . . . . . . . . 54 A.2. Frecuencias de las notas musicales . . . . . . . . . . . . . . . . . . . . . . . . 54 A.2.1. El pentagrama musical . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 A.3. Efectos usados en el canto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 A.4. Definición de algunos términos musicales . . . . . . . . . . . . . . . . . . . . . 56 A.5. Clasificación de los comienzos y finales de la frase musical . . . . . . . . . . . 57 B. Test de Kolmogorov-Smirnov 58 B.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 B.2. Ajuste de bondad del test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . 58 B.3. Hipótesis nula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 B.4. Ventajas y desventajas del test . . . . . . . . . . . . . . . . . . . . . . . . . . 60 C. Prueba de hipótesis 62 D. Estimación del pitch para diferentes registros 63 D.1. Estimaciones con el algoritmo AUTOC . . . . . . . . . . . . . . . . . . . . . . 63 D.2. Estimaciones con el algoritmo FAEP . . . . . . . . . . . . . . . . . . . . . . . 64 D.3. Estimaciones con el algoritmo ML . . . . . . . . . . . . . . . . . . . . . . . . 65 D.4. Estimaciones para la primera frase de la obra “Nel cor più non mi sento”. . . 65 D.5. Estimaciones para la primera frase de la obra “Bella prova e d’alma forte”. . 66 D.6. Estimaciones para la primera frase del Réquiem de Mozart . . . . . . . . . . . 67 D.6.1. Estimación con el algoritmo AUTOC y SIFT. . . . . . . . . . . . . . . 67 D.6.2. Estimación con el algoritmo ML configurado para diferentes microtonalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . E. Tabla de muestras de pitch con ruido y sin ruido 67 69 E.1. Tablas para los algoritmos en el dominio del tiempo . . . . . . . . . . . . . . 69 E.2. Tablas para los algoritmos en el dominio de la frecuencia . . . . . . . . . . . . 73 iii Lista de Figuras 1.1. Modelo del tracto vocal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2. Modelo de la producción de la voz . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3. Clasificación musical de las voces en el pentagrama . . . . . . . . . . . . . . . 8 2.1. Señal de voz con center clipping . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2. Técnica center clipping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3. Diagrama en bloques del algoritmo FAEP . . . . . . . . . . . . . . . . . . . . 13 2.4. Diagrama en bloques del algoritmo SIFT . . . . . . . . . . . . . . . . . . . . . 16 2.5. Diagrama de flujo para el criterio de sonoridad de SIFT . . . . . . . . . . . . 19 2.6. Escala de los armónicos para C2 . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.7. Primera etapa del algoritmo SAA. . . . . . . . . . . . . . . . . . . . . . . . . 25 2.8. Segunda etapa del algoritmo SAA. . . . . . . . . . . . . . . . . . . . . . . . . 26 2.9. Representación gráfica del algoritmo HPS . . . . . . . . . . . . . . . . . . . . 27 2.10. Diagrama en bloques del algoritmo HPS . . . . . . . . . . . . . . . . . . . . . 27 2.11. Representación gráfica del algoritmo ML . . . . . . . . . . . . . . . . . . . . . 29 2.12. Diagrama en bloques del algoritmo ML . . . . . . . . . . . . . . . . . . . . . 29 2.13. Diagrama en bloques del algoritmo MA . . . . . . . . . . . . . . . . . . . . . 31 3.1. Melodı́a cantada por una mezzo-soprano . . . . . . . . . . . . . . . . . . . . . 36 3.2. Segmentación para una señal de voz cantada . . . . . . . . . . . . . . . . . . 37 3.3. Resultado algoritmo AUTOC para A5 = 880 Hz . . . . . . . . . . . . . . . . 37 3.4. Resultado algoritmo FAEP para A3 = 220 Hz . . . . . . . . . . . . . . . . . . 38 3.5. Resultado algoritmo Cepstrum C6 = 1046 Hz . . . . . . . . . . . . . . . . . . 38 3.6. Contorno del pitch de SIFT para D3 = 146,83 Hz . . . . . . . . . . . . . . . . 38 3.7. Resultado algoritmo SAA para E4 = 329,63 Hz . . . . . . . . . . . . . . . . . 39 3.8. Resultado algoritmo HPS para G♯2 = 103,83 . . . . . . . . . . . . . . . . . . 39 iv 3.9. Resultado algoritmo ML para C7 = 2093 Hz . . . . . . . . . . . . . . . . . . 40 3.10. Resultado algoritmo MA para B5 = 987,77 Hz . . . . . . . . . . . . . . . . . 40 3.11. Estimación del pitch con el algoritmo ML para la primera frase del Réquiem en D menor de Mozart interpretada por una contralto. . . . . . . . . . . . . . 41 3.12. Partitura del Réquiem de Mozart para contralto. . . . . . . . . . . . . . . . . 41 3.13. Estimación del pitch con SIFT para el arpegio de E mayor interpretado por un tenor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.14. Partitura del arpegio de E mayor. . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.15. Estimación del pitch con FAEP para la escala en E mayor interpretada por una soprano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.16. Partitura de la escala de E mayor. . . . . . . . . . . . . . . . . . . . . . . . . 43 3.17. Gráfica de las funciones de distribución acumulativas. . . . . . . . . . . . . . 44 A.1. Pentagrama de la escala cromática. . . . . . . . . . . . . . . . . . . . . . . . . 55 D.1. Estimación del arpegio de E mayor interpretado por un bajo. . . . . . . . . . 63 D.2. Estimación del arpegio de C mayor interpretado por una mezzo-soprano. . . . 63 D.3. Estimación del arpegio de E mayor interpretado por una soprano. . . . . . . . 64 D.4. Estimación de un intervalo de 2a menor interpretado por un barı́tono. . . . . 64 D.5. Estimación de la escala y el arpegio de E mayor interpretado por una soprano. 64 D.6. Estimación con ML para intervalos interpretados por una bajo. . . . . . . . . 65 D.7. Estimación de la obra “Nel cor più non mi sento” con ML. . . . . . . . . . . 65 D.8. Partitura de la obra “Nel cor più non mi sento”. . . . . . . . . . . . . . . . . 66 D.9. Estimación de la obra “Nel cor più non mi sento” con AUTOC y SIFT. . . . 66 D.10.Estimación de la obra “Bella prova e d’alma forte” con SIFT. . . . . . . . . . 66 D.11.Partitura de la obra “Bella prova e d’alma forte”. . . . . . . . . . . . . . . . 67 D.12.Estimación del Réquiem de Mozart con el algoritmo AUTOC y SIFT. . . . . 67 D.13.Estimación con ML configurado para tercios de tono (λ = 13 ). . . . . . . . . . 68 D.14.Estimación con ML configurado para cuartos de tono (λ = 41 ). . . . . . . . . . 68 D.15.Estimación con ML configurado para sextos de tono (λ = 61 ). . . . . . . . . . 68 v Lista de Tablas 1.1. Caracterı́sticas de los formantes de la voz . . . . . . . . . . . . . . . . . . . . 3 1.2. Clasificación musical de la voz . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.1. Valores de λ para el sistema de afinación usado en ML. . . . . . . . . . . . . 29 3.1. Caracterı́sticas musicales de las muestras de canto. . . . . . . . . . . . . . . . 35 3.2. Frecuencias de las notas usadas en la primera frase del Réquiem de Mozart. . 41 3.3. Frecuencias del Arpegio de E mayor en la tercera octava . . . . . . . . . . . . 41 3.4. Frecuencias de las notas de la escala de E mayor. . . . . . . . . . . . . . . . . 43 3.5. Resultados del test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . 44 3.6. Resultados de la prueba de hipótesis para ruido de 20 dB . . . . . . . . . . . 45 A.1. Cifrado de las notas musicales . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 A.2. Frecuencia de las notas musicales del sistema temperado . . . . . . . . . . . . 55 B.1. Frecuencias relativas acumuladas para el test de Kolmogorov-Smirnov . . . . 59 E.1. Tabla de muestras de pitch para los algoritmos en el dominio del tiempo . . . 70 E.2. Tabla de muestras de pitch para los algoritmos en el dominio de la frecuencia 74 vi Resumen Se describen los fundamentos teóricos de diferentes algoritmos para la estimación de la frecuencia fundamental con un enfoque especial para señales monofónicas de voz cantada y señales musicales en general. Se usa el ajuste de bondad no paramétrico de Kolmogorov-Smirnov para contrastar las muestras de pitch de los algoritmos implementados, con los resultados obtenidos por medio de software especializado para análisis de voz; que se toman como referencia. También se aplica una prueba de inmunidad ante el ruido con el estadı́stico t-student para determinar el comportamiento de cada uno de los algoritmos al adherir ruido gaussiano a la señal de entrada. Además se describen las ventajas y desventajas encontradas para cada algoritmo, se estudian algunos parámetros acústicos de la voz y las principales caracterı́sticas de la voz cantada. Palabras claves: Pitch, Música, Canto, SAA, ML, SIFT. vii Abstract The theoretical foundations of different algorithms, used to estimate the fundamental frequency with a special approach for monophonic signals of sung voice and musical signals in general are described. The non-parametric adjustment of kindness of Kolmogorov-Smirnov is used, in order to contrast the samples of pitch of the implemented algorithms, with the results obtained by software means of specialized for voice analysis; that they are taken like reference. A test of immunity to noise is also applied through a statistical t-student in order to state the behavior of each one of the algorithms when adding gaussiano noise to the input signal. Besides that, the advantages and disadvantages found for each of the algorithms are described. In addition to that, some acoustic parameters of voice, as well as the main characteristics of the sung voice are studied. Keywords: Pitch, Music, Sing, SAA, ML, SIFT. viii Objetivos General Implementar un algoritmo que permita la estimación del pitch en señales de voz cantada sin acompañamiento musical y en condiciones de grabación con niveles aceptables de ruido de fondo. Especı́ficos 1. Implementación de un método de segmentación de voz cantada sobre palabras de contenido conocido. 2. Implementación del procedimiento de estimación del contorno del pitch sobre algunos métodos de representación de señales de voz, tanto acústicas como sin interpretación fı́sica. ix Glosario PPQ (Pitch Period Perturbation Quotient): El cociente de perturbación del perı́odo tonal es una evaluación de la variabilidad del ciclo tonal de la muestra con un factor de nivelación de cinco perı́odos [22]. sPPQ (smoothed PPQ): El cociente de perturbación del perı́odo tonal nivelado (sPPQ) entrega una evaluación de la variabilidad de corto y largo alcance de los perı́odos tonales de la muestra [22]. APQ (Amplitude Perturbation Quotient): El cociente de variación de la amplitud da una evaluación de la variabilidad de la amplitud de la muestra de voz con un factor de nivelación de 11 perı́odos [22]. sAPQ (smoothed APQ): El cociente de perturbación de la amplitud nivelada entrega una evaluación de corto o largo alcance de la variabilidad de la amplitud de la muestra de voz [22]. RAP (Relative Average Perturbation): La perturbación promedio relativa da una evaluación de la variabilidad de corto alcance del ciclo tonal de la muestra con un factor de nivelación de tres perı́odos [22]. ShdB (Shimmer deciBells ): Corresponde a una evaluación de la variabilidad a muy corto alcance de la amplitud, pico a pico, de la muestra de voz. Se trata de una medición absoluta en términos de decibeles (dB) [22]. Shim: El shimmer porcentual da una evaluación de la variabilidad de la amplitud, pico a pico, de la muestra de voz. Representa, en términos relativos, la variabilidad a muy corto alcance de la amplitud [22]. vAm: Variación de amplitud. x Capı́tulo 1 Estado del arte en la estimación del pitch Un paso decisivo en la historia de la evolución musical, fue la necesidad para el músico de contar con un sistema preciso para la afinación, la correcta creación de los instrumentos musicales y la entonación de las voces humanas usadas en el canto. Gracias a una exacta afinación se desarrolló el proceso de creación, dirección y montaje de las obras musicales; porque sin ello la música carecerı́a de interés. Para la detección de la frecuencia fundamental, el músico se debı́a sustentar únicamente en la percepción auditiva de la frecuencia de las notas, lo cual es poco preciso. Indudablemente para hacer esto se tenı́a que tener un buen desarrollo auditivo y algunos conocimientos musicales, buena preparación y algo de talento; siendo tales caracterı́sticas de una minorı́a. Para facilitar este procedimiento en 1711 el laudı́sta inglés John Shore inventó un instrumento llamado diapasón [9], el cual al ser golpeado produce un tono puro que sirve como referencia a los músicos para encontrar las demás notas. El uso del diapasón facilita la detección del pitch pero continua siendo una tarea para personas con altos conocimientos de solfeo y canto. La habilidad de una persona para determinar la frecuencia de la señal musical valiéndose del oı́do y con un tono de referencia se llama oı́do relativo, pero para algunas personas no es necesario escuchar previamente un sonido de referencia dando lugar a lo que se denomina oı́do absoluto [39]. El primer detector del pitch manual en el dominio de la frecuencia fue posible con la creación del primer espectrógrafo mecánico en 1946 [39]. Desde el siglo pasado, con el desarrollo de la tecnologı́a, se crearon detectores electrónicos 1 CAPÍTULO 1. ESTADO DEL ARTE EN LA ESTIMACIÓN DEL PITCH 2 y se empezaron a desarrollar algoritmos para la detección automática por computador. La detección del pitch fue primeramente estudiada por B.Gold en 1962 y a finales de la década de los 60, A.M Noll, M.Schroeder y M.Sondhi incluyeron mejoras [16]. Con el desarrollo de nuevas tecnologı́as, la estimación del pitch se ha desarrollado, se ha automatizado y se hizo necesaria para multiples aplicaciones como en los algoritmos de codificación de voz usados en telecomunicaciones y el uso en dispositivos técnicos con la introducción del protocolo MIDI [39]. Las ultimas investigaciones en este tema se han centrado en la estimación de la frecuencia fundamental para intervalos y acordes en música homofónica y polifónica (multi-pitch) [10]. 1.1. 1.1.1. Parámetros acústicos de la voz cantada Formantes El tracto vocal esta compuesto por varias cavidades de resonancia, cada una con su respectiva frecuencia denominada formante. Partiendo de este concepto el tracto vocal se puede modelar como un banco de filtros pasa banda; dado que las frecuencias que coinciden con las frecuencias de resonancia de los filtros, en este caso, los órganos que componen el conducto vocal, son menos atenuadas que las que no coinciden con dicha frecuencia de resonancia. Entonces estas frecuencias no atenuadas se emiten con mayor amplitud que las demás, es decir, a mayor diferencia entre la frecuencia del armónico y la frecuencia de resonancia menor amplitud en la emisión del armónico; modificando ası́ el timbre de los sonidos producidos. El timbre vocálico varı́a para cada vocal que tiene sus zonas caracterı́sticas de formantes [20]. En total son cuatro o cinco formantes dependiendo de la función que este cumpliendo la voz, es decir, si es voz hablada solo se contará con cuatro pero si se trata de voz cantada serán cinco porque se incluye el formante del canto. Los formantes modifican la envolvente del espectro introduciendo picos en las frecuencias de resonancia, produciéndose ası́ sonidos inteligibles al hablar. El tracto vocal se puede modelar como un tubo sonoro cerrado en el que la vibración es debida a la formación de una onda estacionaria [38]. En un tubo sonoro el punto de excitación no puede ser un nodo pero no necesariamente un vientre, entonces el vientre de la onda estará en la glotis y el nodo en los labios. Ası́ un tubo de longitud L produce un sonido de frecuencia fundamental Fo con una longitud de onda λ = 4L, y solamente los armónicos Fn de orden impar [12]: 3F o, 5F o, 7F o... CAPÍTULO 1. ESTADO DEL ARTE EN LA ESTIMACIÓN DEL PITCH 3 Figura 1.1: Modelo del tracto vocal Fn = (2n − 1). Vs 4.L (1.1) Donde L es la longitud aproximada del tracto vocal y Vs es la velocidad del sonido igual a 350m/sg (35o C), entonces: Fn = 500, 1500, 2500, 3000Hz N o Formante Órgano Articulado F1 F2 (1.2) Frecuencia (Hz) Armónico Apertura de la mandı́bula 500 1 Dorso de la lengua 1.5 k 3 F3 Ápice de la lengua 2.5 k 5 F4 Pos.Ları́nge. Long. T.Vocal 3k 7 Tabla 1.1: Caracterı́sticas de los formantes de la voz Si la longitud del conducto vocal desde la glotis hasta los labios es de 17,5 cms, en el caso de un adulto varón, entonces las frecuencias de corte del primero, segundo, tercero y cuarto formante estarán ubicadas alrededor de: 500 Hz (λ/4), 1.5 kHz (3λ/4), 2.5 kHz (5λ/4) y 3.5 kHz (7λ/4). Estas frecuencias de resonancia son directamente proporcionales a la longitud del conducto vocal de cada individuo y depende del sexo, la edad y otros factores; como la modificación de la longitud del conducto vocal por causa de los órganos articulados que desplazan la frecuencia de algunos formantes [27]. La mandı́bula puede reducir el conducto en la zona cercana a la glotis y ampliarlo en la región de los labios, modificando el valor del primer formante que es proporcional al tamaño de la abertura de la mandı́bula. La frecuencia del segundo formante es sensible a la forma del CAPÍTULO 1. ESTADO DEL ARTE EN LA ESTIMACIÓN DEL PITCH 4 cuerpo de la lengua y la del tercer formante es sensible a la posición de la punta de la lengua [38]. La belleza de la voz, el timbre y la amplitud dependen más de la calidad de los resonadores que del aparato fonador [24]. 1.1.2. Pitch La frecuencia fundamental de la voz (pitch), se produce por la vibración de las cuerdas vocales cuando la presión de aire de los pulmones pasa por la glotis (fuerza de Bernoulli) [38]. El tracto vocal se puede modelar como un filtro variable en el tiempo cuyas señales de entrada pueden ser de dos tipos de excitación: para señales sonoras la excitación será un tren de impulsos de frecuencia controlada mientras que para las señales no sonoras la excitación es ruido aleatorio [16], como se muestra en la figura 1.2. Figura 1.2: Modelo de la producción de la voz Edad y género Dentro de los factores que interfieren en la variación paulatina de la frecuencia fundamental de la voz humana están, la edad y el genero. La frecuencia fundamental promedio y la altura de los formantes de los humanos esta bastante ligada con la edad, el sexo y la respiración [4]. En la niñez la extensión de la voz puede tener más de dos octavas indiferente del sexo, en la adolescencia disminuye en los hombres y asciende en las mujeres, pero en el periodo senil ocurre el proceso contrario [27]. La altura de los formantes en los niños decrece con la edad y en la niñas es un 10 % mayor [4]. La voz del hombre es más grave que la de la mujer debido al grosor de los ligamentos vocales [27]. 5 CAPÍTULO 1. ESTADO DEL ARTE EN LA ESTIMACIÓN DEL PITCH 1.1.3. Parámetros de perturbación Los parámetros de perturbación nos indican el nivel de variación en el valor de un parámetro de la señal de voz. Entre los más representativos encontramos el jitter y el shimmer, éstos son medidas subjetivas de la calidad de la voz. El jitter es una medida de la variación entre periodos sucesivos mientras que el shimmer es una variación de la amplitud ciclo a ciclo. Tanto el pitch como la amplitud de la señal pueden variar lentamente aún en sonidos sostenidos, aumentando el valor de medida del jitter o el shimmer que no refleja un aumento real en las perturbaciones. Una forma de evitar estos incrementos se logra con la utilización de la formula genérica del cociente de perturbación PQ (Perturbation Quotient), de la cual se derivan las funciones RAP (Relative Average Perturbation), PPQ (Pitch Period Perturbation Quotient), sPPQ (smoothed PPQ) para la medición del jitter y el APQ (Amplitude Perturbation Quotient), sAPQ (smoothed APQ) para la medición del shimmer entre otras [13]. Existen muchos métodos para cuantificar estos parámetros, por ejemplo, para medir la perturbación de amplitud a través de los ciclos de la voz podemos encontrar: ShdB, Shim y vAm. Pero el método más usado para la medición del jitter y del shimmer se basa en el coeficiente de perturbación (PQ) dado por: 1 N −k+1 P Q (x, k) = N −k+1 P n=1 1 k k P r=1 1 N x (n + r − 1) − x (n + m) N P (1.3) x (n) n=1 Tomando más o menos (k) periodos en torno al actual para el cálculo. Donde m = 0,5·(k − 1), k es un número impar, y x(n) es la secuencia de parámetros a medir. Jitter Altas variaciones del periodo fundamental To en señales de voz hablada, indican problemas o disfunciones del aparato fonador. Pero en voz cantada esto es necesario e inevitable; porque el valor de la frecuencia fundamental debe cambiar para poder producir la melodı́a, formando secuencias de intervalos de una forma consciente y controlada. Se demuestra fácilmente que si la diferencia en valor absoluto entre los periodos vecinos hallados para el jitter absoluto (termino superior de la ecuación 1.4) es grande, entonces éste será alto y por lo tanto el jitter también. Partiendo de la ecuación del PQ con k, m y r iguales a cero, el jitter se halla con la 6 CAPÍTULO 1. ESTADO DEL ARTE EN LA ESTIMACIÓN DEL PITCH ecuación 1.4 [7]: 1 N −1 Jitter = NP −1 i=1 |To (i) − To (i − 1)| 1 N N P To (i) · 100 % (1.4) i=1 Donde To (i) es la secuencia de periodos de la señal y N es la longitud de la misma. Shimmer En la música para lograr mayor expresión, se varı́a la amplitud de las señal musical, esto es necesario porque el relieve de amplitud que se genera; evita la monotonı́a, da mayor belleza a la obra y crea mayor expresión y técnica. Ası́ que altos porcentajes en los resultados del shimmer para la voz cantada son normales y necesarios. Para hallar al valor porcentual del shimmer se usa la ecuación [7], donde A(i) es la secuencia de amplitudes de la señal y N es su tamaño. 1 N −1 Shimmer = NP −1 i=1 |A(i) − A(i − 1)| 1 N 1.2. 1.2.1. N P A(i) · 100 % (1.5) i=1 Caracterı́sticas del canto Impostación La parte aguda del espectro sonoro entre 2.8-3.5 kHz, no es importante para el reconocimiento de las vocales, pero si lo es para el canto [38]. Por tal motivo los cantantes de música clásica modifican intuitivamente su voz cuando cantan, lo que se llama como impostación [24, 19]. La distribución acústica de la energı́a en el espectro de la señal cantada muestra una energı́a espectral mayor entre 2.5 kHz y 3 kHz (ver tabla 1.1), esta región en el espectro se denomina formante del canto y se encuentra entre el tercero y cuarto formante. El formante del canto se produce cuando la superficie de la sección de la laringe que penetra en la faringe es de un sexto de su longitud transversal, esto sucede cuando se baja la laringe; haciendo coincidir su frecuencia de resonancia con el formante del canto [38]. La energı́a media espectral de los cantantes debe ser mayor a la de la orquesta para que su voz no sea opacada, entonces al incorporar el formante del canto, se logra aumentar CAPÍTULO 1. ESTADO DEL ARTE EN LA ESTIMACIÓN DEL PITCH 7 la distribución media exactamente en la parte donde la energı́a del sonido de la orquesta disminuye, sin perder el control musical [38]. Por el principio de resonancia se economiza esfuerzo al incrementar la amplitud de la voz, pero los sonidos vocálicos se desvı́an, perdiendo su brillo caracterı́stico [38]. La impostación desde el punto de vista musical consiste en apoyar la voz para economizar energı́a, lograr mayor amplitud, tener mayor potencia sin necesidad de esforzar la voz [24] y poder ser escuchado sin el uso del micrófono; aunque la orquesta este sonando en el fondo con su maxima potencia musical (forte, fortissimo) [38]. 1.2.2. El formante del canto en la soprano Dado que en el registro femenino agudo algunas frecuencias emitidas son mayores a la frecuencia del primer formante, éstas pierden amplitud. Para evitar esto las sopranos instintivamente modifican la frecuencia del primer formante, aumentando la apertura de la mandı́bula para acercar la frecuencia del primer formante al valor del pitch. De esta forma la soprano logra continuar en resonancia y mantener una variación mı́nima en la intensidad de las notas de la melodı́a [38]. 1.2.3. Clasificación musical de la voces Las voces cantadas se clasifican según el genero en: masculinas o femeninas. La voz se clasifica por la tesitura y por el timbre más que por su extensión [24]. Según el registro y el género surgen las siguientes clasificaciones para la voz: soprano, mezzo-soprano y contralto para las femeninas; tenor, barı́tono y bajo para las masculinas [24, 19]. Las notas más graves y más agudas del rango de frecuencias de la tabla 1.2, requieren de mayor dificultad y esfuerzo para el cantante; se llama tesitura al rango de frecuencias que el cantante puede producir sin esfuerzo y con claridad, por lo general son las notas medias del registro. Dentro de estas clasificaciones se aceptan subdivisiones al observasen diferencias de carácter, volumen, timbre, tesitura o extensión; que se usan según el repertorio de las obras musicales a interpretar, algunas de estas subdivisiones son: soprano ligera, mezzo-soprano lı́rica...,etc [24]. Además de estos tipos de voz, también se pueden encontrar las voces de los niños profesionales y de los antiguos castratis. El rango de frecuencias aproximado que el cantante puede producir se llama registro, en la tabla 1.2 se pueden apreciar los diferentes registros según su clasificación y además el valor CAPÍTULO 1. ESTADO DEL ARTE EN LA ESTIMACIÓN DEL PITCH 8 Figura 1.3: Clasificación musical de las voces en el pentagrama 1) Soprano 2) Mezzo-soprano 3) Contralto 4) Tenor 5) Barı́tono 6)Bajo de la frecuencia de la nota inferior (Ninf ) y de la superior (Nsup ) 1 . Género Femenino Masculino Registro Ninf Nsup Ninf (Hz) Nsup (Hz) Soprano C4 A5 523,25 880 Mezzo-soprano B3 G5 246,94 783,99 Contralto G3 E5 196 659,26 Tenor C3 A4 130,81 440 Barı́tono A2 F4 110 349,23 Bajo F2 D4 87,31 293,66 Tabla 1.2: Clasificación musical de la voz 1.2.4. Diferencias entre la voz cantada y la voz hablada 1. El canto requiere aproximadamente dos octavas y el habla menos de una. 2. La intensidad de la voz hablada está entre 40-60 dB, la cantada popular entre 70-80 dB y la lı́rica clásica hasta 120 dB [27]. 3. La frecuencia fundamental de la voz hablada oscila alrededor de una frecuencia fundamental media. En el canto esto no es posible por los intervalos usados en la melodı́a. 4. El espectro presenta una pendiente más pronunciada cuando se habla bajo, que cuando se canta bajo [38]. 5. La voz cantada requiere control sobre el pitch (estimulación cortical), en la hablada el pitch es involuntario (estimulación diancefálica). 1 ver observación 1 pag.48 Capı́tulo 2 Algoritmos para la estimación del pitch La estimación de la frecuencia fundamental ha sido uno de los estudios más importantes desde que se comenzó el análisis de las señales de voz [16]. Existen varios factores que dificultan la extracción del pitch: La vibración de las cuerdas vocales no necesariamente es completamente periódica, especialmente al principio y al final de los sonidos hablados. Es difı́cil extraer la señal de las cuerdas vocales de la onda hablada separadamente de los efectos del tracto vocal. El rango dinámico de la frecuencia fundamental es muy largo. Encontramos otros factores como: las variaciones en el tiempo del tracto vocal, las transiciones de sonoridad de voz o no voz (V-UV, Voiced-Unvoiced ) y los ruidos acústicos de fondo [18]. El estudio de la estimación de la frecuencia fundamental ha abierto el camino a nuevos temas de investigación como la posibilidad de extraer la periodicidad de señales cuasi-periódicas, extraer correctamente el pitch debido a los disturbios de periodicidad y de cómo remover los efectos del tracto vocal. Los errores en la extracción del pitch se clasifican en: doble-pitch y medios-pitch. Estos ocurren cuando la frecuencia hallada es el doble o la mitad de la esperada respectivamente, y el tipo de error depende del método de estimación usado [16]. Existen tres tipos de estimación de la frecuencia fundamental dependiendo del dominio en 9 CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 10 el que trabaje el algoritmo utilizado: estimación en el dominio del tiempo, estimación en el dominio de la frecuencia y estimación mixta, es decir, tanto en el dominio temporal como en el dominio de la frecuencia. En esta ultima clasificación se encuentran los algoritmos basados en la trasformada wavelets (WT) [2]. Últimamente se han venido desarrollando métodos estadı́sticos de detección [41] basados en histogramas [10]. Los métodos en el dominio del tiempo son clasificados en tres grupos [16]: algoritmos que parten de la forma de onda, algoritmos basados en la función de autocorrelación y algoritmos de procesamiento cepstral. 2.1. 2.1.1. Algoritmos en el dominio del tiempo Autocorrelación con center clipping (AUTOC) Los métodos más antiguos y populares para la detección de la frecuencia fundamental en el dominio del tiempo, son los que se basan en la función de autocorrelación (FAC) [25]. Esta función nos indica el nivel de correlación que tiene una señal con ella misma, es decir, que tanta dependencia posee con sus valores pasados [15, 11]. La FAC R(τ ) para señales discretas se define como: R(τ ) = N −1 1 X x(n)x(n + τ ) N (2.1) n=0 Donde τ es un factor de retardo, x(n) la señal que se desea autocorrelacionar y N su longitud. En [35, 25], se propone hallar la FAC por medio de la transformada discreta de Fourier (TDF) partiendo de una variación de la función cepstrum, lo cual trae como beneficio, la disminución del costo computacional. Una función derivada de la FAC es Average Magnitude Difference Function (AMDF). La AMDF produce valles donde la FAC produce picos, porque no se basa en el producto de la señal con una versión retrasada de ella misma sino en la diferencia. Con esto se logra que la AMDF sea computacionalmente menos costosa que la FAC. La FAC presenta un pico máximo cuando τ = 0, correspondiente a la energı́a de la señal, además este pico está en la posición central ya que la función es simétrica. Debido a que una señal periódica correlaciona fuertemente con ella misma, la posición del segundo pico nos da una estimación del perı́odo fundamental. La función FAC es insensible al ruido aditivo, pero sensible al efecto de los formantes [35]. CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 11 Figura 2.1: Señal de voz con center clipping Por tal razón antes de aplicar la autocorrelación se usa una técnica de distorsión no lineal en el dominio del tiempo llamada center clipping (CC) [16]. El objetivo de esta función es crear una nueva señal solo con los valores absolutos de la señal original que superen un umbral predefinido (fig.2.1), este valor de umbral por lo general se toma como un porcentaje del máximo valor de amplitud de la señal (generalmente del 30 %). La señal con center clipping y[n], para x[n], con un nivel de umbral CL se define ası́:   x[n] − sgn(x[n])C |x[n]| > C L L y[n] =  0 ∼ (2.2) Esta función adicional también ayuda a blanquear el espectro eliminando las influencias del tracto vocal como el primer formante [16], pero el beneficio que más se aprovecha es que hace más periódica la señal y se logran picos más sobresalientes en la señal autocorrelacionada; haciendo de esta forma más fácil la detección del segundo pico [16]. Valores altos de center clipping definen mejor la periodicidad pero con el riesgo de perder periodos enteros, y valores bajos producen pocos efectos (ver figura 2.1). Por tal razón se debe aplicar un método para la selección adecuada del porcentaje de CL , que depende de los parámetros propios de la señal. Dentro de los métodos usados se encuentran: 1. Primer Método: Se halla el máximo del primer tercio y del último tercio de la trama. Se halla el mı́nimo de estos dos máximos (min1 ). Se halla el mı́nimo del primer y ultimo tercio. Se halla el máximo de estos dos mı́nimos (max1 ). Si el máximo mı́nimo es mayor o igual a la media µ, éste será el máximo mı́nimo que se aplicará en la determinación de CL . Y si el mı́nimo máximo es menor o igual a la media, se establece éste como el único mı́nimo máximo necesario. CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 12 Se halla el nivel de clipping positivo CL (+) con los valores hallados y un porcentaje p preestablecido: CL (+) = [ p ∗ (max1 − µ)] + µ 100 (2.3) Se halla el nivel de clipping negativo CL (−): CL (−) = −[ p ∗ (µ − min1 )] + µ 100 (2.4) Criterio de decisión Si la amplitud de cada uno de los elementos de la señal es mayor al nivel de center clipping positivo CL (+), o en caso contrario, si es menor al nivel de center clipping negativo CL (−), se asigna este valor a la nueva señal, y sino se cumple con ninguna de estas dos condiciones, se asigna la media µ. Figura 2.2: Técnica center clipping 2. Segundo Método: Se halla el máximo del valor absoluto del vector x[n]. Se halla el nivel de clipping CL , con un porcentaje p predefinido. CL = p% 100 · máx (x[n]) (2.5) Criterio de decisión Si el valor absoluto de cada elemento del vector es mayor al nivel del center clipping, a éste elemento sin valor absoluto se le resta el umbral pero con el signo del elemento actual de análisis. CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 2.1.2. 13 Autocorrelación del error de predicción (FAEP) Es conveniente depurar la señal de entrada por medio de un filtro inverso, cuyos coeficientes son los coeficientes de predicción lineal (LPC). Se aplica una distorsión espectral lineal por filtrado inverso [35, 25] que cancela la función de trasferencia del tracto vocal y reconstruye la señal de excitación 1.2 [35]. Con la separación de la señal de excitación de los efectos del tracto vocal, nos quedamos únicamente con la información necesaria que proporciona la estimación del pitch. Si se aplica la función de autocorrelación al error residual obtenida en el proceso de filtrado inverso del error de predicción, se reduce la complejidad en la detección del pico que se encuentra en la posición del perı́odo fundamental [15]. Además como ventaja adicional, los coeficientes del filtro nos dan una estimación de la respuesta frecuencial del tracto vocal. Figura 2.3: Diagrama en bloques del algoritmo FAEP 2.1.3. Cepstrum La función de transferencia del tracto vocal x(t), según el modelo de producción de la voz mostrado en la figura 1.2, es la convolución de la secuencia de excitación g(τ ) con la respuesta impulso del tracto vocal h(t) [16, 18, 20]: x(t) = Zt 0 g(τ )h(t − τ )dτ (2.6) Por la propiedad de la trasformada de Fourier, la ecuación 2.6 en el dominio de la frecuencia corresponde a una multiplicación de los espectros. Una de las caracterı́sticas especiales del cepstrum es que permite la separación de la envolvente espectral de la secuencia de excitación, y para ello se vale de la propiedad de los logaritmos log AB = log A + log B. Este proceso de separación se llama liftering [16] o deconvolución homomórfica [15]. CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 14 Las correspondientes transformaciones al dominio de la frecuencia de la función de transferencia del tracto vocal de la señal de excitación y de la respuesta impulso, convierten la ecuación 2.7 en: log |X(ω)| = log |G(ω)H(ω)| = log |G(ω)| + log |H(ω)| (2.7) Convergiendo de nuevo al dominio del tiempo: F −1 log |X(ω)| = F −1 log |G(ω)| + F −1 log |H(ω)| (2.8) La primera función al lado derecho indica la formación de un pico en la región de alta frecuencia, la cual se puede extraer el perı́odo fundamental. Y el segundo pico representa una concentración en la región de baja frecuencia, que permite la extracción de la envolvente espectral [16]. En consecuencia el cepstrum de una señal x(t), se define como la transformada inversa del logaritmo de la amplitud del espectro [16, 15]: cepstrum (x (t)) = F −1 {log |F {x(t)}|} (2.9) La ecuación 2.9, produce un pico máximo en el perı́odo fundamental. El algoritmo de decisión consiste en elegir el primer pico que supere un umbral de energı́a predefinido. La función cepstrum es insensible a los fuertes formantes en los armónicos altos pero sensible al ruido aditivo [35]. 2.1.4. Simplified Inverse Filter Technique (SIFT) El algoritmo SIFT es algoritmo es una versión simplificada de la técnica de filtrado inverso que reúne las ventajas de los métodos de la autocorrelación y cepstrum [25]. Fue propuesto por J.D Markel en 1972. El rango dinámico del perı́odo fundamental en la secuencia de autocorrelación, es usualmente inferior a 10 dB, un valor relativamente bajo con relación a los estimadores que parten de la forma de onda de la señal cuyo rango dinámico es superior a 30 dB. La técnica de la autocorrelación tiene dos desventajas [25]: La detección del pico no es fácil. Errores debido a los efectos de la respuesta impulso del tracto vocal. CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 15 El cepstrum resuelve los efectos de la respuesta impulso del tracto vocal, usando el hecho de que éste se encuentra en los primeros milisegundos de la señal de cepstrum. Es decir la técnica cepstrum resuelve el problema de la interacción entre los formantes y la frecuencia fundamental. Pero como inconveniente se encuentra que una decisión de V-UV no es posible y la difı́cil detección del pico continúa. Desafortunadamente por causa de la no linealidad logarı́tmica dos problemas se presentan [25]: El pico en el origen no puede ser usado como una referencia de normalización. La amplitud actual del pico es una función no solo del número de perı́odo del pitch dentro de la ventana, sino también de la forma cepstral. Si el segmento de análisis es completamente sonoro, los anteriores problemas son irrelevantes. Sin embargo, se convierten en inconvenientes cuando se desea determinar una decisión automática de sonoridad. La técnica de filtro inverso combina las caracterı́sticas de cepstrum y autocorrelación, además resuelve también sus desventajas; pero todo esto a cambio de una costosa carga computacional. El SIFT remueve esta desventaja y conserva las propiedades del filtrado inverso. Las mayores diferencias son [25]: El pico es ligeramente ensanchado. Los términos de alta frecuencia son suprimidos. Los armónicos del perı́odo del pitch son más aparentes. La relación de picos de señal deseados sobre picos de ruido no deseados es alta. El algoritmo SIFT consta de varias etapas las cuales se muestran en la figura 2.3, y se describen a continuación [25]: 1. Prefiltrado: La mayorı́a de las componentes de frecuencia de la señal de voz se encuentran en el rango de 0 - 1 kHz. Por tal razón es evidente que la señal debe ser limitada con una frecuencia de corte de 1 kHz. Los efectos extremos innecesarios que trae el filtro como la fase y el retardo, no son crı́ticos [25]. 2. Decimación: En el análisis digital de señales de voz se usa una frecuencia de muestreo alta para asegurar que todas las componentes de la señal sean exactamente representadas. Derivando un teorema de muestreo que corresponde a una forma de interpolación CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 16 Figura 2.4: Diagrama en bloques del algoritmo SIFT trigonométrica, la estimación de la frecuencia fundamental puede ser posible tan solo con la cuarta parte de la frecuencia de muestreo fs usada para el análisis. Usando esta frecuencia de muestreo baja se reduce en un factor de 4 el número necesario de operaciones [25]. 3. Preénfasis: Para hacer el procesamiento de la señal menos susceptible a truncamientos y aplanarla espectralmente, se pasa la señal digitalizada de voz a través de un filtro de bajo orden. Este filtro puede tener coeficientes fijos o ser adaptativo y ayuda a aumentar los niveles de las frecuencias agudas para que no sean despreciadas cuando se calculen las caracterı́sticas de la señal [40]. Para hacer el preénfasis se usa un filtro todo polos H(z) de primer orden: H(z) = 1 − α · z −1 (2.10) Donde α es el factor de preénfasis que puede tomar los valores: 0,9 ≤ α ≤ 1 (2.11) La salida del sistema de preénfasis S̃(n), esta relacionada a la entrada del sistema S(n) por la siguiente ecuación de diferencias [40]: S̃(n) = S(n) − α · S(n − 1) (2.12) 17 CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 4. Filtro inverso: El filtro inverso puede ser considerado como un filtro de pre-blanqueamiento el cual ayuda a limpiar el espectro de entrada para eliminar las tendencias caracterı́sticas o la forma espectral, debido predominantemente a la resonancia del tracto vocal o a los formantes; mientras retiene la fina estructura de los pulsos glotales [25]. La forma general de un filtro inverso A(z) es: A(z) = 1 + M X ai z −i (2.13) i=1 Para determinar los coeficientes ai , se usan los coeficientes de predicción lineal (LPC) de orden 4. 5. Autocorrelación: Si se aplica la función de autocorrelación a la salida del filtro inverso se logra resaltar más la periodicidad de la excitación [25]. 6. Interpolación trigonométrica: Para la estimación de la frecuencia fundamental se requiere aproximadamente un tiempo de resolución entre 0 - 0.15 ms (0 - 6.66 Hz) [25]. Debido a que se escogió un perı́odo de muestreo cuatro veces menor al perı́odo de muestreo de la señal fs , el máximo error de cuantización se incrementa en un factor de 4, lo cual se puede demostrar analizando la siguiente ecuación que describe el error de cuantización eq en términos del perı́odo de muestreo Ts y el perı́odo fundamental To ; fo es la frecuencia fundamental: eq = fo Ts = 2 · To 2 · fs (2.14) ∧ Con la aplicación de la decimación la nueva frecuencia de muestreo es: fs = ∧ eq = fo ∧ 2 · fs = 4 · eq fs 4, entonces: (2.15) El error de cuantización se incrementa en un factor de cuatro, que supera el tiempo de resolución requerido, volviéndose absolutamente sensible en voces sintéticas, además se incrementa el tiempo de computación y se hace necesario un gran filtro para eliminar los efectos de resonancia de los formantes más altos. Una solución simplificada a este problema se obtiene si se aplica una función de interpolación trigonométrica para la secuencia de autocorrelación obtenida del filtro inverso. CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 18 La interpolación trigonométrica se puede realizar por medio de la transformada rápida de Fourier (FFT, Fast Fourier Transformation) [25], pero en este trabajo se usa una interpolación parabólica que genera mayor simplicidad [17]: β = R(To + 1) − R(To − 1) (2.16) γ = 2R(To ) − R(To + 1) − R(To − 1) (2.17) Donde R(T ) es la secuencia de valores resultantes de aplicar la función FAC a la señal ∧ filtrada. El pico interpolado Y se obtiene con: ∧ Y = (2.18) β2 8γ (2.19) β To + 2γ ∧ Y su posición X es: ∧ X = R(To ) + 7. Decisión de sonoridad: Para asegurar que la probabilidad de muestras ruidosas en la secuencia de autocorrelación sea menor a un valor especificado, se asume que el ruido es de naturaleza gausiana y se halla un valor de umbral teniendo en cuenta el número N de muestras usadas. Si se usan 64 muestras (tramas de 32ms) y una probabilidad de 0.001, el valor de umbral es 0.378 [25]. Si la salida del filtro inverso es modelada como un tren de deltas de Kronecker periodicos, la secuencia de autocorrelación normalizada es descrita por una función lineal del ∧ perı́odo con pendiente negativa, dada por: Xp = −0,03 X +0,9. El periodo fundamental se limita en el intervalo de 2 ≤ To ≤ 16ms (62.5 - 500 Hz), y el valor de umbral se fija en 0.4. Además se puede aprovechar lo anterior para realizar una decisión de sonoridad V-UV. Si el pico interpolado supera el valor de umbral preestablecido la trama se define como sonora, en caso contrario como sorda. Si la trama se define como sorda estando entre dos tramas sonoras, ocurre una anomalı́a, ya que esta combinación no es posible y se debe a que la trama está levemente por debajo del valor de umbral. CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 19 También puede ocurrir que debido a cualquier variación considerable en los valores del periodo fundamental o a variaciones fonéticas dentro de la ventana; tramas sonoras se definan como sordas, entonces si la trama se define como sorda se prueba si las dos tramas anteriores no lo son, en tal caso se reduce el valor de umbral en un 25 % y nuevamente se toma una decisión de sonoridad con este nuevo valor de umbral para la trama actual, pero si las dos tramas anteriores no son sonoras indica que realmente la trama es sorda. Se reduce el valor de umbral porque cuando ocurren cambios rápidos en el periodo fundamental dentro de la ventana, el valor del pico correlacionado puede ser reducido del 15 al 20 %. En la figura 2.5, se muestra el algoritmo de decisión usado con todas las especificaciones necesarias. Figura 2.5: Diagrama de flujo para el criterio de sonoridad de SIFT 2.1.5. Separación y acumulación armónica (SAA) El análisis de Fourier de señales periódicas, en este caso las señales musicales, muestra como la energı́a de la señal se concentra en las frecuencias que son múltiplos enteros de la frecuencia CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 20 fundamental {fo,2fo,3fo,...nfo}; formando ası́ la serie armónica [29]. El valor en frecuencia de este conjunto discreto coincide con los valores de las frecuencias fundamentales de algunas notas musicales de la escala temperada y forman una relación interválica con la nota fundamental. En música a esta serie se le da el nombre de escala de los armónicos [12] y es el principio fundamental usado en el algoritmo SAA [36]. Figura 2.6: Escala de los armónicos para C2 El algoritmo SAA es especial para aplicaciones musicales, porque no pretende hallar el valor del pitch directamente, sino el nombre de la nota musical y su número de octava [36]. Luego partiendo de estos resultados y con un post-proceso, se halla el valor de la frecuencia exacta de la trama de análisis actual. Para lograr encontrar el valor del pitch el algoritmo requiere de tres etapas. En la música los valores de frecuencia de las notas son conocidas y estandarizadas mundialmente desde 1939. En esta fecha, se realizó en Paris una conferencia para asignar la frecuencia de 440 Hz al A4 (ver tabla de cifrados A.1) [14]. En el sistema occidental se usan doce notas por octava, que conforman la escala cromática; pero algunos compositores de música clásica del siglo XX como Alois Haba, y alguna música folclórica oriental, usan más. Creando ası́, sistemas microtonalı́stas como: los cuartos, tercios, sextos y doceavos de tono entre otros. Se tiene como único limite el mı́nimo umbral de sensibilidad del oı́do humano para diferenciar dos intervalos, que es aproximadamente 20 cents. Los valores de las frecuencias de las notas musicales de la escala temperada partiendo de una frecuencia inicial f0 , se obtienen multiplicando la frecuencia anterior por 1,0595, o de forma general con la ecuación de Chladni [12]: fi = f0 · √ 12 2i (2.20) CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 21 Sabiendo el nombre de la nota y su número de octava, se pasa a hallar su respectiva frecuencia. Desde luego la fuente sonora que produce el sonido musical debe emitir frecuencias discretas que correspondan a las de la escala por medios de tono o escala cromática, y la afinación debe ser exacta. Los instrumentos de teclado como el piano, órgano, sintetizador...etc, son ideales para este algoritmo; pero los instrumentos de cuerda y las voces no son completamente apropiadas debido a que pueden producir frecuencias microtonales. Este algoritmo está basado en el sistema afinación estándar occidental; que es la escala cromática [36]. Procedimiento: Etapa 1: Hallar el nombre de la nota. 1. Se crean las doce señales musicales de la escala cromática. Las señales se construyen en el dominio temporal con la función seno, cubriendo el rango de seis octavas [36]. Nk (t) = 6 X k=1 sen(2 · π · fn · t) (2.21) Para hallar la frecuencia de la octava n de fi se usa 1 : fn = 2(n−1) ∗ fi n≥1 (2.22) Donde fi se obtiene a partir de la ecuación 2.20: fi = 110 · √ 12 2i (2.23) Se usa f0 = 110 Hz que corresponde a la frecuencia de A2, para conservar la afinación estandarizada de A4 (440 Hz): 2. Se multiplica cada una de las doce señales por la trama de audio (convolución en frecuencia). La convolución desplaza al origen las partes espectrales del sonido que poseen igual valor, acumulando la energı́a del espectro [36]. Xn (t) = S(t) · Nk (t) 1 Ver observación 3 en la pág.49 (2.24) 22 CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 3. Se halla la energı́a de cada una de las señales resultantes de la multiplicación para lograr una representación espectral que los armónicos aportan a cada nota musical [36]. La energı́a de la señal resultante se halla con la ecuación 2.25: En = X |Xk (t)|2 (2.25) Donde Xk (t) es la señal resultante de la multiplicación de la señal musical k por la trama de audio. 4. Valor de energı́a más significativo: Es el valor de energı́a que más diferencia de amplitud tiene con sus respectivos vecinos locales, no necesariamente es el valor máximo. Este peso corresponde con un armónico de la señal [36]. Para que al primero y el último elemento del vector de los pesos se le pueda hallar la diferencia del que lo precede y del posterior, se convierte el vector en “circular” duplicando el primer elemento y poniendo la copia al final, y la copia del último al principio. Vector “circularizado” con los valores de energı́a de cada multiplicación: E= h B C C# D D# E F F # G G# A A# B C i (2.26) Ecuación para hallar los pesos γn : γn = |En − E(n−1) | + |En − E(n+1) | (2.27) Vector con los pesos de las doce señales: γn = h C C# D D# E F F # G G# A A# B i (2.28) Obteniéndose el valor del peso más significativo δn del vector γn : δn = máx(γn ) 5. (2.29) Se busca que posición ocupa el valor más significativo (armónico) en la escala de la serie armónica. El algoritmo funciona correctamente teniendo sólo en cuenta cuatro posibilidades en cuatro combinaciones posibles [36]. 23 CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH Se prueban los primeros nueve armónicos de la serie armónica, sin repetir los que son iguales (2,4,6,8), estas notas forman el acorde de novena de dominante D9 2 . Se prueba el peso más significativo cómo si fuera la tónica, la tercera mayor, la quinta justa o la séptima menor; pero siempre conservando su frecuencia. Es decir se halla el peso total de cuatro acordes de novena de dominante. Luego se busca el mayor de estos pesos, el que mayor peso tenga es el que contiene la posición correcta. Sabiendo la posición se conoce el nombre de la fundamental de dicho acorde y se pasa a buscar el número de octava. Cumpliendo con el principio de la conmutación de un proceso aditivo no importa el estado del acorde (fundamental, primera o segunda inversión). Se busca la posición ρn , del peso más significativo δn : ρn = pos(δn ) (2.30) Tónica: Se prueba si el valor más significativo es el primer armónico de la escala, es decir, si es la fundamental del acorde de novena de dominante. Se suma el valor de energı́a de cada una de las notas del acorde, pero sin tener en cuenta el peso de la nota en cuestión. Por no tener en cuenta la fundamental del acorde en este proceso, se puede considerar como un acorde de séptima de sensible: ψ1 = δρn +7 + δρn +4 + δρn +10 + δρn +2 (2.31) Donde ψn es la suma de las energı́as de las notas del acorde en cuestión y: δρn +7 : es la quinta justa de δn , que corresponde a la tercera nota de la escala de los armónicos. δρn +4 : es la tercera mayor de δn , y quinta nota de la escala de los armónicos. δρn +10 : es la séptima menor de δn , y séptima nota de la escala de los armónicos. δρn +2 : es la novena mayor de δn , y novena nota de la escala de los armónicos. Quinta Justa: Se prueba si el valor de energı́a más significativo hallado corresponde al tercer armónico de la escala, es decir, si es la quinta de la fundamental de otro acorde de D9 . Se suman los valores de los primeros nueve armónicos sin contar los que se repiten, ni el peso más significativo de prueba. ψ2 = δρn +5 + δρn +9 + δρn +3 + δρn +7 2 ver definición en el anexo A (2.32) CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 24 Tercera Mayor: Probar si es el quinto armónico. Éste armónico es la tercera de la fundamental del acorde de D9 . Se sigue un procedimiento igual a los anteriores. ψ3 = δρn +8 + δρn +3 + δρn +6 + δρn +10 (2.33) Séptima Menor: Probar si es séptimo armónico, es decir, si es la séptima menor de acorde de novena de dominante correspondiente. ψ4 = δρn +2 + δρn +9 + δρn +6 + δρn +4 (2.34) El número que se le suma a ρn corresponde a la cantidad de semitonos de separación entre ρn y el intervalo buscado para formar el acorde. 6. El valor máximo de estas cuatro combinaciones indica a que acorde pertenece el peso máximo de prueba. Sabiendo que posición ocupa éste se halla su respectiva nota fundamental, que corresponde con nombre de la nota buscada. Se halla cual de las sumas ψn , de los cuatro acordes de D9 es mayor. σ = pos (máx (ψn )) (2.35) Sabiendo el valor máximo se halla su posición σ, que indica que acorde contiene el peso buscado para luego encontrar su fundamental. De tal forma que:    1, δ (ρn )      2, δ (ρ n+5 ) σ=   3, δ (ρn+8 )      4, δ (ρn+2 ) El nombre de la nota buscada se indica por medio de: δ(ρn ) = posición de la fundamental (tónica). δ(ρn+5 ) = posición de la cuarta ascendente (quinta descendente). δ(ρn+8 ) = posición de la tercera mayor (sexta menor ascendente). δ(ρn+2 ) = posición de la séptima menor (segunda mayor ascendente). (2.36) 25 CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH Figura 2.7: Primera etapa del algoritmo SAA. Etapa 2: Hallar el número de octava. 1. Después de hallar el nombre de la nota, se encuentra el valor de su frecuencia en la octava inferior usada y se crean cinco señales (Nn (t)) con éste valor para cada una de las seis octavas [36]. Nn (t) = sin (2 · π · fn · t) (2.37) Para hallar la frecuencia de la octava n de fi . fn = 2(n−1) .fi , n≥1 (2.38) Donde: fi = 110 · √ 12 2i (2.39) Para comenzar la escala cromática en C, sabiendo que las señales se están creando a partir de A, se debe hacer un ajuste ası́:   > 9, ϕ − 9 ϕ=  < 9, ϕ + 3 (2.40) 2. Se multiplica cada una de estas seis señales por la trama de audio (ecuación 2.24). 3. Se halla la energı́a de cada una de las señales resultantes de la multiplicación (ecuación 2.25). CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 4. 26 Se halla el valor de energı́a más significativo de las seis señales resultantes. La posición de este valor corresponde al número de octava. Figura 2.8: Segunda etapa del algoritmo SAA. Etapa 3: Hallar la frecuencia final de la trama actual. Como la variable más importante que se busca es el valor de la frecuencia, y el algoritmo, como se escribió anteriormente da como respuesta el nombre de la nota musical y su octava. Con esta información se puede hallar el valor en frecuencia de la nota musical ası́: fo (Hz) = Fx · 4( 2+a 24 ) · 2(b−1) (2.41) Donde a es el valor numérico en semitonos de la nota en la escala cromática, resultado de la etapa 1. Y b es el número de octava del nombre de la nota hallada, resultado de la etapa 2. La constante Fx , es la frecuencia de un A en una octava grave, se usa el valor de 55 Hz (A1) para conservar la afinación estándar. 2.2. 2.2.1. Algoritmo de estimación en el dominio de la frecuencia Harmonic Product Spectrum (HPS) Una señal acústica esta compuesta por una serie de picos con componentes armónicas múltiplos enteros de la frecuencia fundamental; entonces si se comprime el espectro en un factor n, el pico n del espectro comprimido se alinea con el pico de la frecuencia fundamental del espectro original, es decir, el primer pico en el espectro original coincide con el segundo pico, si el espectro se comprime en un factor de dos, el cual coincide con el tercer pico en el espectro comprimido por un factor de tres, y ası́ sucesivamente [2]. CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 27 Cuando todos los espectros comprimidos y el espectro original se multiplican, el espectro resultante tendrá un pico máximo en la frecuencia fundamental [11]. Figura 2.9: Representación gráfica del algoritmo HPS Por lo anterior se concluye que el algoritmo HPS mide la máxima coincidencia de los armónicos para cada trama spectral X(ω). Para aplicar el producto de los armonicos Y (ω) se usa [11]: Y (ω) = N Y r=1 |X (ωr)| (2.42) Donde N es el número de armónicos empleados. El pico máximo en la frecuencia fundamental del espectro resultante se obtiene por [11]: ∧ Y = máx {Y (ωi )} (2.43) ωi Figura 2.10: Diagrama en bloques del algoritmo HPS Para hallar el valor en Hz de la frecuencia fundamental, se debe hacer una conversión de la forma: fo (Hz ) = i NFFT · fs (2.44) CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 28 Donde i es la posición del pico máximo hallado, fs es la frecuencia de muestreo y N F F T es el número de puntos usado en la FFT. Un problema común de este algoritmo son los errores de octava o errores de doble-pitch y para corregirlos se debe hacer un post-proceso. Una solución que se plantea en [11], es escoger el pico de la octava más baja como el pitch de la trama actual, SI la amplitud del segundo pico es aproximadamente la mitad del pico máximo Y si la razón de amplitudes supera un umbral (0.2 para 5 armónicos). Pero esta forma de corrección propuesta debe ser modificada para que la detección del segundo pico no coincida con los bordes del pico máximo. Entonces se halla un pico en el ±20 % del pico máximo y separado del pico inicial a una distancia entre 0.4 y 0.6. Se toma éste como nuevo pico fundamental corregido, si la razón de amplitudes es mayor a 0.2. 2.2.2. Maximum Likelihood (ML) Este algoritmo busca en un conjunto de espectros ideales predefinidos, el que mayor similitud tenga con el espectro de la trama de análisis. Estos espectros ideales están conformados por un tren de pulsos [11] que se pueden forman con ondas cosenos, cuyas frecuencias ω, son las frecuencias de las notas musicales de la escala cromática (sistema de afinación usado por defecto) para el número de octavas requerido. Si el error E(ω) de la diferencia entre estos dos espectros es mı́nimo, significa que el espectro de prueba posee gran similitud con la trama en cuestión y su frecuencia que es conocida de antemano, se asignará como el valor de la frecuencia fundamental de la trama de análisis actual. Como se indica en la ecuación 2.45 [11]. E(ω) = kY − Yω k2 = kY k2 + kYω k2 − 2Y YωT (2.45) Donde Y es el espectro de la trama actual y Yω es el espectro de prueba con frecuencia localizada en ω. Dado que el termino kY k2 es constante y kYω k2 también permanece constante para todas las frecuencias ω de interés, el termino kY − Yω k2 (error entre Y y Yω ) se hace ∧ mı́nimo cuando el producto Y de los dos espectros es máximo [11]: ∧ T Y = mı́n {E(ω)} = máx Y Yω ω ω (2.46) Se asigna como valor de pitch, la frecuencia ω de la señal que tenga el producto máximo con la ventana de análisis. La frecuencia ω, que es previamente conocida, corresponde a la CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 29 frecuencia de la nota musical buscada dentro del sistema especificado λ. Figura 2.11: Representación gráfica del algoritmo ML Estas señales ideales de prueba se crean en el dominio del tiempo y después de convolucionar con la señal ventana, su espectro se multiplica con el espectro de la trama de entrada [11]. Figura 2.12: Diagrama en bloques del algoritmo ML Creación de las señales musicales de prueba: Partiendo de la frecuencia mı́nima f1 y la frecuencia máxima f2 necesarias, se halla el número de notas (tren de pulsos). Además para hacer una generalización del sistema usado y lograr mayor precisión en el valor de la frecuencia, se debe tener en cuenta el tipo de sistema de afinación usado, según el factor λ mostrado en la tabla 2.1. Sistema λ Escala cromática 1/ 2 Tercios de tono 1/ 3 Cuartos de tono 1/ 4 Sextos de tono 1/ 6 Eneavos de tono 1/ n Tabla 2.1: Valores de λ para el sistema de afinación usado en ML. Para hallar las frecuencias de las notas musicales fi , partiendo de la frecuencia inicial f0 y generalizando con el sistema de afinación especificado (factor λ), se emplea la ecuación de Chladni (ec. 2.47) en el rango de una octava: λ fi = f0 · 2( 6 )·i (2.47) 30 CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH Si se necesita usar más de doce frecuencias de prueba, no se puede usar la ecuación de Chladni 2.20. Porque cuando se van a hallar las frecuencias de las notas superiores a 6 λ (más de una octava), el valor del factor de la progresión geométrica cambia porque para estos casos el numerador del exponente de 2 es mayor al denominador; modificando los valores de las frecuencias de las notas siguientes. Por tal razón se debe hacer una corrección a dicha ecuación ası́: i fi+1 = f1 · x( 6·k )·λ , i = 1, 2, 3...N (2.48) Donde x = 2k y k es igual al número de octavas que se usan, este debe ser superior al número de notas N . Para hallar el número k de octavas entre dos frecuencias f1 y f2 , siendo f2 > f1 se emplea la ecuación 2.49 [14]: k= Logf2 − Logf1 Log2 (2.49) Y el número de notas entre dos frecuencias teniendo en cuenta el sistema de afinación musical usado (factor λ), se halla con: log ff 12 √ N= 6 λ log 2 (2.50) En consecuencia la señales musicales Sn (t) se crean a partir de: Sn (t) = N X n=1 fi cos 2 · π · ·t·h fs (2.51) Donde h es el número de armónicos empleados, por lo general 4. La ventaja de tener una respuesta de frecuencia exacta debido a la asignación de la frecuencia de prueba preestablecida ω, es aprovechada para hallar el nombre y el número de octava de la nota musical de la frecuencia de salida. Para la incorporación de esta nueva función se usa el formato MIDI (Musical Instrument Digital Interface), que discretiza las frecuencias de las notas musicales en el rango de 0 - 127, donde C0 = 0 y G9 = 127. Se convierte el valor de la frecuencia de salida, a su correspondiente valor en el formato MIDI (NM IDI ): NM IDI = 69 + 12 · log2 fo 12 (2.52) CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH 31 Se halla el número de octava Nv : Nv = 8 − 131 − NM IDI 12 (2.53) Se halla la posición de la nota en la escala cromática (C = 0 - B = 11): N ota = NM IDI − 12 · (Nv + 2) (2.54) Sabiendo la posición de la nota en la escala cromática, fácilmente se determina su nombre. Este procedimiento se realiza únicamente para el sistema cromático (factor λ = 12 ), porque en otro sistema los nombres de las notas son más de doce y además no son exactamente iguales. 2.2.3. Multiplicidad de armónicos Con las frecuencias halladas para los primeros n armónicos del espectro de la trama de análisis, se puede hacer una estimación de la frecuencia fundamental [23] si se halla el promedio de la diferencia de los máximos locales de los n − 1 armónicos. Como lo indica la ecuación 2.55: fo = n−2 P i=0 f(n−i) − f(n−1)−i n−i (2.55) Donde fn es un vector que contiene las frecuencias de los n máximos de la trama de análisis actual. Figura 2.13: Diagrama en bloques del algoritmo MA 2.3. 2.3.1. Otras funciones Segmentación Es necesario en el proceso de análisis digital de señales, diferenciar las tramas de la señal que contiene información de las que no contienen información, es decir, se debe saber cuales son 32 CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH las tramas sonoras y cuales no. Se realizar un algoritmo de segmentación para detectar el inicio y el fin de cada palabra (V-UV). En cuanto a las señales de voz cantada, la segmentación se realiza a las frases musicales que incluyen secuencias de notas. El algoritmo para realizar esta tarea se basa en la energı́a y la densidad de cruces por cero de la señal ZCR (Zero Cross Rate) [40]. La energı́a E(n), de la señal X(n), se define como [4]: E (n) = N X n=1 |X (n)|2 (2.56) La densidad de cruces por cero indica el número de veces que la señal pasa por eje x, para determinar esta cantidad se cuentan los cambios de signo ascendentes y descendentes de la señal [4]. Aproximadamente corresponde a la frecuencia de mayor componente espectral [16]. N 1 X |sgn (X(n)) − sgn (X(n − 1))| ZCR(n) = N (2.57) n=1 Teniendo presente que la energı́a de la señal y la densidad de cruces por cero es mayor en la tramas sonoras que en las sordas. Se realiza un criterio de decisión basado en un umbral, el cual al ser superado indica el comienzo de una trama sonora, y el fin de sonoridad se determina cuando la energı́a y la ZCR de la tramas de análisis, son inferiores al umbral. Para hallar el umbral Ue , se tiene en cuenta la media µ y la desviación estándar σ de la trama actual de análisis: Ue = µ + 3 · σ 2.3.2. (2.58) Contorno La representación gráfica de la evolución del pitch se obtiene hallando un estimado de la frecuencia fundamental para cada una de las tramas de voz obtenidas, lográndose una representación de tramas vs frecuencia. Esta representación no proporciona información directa a cerca del tiempo de duración de cada frecuencia estimada. El contorno (pitch vs tiempo) posee más información de la estimación del pitch en señales de voz hablada y mucho más en señales de voz cantada; dado que la música se desarrolla a lo largo de la variable tiempo. La gráfica del contorno se obtiene haciendo una interpolación lineal o polinomial de alto orden [20] sobre los puntos del pitch obtenidos. La graficación puede ser en frecuencia lineal 33 CAPÍTULO 2. ALGORITMOS PARA LA ESTIMACIÓN DEL PITCH o logarı́tmica. Para realizar el contorno solo basta con hacer un cambio de variable en el eje de las abscisas, convirtiendo el número de muestras a la variable tiempo. Es indispensable conocer la frecuencia de muestreo debido a que el tiempo total (ttotal ) que dura una señal se calcula de la siguiente forma [4]: ttotal = V fs (2.59) Donde fs , es la frecuencia de muestreo y V el número de ventanas que caben en la señal. 2.3.3. Filtro de mediana Tramas consecutivas no siempre generan igual valor de pitch, creándose en la gráfica de la evolución de la frecuencia fundamental picos esporádicos que no son verdaderos valores de pitch sino errores transitorios. La solución que se plantea para suavizar la señal y eliminar los picos es aplicar un filtro de mediana de orden 5. Si se define L como la longitud del vector de entrada a filtrar, entonces el filtro de mediana de orden n, halla la mediana de L subconjuntos de n elementos seleccionados desde el primero hasta L − (n − 1). Previamente se debe hacer un ajuste añadiendo un determinado número de ceros al inicio y al final del vector de entrada, para que el primero y el último elemento del vector no sean excluidos de la operación. Si el orden del filtro es un número par, el filtro halla la media aritmética de los números centrales [37, 26], los cuales se encuentran en la posición n2 y n2 + 1 del subconjunto actual. El número de ceros a la izquierda y a la derecha del vector de entrada para que el primer elemento y el último se tengan en cuenta es n2 y n2 − 1 respectivamente. En cambio, si n es impar, el número de ceros a la izquierda y a la derecha para que el primero y el ultimo elemento sean el único número central del conjunto de análisis, y por consiguiente la respectiva mediana buscada es (n−1) 2 . El vector de salida tendrá el mismo tamaño del vector de entrada, lo que confirma que el número de subgrupos de análisis es igual a la longitud del vector de entrada [26]. Capı́tulo 3 Pruebas y Resultados 3.1. Base de datos Se usaron dos tipos de bases de datos de señales musicales, una de tipo instrumental y la otra de voz cantada. También se usó la base de datos de vocales sostenida propiedad de la Universidad Nacional de Colombia para realizar una prueba de hipótesis estadı́stica, dado que aún no se cuenta con una base de datos de señales de voz cantada apropiada para este tipo de pruebas. 3.1.1. Señales musicales de prueba En el proceso de implementación, corrección y edición de los diferentes algoritmos se usaron las señales de las notas musicales de una trompeta sintetizada por un teclado marca Yamaha PSR-620 en el rango de 5 octavas, desde el C2 = 65.41 Hz hasta C7 = 2096 Hz y de forma sostenida durante aproximadamente 2 segundos. El uso de estas señales de prueba facilitó el trabajo de implementación y corrección de los algoritmos, porque la frecuencia fundamental de cada una de éstas es conocida con anterioridad (ver tabla A.2 en los anexos). Además se tomaron muestras de voz para seis cantantes cubriendo todo el registro necesario. 3.1.2. Caracterı́sticas de las muestras Las muestras obtenidas por medio del software Mirla, están compuestas por una escala mayor y su respectivo arpegio, cuya tonalidad depende de la tesitura de cada cantante. En conjunto forman el acorde de C Mayor. Para la escala y el arpegio mayor, se pidió al cantante 34 35 CAPÍTULO 3. PRUEBAS Y RESULTADOS que interpretara lo pedido de tres formas diferentes, tomando tres muestras para cada una de las formas: en piano, en f orte, y crescendo ascendente - decrescendo descendente. Además se grabaron los intervalos diatónicos de la escala de forma separada y se concluyó cada sesión con el fragmento de una obra musical a selección del cantante dependiendo del gusto y la capacidad. El contenido de las muestras, se resume en tabla 3.1. Registro Escala y Arpegio Intervalos Obra (Fragmento) Autor Soprano E Mayor Diatónicos Nel cor più non mi sento G. Paisiello Mezzo-soprano C Mayor Diatónicos Ejercicio de calentamiento ... Contralto G Mayor Diat. y Cromáticos Réquiem en Dm K.626 (Introito) Mozart Tenor E Mayor Diat. y Cromáticos Bella prova e d’alma forte Nicola Vaccaj Barı́tono C Mayor Diat. y Cromáticos Opera Aida Giuseppe Verdi Diatónicos a Beethoven Bajo E Mayor Motivo 5 Sinfonia Tabla 3.1: Caracterı́sticas musicales de las muestras de canto. Las muestras se tomaron con un micrófono Shure SM58 dinámico unidireccional especial para cantantes. Con filtro esférico para eliminar los ruidos del aliento, los ruidos del viento y el seseo. Y dispersion polar de cardiode para aislar la fuente sonora principal y reducir ruidos de fondo. La distancia entre el cantante y el micrófono es de aproximadamente 10-15 cms. Las caracterı́sticas de los archivos de audio recolectadas son las siguientes: Formato: *.wav Frecuencia de muestreo: 22.050 Hz Bits por muestra: 16 Bits. Canales: 1 canal monofónico. 3.2. 3.2.1. Resultados de la estimación del pitch Segmentación En el proceso de segmentación se uso la energı́a de la señal y la densidad de cruces por cero, pero esta última función no produjo resultados satisfactorios y representativos de las tramas sordas, dando lugar a su omisión y encontrándose que con el uso de un umbral dependiente de la energı́a de la señal es suficiente. CAPÍTULO 3. PRUEBAS Y RESULTADOS 36 En señales de voz hablada se segmenta con el fin de economizar tiempo computacional al no tener que procesar información superflua, adoptándose inicialmente esta idea en la segmentación de señales de voz cantada, los resultados demostraron que las tramas sordas son parte importante en la música; porque representan silencios musicales necesarios en la obra. Para evitar excluir los silencios y asegurar que no afecten el análisis por la presencia de ruido que estos conllevan, se convirtieron las tramas sordas en ceros; depurando de esta forma el ruido para crear una señal semejante a la original. Luego con la señal depurada el algoritmo de estimación es obligado a dar el valor de cero a la frecuencia cuando encuentra tramas con valores consecutivos de ceros. Sin embargo no todos los silencios son necesarios, ya que solo una parte de estos situados al principio y al final de la señal de voz cantada hacen parte de la melodı́a, encontrándose el problema de tener que discriminar cual de estos es realmente importante. La primera parte de un frase musical (prótasis), contiene silencios cuando es protética (anacrúsica) o procataléctica (acéfala), y no es necesario que la última parte (apódosis), sea ı́ctica o postı́ctica para termina con silencios en el ultimo compás 1 . Para efectos del presente trabajo, se utilizó la solución sencilla de dejar únicamente silencios de 1 segundo al principio y al final; suponiendo que hacen parte del compás 2 . Figura 3.1: Melodı́a cantada por una mezzo-soprano 3.2.2. Resultados con señales musicales de prueba Para la implementación de los diferentes algoritmos, se uso la herramienta Matlab 6. Esta herramienta permite compilar en un lenguaje de programación simulado. Las gráficas de los resultados con estas señales son muy aproximadas y constantes porque la fuente sonora es de una afinación muy precisa. 1 2 ver definiciones en el anexo A ver observación 2 pag.48 CAPÍTULO 3. PRUEBAS Y RESULTADOS 37 Figura 3.2: Segmentación para una señal de voz cantada Estimación del pitch en el dominio del tiempo Los resultados de la estimación de la frecuencia fundamental en el dominio del tiempo de los algoritmos AUTOC, FAEP, Cepstrum, SIFT y SAA; se muestras en las figuras 3.3 - 3.7 respectivamente. Figura 3.3: Resultado algoritmo AUTOC para A5 = 880 Hz El algoritmo SIFT muestra como resultado el valor del pitch en la parte superior de la figura 3.6 y el vector binario del algoritmo de segmentación implı́cito en la parte inferior de la misma. Varios autores coinciden en que SIFT es bastante bueno para la estimación de la frecuencia fundamental de la voz hablada [18]. Se observa que el resultado del algoritmo para la detección del tono (SAA), es un vector discreto que indica el número de nota y el número de octava. Estos valores discretos sirven CAPÍTULO 3. PRUEBAS Y RESULTADOS 38 Figura 3.4: Resultado algoritmo FAEP para A3 = 220 Hz Figura 3.5: Resultado algoritmo Cepstrum C6 = 1046 Hz Figura 3.6: Contorno del pitch de SIFT para D3 = 146,83 Hz como entradas a la ecuación 2.41, para obtener el valor de la frecuencia. En la figura 3.7, se aprecia el resultado del algoritmo SAA para un E4. CAPÍTULO 3. PRUEBAS Y RESULTADOS 39 Figura 3.7: Resultado algoritmo SAA para E4 = 329,63 Hz Estimación del pitch en el dominio de la frecuencia Los resultados de la estimación de la frecuencia fundamental en el dominio de la frecuencia, para los algoritmos HPS, ML y MA; se muestras en las figuras 3.8 - 3.10 respectivamente. Figura 3.8: Resultado algoritmo HPS para G♯2 = 103,83 El resultado del algoritmo ML, es exactamente al valor de la frecuencia esperada porque se asigna la frecuencia de prueba de la la señal que posee mayor similitud con la trama de audio. Además la fuente sonora de entrada, tiene una afinación muy aproximada, por provenir de un dispositivo electrónico (indudablemente con un pequeño margen de error). La respuesta del nombre de la nota musical también es el la correcta: C7. El algoritmo multiplicidad de armónicos tiene buenos resultados a pesar de su sencillez, pero hay que reiterar que los resultados son mejores para altas frecuencias; como la frecuencia de entrada de B5 igual a 987, 77Hz, que se puede observar en la figura 3.10. 40 CAPÍTULO 3. PRUEBAS Y RESULTADOS Figura 3.9: Resultado algoritmo ML para C7 = 2093 Hz Figura 3.10: Resultado algoritmo MA para B5 = 987,77 Hz 3.2.3. Resultados con señales de voz cantada El resultado de la estimación del pitch con el algoritmo ML para la sección de la contralto interpretando la primera frase del introito del Réquiem en D menor K.626 de Mozart, se muestra en la figura 3.11 y su respectiva partitura 3 en la figura 3.12. Para constatar los resultados obtenidos en la figura 3.11, en la tabla 3.2 se encuentran los valores de frecuencias de las notas mostradas en la partitura de la figura 3.12. Se demuestra que los resultados son satisfactorios, sin embargo la frecuencia de B♭3 no concuerda con el valor esperado; esto se debe a una leve desafinacion de la cantante la cual se aproxima más a B♮3. Y las oscilaciones en el A3 se deben a un vibrato natural de semitono descendente, es decir, entre A3 y G♯3. En la última columna de la tabla se muestra la frecuencia de B♮3 y de G♯3 4 . 3 4 El signo al final del fragmento significa que la obra continua. Similar a los puntos suspensivos. En el anexo D se muestra la estimación con otros algoritmos y con ML configurado para diferentes microtonalidades 41 CAPÍTULO 3. PRUEBAS Y RESULTADOS Figura 3.11: Estimación del pitch con el algoritmo ML para la primera frase del Réquiem en D menor de Mozart interpretada por una contralto. Figura 3.12: Partitura del Réquiem de Mozart para contralto. D4 C♯4 C♮4 B♭3 E4 A3 F4 F♯4 B♮3 G♯3 293, 66 277, 18 261, 62 233, 08 329, 63 220 349, 23 369, 99 246, 94 207, 65 Tabla 3.2: Frecuencias de las notas usadas en la primera frase del Réquiem de Mozart. Los resultados de la estimación del pitch para un cantante tenor interpretando el arpegio de E mayor ascendente y descendente usando el algoritmo SIFT, se muestra en la figura 3.13. La partitura del arpegio de E mayor para este registro escrita en clave de DO, se observa en la figura 3.14 y las respectivas frecuencias de las notas en la tabla 3.3. E3 G♯3 B3 E4 164, 81 207, 65 246, 94 329, 63 Tabla 3.3: Frecuencias del Arpegio de E mayor en la tercera octava En la figura 3.15, se muestran los resultados de la estimación del pitch con el algoritmo FAEP para la escala de E mayor interpretada por una soprano. La notación musical de la escala CAPÍTULO 3. PRUEBAS Y RESULTADOS 42 Figura 3.13: Estimación del pitch con SIFT para el arpegio de E mayor interpretado por un tenor. Figura 3.14: Partitura del arpegio de E mayor. en el pentagrama y sus valores de frecuencia se muestran en la figura 3.16 y la tabla 3.4 respectivamente. Figura 3.15: Estimación del pitch con FAEP para la escala en E mayor interpretada por una soprano. 43 CAPÍTULO 3. PRUEBAS Y RESULTADOS Figura 3.16: Partitura de la escala de E mayor. E4 F♯4 G♯4 A4 B4 C♯5 D♯5 E5 329, 63 369, 99 415, 30 440 493, 88 554, 36 622, 25 659, 26 Tabla 3.4: Frecuencias de las notas de la escala de E mayor. 3.3. 3.3.1. Análisis Estadı́stico Prueba de hipótesis aplicada a la estimación del pitch Encontrando en promedio una respuesta aparentemente óptima según las señales de prueba, se pasó a determinar de una forma objetiva y cientı́fica el algoritmo que mejor desempeño proporciona tomando como referencia los resultados obtenidos con el software PRAAT. Este software es un analizador de voz de libre distribución del Institute of Phonetic Sciences de la universidad de Amsterdam. Las señales de prueba usadas son las contenidas en la base de datos Mirla propiedad de la UN. La base de datos de prueba consta de 455 voces, divididas en cinco grupo correspondientes a las cinco vocales del alfabeto español y cada grupo contiene 91 muestras de la vocal en forma sostenida. Con el valor medio de la frecuencia fundamental para cada uno de los algoritmos incluyendo el algoritmo PRAAT y el Childers [8], y excluyendo el algoritmo SAA y ML debido a que sus respuestas son discretas y además tienen como requisito una fuente musical de entrada exacta. Se halló cada una de las distribuciones de probabilidad acumulativa (FDA) de las poblaciones obtenidas, con el fin de aplicar el test estadı́stico de Kolmogorov-Smirnov, que permite comparar dos distribuciones de probabilidad de datos continuos univariados. Como hipótesis nula H0 , se tiene: H0 = Las muestras tiene igual distribución de probabilidad. En la figura 3.17, solo se muestran las distribuciones de probabilidad acumulativa para los algoritmos que más se asemejan a la distribución acumulativa de referencia. 44 CAPÍTULO 3. PRUEBAS Y RESULTADOS Figura 3.17: Gráfica de las funciones de distribución acumulativas. Para los niveles de significación α más comúnmente usados 0.05 y 0.01, se obtienen los resultados mostrados en la tabla 3.5. Método α=0.05 α=0.01 AUTOC Rechaza No rechaza Cepstrum Rechaza Rechaza FAEP Rechaza Rechaza SIFT Rechaza No rechaza HPS Rechaza Rechaza MA Rechaza Rechaza Childers Rechaza Rechaza Tabla 3.5: Resultados del test de Kolmogorov-Smirnov 3.3.2. Prueba de hipótesis para la estimación con ruido Para determinar el nivel de sensibilidad de cada uno de los algoritmos de estimación del pitch ante ruido ambiente de fondo, se obtuvieron muestras de valores de pitch para las notas musicales de prueba con sonido de trompeta, en el rango de 5 octavas (61 notas en forma 45 CAPÍTULO 3. PRUEBAS Y RESULTADOS cromática). Las muestras se obtuvieron sin ruido y con ruido gaussiano aditivo para un SNR de 20dB, con el cual se simula el ruido ambiente de fondo. Se aplico una prueba de hipótesis con el estadı́stico t-student, bajo el nivel de significación de 0.05 y 0.01. La hipótesis nula planteada Ho es: H0 = µ (x1 − x2 ) = 0 Donde x1 es el conjunto de datos de los valores de pitch sin ruido y x2 los valores de pitch con ruido aditivo de 20 dB. El número n de observaciones es igual a 61 para todos los algoritmos, excepto para SIFT con el cual únicamente se obtuvieron 36 muestras, porque su rango dinámico de operación es de 3 octava (36 notas). Los resultados obtenidos con la prueba de hipótesis se pueden apreciar en la tabla 3.6. Algoritmo α=0.05 α=0.01 AUTOC No rechaza No Rechaza FAEP No rechaza No Rechaza Cepstrum Rechaza Rechaza SIFT Rechaza No Rechaza SAA No rechaza No Rechaza HPS Rechaza Rechaza ML No Rechaza No Rechaza MA Rechaza No Rechaza Tabla 3.6: Resultados de la prueba de hipótesis para ruido de 20 dB Conclusiones La estimación de la frecuencia fundamental con el algoritmo ML produce muy buenos resultados, siempre y cuando la frecuencia buscada se encuentre en el vector de frecuencias de las señales musicales de prueba. De lo contrario se hace una aproximación a la frecuencia musical más cercana. Por esta razón obviamente es más recomendable realizar la estimación para instrumentos de afinación exacta como el piano, la guitarra...etc; y no para señales de voz cantada porque pueden producir frecuencias de notas musicales no discretas. Se planteó la solución de poner como entrada al algoritmo el sistema de afinación musical usado para dar mayor precisión, pero se incrementa el tiempo de computo. El algoritmo SAA trabaja bien para señales musicales de afinación exacta, pero únicamente para el sistema cromático; sin poderse hacer una generalización de la afinación debido a su misma esencia de operación. Además produce errores esporádicos, en especial en la primera etapa. Se pudo remediar hallando y aplicando la moda a todo el vector, pero esta solución solo es útil cuando se halla una sola frecuencia a la vez; impidiendo que se puedan hallar pitch para secuencias de notas (melodı́a) porque se pierden los valores que menos se repiten por la imposición de la moda. La resolución de los resultados de detección del algoritmo HPS, es tan buena como la cantidad de puntos que sean usados para hallar la FFT, pero es ineludible un post-proceso de corrección de octava. Los algoritmos cepstrum y FAEP tienen buen desempeño. El algoritmo MA a pesar de ser el más sencillo produce buenos resultados, pero son mejores y más exactos cuando se detectan altas frecuencias. Sin embargo, se demuestra estadı́sticamente en la tabla 3.5 y en la figura 3.17, que los algoritmos SIFT y AUTOC son mejores al aceptar la hipótesis nula Ho al nivel de significación de α=0.01. 46 El principio fundamental de SIFT está basado en el modelo del tracto vocal, por tal razón es totalmente apropiado para voces más que para instrumentos musicales. Además posee implı́citamente una función de segmentación. Tiene la desventaja de trabajar únicamente en el rango de (62, 5 − 500 Hz); excluyendo ası́ el análisis para los registros agudos. En el proceso de segmentación de señales de voz cantada se debe evitar eliminar las tramas sordas entre notas, porque éstas corresponden a silencios musicales de la obra que contienen información musical importante. También hay que tener cuidado de no eliminar la totalidad de los silencios iniciales y finales, porque como pueden ser tramas transitorias con ruido, también pueden ser parte indispensable de la melodı́a. Para estar seguro de la función de los silencios de la melodı́a y tomar decisión sobre ellos se plantea realizar un proceso de discriminación más complejo. Al nivel de significación de 0.05, SIFT y MA rechazan la hipótesis nula para la prueba de inmunidad ante el ruido gaussiano aditivo. HPS y Cepstrum no superan la prueba para ninguno de los dos niveles de significación usados. Por lo tanto AUTOC, FAEP, SAA y ML son más resistentes al ruido de fondo. 47 Observaciones Al termino del presente trabajo se hacen las siguientes observaciones que pueden servir como información adicional, o como recomendaciones que surgieron de la experiencia adquirida en la detección y corrección de problemas que se presentaron en el desarrollo del mismo. También se pueden considerar como problemas planteados, o como ideas para futuras investigación en el tema. 1. Se podrı́a pensar apresuradamente que entre más aguda sea la voz mayor es el rango de frecuencia, por consiguiente mayor “ancho de banda” (ver tabla 1.2). Pero este cálculo no es posible y se comete un error de concepto matemático debido a que el valor de frecuencia de las notas musicales provienen de una progresión geométrica con factor 2, por ejemplo, para hallar el valor de frecuencia de alguna de las octavas superior de una nota inicial, se debe elevar 2 el número de veces indicado y multiplicar por la frecuencia inicial. Es decir, es una operación logarı́tmica con base dos y el hecho de sustraer la frecuencia inferior de la frecuencia superior para hallar el “ancho de banda”, implica una incompatibilidad por ser la sustracción una operación lineal. 2. En el proceso de segmentación de señales musicales (frases melódicas), como se escribió en el capitulo 3, existe el problema de tener que hallar la información importante en los silencios iniciales y finales. Una mejora que se propone es la realización de un proceso de discriminación, en el cual se detecte el tempo de la señal, el tipo de compás y los tiempos fuertes (ictus). Luego con esta información, encontrar si el comienzo de la frase es tético, protético o procataléctico. Si el comienzo es protético o procataléctico, se calcula el número de figuras en silencio y su valor en tiempo. De esta forma solo se incluye en el análisis la información de tramas sodas necesarias. 48 3. Las ecuaciones 2.22, 2.26-2.36, 2.40, 2.41, 2.50, 2.55, fueron deducida especialmente por el autor en el desarrollo de este trabajo. La ecuaciones 2.47 y 2.48, son generalizaciones de la ecuación de Chladni; la primera para el sistema de afinación microtonal usado y la segunda para hallar los valores de las frecuencias superiores a una o más octavas. La conceptualización con armonı́a musical del algoritmo SAA y la mejora de obtener a partir de la respuesta en frecuencia de ML el nombre de la nota y su octava, también fueron mejoras que surgieron en el proceso de la realización del mismo. 49 Bibliografı́a [1] Test de kolmogorov-smirnov. www.math-info.univ-paris5.fr/~ycart/emel/cours/ ts/node7.html. [2] R. Alzate. Estimación de contornos del pitch en lı́nea sobre dsp. Tesis de grado, Universidad Nacional de Colombia, Sede Manizales, Colombia, 2003. [3] S. C. Arroyo. Otros contrastes no parametricos. www.uv.es/~carrascs/analDatos/ temas/TEMA71.pdf. [4] G. V. Bernal Bermudez Jesus., Bobadilla Sancho Jesús. Reconocimiento de Voz y Fonética Acústica. Alfaomega Grupo Editor, S.A.de C.V., Madrid, España, 2000. [5] Cardiff and Warwick. Kolmogorov - smirnov test. homepages.which.net/~gk.sherman/ mbaaaaal.htm. [6] A. Celorrio Sánchez. Pruebas de hipótesis no paramétricas de kolmogorov-smirnov para una y dos muestras. www.monografias.com/trabajos11/docima/docima.shtml. [7] M.-D. C.Ferrer. Medición de perturbaciones de frecuencias como indicador de la aspereza de la voz. Memorias II Congreso Latinoamericano de Ingenierı́a Biomédica. CEETI, Facultad de Ingenierı́a Eléctrica, UCLV. La Habana, Cuba., Mayo 23-25 2001. http: //www.hab2001.sld.cu/arrepdf/00123.pdf. [8] D. G. Childers. Speech Processing and Synthesis Toolboxes. John Wiley and Sons, 2000. [9] N. Cobiella. La música y los instrumentos musicales. http://www.educar.org/ inventos/Musica.asp. [10] M. Davy and S. Godsill. Bayesian harmonic models for musical pitch estimation and analysis. November 13 2002. http://www.irccyn.ec-nantes.fr/~davy/papers/Davy_ godsill_TR431.pdf. 50 [11] A. M. C. S. De la Cuadra, Patricio. teractive music. Efficient pitch detection techniques for in- Center For Computer Research In Music And Acoustics. Stan- ford University. http://www.stanford.edu/~pdelac/research/MyPublishedPapers/ icmc_2001-pitch_best.pdf. [12] T. Deolazabal. Acústica Musical y Organologı́a. Editorial Ricordi Americana S.A.E.C., Buenos Aires, Argentina, 1993. [13] H. W. S. Dirk Michaelis, Matthias Fröhlich. Some simulations concerning jitter and shimmer measurement. http://www.physik3.gwdg.de/~micha/aachen98/aachen98. html. [14] B. B. Electrónica. Música Electrónica: Órganos. Editorial Hedı́as. Ltda, Santafé de Bogota, Colombia. [15] Z. M. Faúndez. Tratamiento digital de voz e imagen. Alfaomega grupo editor,S.A. de C.V., Mexico,D.F., 2001. [16] S. Furui. Digital Speech Processing,Synthesis and Recognition. Marcel Dekker,Inc., New York,EU., 1985. [17] E. GEOFFROIS. The multi-lag-window method for robust extended-range f0 determination. [18] M.Ñ. Gold, Ben. Speech And Audio Signal Processing.Processing and Perception of Speech and Music. John Wiley and Sons,Inc., New York,EU., 2000. [19] L. F. Gomez Garcı́a. Ciencia y Técnica del Dominio de la Voz. Editorial Jurı́dica de Colombia, Santafé de Bogota, Colombia, Abril 15 1986. [20] A. A. H. H.-W. Huang, Xuedong. Spoken Language Processing. Prentice Hall PTR, New Jersey,EU., 2001. [21] H. Khamis. Kolmogorov-smirnov test. www.math.wright.edu/.../pages_based_on_ template/kolmogorov_smirnov_test/kolmogorov_smirnov_test.htm. [22] H. LEON VALDES, Hernán y VALDIVIESO. de las cuerdas vocales. yo 2004], p.65-75. Timbre vocálico y esfuerzo Estud. filol.. [online]. 2002, no.37 [citado 05 Ma- http://www.scielo.cl/scielo.php?script=sci_arttext&pid= S0071-17132002003700004&lng=es&nrm=iso. 51 [23] N. R.Ñ. López S, Alexander. Diseño y desarrollo de un sistema interactivo de análisis acústico de voz en manizales. Tesis de grado, Universidad Nacional de Colombia, Sede Manizales, Colombia, 2000. [24] M. Manson. El Estudio del Canto. Técnica de la Voz Hablada y Cantada. Ricordi Americana S.A.E.C., Buenos Aires, Argentina, 1975. [25] D. Markel. The sift algorithm for fundamental frequency estimation. Technical report, Speech Communications Research Laboratory (SCRL)Inc., Santa Barbara,California., 1972. [26] The MathWorks Inc. Ayuda Matlab 5.3.0.10183 (R11). The Lenguage of Technical Computing, January 21 1999. [27] C. B.-A. Mejı́a G, Gloria E. Ciencia y tecnologı́a en el análisis acústico de la voz y del habla. Investigaciones Universidad del Quindio, (No .9):64–73, Noviembre 2000. [28] D. C. Montgomery. Contro Estadı́stico de la Calidad. Grupo Editorial Iberoamérica, 1991. [29] A.Ñuñez. Informática y Electrónica Música. Editorial Paraninfo S.A, Madrid, España, 1992. [30] N.Ñ. I. of Standards and Technology). Kolmogorov-smirnov goodness-of-fit test. www. itl.nist.gov/div898/handbook/eda/section3/eda35g.htm. [31] N.Ñ. I. of Standards and Technology). Kolmogorov smirnov two sample. http://www. itl.nist.gov/div898/software/dataplot/refman1/auxillar/ks2samp.htm. [32] A. Palma. Tratado Completo de Armonı́a. Editorial Ricordi, Buenos Aires, Argentina, 1941. [33] D. D. Pedro. Manual de Formas Musicales. Real Musical, Publicac.Y Ediciones, 1 edition, Enero 1993. [34] P. F. S. Pértegas Dı́az S. La distribución normal. www.fisterra.com/mbe/investiga/ distr_normal/distr_normal2.pdf. [35] M. S. Sadaoki Furui. Advances in Speech Signal Processing. Electrical engineering and electronics, New York, E.U, 1991. 52 [36] C. G. J. L. Serquera Peyro, Jaime. Algoritmo para la detección en tiempo real del tono en señales musicales monofónicas,por separación-acumulación armónica (saa). http: //www.ia.csic.es/Sea/publicaciones/4375cd002.pdf. [37] M. Spiegel R. Serie de compendios Schaum. Teoria y problemas de estadı́stica. McGrawHill, 1978. [38] J. Sunberg. Acústica del canto. Libros de Investigación y Ciencia. Acústica Musical, 1a Edición:72–80, 1989. Barcelona, España. [39] S. Uppgård. Implementation and analysis of pitch tracking algorithms. Master´s thesis, Clavia and KTH S3, Stockholm, Sweden., Dicember 19 2001. [40] B. F. C. Vitola de la rosa, Fernando. Reconocimiento de voz utilizando dtw. Tesis de grado, Universidad Nacional de Colombia, Sede Manizales, Colombia, 1999. [41] D. Wu, Mingyang. Wang. Pitch tracking based on statical anticipation. http://www. cse.ohio-state.edu/~mwu/Public/IJCNNHandOutPaper.pdf. 53 Anexo A Conceptos Musicales A.1. Nomenclatura de la notas musicales Los nombres de las notas musicales reciben varias abreviaturas para referirse fácilmente a ellas. En la tabla A.1, se muestran las nomenclaturas usadas en diferentes escuelas musicales: Escuela DO RE MI FA SOL LA SI bemol SI Española - Italiana Do Re Mi Fa Sol La – Si Francesa Ut Re Mi Fa Sol La – Si Inglesa C D E F G A – B Alemana C D E F G A B H Tabla A.1: Cifrado de las notas musicales A.2. Frecuencias de las notas musicales La música tradicional clásica o popular occidental usa la escala temperada de 12 notas por octava, es decir, con 12 divisiones exactas llamadas semitonos para formar la escala cromática. A cada nota musical le corresponde una frecuencia según la tabla A.2. A.2.1. El pentagrama musical La correspondencia de cada nota musical en el pentagrama, se muestra en la figura A.1. Donde el sı́mbolo (♯) se llama sostenido y significa que a la nota que lo precede se le incrementa un semitono. El sı́mbolo (♭) se llama bemol y tiene el efecto contrario al sostenido. Una nota puede tener igual frecuencia pero diferente nombre, lo que se denomina como enarmónico, 54 55 ANEXO A. CONCEPTOS MUSICALES Nombre Orden de Octava Nota 1 2 3 4 (Central) 5 6 7 8 9 C 32, 70 65, 41 130, 81 261, 62 523, 25 1046, 50 2093 4186 8372, 02 C♯ 34, 65 69, 30 138, 59 277, 18 554, 36 1108, 73 2217, 46 4434, 92 D 36, 71 73, 42 146, 83 293, 66 587, 33 1174, 66 2349, 32 4698, 64 D♯ 38, 89 77, 78 155, 56 311, 13 622, 25 1244, 51 2489, 01 4978, 03 E 41, 20 82, 41 164, 81 329, 63 659, 26 1318, 51 2637, 02 5274, 04 F 43, 65 87, 31 174, 61 349, 23 698, 46 1396, 91 2793, 82 5587, 65 F♯ 46, 25 92, 50 185 369, 99 739, 99 1479, 98 2959, 95 5919, 90 G 49 98 196 392 783, 99 1661, 22 3135, 96 6270, 93 G♯ 51, 91 103, 83 207, 65 415, 30 830, 61 1661, 22 3322, 44 6644, 87 A 55 110 220 440 880 1760 3520 7040 A♯ 58, 27 116, 54 233, 08 466, 16 932, 33 1864, 65 3729, 31 7458, 62 B 61, 74 123, 47 246, 94 493, 88 987, 77 1975, 53 3951, 06 7902, 13 Tabla A.2: Frecuencia de las notas musicales del sistema temperado por ejemplo, Re sostenido (D♯) es el enarmónico de mi bemol (E♭) y viceversa. Las notas musicales se representan en el pentagrama como si éste fuera un “plano cartesiano”, donde el eje horizontal es el tiempo y el vertical la frecuencia. Figura A.1: Pentagrama de la escala cromática. A.3. Efectos usados en el canto Para dar mayor expresión al canto se usan algunos efectos, éstos tienen la función de alterar de forma consciente y momentánea algún atributo de la señal como: la frecuencia, la amplitud ANEXO A. CONCEPTOS MUSICALES 56 o el tiempo de duración. El uso de estos efectos en la voz cantada hace más difı́cil la detección del pitch. Vibrato: Desplazamiento rápido alrededor de una nota [24, 19]. Corresponde a una modulación FM a baja frecuencia [14]. Apoyatura: Nota musical de corta duración que se antepone a una nota real. Se ejecuta apoyando dicho sonido con una excitación nerviosa en la criba [19]. Grupeto: Ejecución de notas rápidas alrededor de la nota real sin perder su valor y manteniendo el ritmo [19]. Glissando: Deslizamiento de forma continua entre dos o más notas [19]. Picado: Ejecución corta y golpeada de una nota musical [19]. Rubato: Aceleración y desaceleración de tiempo musical en un fragmento determinado de la obra [19]. Trino: Sucesión continua de dos notas rápidamente. Pueden ser de semitono, de tono o de tercera [19]. Es el efecto más difı́cil de ejecutar y se efectúa en la garganta provocando una sacudida repetida de la laringe [24]. A.4. Definición de algunos términos musicales Crescendo: Variación dinámica del sonido en un fragmento musical de forma gradual desde suave a fuerte, se indica con (cresc) y la forma inversa se denomina decrescendo (decres). Piano: Indicación de expresión suave en el nivel de volumen de un fragmento de la obra musical. Forte: Indicación de expresión fuerte en el nivel de volumen de un fragmento de la obra musical. Cromática: Escala musical compuesta de 12 notas por octava con separaciones equidistantes de semitono. ANEXO A. CONCEPTOS MUSICALES 57 Acorde de dominante: Union simultanea de la quinta, la séptima y la segunda nota de la escala musical. Cuando incluye la cuarta nota de la escala se llama acorde de dominante con séptima y cuando contiene la sexta, acorde de dominante con novena. Motivo: Elemento primario y fundamental de una composición musical. La union de dos o más motivos componen la semifrase [33]. Frase: Unión de dos o más semifrases. Por lo general es de ocho compases [33]. Prótasis: Semifrase que se encuentra en los primeros cuatro compases de la frase musical [32]. Apódosis: Semifrase que se encuentra en los últimos cuatro compases de la frase musical [32]. Ictus: Primer tiempo fuerte del compás [33]. A.5. Clasificación de los comienzos y finales de la frase musical Clasificación según el comienzo: Según su posición con respecto al ictus inicial, se tienen: Tético: Cuando el comienzo de la frase se encuentra en el primer ictus [33]. Protético: Cuando la frase comienza antes del primer ictus. El conjunto de notas anteriores al ictus se denomina anacrusa. También recibe el nombre de anacrúsico [32, 33]. Procataléctico: El comienzo se halla inmediatamente después del ictus. Este comienzo también es llamado acéfalo [32, 33]. Clasificación según el final: Según su posición con respecto al ictus final, la apódosis se puede clasificar ası́: Íctico: Cuando la frase termina exactamente con en el ictus. Generalmente se le conoce como terminación masculina y puede o no dar lugar a silencios [32, 33]. Postı́ctico: La terminación se da después del ictus. Generalmente se le conoce como terminación femenina y puede o no dar lugar a silencios [32, 33]. Anexo B Test de Kolmogorov-Smirnov B.1. Introducción En la década de 1930 los matemáticos rusos Andrei M. Kolmogorov y Vladimir I. Smirnov, desarrollaron un test estadı́stico de ajuste de bondad [21] para muestras continuas que permite determinar si una muestra empı́rica dada proviene de una distribución teórica especifica [6, 3]. La distribución acumulada relativa teórica generalmente es la distribución normal [34]; aunque también pueden ser utilizada la distribución de Weibull, la exponencial o log-normal [30]. Pero en muchos casos es necesarios probar como referencia una distribución desconocida cuando se tienen dos muestras independientes [5, 6]. El test de Kolmogorov-Smirnov (K-S) es no-paramétrico [1], entonces no es necesario hacer suposiciones de la normalidad de las muestras, ni de la homogeneidad de las varianzas. Además esta caracterı́stica permite que no sea necesario el conocimiento del tipo de variable, ni la independencia de los datos. B.2. Ajuste de bondad del test de Kolmogorov-Smirnov Para determinar si razonablemente se puede aceptar que las mediciones muéstrales provienen de una población que tiene una distribución teórica dada, se compara la distribución de frecuencia acumulativa de la distribución teórica con la distribución de frecuencia acumulativa observada. Se determina el punto donde estas dos distribuciones muestran la mayor divergencia [6]. 58 59 ANEXO B. TEST DE KOLMOGOROV-SMIRNOV La distribución relativa acumulada de las muestras observadas F1 (x) y la distribución relativa acumulada de la muestra teórica F2 (x), se hallan ordenando los datos de las muestras observadas f1 (x) y de las muestras teóricas f2 (x), para organizarlas por clases. Para obtener la tabla B.1, teniendo en cuenta que [30, 31]: Ft (n) = n P f (xi ) i=1 , N i≤n (B.1) Donde t es el número del conjunto de las muestras, N es el tamaño de los datos y k es el número de clases. Esta función incrementa por pasos de 1/N el valor de cada punto de los datos [30, 31]. La maxima distancia entre las dos distribuciones de frecuencias relativas acumuladas se halla con [3]: D1 = máx |F1 (x) − F2 (x)| (B.2) D2 = máx |F2 (x) − F1 (x)| (B.3) D = máx{D1 , D2 } (B.4) En la tabla B.1, se muestran las dos distribuciones y su diferencia. Donde el primer ı́ndice corresponde al número de la clase y el segundo al orden de la muestra. Clases F1 (x) F2 (x) F1 (x) − F2 (x) 1 F1 (1) F2 (2) F1 (1) − F2 (2) 2 F1 (2) F2 (2) F1 (2) − F2 (2) ... ... ... ... k F1 (k) F2 (k) F1 (k) − F2 (k) Tabla B.1: Frecuencias relativas acumuladas para el test de Kolmogorov-Smirnov B.3. Hipótesis nula Según el nivel de significación α, el tamaño de las muestras N y la tabla de ajuste de bondad del test de K-S; se rechaza la hipótesis nula H0 , si D ≥ Dtabla con el nivel de confiabilidad asumido [3, 5, 34]. La hipótesis nula y la hipótesis alternativa para este test son las siguientes 60 ANEXO B. TEST DE KOLMOGOROV-SMIRNOV [30, 6]: H0 = Las muestras provienen de la misma distribución. H1 = Las muestras proviene de diferentes distribuciones. Cuando no se dispone de las tablas de ajuste de bondad del test K-S, es preferible hallar un valor de umbral p-valor p(k), que depende de la longitud del vector de la población de prueba n1 y el tamaño de la población de referencia n2 : n= λ = max √ n1 · n2 n1 + n2 0,11 n + 0,12 + √ n (B.5) ·D (B.6) El p-valor p(k), se halla con: p(k) = 2 +∞ X k=1 2 2 (−1)k−1 · e(−2·λ ·k ) (B.7) El nivel de significación α, tiene que ser menor que el p-valor p(k) para que se acepte la hipótesis nula H0 . Si se acepta la hipótesis nula, se concluye que los conjuntos de datos no difieren significativamente y provienen de la misma función de distribución acumulativa. B.4. Ventajas y desventajas del test Ventajas Admite que los tamaños de las muestras no sean iguales [6]. No es necesario conocer el tipo de distribución [30]. No hace suposición acerca de la distribución de los datos. Desventajas Es menos sensible a las observaciones de los extremos y más sensible a los puntos cerca de la mediana [34, 30]. La distribución debe ser completamente especificada estimando los parámetros de los datos [5, 30]. ANEXO B. TEST DE KOLMOGOROV-SMIRNOV 61 Solo se aplica a distribuciones continuas [30]. Tiene muy poca potencia con alta probabilidad de un error de tipo II (no encontrar una diferencia cuando la hay). El test de ajuste de bondad de Anderson-Darling, resuelve las dos primeras limitaciones [30]. Sin embargo solo es disponible para unas pocas distribuciones especificas [34, 1]. El test de Kolmogorov-Smirnov para muestras suficientemente grandes esta distribuido según χ2 (chi-cuadrado) con dos grados de libertad [6, 3]: χ2 = 4D2 (n1 n2 ) n1 + n2 (B.8) El test de Kolmogorov-Smirnov es siempre más potente que su prueba alternativa [6]. El contraste de Kolmogorov-Smirnov para muestras muy pequeñas es más potente que el de la U de Mann-Whitney, pero para muestras de tamaño grande ocurre lo contrario [6]. Anexo C Prueba de hipótesis Intervalo de confianza para la media de una distribución normal con varianza desconocida Se supone que x es una variable aleatoria normal, con media µ y varianza σ 2 , ambas desconocidas. A partir de una muestra aleatoria de n observaciones, se calculan la media muestral x̄ y la varianza muestral S 2 . Entonces, un intervalo de confianza bilateral al 100(1 − α) % para la media verdadera es [28]: s s x̄ − t( α ,n−1) √ ≤ µ ≤ x̄ + t( α ,n−1) √ 2 2 n n (C.1) El termino (1 − α) %, se denomina coeficiente de confianza y t(α/ ,n−1) representa el punto 2 porcentual de la distribución t con n − 1 grados de libertad [28]. La media y la desviación estándar muestrales se calculan a partir de [28]: n 1X x̄ = xi n (C.2) i=1 S= v u u n uP 2 u t i=1 xi − n P i=1 n−1 62 xi 2 n (C.3) Anexo D Estimación del pitch para diferentes registros D.1. Estimaciones con el algoritmo AUTOC Figura D.1: Estimación del arpegio de E mayor interpretado por un bajo. Figura D.2: Estimación del arpegio de C mayor interpretado por una mezzo-soprano. 63 ANEXO D. ESTIMACIÓN DEL PITCH PARA DIFERENTES REGISTROS 64 Figura D.3: Estimación del arpegio de E mayor interpretado por una soprano. Figura D.4: Estimación de un intervalo de 2a menor interpretado por un barı́tono. D.2. Estimaciones con el algoritmo FAEP En la figura D.5, se muestra la estimación de la frecuencia fundamental de la escala y el arpegio de E mayor, interpretados por una soprano. Figura D.5: Estimación de la escala y el arpegio de E mayor interpretado por una soprano. ANEXO D. ESTIMACIÓN DEL PITCH PARA DIFERENTES REGISTROS D.3. 65 Estimaciones con el algoritmo ML Con el algoritmo ML se estima la frecuencia fundamental para el intervalo de 5a justa (E2 - B2) y 3a mayor (E2 - G♯2), interpretado por un bajo. Los resultados se muestran en las figura D.6. Figura D.6: Estimación con ML para intervalos interpretados por una bajo. D.4. Estimaciones para la primera frase de la obra “Nel cor più non mi sento”. En las figura D.7, se muestra el resultado de la estimación con el algoritmo ML de la primera frase de la obra “Nel cor più non mi sento” de Giovanni Paisiello (1741-1816), interpretada por una soprano, y en la figura D.8, la partitura. Figura D.7: Estimación de la obra “Nel cor più non mi sento” con ML. ANEXO D. ESTIMACIÓN DEL PITCH PARA DIFERENTES REGISTROS 66 Figura D.8: Partitura de la obra “Nel cor più non mi sento”. Figura D.9: Estimación de la obra “Nel cor più non mi sento” con AUTOC y SIFT. D.5. Estimaciones para la primera frase de la obra “Bella prova e d’alma forte”. En la figura D.10 y D.11, se muestran respectivamente, el resultado de la estimación con el algoritmo SIFT y la partitura de la primera frase de la obra “Bella prova e d’alma forte” de Nicola Vaccaj (1790-1848), interpretada por un tenor. Figura D.10: Estimación de la obra “Bella prova e d’alma forte” con SIFT. ANEXO D. ESTIMACIÓN DEL PITCH PARA DIFERENTES REGISTROS 67 Figura D.11: Partitura de la obra “Bella prova e d’alma forte”. D.6. Estimaciones para la primera frase del Réquiem de Mozart D.6.1. Estimación con el algoritmo AUTOC y SIFT. Para despejar dudas en cuanto al resultado obtenido para B♭3 en la estimación de la primera frase del Introito del Réquiem en D menor K.626 de Mozart mostrada en el capitulo 3; en la figura D.12, se muestra la estimación con otros algoritmos. Figura D.12: Estimación del Réquiem de Mozart con el algoritmo AUTOC y SIFT. D.6.2. Estimación con el algoritmo ML configurado para diferentes microtonalidades Es importante aclarar que los signos utilizados para indicar las alteraciones de las notas en los sistemas microtonalı́stas, no son los mismo que se usan en la escala cromática. Para mayor comprensión y facilidad de comparación, en las figuras D.13-D.15, se usan los signos tradicionales. ANEXO D. ESTIMACIÓN DEL PITCH PARA DIFERENTES REGISTROS Figura D.13: Estimación con ML configurado para tercios de tono (λ = 31 ). Figura D.14: Estimación con ML configurado para cuartos de tono (λ = 14 ). Figura D.15: Estimación con ML configurado para sextos de tono (λ = 16 ). 68 Anexo E Tabla de muestras de pitch con ruido y sin ruido E.1. Tablas para los algoritmos en el dominio del tiempo 69 Nº de Octava Nombre AUTOC FEP CEPSTRUM SIFT SAA Nota Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Octava 2 Octava 3 C C# D D# E F F# G G# A A# B 64,65 68,9 73,01 77,36 81,65 86,81 91,87 97,56 103,52 109,7 116,05 65,23 68,69 73,01 77,35 81,93 86,18 91,91 96,71 103,02 109,15 116,04 64,66 68,9 72,77 77,35 81,66 86,81 91,87 97,13 103,03 109,15 115,44 65,23 68,69 73,01 77,36 81,76 86,47 91,96 97,13 103,02 109,15 116,65 64,66 68,69 73,01 77,64 81,7 86,14 91,49 97,13 103,02 109,15 116,65 0 0 73,25 77,35 81,89 86,46 91,55 96,71 103,03 109,15 116,66 64,85 68,9 72,72 77,64 82,27 86,12 91,87 98,43 104 110,24 114,84 64,85 68,9 73,5 77,64 82,27 87,5 91,87 98,43 104 110,25 114,84 65,41 69,3 73,42 77,78 82,41 87,31 92,5 49 103,83 110 116,54 65,41 69,3 73,42 77,78 82,41 87,31 92,5 49 103,83 110 116,54 121,82 121,88 122,5 121,82 122,5 122,5 122,5 122,5 123,47 123,47 C C# D D# E F F# G G# A A# B 130,45 137,81 146,02 154,19 163,32 173,62 183,75 195,13 206,07 218,31 232,1 128,94 136,95 146,02 154,19 163,33 173,62 183,74 195,13 206,06 218,31 232,1 129,7 137,81 146,02 154,19 163,32 173,62 183,74 195,13 206,07 218,31 232,1 129,7 137,81 145,06 154,19 163,32 173,62 183,75 195,13 206,06 218,31 232,1 129,7 136,95 145,05 154,18 163,33 173,62 183,74 195,13 206,07 218,31 232,1 129,7 136,95 146,02 154,19 163,33 173,62 183,75 195,13 206,07 218,31 232,1 131,25 137,81 145,06 153,12 162,13 172,25 183,74 196,85 204,16 220,5 229,65 131,25 137,81 145,06 153,12 162,13 172,26 183,75 196,76 204,16 220,5 229,68 130,81 138,59 146,83 155,56 164,81 174,61 185 196 207,65 220 233,08 130,81 138,59 146,83 155,56 164,81 174,61 185 196 207,65 220 233,08 245 245 245 245 245 245 250,55 250,56 246,94 246,94 Nº de Octava Nombre AUTOC FEP CEPSTRUM SIFT SAA Nota Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Octava 4 Octava 5 C# D D# E F F# G G# A A# 275,62 275,62 275,62 275,62 275,62 275,62 275,62 275,62 261,62 261,62 290,13 290,13 290,13 290,13 290,13 290,13 290,12 290,13 277,18 277,18 310,56 310,55 310,55 306,25 310,55 310,55 306,25 306,24 293,66 293,66 329,1 324,25 329,1 324,26 324,26 324,26 324,25 324,26 311,13 311,13 350 350 344,53 344,52 344,53 344,53 344,53 344,53 329,63 329,63 367,5 367,5 367,5 367,5 367,5 367,5 367,5 367,5 349,23 349,23 195,13 195,13 386,84 386,84 386,84 386,84 393,75 393,75 369,99 369,99 408,33 408,33 408,33 408,33 408,33 408,33 431,56 459,37 392 392 441 218,31 441 441 441 441 445,38 459,37 415,3 415,3 459,37 459,37 459,37 459,37 459,36 459,35 459,35 459,37 440 440 B 490 490 490 490 490 490 482,52 501,13 466,16 466,16 C C# D D# E F F# G G# A 525 525 525 525 525 525 493,16 493,16 551,25 551,25 551,24 551,25 551,25 551,25 523,25 523,25 580,25 580,25 580,26 580,25 580,26 580,26 554,36 554,36 310,56 310,56 612,5 612,5 612,5 612,5 587,33 587,33 218,31 218,31 648,52 648,52 648,52 648,52 622,25 622,25 344,53 232,1 689,06 689,05 689,06 689,06 659,26 659,26 735 735 735 735 735 735 698,46 698,46 259,41 259,41 787,5 787,5 787,5 787,5 739,99 739,99 816,66 816,66 816,65 816,66 816,66 816,65 783,99 783,99 290,13 290,13 882 882 882 882 830,61 830,61 310,56 310,56 918,75 918,75 918,74 918,75 880 880 A# Nº de Octava Octava 6 7 Nombre AUTOC FEP CEPSTRUM SIFT SAA Nota Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido C# D D# E F F# G G# A A# B C Medidas de dispersión 1102,5 1102,5 1102,5 1102,5 1102,5 1102,5 1046,5 1046,5 1160,52 1160,52 1160,52 1160,52 1160,52 1160,52 1108,73 1108,73 1225 1225 0 0 1225 306,24 1174,66 1174,66 1297,04 1297,05 0 0 1297,05 648,52 1244,51 1244,51 1378,12 1378,12 0 0 1378,12 689,06 1318,51 1318,51 1470 1470 0 0 1470 0 1396,91 1396,91 1575 1575 0 0 1575 0 1479,98 1479,98 329,1 329,1 0 0 1696,15 816,66 1567,98 1567,98 580,26 580,26 0 0 1696,15 580,26 1661,22 1661,22 1837,5 1837,5 0 0 1837,5 0 1760 1760 648,53 648,52 0 0 2004,54 2004,54 1864,65 1864,65 689,05 689,05 0 0 2005,54 689,06 1975,53 1975,53 AUTOC FEP CEPSTRUM SIFT SAA Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido Media 446,378689 440,736721 322,243443 322,09377 587,470492 413,98 212,9105556 214,648889 592,486721 592,486721 Varianza 178399,509 179866,32 99185,4696 99184,6791 298736,265 137772,2321 15333,97166 16149,3646 306490,671 306490,671 Desv. estándar 422,37366 424,106496 314,937247 314,935992 546,567713 371,1768205 123,8304149 127,08015 553,615996 553,615996 ANEXO E. TABLA DE MUESTRAS DE PITCH CON RUIDO Y SIN RUIDO E.2. Tablas para los algoritmos en el dominio de la frecuencia 73 Nº de Octava Nombre Nota Octava 2 C C# D D# E F F# G G# A A# B Octava 3 C C# D D# E F F# G G# A A# B HPS ML MA Sin ruido Con ruido Sin ruido Con ruido Sin ruido Con ruido 86,1 86,13 110 110 114,84 114,84 96,89 96,89 116,54 116,54 143,54 143,55 107,65 107,65 123,47 123,47 129,19 129,19 118,43 118,43 130,82 130,82 129,19 129,19 107,65 129,19 138,59 138,59 186,62 186,62 139,96 139,96 87,31 87,31 143,55 143,55 64,59 150,73 92,5 92,5 157,91 157,91 75,36 161,49 98 98 100,48 100,48 86,13 86,13 103,82 103,82 129,19 129,19 96,9 96,9 110 110 143,54 143,54 96,9 96,9 116,54 116,54 157,91 157,91 107,66 107,66 123,47 123,47 157,91 157,91 118,43 118,43 130,82 130,82 172,26 172,25 118,43 258,39 277,19 277,19 186,62 186,62 129,19 129,19 293,68 293,68 186,62 186,62 140 140 311,14 311,14 200,96 200,97 150,73 150,73 329,64 329,64 215,32 215,33 161,48 161,49 349,24 349,24 229,68 229,68 172,26 172,26 370,014 370,014 244,04 244,04 183,03 183,03 392,016 392,016 258,38 258,39 183,03 193,79 415,32 415,32 272,75 272,75 204,56 204,56 440,02 440,02 287,1 287,1 215,33 215,33 466 466,18 301,46 301,46 226,09 226,09 494 493,91 330,15 330,17 Nº de Octava Nombre HPS ML MA Nota Con ruido Con ruido Con ruido Con ruido Con ruido Con ruido Octava 4 Octava 5 C C# D D# E F F# G G# A A# B 236,86 247,63 261,64 261,64 344,53 344,53 258,39 258,39 554,39 554,39 373,24 373,24 269,16 279,93 293,68 293,68 387,59 488,08 290,69 290,69 311,14 311,14 301,45 301,45 301,46 312,23 329,64 329,64 430,66 545,5 322,99 333,76 349,24 349,24 344,53 574,21 344,52 355,29 370,01 370,01 358,88 488,08 366,06 376,83 784,03 784,03 387,59 387,59 387,59 398,36 415,32 415,32 545,5 545,5 409,12 419,89 440,02 440,02 445,01 445,01 430,66 441,43 932,37 932,37 459,37 459,37 462,95 473,73 493,91 493,91 488,08 488,08 C C# D D# E F F# G G# A A# B 484,45 495,26 523,28 523,28 516,79 516,79 495,26 527,56 554,39 554,39 545,5 545,5 538,33 559,86 587,36 587,36 588,55 588,57 581,39 592,16 622,28 622,28 617,25 617,28 613,65 635,22 659,29 659,29 660,35 660,35 656,76 667,52 698,49 698,49 689,06 689,06 689,06 699,82 740,029 740,029 732,12 732,12 732,12 753,66 784,03 784,03 775,18 775,19 785,96 796,72 830,65 830,65 832,61 832,61 829,02 838,79 880,04 880,04 875,68 875,68 882,86 893,62 932,37 932,37 933,1 933,1 936,69 947,46 987,82 987,82 976,17 976,17 Nº de Octava Nombre HPS ML MA Nota Con ruido Con ruido Con ruido Con ruido Con ruido Con ruido Octava 6 7 C C# D D# E F F# G G# A A# B 1001,29 1012,06 1046,6 1046,6 1047,94 1047,94 1065,85 1055,12 1108,08 1108,08 1105,37 1105,37 1119,72 1119,72 1174,7 1174,7 1177,14 1177,14 1195,09 1195,09 1244,6 1244,6 1234,56 1234,57 1270,45 1270,45 1318,6 1318,6 1320,7 1320,7 1345,82 1345,82 1397 1397 1392,48 1392,48 1431,95 1431,95 1480,1 1480,1 1478,61 1478,61 1518,05 1518,09 1568,1 1568,1 1564,74 1564,74 1593,45 1593,45 1661,3 1661,3 1650,85 1650,85 1711,88 1701,12 1760,1 1760,1 1751,36 1751,36 1819,55 1819,55 1864,8 1864,8 1851,84 1851,84 1927,22 1927,22 1975,6 1975,6 1966,69 1966,69 C 2045,65 2045,65 2093,12 2093,12 2081,54 2081,54 Medidas de dispersión Media Varianza Desviación estándar HPS ML MA Con ruido Con ruido Con ruido Con ruido Con ruido Con ruido 566,209016 576,433607 649,9729344 649,972934 619,865902 629,281148 287340,241 281906,171 277867,2792 277867,279 281135,907 277910,432 536,041268 530,94837 527,1311784 527,131178 530,222507 527,172108

RELATED PAPERS

RELATED TOPICS

Log In

Estimación del pitch en senales monofónicas de voz cantada - Bachelor thesis, UNAL, 2004

Estimación del pitch en senales monofónicas de voz cantada - Bachelor thesis, UNAL, 2004

Related Papers

RELATED PAPERS

RELATED TOPICS