implementación de un sistema de - e-repositori upf

75

Upload: others

Post on 24-Nov-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

Implementación de un sistema de

estimación de modalidad desde audio

Sergi Gomis Riera

TREBALL FI DE GRAU GRAU EN ENGINYERIA EN SISTEMES AUDIOVISUALS

ESCOLA SUPERIOR POLITÈCNICA UPF

2017

DIRECTOR DEL TREBALL

Agustín Martorell Domínguez

“Learning is a treasure that will follow its owner everywhere”

Chinese proverb

Agradecimientos

En primer lugar quiero agradecer a mi família por brindarme laoportunidad de estudiar una carrera universitaria y siempremostrarme su apoyo.

Quiero agradecer también a Agustín Martorell por darme laoportunidad de realizar este trabajo de fin de grado, así como elasesoramiento, la ayuda y el trato recibido durante estos últimosmeses.

Por último agradecer a mis amigos y compañeros que han formadoparte de mi etapa universitaria.

Resumen

La intención de este TFG es la de crear un sistema capaz de analizary estimar la modalidad musical de una pista de audio en formatodigital importada desde el mismo programa. El código estáprogramado en Matlab y dispone de una pequeña interfaz de usuariopara facilitar su práctica. El sistema analiza el chromagrama de laseñal, y a partir de un método basado en comparación de perfiles,realiza una estimación utilizando dos cálculos de similitud. Noobstante, para el estudio y análisis de la evaluación, sólo se hanescogido 4 modalidades para hacer una estimación más aproximadaal conjunto de datos conocidos.

Resum

La intenció d'aquest TFG és la de crear un sistema capaç d'analitzari estimar la modalitat musical d'una peça d'àudio en format digitalimportada des del programa mateix. El codi está programat enMatlab i disposa d'una petita interfaç d'usuari per a facilitar el seuús. El sistema analitza el chromagrama de la senyal, i a partir d'unmètode basat en comparació de perfils, realitza una estimacióutilitzant dos càlculs de similitut. No obstant, per a l'estudi i análiside l'avaluació, només s'escollirán 4 modalitats per a fer unaestimació més aproximada al conjunt de dades conegudes.

vii

viii

ÍNDICE

PágResumen.................................................................................. viiLista de figuras........................................................................ xiLista de Tablas......................................................................... xiii

1. INTRODUCCIÓN............................................................. 151.1. Contexto y motivación .................................................... 151.2. Objetivo........................................................................... 161.3. Estructura del trabajo........................................................ 16

2. MARCO TEÓRICO ......................................................... 192.1. Teoría musical ................................................................. 192.1.1¿Qué es una escala?......................................................... 19 2.1.2 Formación de escalas diatónicas............................... 20 2.1.3 ¿Qué es una modalidad?............................................ 20 2.1.4 ¿Cómo determinar la modalidad?.............................. 21 2.1.5 Las 7 escalas y modos diatónicos.............................. 22 2.1.5.1 Escala Jónica o Mayor................................... 23 2.1.5.2 Escala Dórica................................................. 23 2.1.5.3 Escala Frigia.................................................. 24 2.1.5.4 Escala Lidia................................................... 24 2.1.5.5 Escala Mixolidia............................................ 25 2.1.5.6 Escala Menor Natural o Eolia....................... 25 2.1.5.7 Escala Locria................................................. 252.2 Técnicas de procesado de audio........................................ 26 2.2.1 Pitch Feature.............................................................. 26 2.2.2 Chroma Feature......................................................... 27 2.2.2.1 Chromagrama................................................ 27 2.2.2.2 Cálculo........................................................... 29 2.2.2.3 Errores y causas............................................. 31 2.2.2.4 Tipos de chromagramas................................. 33 2.2.2.4.1 Chroma Pitch.......................................... 33 2.2.2.4.2 Chroma Log-Pitch Normalized.............. 33 2.2.2.4.3 Chroma Energy Normalized Pitch......... 34 2.2.2.4.4 Chroma DCT-reduced log Pitch............. 35 2.2.3 Técnicas de estimación de key.................................. 36 2.2.3.1 Métodos basados en perfiles.......................... 36

2.2.3.2 Métricas de Similitud.................................... 38

3. IMPLEMENTACIÓN DEL MÉTODO.......................... 413.1 Lenguaje de Programación................................................ 413.2 Feature utilizado ............................................................... 413.3 Interfaz de Usuario del sistema......................................... 413.4 Perfiles Modales................................................................ 45 3.4.1 Creación inicial de perfiles....................................... 45 3.4.2 Mejora de perfiles..................................................... 46 3.4.3 Perfiles definitivos.................................................... 473.5 Algoritmo de estimación................................................... 48

4. EVALUACIÓN.................................................................. 514.1 Data set ............................................................................. 514.2 Resultados de la estimación a lo largo del tiempo ........... 524.3 Resultados globales........................................................... 574.4 Comparación de métricas.................................................. 574.5 Evaluación de errores........................................................ 584.6 Valoración de resultados................................................... 594.7 Consideraciones de la evaluación...................................... 59

5. CONCLUSIONES............................................................. 615.1 Aportación......................................................................... 615.2 Limitaciones...................................................................... 615.3 Posibles mejoras................................................................ 625.4 Trabajo futuro.................................................................... 62

Referencias............................................................................. 63

APÉNDICE............................................................................ 65

Lista de figuras

Pág.Fig. 1 Escala de Do Mayor............................................... 19Fig. 2 Armadura con 3 sostenidos.................................... 21Fig. 3 Escala de Do mayor en piano................................. 23Fig. 4 Escala de Do Mayor............................................... 23Fig. 5 Escala de Re dórico en piano................................. 23Fig. 6 Escala de Re dórico................................................ 23Fig. 7 Escala de Mi Frigio en piano ................................ 24Fig. 8 Escala de Mi frigio................................................ 24Fig. 9 Escala de Fa Lidio en piano ................................ 24Fig. 10 Escala de Fa Lidio............................................... 24Fig. 11 Escala de Sol Mixolidio en piano........................ 25Fig. 12 Escala de Sol Mixolidio....................................... 25Fig. 13 Escala de La Menor en piano............................... 25Fig. 14 Escala de La Menor............................................. 25Fig. 15 Escala de Si Locrio en piano................................ 26Fig. 16 Escala de Si Locrio ............................................. 26Fig. 17 Pitch feature de un chirp....................................... 26Fig. 18 Chromagrama Cens de un chirp.......................... 27Fig. 19 Partitura correspondiente a la pista de audio Cmaj.wav.......................................................................... 28Fig. 20 Forma de onda de la pista de audio Cmaj.wav..... 28Fig. 21 Chromagrama de la pista de audio Cmaj.wav...... 28Fig. 22 Hélice De Shepard................................................ 29Fig. 23 Ventanas MIDI 69-93 ......................................... 30Fig. 24 Serie armónica..................................................... 31Fig. 25 Serie armónica transcrita a un pentagrama musical ............................................................................. 32Fig. 26 Chroma Pitch (CP) .............................................. 33Fig. 27 Chroma-Log-Pitch Normalized (CLP) ................ 34Fig. 28 Diagrama de bloques del cálculo del CENS........ 34Fig. 29 Chroma Energy Normalized Statistics ................ 35Fig. 30 Chroma DCT-Reduced Log Pitch (CRP) ............ 35Fig. 31 Diagrama Estimación de Key basado en Creación de Perfiles.......................................................... 36Fig. 32 Perfil de tonalidad mayor de Krumhansl.............. 37Fig. 33 Perfil de tonalidad menor de Krumhansl.............. 37Fig. 34 Perfil de tonalidad mayor de Temperley.............. 37

xi

Fig. 35 Perfil de tonalidad menor de Temperley.............. 37Fig. 36 Interfaz de usuario del programa.......................... 42Fig. 37 Ejemplo de error de estimación............................ 45Fig. 38 Perfil Mayor ........................................................ 47Fig. 39 Perfil Menor......................................................... 47Fig. 40 Perfil Mixolidio.................................................... 47Fig. 41 Perfil Dórico........................................................ 47Fig. 42 Probabilidades modales por distancia euclidiana 49Fig. 43 Probabilidades modales por correlación............ 50Fig. 44 Eficacia total del sistema...................................... 57Fig. 45 Clasificación de errores de estimación................. 58

xii

Lista de tablas

Pàg.Tabla 1. Relación de intervalos de las 7 escalas diatónicas y tonalidad en Do........................................... 20Tabla 2. Frecuencias correspondiente al rango A4-A5b 30Tabla 3. Data-set analizado.............................................. 52Tabla 4. Resutados Dataset Canciones Modo Mayor....... 53Tabla 5. Resutados Dataset Canciones Modo Menor....... 54Tabla 6. Resutados Dataset Canciones Modo Mixolidio.. 55Tabla 7. Resutados Dataset Canciones Modo Dórico...... 56Tabla 8. Ground Truth de los resultados de la evaluación......................................................................... 57Tabla 9. Ejemplos de escalas diatónicas organizadas por Modos ........................................................................ 66Tabla 10. Ejemplos de escalas diatónicas organizadas por Modos ........................................................................ 67

xiii

1. INTRODUCCIÓN

1.1 Contexto

Uno de los fundamentos musicales básicos para la composición,trata sobre la teoría modal. La dificultad de su análisis se basaráprincipalmente en el conocimiento del músico, por lo que la identificaciónde composiciones sencillas puede complicarse si no se dispone de ciertonivel teórico.

Aunque existen diversos métodos e implementaciones con diferentestecnologías para calcular la modalidad tonal de canciones y piezasmusicales, muchas de éstas implementaciones se limitan a determinarentre escalas mayores y menores. Este TFG, nace de la idea como músicoy guitarrista, de poder identificar y estimar las 7 escalas griegas que seutilizan en las canciones modernas.

Así pues, este trabajo de Fin de Grado consistirá en la implementación deun programa en Matlab en el que el usuario puede importar una canciónmusical, y éste devolverá la estimación de la tonalidad modal,dependiendo de algunos parámetros que el mismo usuario podrá modificarpara mejorar los resultados.

Para identificar la modalidad musical se necesita una base de teoríamusical, en muchos casos disponer de la partitura que se quiera analizar, ymuchas veces puede haber ambigüedad debido a alteraciones accidentalesde la partitura, cambios de armadura y otros factores. Para muchosmúsicos o apasionados a la música, este análisis puede ser útil para, porejemplo, improvisar un solo sobre una canción, hacer una versión o“cover” y alterar alguna parte o para cambiar la tonalidad de toda lacanción y adaptarla a la tesitura del cantante. A veces, la falta de teoríamusical conlleva la dificultad para esta identificación de modalidad y porlo tanto se ignora. Una motivación para este TFG es que cualquier usuariopodrá utilizar el programa para obtener la modalidad de la canción que sedesee y de ésta forma ser un trabajo práctico y útil para el músico.

15

1.2 Objetivo

El objetivo objetivo general del trabajo es crear un programa quetome como entrada una canción o pista de audio escogida por el usuario, yse genere una estimación de modalidad musical representadagráficamente. Esta interfaz de programa tendrá las característicasanunciadas a continuación:

• Importar canción en formato digital : el usuario puede escogercualquier pista para la estimación modal.

• Selección de tamaño de la ventana de análisis: la interfaz posee unslider para seleccionar el número de muestras de la ventana enque se realiza el análisis.

• CENS/Pitch features: el usuario puede escoger visualizar el pitcho chromagrama CENS de la pista de audio seleccionada, cuyoresultado variará dependiendo de la ventana.

• Representación del perfil de la pista: el programa calculará elchromagrama total o equivalente a la canción o pista completa.

• Representación de las modalidades estimadas: se genera ungráfico indicando la mayor probabilidad de tonalidad musicalcalculada en cada fragmento de la canción. Habrá dos ventanas,una correspondiente a la estimación por distancia euclideana yotra por correlación.

• Reproducción de audio y visualización modal: se reproducirá elaudio, se visualizará la forma de onda y la escala musicalestimada en cada momento.

1.3 Estructura del trabajo

El trabajo va a estar dividido en cinco capítulos, orientados aexplicar y definir todos los conceptos y conocimientos utilizados, cómo seha planteado y solventado el problema y la evaluación de los resultadosobtenidos.

El capítulo 1 o Introducción está enfocado a dar una breve explicacióngeneral del trabajo, la motivación de la elección, cómo se plantea elproblema y cómo se estructurará.

16

El capítulo 2 o Marco teórico pretende dar los fundamentos teóricosutilizados para comprender el procedimiento. Éstos incluyen una pequeñaexposición de métodos actuales, un corto resumen de la teoría musicalmodal, y diferentes técnicas relacionadas con la implementación delmétodo del TFG.

El capítulo 3, Implementación del Método, explica detalladamente losmétodos utilizados durante el proyecto, el desarrollo, la implementación ylos perfiles modales obtenidos.

El capítulo 4 está orientado a la evaluación de los resultados. Para ello seestudiarán los resultados obtenidos en el conjunto de canciones analizadosy una breve comparación entre los dos métodos aplicados.

Finalmente, el último capítulo sobre las conclusiones, se hará una visióngeneral del proyecto completo explicando la satisfacción del trabajo asícomo diferentes opciones respecto a su mejora y las limitacionesexistentes.

17

18

2. MARCO TEÓRICO

En este capítulo se tratan tanto los aspectos teóricos musicalescomo los fundamentos del procesado de audio que se han utilizadodurante el proyecto. Se explican qué métodos existen actualmenteenfocados a problemas concretos sobre tratamientos de señales musicalesy su análisis modal, de la misma forma que se indican los fallos yproblemas que presentan en cada caso.

2.1 Teoría musical modal

En este apartado se va a profundizar brevemente sobre losconceptos teóricos musicales necesarios para entender el objetivo delproyecto, así cómo ciertos elementos en relación a la composición, cuyainformación será utilizada más adelante para realizar la estimación.

2.1.1 ¿Que es una escala musical?

Una escala musical[1] es un conjunto de notas ordenadasascendiente o descendientemente representadas en un pentagramamusical, siendo definida por un patrón de intervalos. Existen gran númerode escalas, no obstante las modalidades analizadas en el proyecto son los7 modos de la música moderna, que se forman a partir de las 7 escalasdiatónicas, explicadas en apartados posteriores. Éstas escalas, estánformadas por 7 notas y con una relación de octava perfecta (de la primeranota a su octava ascendente o descendente hay exatamente 12 semitonos)hecho que simplificará el trabajo a la hora de la creación de los perfiles.En la siguiente imagen se puede ver representada la escala de Do mayor,fácilmente reconocible en un pentagrama puesto que no contienealteraciones en su armadura .

Fig. 1 Escala de Do Mayor

19

2.1.2 Formación de escalas diatónicas

Cada escala simplemente se crea a partir de un patrón o modelo deintervalos. En el apartado 2.1.4 “Escalas diatónicas” se ejemplifica cadaformación sobre las notas de un piano, puesto que es una formavisualmente senzilla de entender como se originan y ver las diferencias .Empezando con cada nota blanca y subiendo 7 teclas, se forma cadaescala correspondiente. En la siguiente imagen se puede ver las diferentesescalas diatónicas formadas sobre la nota do y su fórmula interválica.

Tabla 1. Relación de intervalos de las 7 escalas diatónicas y tonalidad en Do

Siguiendo el ejemplo de las notas de un piano, cuando se forma cualquierescala determinada y es necesario tocar una nota negra para respetar elintervalo, se dice que la escala consta de una alteración en relación a laescala original de do mayor. Por eso, en la partitura de una canción, seindica al inicio del primer pentagrama la armadura correspondiente,dibujando los sostenidos y bemoles correspondientes a la modalidad.

2.1.3 Que es una modalidad?

La modalidad[2] o modo musical de una obra es el tipo de escalaque determina su composición. A continuación se explicará por que lassiete escalas son relativas entre ellas (tienen la misma armadura), lo queimplica que la identificación de la modalidad requiere una serie de pasos,explicados a continuación.

20

La diferencia entre modalidad y escala, es que escala simplemente serefiere al orden progresivo de un conjunto de notas siguiendo unosintervalos en concreto, y modalidad es cualquier composición que utilizalas notas pertenecientes a una escala determinada con una nota tónica quedefine su base.

2.1.4 Cómo determinar la modalidad de una canción.

Para saber en qué modo se encuentra una canción, obra opartitura determinada existen varias formas de averiguarlo. No obstantehay casos en que existe ambigüedad, puesto que éstas formas no son tandeterminantes. A continuación se explican las tres formas más comunes yeficaces a la hora del análisis modal. [3]

a) Estudio de la armadura musicalEl primer paso, el cuál es el más común y preciso, es el de analizar laarmadura en uso. Esto significa estudiar la clave del pentagrama así comolas alteraciones existente para identificar qué notas forman parte de laescala y de esta forma obtener la modalidad en la que está escrita. Noobstante, éste solo paso independiente carece de información para poderdecidir concretamente la escala en uso, puesto que cada armadura es lamisma para las 7 escalas. Este hecho, se conoce cómo la relación entreescalas o modos relativos. Un ejemplo senzillo es el de la armadura de Domayor. Su armadura no consta de ninguna alteración, y ocurre lo mismoen las escalas Re dórica, Mi frigia... Por lo tanto, se necesita realizar elsiguiente paso para concluir la identificación correcta.

Fig. 2 Armadura con 3 sostenidos

b) Encontrar la nota tónicaLa nota tónica es la nota raíz de una melodía o pieza, y en la que seformará la escala. Una forma senzilla de hacerlo, aunque no siempreefectiva es ver la primera nota de la pieza. En muchos casos, las cancionesempiezan por la nota tónica, al no cumplirse siempre, no es un métodoefectivo total. Otra manera es escuchar la melodía y reconocer la nota que

21

actúa como referencia. Al ser la nota raíz la más importante, el sonido dela escala derivará de esta, y aunque no sea una nota presente todo eltiempo, será la referencia auditiva y espectralmente tendrá una intensidadmás pronunciada. Éste hecho, será muy determinante en la estimaciónmodal ya que el primer tono tendrá un valor mayor.Éste paso, puede derivarse de la práctica musical de cada persona, puestoque su análisis vendrá determinado por el “oído” de cada uno y suexperiencia en el ámbito.

c) Nota final de una canciónLa nota final, suele ser en la mayoría de casos la nota tónica, puesto que altratarse de la nota “raíz” de la escala, musicalmente se tiene una necesidadde escuchar la última nota como desenlace. En caso de que el final de lapieza no sea una nota o acorde concreto, este método no será útil y portanto se tendrá descartar.

2.1.5 Las siete escalas y modos diatónicos Existen siete notas tónicas posibles sobre la escala mayor, que

para facilitar la comprensión y visualización, estarán expuestas a partir dela nota Do como referencia. Cada escala se forma a partir de una fórmulade intervalos, que nacen de formar una octava musical con las notas decada grado de la escala de do mayor, formando así 7 escalas distintas [4][5]. El primer grado, Jónico o mayor es el de referencia, con las notas sinninguna alteración. El segundo grado, Dórico, se genera cogiendo comotónica la segunda nota de la escala de do mayor, la nota Re, y subiendocada nota perteneciente al modo anterior (Re-Mi-Fa-Sol-La-Si-Do). Eltercer grado, Frigio, empieza con la nota mi (tercera nota de la escalamayor), y sigue el mismo procedimiento: Mi-Fa-Sol-La-Si-Do-Re.Consiguientemente, el resto de escalas se forma igualmente. El resultadogenerado respeto a Do mayor es el siguiente:

Escala Do Mayor: Do-Re-Mi-Fa-Sol-La-SiEscala Re Dórico: Re-Mi-Fa-Sol-La-Si-DoEscala Mi Frigio: Mi-Fa-Sol-La-Si-Do-ReEscala Fa Lidio: Fa-Sol-La-Si-Do-Re-MiEscala Sol Mixolidia: Sol-La-Si-Do-Re-Mi-FaEscala La Eolio: La-Si-Do-Re-Mi-Fa-SolEscala Si Locrio: Si-Do-Re-Mi-Fa-Sol-La

22

Estas siete escalas, son relativas entre ellas, puesto que tienen la mismaarmadura (en este caso, no hay alteraciones). No obstante, se puedegenerar cualquier escala sobre cualquier nota, simplemente respetando losintervalos definidos en cada una de ellas, lo que puede conllevar a alterarnotas. Pasemos a definir brevemente cada una de ellas. Para el patrón deintervalos T equivale a Tono y S a semitono.

2.1.5.1 Escala Mayor/ Modo JónicoTambién conocida como escala o modo Jónico. La característica

principal de las escalas mayores es que contienen una tercera mayor y detener un semitono entre la tercera y cuarta nota y la séptima y tónica. Deesta forma el patrón de intervalos de cualquier escala mayor es:

T T S T T T S

Fig. 3 Escala Do mayor en piano Fig. 4 Escala de Do Mayor

En la anterior imagen, podemos ver las teclas de la escala mayor de Do enun piano. En color rojo, está representada la nota tónica (Do), y el resto denotas o grados en color verde.Cualquier escala popularmente suele denominarse mayor cuando existeuna distancia de dos tonos completos entre el primer y tercer grado. Encaso de ser menor, esta distancia será de un tono y medio, es decir 3semitonos.

2.1.5.2 Escala DóricaEs una escala con tercera menor y bastante similar a la escala

menor o eolia, con la única diferencia de que en esta escala el sexto gradoes idéntico al de la escala mayor. El patrón de intervalos de la escaladórica es la siguiente:

T S T T T S T

Fig 5. Escala de Re dórico en piano Fig. 6 Escala de Re dórico

23

2.1.5.3 Escala FrigiaUna de las características más representativas de ésta escala es

que el segundo grado está a solamente a un semitono de la fundamental.Éste intervalo es la única diferencia que la distingue de la escala menor.Es una escala bastante utilizada en el flamenco y música oriental, por loque tiene un sonido “arábigo”. El patrón de intervalos de la escala frigianatural es:

S T T T S T T

Fig. 7 Escala de Mi Frigio en piano Fig. 8 Escala de Mi frigioEn ocasiones, el tercer grado de la escala puede estar aumentado unsemitono, y en este caso, la escala se denomina Frigia Dominante1.

2.1.5.4 Escala LidiaEs una escala con tercera mayor, y una de sus sonidos más

característicos es del cuarto grado aumentado, hecho que la diferencia dela escala mayor. Uno de los ejemplos más conocidos es el del tema de laserie de animación Los Simpsons2, durante los primeros compases. Elpatrón de intervalos es :

T T T S T T S

Fig. 9 Escala de Fa Lidio en piano Fig. 10 Escala de Fa Lidio

Es la escala menos utilizada después de la locria, puesto que el cuartogrado forma una distancia de tres tonos con la tónica, formando así lasensación de quinta disminuida. Este intervalo de tres tonos, conocidocomo tritono3, llegó a estar prohibido por ciertas instituciones en la edadMedia por su disonancia y conocerse popularmente por acorde del diablo.

1 https://en.wikipedia.org/wiki/Phrygian_dominant_scale 2 http://www.piano-play-it.com/lydian.html3 http://mentalfloss.com/article/77321/brief-history-devils-tritone

24

2.1.5.5 Escala MixolidiaEs una escala con tercera mayor, y parecida a la escala jónica, con

la única diferencia de tener el séptimo grado un semitono más bajo. T T S T T S T

Fig. 11 Escala de Sol Mixolidio en piano Fig. 12 Escala de Sol Mixolidio

2.1.5.6 Escala menor natural o EoliaUna de las escalas más comunes en la música moderna.

T S T T S T T

Fig. 13 Escala de La Menor en piano Fig. 14 Escala de La menor

La gran mayoría de canciones tiende a estar en modalidad menor. Noobstante, existen tres variedades de modo menor4. El modo menor naturalo eolio (analizado en este proyecto), es el definido en la figura 15. Sinembargo, la alteración del último grado (subir un semitono), origina laescala menor armónica. La otra modificación es la escala menor melódica,que al tocar de forma ascendiente los dos últimos grados están alteradosmedio tono, pero de forma descendiente tienen la misma armadura que lamenor natural.

2.1.5.7 Escala LocriaEs la escala menos utilizada y común, puesto que al tener el

segundo y quinto grados disminuidos, hace que tenga un sonido bastantedisonante y poco agradable.

4 https://www.thoughtco.com/the-minor-scales-2456564

25

S T T S T T T

Fig. 15 Escala de Si Locrio en piano Fig. 16 Escala de Si LocrioEs muy difícil encontrar una canción puramente en modo locrio. Sinembargo, dentro del estilo musical heavy metal, es bastante comúnintroducir combinaciones entre el modo eolio y el locrio.

2.2 Técnicas de procesado de audioÉste apartado se centra en las técnicas y métodos que se utilizan y

existen actualmente para el estudio de señales de audio desde laperspectiva musical, cómo se implementan, y cuáles son sus insuficienciaso fallos.

2.2.1 Pitch featureUno de los fundamentos básicos e indispensables para entender

las técnicas que se han aplicado a lo largo del proyecto, es el concepto depitch. El pitch es la propiedad de un sonido que viene directamenterelacionado con la frecuencia , por lo que su percepción y cálculo seaplican en señales musicales o melódicas. [6]La frecuencia es un concepto físico que se puede calcular paramovimientos oscilatorios, como por ejemplo una señal sinusoidal. Seejemplifica un ejemplo real, obtenido con el software de edición de audioAudacity5. Se ha creado un chirp6, es decir, una señal de audio querepresenta un barrido frecuencial, empezando de 40 Hz hasta 400Hz, conuna duración de 30 segundos (fig.17).

Fig. 17 Pitch feature de un chirp

5 http://www.audacityteam.org/ 6 https://en.wikipedia.org/wiki/Chirp

26

Como se ve en la imagen anterior (fig. 17), correspondiente a una parte dela interfaz, la representación del pitch tiene forma logarítmica crecientecorrespondiente a las frecuencias por las que pasa la señal. Si se transpone la señal en cada uno de los 12 tonos musicales, se obtienela figura 18. Este concepto conocido como chromagrama, es explicadodetalladamente en el apartado 2.2.2.

Fig. 18 Chromagrama de un chirp

Como se puede observar, la frecuencia sube progresivamente a lo largo dela señal, formando unas 4 octavas (Desde E3, hasta G#6 ). El pitch feature, es un cálculo utilizado en señales melódicas, por lo quesu uso se suele aplicar al campo de la música. Para señales complejas,como la voz o una nota musical, el pitch corresponderá con el componenteperiódico de la señal. El pitch de tonos complejos puede ser ambiguo,creando la sensación de la coexistencia de varios pitch en el mismosonido. En apartados posteriores se explicará porque en la mayoría decasos, en el cálculo del pitch de notas simples aparecen diferentes tonos.

2.2.2 Chroma feature [7]La característica “chroma” de un señal de audio se trata de una

representación del espectro frecuencial proyectado sobre los 12 tonos dela escala musical occidental. Se define gráficamente en un chromagrama,en el cual normalmente el eje vertical representa los 12 tonos (Por ejemplopara el croma “C” los tonos son: C, C♯, D, D♯, E ,F, F♯, G, G♯, A, A♯,B) y el eje horizontal es el tiempo en segundos.

2.2.2.1 ChromagramaChromagrama es simplemente la representación conjunta del pitch

proyectada sobre los 12 tonos musicales. El chromagrama representa concolores la intensidad de las frecuencias presentes en cada ventana. Se ejemplifica a continuación un ejemplo real. Se ha creado unacomposición representada en pentagrama y notación de tablatura para

27

guitarra (fig. x) con el programa Guitar Pro7 , el cual genera un archivoMIDI, convertido a formato .wav (fig. 20) para poder trabajar con él en elchromatoolbox8 de Matlab.

Fig. 19 Partitura correspondiente a la pista de audio Cmaj.wav

Fig. 20 Forma de onda de la pista de audio Cmaj.wav

A partir de esta señal se obtiene el siguiente chromagrama (fig. 21):

Fig. 21 Chromagrama de la pista de audio Cmaj.wav

7 https://www.guitar-pro.com/en/index.php8 http://resources.mpi-inf.mpg.de/MIR/chromatoolbox/

28

En el ejemplo de la figura 22 (pág. 28) se puede observar que claramentelos colores blancos en el chromagrama corresponden con las notas simplesy acordes, separados por líneas verticales . Las notas del chromagramacon un color más claro son las que tienen una más alta energía en elespectro, es decir, las notas que se escuchan tendrán un color más blanco-amarillento. En el caso de los acordes, en este ejemplo formado porfundamental terceras y quintas. El chromagrama no es totalmenteequivalente a una transcripción, puesto que pueden aparecer notas nocorrespondientes con la partitura aunque están presentes en el contenidoarmónico. En el ejemplo de la figura 23, se ha marcado con un rectánguloverde el acorde de Do Mayor, formado por las notas Do Mi Sol. Se puedeapreciar que la intensidad de las notas Mi y Sol es ligeramente mayor quela fundamental, y también aparecen otras notas no pertanecientes alacorde, con baja intensidad (Si, Re).

2.2.2.2 CálculoLa manera más fácil de entender el funcionamiento del

chromagrama es observando la hélice de percepción de pitch de Shepard(1982) [8]. A continuación se muestra su figura:

Fig .22 Hélice De shepard 9

Como se puede ver, lo que hace es comprimir todo el rango tonal defrecuencias, en los 12 tonos de la música occidental, en los que cadaoctava esta definida por el doble de la frecuencia de la nota en cuestión.Éste concepto sirve para entender su cálculo.Primeramente, se descompone la señal de audio en 88 bandas (en concretolas correspondientes notas MIDI 21-108), con frecuencia centralcorrespondiente al rango de pitch A0-C8.

9 Hélice que representa la altura y el chroma. (Shepard, Roger. 1982) [8]

29

Fig. 23 Ventanas MIDI 69-93 10

La anterior imagen corresponde a la respuesta en magnitud, de las bandas69 a 93. En cada una de estas bandas, se procede a calcular la short-timemean-square power (STMSP) definida como:

∑k

∣x(k )∣2

donde k∈ [n−w2

: n+w2

]

Sea x la subbanda frecuencial, y w el tamaño de ventana fijo, la STMSPcalcula la energía local para poder obtener el pitch de la señal. Una vezobtenidas todas las energías, éstas se reparten según las frecuenciasmúltiples de cada uno de los 12 tonos para obtener el Chromagrama. La siguiente tabla muestra las frecuencias de referencia para los notas A4-G5#

A4 440 Hz D5#/E5b 622.25 Hz

A4#/B4b 466.16 Hz E5 659.26 Hz

B5 493.88 Hz F5 698.46 Hz

C5 523.25 Hz F5#/G5b 739.99 Hz

C5#/D5b 554.37 Hz G5 783.99 Hz

D5 587.33 Hz G5#/A5b 830.61 Hz

Tabla 2. Frecuencias correspondiente al rango de notas A4-A5b 11

10 resources.mpi-inf.mpg.de/MIR/chromatoolbox/2011_MuellerEwert_ChromaToolbox_ISMIR.pdf

11 Tabla de conversión de Notas a frecuencia http://www.phy.mtu.edu/~suits/notefreqs.html

30

2.2.2.3. Errores y causasComo se ha podido comprobar en el ejemplo anterior, el

chromagrama no es plenamente representativo a la transcripción, puestoque en cada nota tocada, aparecen tonos con una intensidad menor que nocorresponden al MIDI de la partitura original. Una de las causas de esteproblema es la serie de armónicos que forma cada señal sinusoidal.

Serie de armónicos [9]Cuando se toca una nota en un instrumento se genera una onda de presión,que vendrá acompañada por una serie de armónicos. Su origen provienede alterar el estado de equilibrio de un cuerpo vibrante, como sea lacuerda de una guitarra o el tubo de aire de un clarinete. Esta forma devibración, se descompone en una serie de modos de vibración, los cualesgeneran un armónico determinado. Cada instrumento acentúa unosarmónicos u otros, siendo este hecho el que hace que cada uno tenga untimbre distinto.

Fig. 24 Serie armónica 12

12 https://en.wikipedia.org/wiki/File:Moodswingerscale.svg

31

En la figura anterior se ve cada armónico derivado de una vibraciónfundamental (superior), y las relaciones de frecuencia respecto a laprimera. Esto origina una serie que puede representarse musicalmente enun pentagrama

Fig. 25 Serie armónica transcrita a un pentagrama musical 13

El pentagrama anterior (fig. 25) representa las notas correspondientes ala serie armónica de Do. No obstante, cada armónico sucesivo tienemenos energía y algunos de ellos no forman un intervalo perfecto, sinoque sufren ligeras alteraciones. Cabe destacar, que a parte de la notafundamental y sus octavas, su quinta justa aparece en el 3r, 6to y 12ºarmónico. Este hecho, afectará en el espectro frecuencial, siendo la quintala nota con más energia después de la fundamental. Este concepto, seráimportante la estimación modal, puesto que será una pista bastantedescriptiva para definir los perfiles modales explicados en apartadosposteriores.

A parte de la serie armónica, existen otros motivos por los que puedanaparecen features erróneos en el chromagrama. Un ejemplo, es el ruido odistorsión que puede existir en la señal de audio. Este artefacto aleatorio,ocasiona que algunas intensidades del chromagrama sean diferentes a lasesperadas.Otro ejemplo es la afinación de los instrumentos. Si éstos no estanafinados correctamente, o no siguen el estándar de la frecuencia deafinación las notas no se clasificarán en el tono adecuado. Otras causas pueden ser el ruido a la hora de tocar el instrumento (p.e.Trasteos de guitarra), el smoothing de ventana de análisis y el tamaño dela resolución temporal aplicada a la FFT para el cálculo del chromagrama.

13 https://commons.wikimedia.org/wiki/File:Hseries.png

32

2.2.2.4 Tipos de Chromagramas [7]Existen varias forma de representación de chromagramas, cuya

diferencia depende por ejemplo del método de normalización de energia oalgunos cálculos aplicados al pitch para obtener ciertos aspectostímbricos. A continuación se explica cada uno de ellos con el gráficocorrespondiente a cada tipo, obtenidos a partir de la pista de audio Cmaj(fig. 19).

2.2.2.4.1. Chroma Pitch (CP)Se obtiene directamente una vez cálculado el pitch de la señal.

Cómo hemos explicado anteriormente, el pitch se obtenía de aplicar laSTMSP de una ventana de espectrograma. Una vez obtenidos los valorespara las todas las bandas de pitch MIDI (p= 21,...,108 ), éstas energias sereparten entre los 12 tonos para el chromagrama determinado (parachromagrama de C, los tonos serán C,C#,...,B). En definitiva, el Chroma pitch és la representación estándar en unchromagrama del pitch mapeado en los 12 tonos de una única octava.

Fig. 26 Chroma Pitch (CP)

2.2.2.4.2 Chroma Log-Pitch Normalized (CLP)Los silencios de una señal de audio son fragmentos con nula o

muy baja energia espectral. A la hora de calcular el chromagrama, estasenergías se acumularán de forma aleatoria para cada subbanda analizadadel pitch, originando así un error no deseado. Para evitar este hecho, seaplica una normalización de log(η · e + 1) para cada valor de energia e,del pitch, siendo η una constante determinada. El resultado, es unchromagrama donde la intensidad tímbrica estará mejor representada, yeliminando los fragmentos con silencios.

33

Fig. 27 Chroma-Log-Pitch Normalized (CLP)

2.2.2.4.3 Chroma Energy Normalized Statistics(CENS)El CENS [10] se obtiene de aplicar una normalización de energía

estudiando su distribución a lo largo de las sub-bandas. De esta forma, seobtiene un chromagrama más robusto en cuanto a las propiedadesmusicales, hecho por el cual es el tipo más utilizado a la hora de trabajarcon abstracciones musicales. Al ser el tipo de chromagrama escogido para el sistema de estimación, acontinuación se detalla el diagrama de bloques y su cálculo.

Fig. 28 Diagrama de bloques del cálculo del CENS

Una vez obtenido el chromagrama de la señal, se aplica la normalizaciónal vector chroma, expresada a continuación:

t chroma , L [λ , p ]=t chroma [ λ , p]

∑p=1

12

tchroma [ λ , p]

Una vez normalizado, es posible realizar una quantización para hacer losvalores del chroma más robustos a las variaciones.

34

El siguiente paso es la suavización o smoothing temporal, resultado de laconvolución del vector chroma con una ventana de Hanning con tamañodeterminado.

Fig. 29 Chroma Energy Normalized Statistics

2.2.2.4.4 Chroma DCT-Reduced log Pitch (CRP)Su objetivo es aumentar el grado de invariancia tímbrica, descartandoinformación relacionada con el timbre. Para ello, se aplica alespectrograma del pitch la DCT para obtener una compresión logarítmica.A continuación, se descartan los coeficientes inferiores de los coeficientescepstrales de la frecuencia del pitch (PFCCs = Pitch frequency CepstralCoefficients). Finalmente, se aplica la DCT inversa y se proyecta en los12 tonos para obtener el chromagrama resultante, CRP.

Fig. 30 Chroma DCT-Reduced Log Pitch (CRP)

35

Observando los cuatro gráficos y comparando con el resultado esperadopara la señal correspondiente a la partitura de la figura 19, se puede verque el CENS aporta la información más significante. El CLP es bastantesimilar, pero como se ha explicado, aparecen espectros no deseados, encontraste al CENS, en el que se suprimen debido a la normalización porenergía.

2.2.3 Técnicas de estimación de keyA continuación se explican los procedimientos mas comunes a la

hora de la estimación de key

2.2.3.1 Métodos basados en perfilesMuchos artículos en internet estan enfocados al problema de

estimación de “key” de piezas musicales, cuyos métodos se centran enalgún conjunto musical definido por un estilo o criterio, tipos deprogresiones de acordes dentro de un estilo,... A pesar de que cada métodotenga una implementación diferente, y su equivalente exactitud deresultados varíe, la mayoría de ellas sigue un procedimiento similar.Éstas técnicas, se basan en el estudio de un conjunto de canciones odataset cuya modalidad es conocida , en el que se abstrae unos perfiles omodelos que representan la “key” de estimación, correspondiente al perfildel feature analizado del conjunto de canciones (método introducido porCarol Krumhansl[11]). Estos perfiles son un vector de 12 dimensiones querepresentan el peso de cada tono en la escala determinada. Una vezobtenidos estos modelos, la implementación de la estimación se basará enel cálculo de los features de la pista que se de sea analizar, a la que seaplicará una métrica de similitud (p.e. Correlación, covariancia, similitudde coseno, ...) para encontrar el perfil más semejante en cada caso.Explicado esto, se procede a detallar la creación de modelos.

Fig.31 Diagrama Estimación de Key basado en Creación de Perfiles

Para obtener los perfiles, se abstraen los features a cada canción deldataset. Estos features, conocidos como Harmonic Pitch Class Profiles[12] [13], no son nada más que el chromagrama obtenido en cada uno deellos. Uno de los parámetros a tener en cuenta es la ventana temporal, a la

36

cual se aplica el chromagrama, hecho por el cual el resultado podrá variarnotablemente. Para ello, preferiblemente se trabaja con una ventanasuficientemente grande como para ser representativa a la tonalidaddeterminada. Si se trabaja con ventanas pequeñas, el chromagramasolamente mostrará información sobre las notas presentes en cadafragmento, por lo que su valor no será simbólico para la tonalidad que seesté calculando. Normalmente en el proceso de diseño de perfiles, seutilizan canciones enteras las cuales su tonalidad es la misma a lo largo detoda la obra, y con pocas o ninguna alteración accidental. Si se estudia lamedia del chromagrama de cada canción, y este cálculo se aplica a unconjunto de canciones suficientemente grande, los perfiles de tonalidadserán más efectivos. Algunos ejemplos de modelos conocidos son lospropuestos por Temperley14 [14] y Krumhansl15. A continuación, tenemosuna comparación entre sus perfiles respectivos:

Fig.32 Perfil de tonalidad mayor Fig.33 Perfil de tonalidad menor de Krumhansl. de Krumhansl.

Fig. 34 Perfil de tonalidad mayor Fig. 35 Perfil de tonalidad menorde Temperley de Temperley

14 Major and minor key profiles of Krumhansl & Kessler (1982) 15 Major and minor key profiles of Temperley for MIREX (2005)

37

2.2.3.1.1 Métricas de similitudEstadísticamente existen muchas formas y métodos para calcular

la similitud entre dos conjuntos de datos o data sets. Cada una de estasformas, será más o menos precisa dependiendo del tipo de informaciónque se esté evaluando, así como la finalidad deseada.

En el caso de estimación de key musical, para la comparación de similitudentre perfiles, la intención es encontrar la semejanza en la forma de losperfiles, y los métodos ideales para tal objetivo son los siguientes:

Correlación Uno de los métodos más comunes en este tipo de estimación es el cálculode la correlación [14] entre el perfil obtenido por la canción y el perfilteórico estimado. La correlación, es un término estadístico que indica larelación lineal y proporcionalidad entre dos variables estadísticas. Al estarcomparando perfiles de tonalidad, el objetivo es buscar la similitudmáxima entre sus formas lineales, por eso éste método es el más indicado.Se calcula como:

r=∑i=1

N

( x i− x )⋅( y i− y)

√∑i=1

N

(x i− x)2⋅√∑

i=1

N

( yi− y)2

Donde xi representa cada valor del perfil de la canción, x el valor medio,yi cada valor del perfil teórico e y la media del perfil determinado. Esta correlación, se aplica para cada perfil posible, es decir, 12 veces porcada tonalidad estudiada (Rotación de escala para cada tono existente). Elvalor máximo será la tonalidad más similar a la que se encuentra lacanción analizada.

Distancia euclidiana Expresa la distancia [15] existente entre dos puntos pertenecientes a unespacio euclideo.Se calcula como:

d ( p , q)=d (q , p)=√(q1− p1)2+(q2+ p2)

2+...+(qn−pn)

2=

√∑i=1

n

(qi− pi)2

38

Aunque sea una fórmula más enfocada al calculo espacial entre vectoresdimensionales, es utilizado en ocasiones para la estimación de perfiles detonalidad (Fujishima16 ).

Similitud coseno [16]Es una medida angular del coseno que forma el producto espacial de dosvectores. Se calcula como :

similarity=A∗B

∥A∥∗∥B∥Los valores varian entre -1, correpondiendo a vectores opuestos y 1,implicando la exactitud de ambos vectores. (Ibrahim Sha’ath 17 , KeyFinder).

16 Fujishima, T. (1999) “Realtime chord recognition of musical sound: A systemusing common lisp music”. Proceedings of the International Computer MusicConference, China. 17 Sha'ath, I. “Estimation of key in digital music recordings” . Birbeck College,University of London.

39

40

3. IMPLEMENTACIÓN DEL MÉTODO

En este apartado, se explica la programación y diseño del proyecto capazde realizar la estimación modal. Se analizan las funcionalidades de suinterfaz, los datos obtenidos, el uso de librerías y el motivo del lenguajede programación escogido.

3.1 Lenguaje de Programación (MATLAB)Se ha decidido escoger Matlab como herramienta de

programación, no sólo por ser el lenguaje más utilizado a lo largo de lacarrera y con el que me siento más familiarizado, sino por lasposibilidades que brinda a la hora de trabajar con audio. Además, Matlabes muy eficiente a la hora de cálculos matriciales, una característica muypositiva para este proyecto, dónde el algoritmo de estimación se basará encomparación de matrices y vectores cómo veremos en el apartado 3.5“algoritmo de estimación”.

Para la abstracción de features de la señal de entrada, se hautilizado el chroma toolbox, desarrollado por Meinard Müller y SebastianEwert. Una toolbox es un conjunto de funciones y librerías, normalmentede descarga libre en internet, cuya finalidad es trabajar en un ámbitomatemático concreto y obtener cierta tipo de información. En éste caso,Chroma Toolbox, permite trabajar en procesado de audio y sirve paraobtener ciertos features relacionados directamente con el chroma.Exactamente, se obtienen los features del pitch, el CP y CLP, el CENS yCRP. Todos ellos están explicados anteriormente en el apartado 2.2.2.4“Tipos de chromagramas”.

3.2 Feature de audio utilizadoEl proyecto trabaja únicamente con el CENS (chroma energy normalizedstatistics). El motivo es porque se trata del feature más robusto paratrabajar con abstracciones musicales. Esto se debe, a que se aplica unanormalización de energía a lo largo de las sub-bandas. Así, en vez derepresentar gráficamente todos los sonidos presentes en cada ventana(incluyendo ruido y sonidos no deseados), la energía predominante será lade aquellos tonos más audibles y por lo tanto, será la mejor forma derepresentación melódica.

3.3 Interfaz de usuarioPara facilitar el trabajo al usuario y hacerlo más intuitivo, se haprogramado una interfaz en la que se pueden modificar ciertos parámetrosy obtener gráficamente diferentes resultados. A continuación, se detallanlos elementos presentes, su funcionalidad y la información obtenida.

41

Fig. 36 Interfaz de usuario del programa

Para la explicación de los elementos, se ha dividido la interfaz en 5 partes,comprendidas en la imagen por círculos de colores.

Área azulEn este panel, el usuario tiene los comandos para trabajar con el audiodeseado y puede modificar los parámetros para obtener resultados masóptimos. Los elementos presentes son:

Record: un botón que permite grabar un audio a través de la señal demicrófono de entrada del ordenador, durante una duración definida en elcódigo. El archivo grabado en formato “.wav” se guarda dentro de lacarpeta de trabajo, en el apartado /data_WAV con el nombre de “prueba”.

Open File: botón permite navegar en las carpetas del ordenador, paraseleccionar un archivo de audio y así obtener su estimación modal. Losformatos admitidos son “.mp3” y“.wav” . No está implementado paraotras extensiones.

Pop-up Menu: Despeglable con 2 opciones: Pitch y Chromagrama.Permite seleccionar entre chromagrama y pitch, los cuales equivalen algráfico representado en el área naranja.

Window slider: Barra deslizadora que permite seleccionar el tamaño deventana de análisis del CENS. Su valor, representado en segundos, puedevariar entre 0.1 y 8 (Se puedan modificar los límites).

Print: botón que genera el gráfico con los valores escogidos en el panel.Esta acción llama las funciones para obtener el chromagrama.

Área naranjaEn este espacio de la interfaz, aparecen dos gráficos. Primer gráfico:puede ser Pitch o CENS. Segundo gráfico: forma de onda. 1.Pitch: se representa con su respectiva leyenda a su derecha los pitchfeatures del audio. El eje vertical son las 108 subbandas MIDI, y elhorizontal es el tiempo.

CENS: ya explicado anteriormente, el eje vertical equivale a los 12 tonos,y el eje horizontal el tiempo. Los colores blancos representan más energia,que los oscuros. (Leyenda a la derecha del chromagrama).

43

2.Forma de onda: se puede ver la forma de onda del audio importado. Alpulsar play en el área verde, se reproduce el sonido y aparece un cursorque indica el tiempo en que se encuentra.

Área rosaEn él, aparece el gráfico equivalente al perfil obtenido de la canciónentera. Éste es calculado como la suma de todos los features CENSobtenidos, y representados en forma de barras para los 12 tonos. De estaforma, fácilmente se puede observar que notas son las que predominan enla melodía total. Detect escale: botón que inicia el algoritmo de estimación de modalidad. Debajo de este botón se encuentra un cuadro de texto, que indica lamodalidad estimada sobre el perfil CENS total. Esta tonalidad será útilpara canciones que no varíen su modo. En otros casos, no será unatonalidad representativa.

Área lilaConsta de 2 gráficos y 2 cuadros de texto.En la parte lateral izquierda, se dibujan las todas las probabilidadesmodales en cada fragmento, calculadas por la distancia euclidiana. Lagráfica viene definida por una escala de colores en que cuanta másprobabilidad (es decir, distancia euclidea menor) se trate de un tono rojo-negro, y en caso contrario, blanco-amarillo. Al lado de dicho gráfico, hayun recuadro de texto que contiene las modalidades estimadas (mayorprobabilidad) para cada ventana de análisis. El gráfico y recuadro de texto de la derecha, equivalen a la mismarepresentación de estimación, pero para el método calculado porcorrelación. En este gráfico, cuanta más probabilidad, el valor de lacorrelación es mayor, por lo que los colores serán más blancos, y en casocontrario tienden al tono negro. El cuadro de texto, contiene también lasmodalidades estimadas por correlación en cada ventana.

Área verdeContiene dos botones y un recuadro de texto. Play: reproduce el audio, y en la forma de onda se indica la posición conun cursor azul. En cada instante, se indica en el cuadro de texto cual es lamodalidad estimada por los dos métodos (distancia euclidiana ycorrelación).

Stop: para la reproducción del audio.

44

3.4 Perfiles modalesLos perfiles que representan las 7 modalidades han sido obtenidos

a través del conjunto de canciones o datasets, modificando sus valores demanera que la evaluación fuera la más óptima. Algunos de estos perfiles(por ejemplo Locrio), han sido calculados más teóricamente dando valoresintuitivos, puesto que a la práctica no son modalidades muy conocidas,utilizadas y por lo tanto no se ha utilizado un conjunto de datasetsuficientemente grande.

3.4.1 Creación de perfilesPara el primer perfil creado de cada una de las 7 modalidades, se

escogieron valores intuitivos para dar un peso a cada nota de la escalasegún su importancia. Así pues, los criterios aplicados son:

a) Fundamental de la escala con el peso mayorb) Quinto grado el segundo valor más importante. c) Tercer grado, peso ligeramente inferior al quinto.d) Segundo grado con el peso más pequeño.e) Cuarto, sexto y séptimo grados con mismo valor.

Primera creación perfiles:major= [0.81 0 0.25 0 0.45 0.35 0 0.5 0 0.35 0 0.35];dorian=[0.81 0 0.25 0.45 0 0.35 0 0.5 0 0.35 0.35 0];phry= [0.81 0.25 0 0.45 0 0.35 0 0.5 0.35 0 0.35 0];lydian=[0.81 0 0.25 0 0.45 0 0.35 0.5 0 0.35 0 0.35];mixol.=[0.81 0 0.25 0 0.45 0.35 0 0.5 0 0.35 0.35 0];minor= [0.81 0 0.25 0.45 0 0.35 0 0.5 0.35 0 0.35 0];locr= [0.81 0.25 0 0.45 0 0.35 0.5 0 0.35 0 0.35 0];

Evaluación:

Fig. 37 Ejemplo de error de estimación

La eficacia con los perfiles anteriores no era suficientemente buena,

45

C C# D D# E F F# G G# A A# B0

0,2

0,4

0,6

0,8

1

E major

B mixo

Song

puesto que la estimación se basaba prácticamente en los tres valoresmáximos del CENS, y en el caso de que los de la canción analizada nofueran los mismos grados que el de los perfiles (Fundamental, quinta ytercera) el sistema fallaba. En la figura 37 es puede observar un ejemplode los fallos de estimación. El gráfico rojo representa los valores delchromagrama CENS de una ventana de la canción Want You Bad, la cualestá en la modalidad de Mi Mayor. La línea azul es el perfil Mayor de Miy la línea amarilla es la del perfil de Si Mixolidio. Como se puede ver, elquinto grado de la canción analizada es mucho mayor que la fundamental,por lo que al calcular la distancia euclidiana o correlación, el sistema loclasificó como la modalidad de Si mixolidio.

3.4.2 Mejora de perfilesEl hecho de dar mucha más importancia a la fundamental que al

resto de notas provocaba muchos errores de estimación ya que en loscasos en que el CENS de una ventana el tono de más intensidad nocorrespondía al primero de la modalidad el sistema fallaba. Para el estudio de la evaluación, se han escogido 4 perfiles (Mayor,Menor, Dórico y Mixolidio) puesto que era del cuál se disponía de undataset mayor y definiendo menos perfiles, se reducían posibilidades de laestimación para que el sistema tuviera una mayor eficacia. La primera metodología para mejorar la precisión de los perfiles fueestudiar diferentes chromagramas CENS de fragmentos de cancionesconocidas, y calcular la media de éstos. El problema que conllevaba eraque los perfiles obtenidos dependían de las canciones analizadas, por loque si en una de ellas algunos grados no tan frecuentes (como el cuarto oel séptimo) aparecían con mayor importancia, el perfil resultante no erarepresentativo y por lo tanto la estimación era incorrecta en muchos casos.Por esta razón, se decidió descartar el cálculo de la media de perfiles yoptar por otro método.El método por el cuál se definieron los perfiles definitivos consistía enencontrar los grados más comunes para cada modalidad, y la importanciaque determinaban a la hora del cálculo de estimación. Para ello, se partióde los perfiles originales mencionados en el apartado anterior, y a partir delos resultados para cada canción estudiar los fallos y las causas, y con esoaumentar o disminuir los valores de los perfiles. Se empezó a definir cada perfil de forma consecutiva con el orden deMayor, Menor, Mixolidio y Dórico. Primero, utilizando sólo el perfilmayor, se analizaban varias canciones con solo una modalidad jónicadeterminada . De esta forma, cuanto más aumentaba el tamaño decanciones analizadas, el perfil supuestamente era más representativo

46

puesto que el grado de eficacia se mantenía. Una vez obtenido el perfildefinitivo de la modalidad mayor se procedió a definir el del perfil menor.Siguiendo el mismo procedimiento del análisis de todas las canciones,pero comprobando que el resultado no alterara el de perfiles mayores. Éstetipo de método aumentaba la dificultad para cada modalidad, puesto quelas posibilidades de estimación también crecían. Parar los dos últimosperfiles, Mixolidio y Dórico, la obtención de los perfiles fue másdificultosa ya que la variación más ligera de los valores afectaba a laeficacia del sistema. Este hecho es comprensible, puesto que para cadamodalidad se añadían 12 posibles perfiles y sus respectivas distanciaseuclidianas y correlaciones para la estimación.

3.4.3 Perfiles DefinitivosLos perfiles obtenidos son los representados a continuación, con losvalores siguientes:Mayor=[0,57 0 0,130 0 0,39 0,249 0 0,49 0 0,39 0 0,20]Menor=[0,603 0 0,164 0,438 0 0,219 0 0,438 0,263 0 0.329 0]Mixol= [0,632 0 0,165 0 0,357 0,275 0 0,440 0 0,22 0,356 0]Dorico=[0,6 0 0,136 0,436 0 0,218 0 0,436 0 0,262 0,354 0]

Fig. 38 Perfil Mayor Fig. 39 Perfil Menor

Fig. 40 Perfil Mixolidio Fig. 41 Perfil Dórico

47

3.5 Algoritmo de estimaciónPara calcular la estimación, se aplican dos métodos matemáticos

para obtener resultados diferentes y comparar cuál de ellos es mejor. El algoritmo funciona de la siguiente manera:

1) Creación de todas todas las modalidades:Se calcula una rotación circular para cada perfil estimado. De esta formase crean 12 tonalidades para cada escala. Ejemplo de rotación:Perfil mayor = [0.81 0 0.25 0 0.5 0.35 0 0.5 0 0.35 0 0.5]

Rotación mayor=

[0.81 0 0.25 0 0.5 0.35 0 0.5 0 0.35 0 0.50.5 0.81 0 0.25 0 0.5 0.35 0 0.5 0 0.35 00 0.5 0.81 0 0.25 0 0.5 0.35 0 0.5 0 0.35

0.35 0 0.5 0.81 0 0.25 0 0.5 0.35 0 0.5 00 0.35 0 0.5 0.81 0 0.25 0 0.5 0.35 0 0.5

0.5 0 0.35 0 0.5 0.81 0 0.25 0 0.5 0.35 00 0.5 0 0.35 0 0.5 0.81 0 0.25 0 0.5 0.35

0.35 0 0.5 0 0.35 0 0.5 0.81 0 0.25 0 0.50.5 0.35 0 0.5 0 0.35 0 0.5 0.81 0 0.25 00 0.5 0.35 0 0.5 0 0.35 0 0.5 0.81 0 0.25

0.25 0 0.5 0.35 0 0.5 0 0.35 0 0.5 0.81 00 0.25 0 0.5 0.35 0 0.5 0 0.35 0 0.5 0.81

]Si se aplican las rotaciones a todas las escalas se genera una matriz totalde 84 filas, las cuales equivalen a todas las tonalidades posibles.

2) Cálculo de la distancia euclidiana y correlaciónUna vez obtenido el perfil de la canción, o ventana determinada, seprocede a aplicar el método de estimación. Como se ha mencionadoanteriormente se aplican los dos métodos de comparación.

Distancia euclidiana:

√∑i=1

12

(qi−pi)2

Donde qi equivale al índice del perfil de la canción y p i el perfil deestimación (es decir cada vector fila de la matriz total de rotaciones).Calculando todos los perfiles se obtienen 84 distancias euclidianas.

48

Correlación:

r=∑i=1

N

( x i− x )⋅( y i− y)

√∑i=1

N

(x i− x)2⋅√∑

i=1

N

( yi− y)2

Donde xi es el índice del perfil de la canción, yi el perfil de estimación, yx e y sus medias respectivas. Como en el caso anterior, se obtienen 84valores de correlación.

3) Búsqueda del perfil estimadoPara ello se busca el perfil correspondiente a la mínima distanciaeuclidiana y la máxima correlación. En la mayoría de casos ambos perfilesvan a coincidir, no obstante puede sufrir ligeras variaciones que sedetallarán en el apartado Evaluación.

Fig. 42 Probabilidades modales por distancia euclidiana

Como se puede observar en la imagen anterior, las probabilidades demodalidad tienen una resolución determinada por la ventana de análisis.El algoritmo, encuentra para cada fragmento la modalidad estimada, y eneste gráfico corresponde con los fragmentos con color más cercano alrojo.

En el caso de la métrica de correlación, el algoritmo busca el perfil con elvalor más alto en cada ventana.

49

Fig. 43 Probabilidades modales por correlación

En el gráfico las modalidades estimadas serían las correspondientes alcolor más cercano al blanco en cada fragmento temporal.

50

4. EVALUACIÓNPara estudiar la precisión del programa y demostrar que funciona, se hatrabajado con un conjunto conocido de canciones. Con este grupo decanciones, o data set, se compararán resultados correctos e incorrectos,analizando los parámetros y método de estimación en cada caso. A pesar de que haya 7 modalidades, se han considerado 4, (Mayor,Menor, Dórico y Mixolidio) puesto que hay pocas obras escritas en Locrioy Lidio, por lo que no se ha podido realizar un estudio relevante. También,se ignorará el modo Frigio, para fin de poder obtener una eficacia mayorpara los perfiles escogidos.

4.1 Data setEl data set de trabajo es un conjunto de 20 canciones, cuya modalidad seconocía previamente a la estimación. Para cada modalidad, hay un grupode canciones con una tonalidad única. También, hay otras obras en las quecambia la modalidad a lo largo de la duración, para comprobar que elprograma detecta cambios modales.

Modo Mayor o Jónico

Artista Canción Modalidad

The Misfits Saturday Night D Maj, E Maj

Mago de Oz La costa del Silencio F Maj, D min, Dmaj

The Offspring Want you Bad E Maj

Green Day Good Riddance G Maj

Green Day Going To Pasalacqua A Maj

Modo Dórico

Simon & Garfunkel Scarborough FairCanticle E Dor

Daft Punk Get Lucky F# Dor

Paddy and the rats Drunken Sailer E Dor / D Maj

The legend of zelda: Ocarina oftime

Temple of Time D Dor

Modo Eolio o Menor

Nightwish Élan C/D/B/F Minor

Ed Sheeran I See Fire A# Min

Linkin Park What I've Done G# Min

The Fat Rat Monody C# Min

Metallica Nothing Else Matters E Min

51

Modo Mixolidio

AC DC It's a long way to the top A Mixolidio

Lynyrd Skynyrd Sweet Home Alabama D Mixolidio

Foo Fighters Times Like These D Mixolidio

Lady Gaga You and I A Mixolidio

Joe Satriani Summer Song A Mixolidio

Tabla 3. Data-set analizado

4.2 Resultados de la estimación a lo largo del tiempoEn las siguientes páginas, se muestran los aciertos de estimación en función del frame de análisis. En este caso, las ventanas son de 8 segundos, y se han analizado los modos Mayor, Menor, Dórico y Mixolidio. Para cada canción se representa el eje temporal en minutos y segundos, la modalidad original de la canción y la estimación del programa con las métricas de distancia euclidiana y correlación. Los aciertos tienen una celda verde y los errores una celda roja.

52

Tabla 4. Resultados Dataset Canciones Modo Mayor

Time 00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40 02:48 02:56 03:04 03:12 03:20 03:28 03:36Original

21/28 75,00%22/28 78,57%

00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40 02:48 02:56 03:04 03:12 03:20 03:28 03:36 03:44

Original

03:52 04:00 04:08Original

15/32 46,88%16/32 50,00%

00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40 02:48 02:56 03:04 03:12 03:20 03:28Original

14/27 51,85%14/27 51,85%

00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40

Original

13/21 61,90%

13/21 61,90%

00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40 02:48 02:56 03:04 03:12 03:20 03:28 03:36Original

23/28 82,14%23/28 82,14%

Estimación errónea

Estimación correcta

Misfi ts – Saturday Nig h t

D Maj D Maj D Maj D Maj D Maj D Maj D Maj D Maj D Maj D Maj D Maj D Maj D Maj D Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj

Euc lidean D Maj D Maj D Maj D Maj D Maj D Maj D Maj D Maj D Maj A Mixo A Mixo D Maj D Maj D Maj E Mixo E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj B Mixo B Mixo B Mixo E MinCorreation D Maj D Maj D Maj D Maj D Maj D Maj D Maj D Maj D Maj A Mixo D Maj D Maj D Maj D Maj E Mixo E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj B Mixo B Mixo B Mixo E Min

% Eucl. % Corr.

Mag o de Oz- La costa del si l encio

F Maj F Maj F Maj D Min D Min D Min D Min D Min F Maj F Maj D Min D Min D Min D Min D Maj F Maj F Maj F Maj F Maj F Maj F Maj D Min D Min D Min D Min F Maj F Maj F Maj F MajEuc lidean D Dorian D Min D Min D Min D Min D Min D Min F Maj F Maj F Maj D Min D Min A Min D Min D Min D Mixo D Min F Maj C Mixo F Maj D Min D Min D Min D Min F Maj C Mixo C Mixo D Min D Min

Correation D Dorian D Dorian D Min D Min D Min D Min C Mixo F Maj F Maj F Maj D Min D Min D Min D Min D Min D Mixo D Min F Maj C Mixo F Maj D Min D Min D Min D Min F Maj C Mixo C Mixo D Min D Min

F Maj F Maj F Maj

Euc lidean F Maj C Mixo F MajCorreation F Maj C Mixo F Maj

% Eucl. % Corr.

The Offspring – Want you Bad

E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj E Maj

Euclidean E Maj E Maj E Maj E Maj E Maj E Maj C# Min C# Min C# Min C# Min E Maj E Maj C# Min C# Min E Maj E Maj B Mixo B Mixo B Mixo E Maj E Maj E Maj C# Min C# Min E Maj E Mixo E MixoCorreation E Maj E Maj E Maj E Maj E Maj E Maj C# Min C# Min C# Min C# Min E Maj E Maj C# Dor C# Min E Maj E Maj B Mixo B Mixo B Mixo E Maj E Maj E Maj C# Min C# Min E Maj E Mixo E Mixo

% Eucl. % Corr.

Green Day – Good Riddance

G Maj G Maj G Maj G Maj G Maj G Maj G Maj G Maj G Maj G Maj G Maj G Maj G Maj G Maj G Maj G Maj G Maj G Maj G Maj G Maj G MajEuclidean G Mixo G Maj G Maj G Maj D Mixo G Maj G Maj G Maj G Maj E Min G Maj D Mixo D Mixo D Mixo G Maj G Maj G Maj G Maj G Maj D Mixo D Mixo

Correation G Mixo G Maj G Maj G Maj D Mixo G Maj G Maj G Maj G Maj E Min G Maj D Mixo D Mixo D Mixo G Maj G Maj G Maj G Maj G Maj D Mixo D Mixo% Eucl.

% Corr.

Green Day – Going to Palasacqua

A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj

Euclidean E Maj E Mixo A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj E Mixo A Maj E Mixo A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj F# Min A Maj A Maj A MajCorreation E Maj E Mixo A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj E Mixo A Maj E Mixo A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj A Maj F# Min A Maj A Maj A Maj

% Eucl. % Corr.

Ed Sheeran – I see Fire00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40 02:48

Original A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min

Euclidean A# Min A# Min D# Mixo F Min A# Min A# Min A# Min C# Maj A# Min A# Min A# Dor A# Dor A# Min A# Min A# Min A# Min D# Min D# Dor D# Dor A# Min C# Maj F# Maj

Correation A# Min A# Min D# Mixo F Min A# Min A# Dor A# Dor C# Maj A# Min A# Min A# Dor A# Dor A# Min A# Min A# Min A# Min D# Min D# Dor D# Dor A# Min C# Maj F# Maj

t t o r r r o02:56 03:04 03:12 03:20 03:28 03:36 03:44 03:52 04:00 04:08 04:16 04:24 04:32 04:40 04:48 04:56

Original A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min

Euclidean F# Maj F# Maj A# Min D# Min D# Min D# Min D# Mixo D# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min C# Mixo

Correation F# Maj F# Maj A# Min D# Min D# Min D# Min D# Mixo D# Min A# Min A# Min A# Min A# Min A# Min A# Min A# Min C# Mixo

% Eucl. 17/38 44,74%

% Corr. 17/38 44,74%

Nightw ish- Élan00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40 02:48

Original C Min C Min D Min D Min D Min D Min D Min D Min D Min D Min D Min D Min D Min D Min D Min D Min D Min D Min D Min D Min D Min D Min

Euclidean C Dor G Min D Min D Dor D Min D Min D Min C Mixo D Min D Min D Min D Min F Maj F Maj D Min A Min F Maj D Min D Min D Min D Min D Min

Correation C Dor G Min D Min D Dor D Min D Min D Min C Mixo D Min D Min D Min D Min F Maj F Maj D Min A Min F Maj D Min D Min D Min D Min D Min

02:56 03:04 03:12 03:20 03:28 03:36 03:44 03:52 04:00 04:08 04:16

Original D Min D Min D Min D Min B Min B Min C Min Fmin Fmin Fmin Fmin

Euclidean D Min C Mixo F Maj D Min A Min B Min F# Min F Min F Min G# Maj D# Mixo

Correation D Min C Mixo F Maj D Min A Min B Min F# Min G# Maj F Min G# Maj D# Mixo

% Eucl. 19/33 57,58%% Corr. 18/33 54,55%

The Fat Rat – Monody00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40 02:48

Original C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min

Euclidean C# Mixo C# Maj C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Dor C# Min C# Min E Maj E Maj E Maj C# Dor C# Min C# Min C# Min C# Min C# Dor

Correation C# Mixo C# Maj C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Dor C# Min C# Min E Maj E Maj E Maj C# Dor C# Dor C# Dor C# Min C# Min C# Dor

02:56 03:04 03:12 03:20 03:28 03:36 03:44 03:52 04:00 04:08 04:16 04:24 04:32 04:40 04:48 04:56

Original C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min

Euclidean C# Dor C# Dor C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min

Correation C# Dor C# Dor C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min C# Min

% Eucl. 27/38 71,05%

% Corr. 26/38 68,42%

Metallica – Nothing Else Matters00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40 02:48

Original E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min

Euclidean E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min

Correation E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min

02:56 03:04 03:12 03:20 03:28 03:36 03:44 03:52 04:00 04:08 04:16 04:24 04:32 04:40 04:48 04:56 05:04 05:12 05:20 05:28 05:36 to End

Original E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min E Min

Euclidean A Dor E Min E Min A Dor E Min E Min E Min E Min E Min E Min E Min E Min E Min D Mixo D Mixo E Min E Min E Min E Min E Min E Min E Min

Correation A Dor E Min E Min A Dor E Min E Min E Min E Min E Min E Min E Min E Min E Min D Mixo D Mixo E Min E Min E Min E Min E Min E Min E Min

% Eucl. 46/50 92,00%

% Corr. 46/50 92,00%

Linkin Park – What I've Done00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40 02:48

Original G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min

Euclidean G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min

Correation G Min G Min G Min G Min G Dor G Dor G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min G Min

02:56 03:04 03:12 03:20 03:28

Original G Min G Min G Min G Min G Min

Euclidean G Min G Dor G Dor G Dor G Dor

Correation G Min G Dor G Dor G Dor G Min Estimación errónea

% Eucl. 23/27 85,19%

% Corr. 22/27 81,48% Estimación correcta

Tabla 5. Resultados Dataset Canciones Modo Menor

00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40 02:48 02:56 03:04 03:12 03:20

Original

03:28 03:36 03:44 03:52

Original

15/30 50,00%

15/30 50,00%

00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40 02:48 02:56 03:04 03:12 03:20

Original

03:28 03:36 03:44 03:52 04:00 04:08 04:16 04:24

Original

23/34 67,65%

23/34 67,65%

00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40 02:48 02:56 03:04 03:12 03:20

Original

03:28 03:36 03:44 03:52 04:00 04:08 04:16 04:24 04:32 04:40 04:48 04:56 05:04 05:12

Original

37/40 92,50%

37/40 92,50%

00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40 02:48 02:56 03:04 03:12 03:20

Original A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo

Euclidean A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo E Dor A Mixo A Mixo A Mixo A Mixo A Mixo

Correlation A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo E Dor A Mixo A Mixo A Mixo A Mixo A Mixo

03:28 03:36 03:44 03:52 04:00 04:08 04:16 04:24 04:32 04:40 04:48 04:56 05:04

Original A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo

Euclidean A Mixo A Mixo A Mixo A Mixo A Mixo E Mixo E Dor A Mixo A Mixo A Mixo A Maj A Maj A Maj

Correlation A Mixo A Mixo A Mixo A Mixo A Mixo E Mixo E Dor A Mixo A Mixo A Mixo A Maj A Maj A Maj

% Eucl. 33/39 84,62%

% Corr. 33/39 84,62%

Lynyrd Skynyrd- Sweet home Alabama00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40 02:48 02:56 03:04 03:12 03:20

Original D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix

Euclidean D Mixo D Mixo D Mixo D Mixo G Mixo G Mixo D Mixo D Mixo G Mixo G Mixo D Mixo D Mixo G Mixo G Mixo G Mixo D Mixo D Mixo D Mixo G Mixo E Minor E Minor E Minor G Maj G Mixo G Maj D Mixo

Correlation D Mixo D Mixo D Mixo D Mixo G Mixo G Mixo G Maj G Maj G Mixo G Mixo D Mixo D Mixo G Mixo G Mixo G Mixo D Mixo D Mixo D Mixo G Mixo G Maj E Minor E Minor G Maj G Mixo G Maj D Mixo

03:28 03:36 03:44 03:52 04:00 04:08 04:16 04:24 04:32 04:40 04:48 04:56 05:04 05:12 05:20 05:28 05:36 05:44 05:52 06:00 06:08 06:16 06:24 06:32

Original D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix D mix

Euclidean D Mixo D Mixo D Mixo G Mixo D Mixo D Mixo G Mixo G Maj D Mixo G Maj G Mixo D Mixo D Mixo G Mixo G Maj G Mixo G Mixo G Maj A Minor G Mixo G Mixo G Maj G Maj G Mixo

Correlation D Mixo D Mixo D Mixo D Dor D Mixo G Maj G Mixo G Maj G Maj G Maj G Mixo D Mixo D Mixo G Maj G Maj G Mixo G Mixo G Maj G Mixo G Mixo G Mixo G Maj G Maj G Mixo

% Eucl. 20/50 40,00%

% Corr. 16/50 32,00%

Estimación errónea

Estimación correcta

Foo Fighters – Times Like These

D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo D Mixo

Euclidean D Mixo D Mixo D Mixo D Mixo D Mixo A Mixo A Dor A Dor G Maj D Mixo D Mixo D Mixo D Mixo D Mixo E Minor E Minor D Mixo D Mixo D Mixo D Mixo D Mixo G Maj E Minor E Minor G Maj G Maj

Correlation D Mixo D Mixo D Mixo D Mixo D Mixo A Mixo A Dor A Dor G Maj D Mixo D Mixo D Mixo D Mixo D Mixo E Minor G Maj D Mixo D Mixo D Mixo D Mixo D Mixo G Maj E Minor G Maj G Maj G Maj

D Mixo D Mixo D Mixo D Mixo

Euclidean G Maj E Minor E Minor A Dor

Correlation G Maj E Minor E Minor A Dor

% Eucl.

% Corr.

Joe Satriani – Summer Song

A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo D Mixo D Mixo D Mixo D Mixo G Mixo G Mixo G Mixo G Mixo G Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo

Euclidean A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo D Maj D Mixo A Mixo A Dor G Mixo G Mixo G Mixo D Mixo D Mixo A Maj A Maj A Mixo A Mixo A Mixo D Minor A Mixo

Correlation A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo D Maj D Mixo A Mixo A Dor G Mixo G Mixo G Mixo D Mixo D Mixo A Maj A Maj A Mixo A Mixo A Mixo D Minor A Mixo

A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo A Mixo

Euclidean A Mixo A Mixo A Mixo A Maj A Maj A Maj A Mixo A Mixo

Correlation A Mixo A Mixo A Mixo A Maj A Maj A Maj A Mixo A Mixo

% Eucl.

% Corr.

AC DC – Its a long way to the top

A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix

Euclidean A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo F Mixo F Maj F Maj A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo

Correlation A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo F Mixo F Maj F Maj A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo

A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix A# Mix

Euclidean A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo F Mixo A# Mixo A# Mixo A# Mixo

Correlation A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo A# Mixo F Mixo A# Mixo A# Mixo A# Mixo

% Eucl.

% Corr.

Lady Gaga – You and I

A Mixo A Mixo A Mixo A Mixo A Mixo

Tabla 6. Resultados Dataset Canciones Modo Mixolidio

Daft Punk- Get Lucky

00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40 02:48 02:56 03:04 03:12 03:20 03:28 03:36

Original B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor

Eucl idean B Mixo B Mixo B Mixo B Dor F# Min F# Min B Dor B Dor B Dor B Dor B Mixo B Dor F# Min F# Min B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor F# Min F# Min B Dor B Dor B Dor B Dor

Correlation B Dor B Dor B Dor B Dor F# Min B Dor B Dor B Dor B Dor B Dor B Dor B Dor F# Min B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor B Dor F# Min F# Min B Dor B Dor B Dor B Dor

03:44 03:52 04:00 04:08

Original B Dor B Dor B Dor B Dor

Eucl idean B Dor B Dor B Mixo B Mixo

Correlation B Dor B Dor B Dor B Mixo

% Eucl. 20/32 62,50%

% Corr. 27/32 84,38%

Paddy and the rats- Drunken sailor

00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40 02:48 02:56 03:04 03:12 03:20 03:28 03:36

Original E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor D Maj E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor D Maj D Maj D Maj D Maj D Maj D Maj

Eucl idean B Min B Min B Min B Min B Min B Min E Dor B Min E Dor E Dor E Dor E Dor E Dor D Maj D Maj E Dor E Dor E Dor E Dor B Min B Min B Min B Min D Maj A Maj D Maj D Maj D Maj

Correlation B Min B Min B Min B Min B Min B Min E Dor E Dor E Dor E Dor E Dor E Dor E Dor D Maj D Maj E Dor E Dor E Dor E Dor B Min B Dor B Min D Maj D Maj A Maj D Maj D Maj D Maj

% Eucl. 15/28 53,57%

% Corr. 16/28 57,14%

Tem ple of Tim e - The Legend of Zelda: Ocarina of Tim e

00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40

Original D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor

Eucl idean D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor G Mixo D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Min D Min D Dor

Correlation D Min D Dor D Dor D Dor D Dor D Dor D Dor D Dor G Mixo D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Dor D Min D Min D Dor

% Eucl. 18/21 85,71%

% Corr. 17/21 80,95%

Sim on & Garfunkel - Scarborough FairCanticle (Audio)

00:00 00:08 00:16 00:24 00:32 00:40 00:48 00:56 01:04 01:12 01:20 01:28 01:36 01:44 01:52 02:00 02:08 02:16 02:24 02:32 02:40 02:48 02:56 03:04 03:12

Original E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor

Eucl idean A Mixo E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Mixo E Dor E Dor E Dor E Dor B Min E Dor E Dor A Mixo E Dor

Correlation A Mixo E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Dor E Mixo E Dor E Dor E Dor E Dor B Min E Dor E Dor A Mixo E Dor

% Eucl. 21/25 84,00%

% Corr. 21/25 84,00%

Estimación errónea

Estimación correcta

Tabla 7. Resultados Dataset Canciones Modo Dórico

4.3 Resultados globalesPara los resultados obtenidos en el dataset se ha utilizado una ventana de 8segundos, puesto que es un tamaño suficiente grande para poderinterpretar la modalidad gracias a su CENS, y porque el menor cambiomodal en las canciones utilizadas era aproximadamente 8 segundos. Por lotanto, de esta forma el sistema era capaz de detectar cambios modales dedicha duración. El tamaño de la ventana influye considerablemente en el resultado deestimación, por lo que sólo se han estudiado los resultados con estetamaño determinado. Escoger una ventana menor a la utilizada, no seríauna buena selección, puesto que el CENS simplemente indicaría las notasdentro de la resolución temporal, por lo que probablemente, lainformación en vez de representar una modalidad, se correspondería aacordes o notas simples presentes en cada segmento.

Modalidad

Ventanasanalizadas

Ventanasestimadas

correctamente(Dist. Euclid.)

Ventanasestimadas

correctamente(Correlación)

Porcentageacierto(Dist.

Euclid.)

Porcentageacierto

(Correlación)

Mayor 123 77 78 62,60% 63,41%

Menor 199 124 122 62,31% 61,31%

Mixolidia 193 127 123 65,80% 63,73%

Dórica 106 74 81 69,81% 76,42%

Tabla 8. Ground Truth de los resultados de la evaluación

4.4 Comparación de métricasPara determinar la eficacia del sistema, vamos a analizar el ground truthde los resultados obtenidos. Para ello, en la siguiente imagen (fig. 44)vemos el porcentage de acierto de las dos métricas. En ella se ve el tantopor ciento de acierto para cada métrica y cada modo.

Fig.44 Eficacia total del sistema

57

Euclidean Correlation0

0,5

1Major

Mixolydian

Dorian

Minor

Como se ve en la figura anterior, la eficacia total para cada modalidad estáen un rango entre 55-65% de probabilidad de acierto. La diferencia entrelos dos métodos de estimación es mínima. Es difícil decir con precisióncuál de los dos métodos es mejor, puesto que las modalidades mayor ydórica, son mejores en correlación, y las modalidades menor y mixolidiason mejores en distancia euclidiana.

4.5 Evaluación de ErroresPara el estudio de los tipos de fallos de estimación de modalidad, se hanclasificado los errores en tres clases diferentes:

Error de nota Tónica. En este caso el sistema clasificaba correctamente latonalidad en que se encontraba la canción original, pero con unamodalidad diferente. Ejemplo: Do menor estimado como Do mixolidio.

Error de modalidad Relativa. Incluye aquellos errores en que el sistema haestimado una modalidad relativa a la original. Ejemplo: La menorestimado como Do mayor.

Otros. En este caso se han considerado cualquier otro caso de fallo deestimación. Ejemplo: La menor estimado como Fa# menor.

Fig. 45 Clasificación de errores de estimación

En la figura anterior se puede observar el porcentage para cada tipo deerror de estimación. El tipo más frecuente es el error de estimación pormodalidad relativa. Este hecho indica que el sistema tiene una buenaidentificación de la armadura musical, por lo que la causa del error es ladistribución de pesos de los perfiles. El segundo tipo más frecuente, los

58

Tónica Relativo Otro0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

Euclidean

Correlation

errores de tónica, tiene un porcentage de 22-24% de los errores totales.Una posible causa de este tipo de error, es que el chromagrama de laventana en cuestión, no represente todas las notas de una modalidad, sinoque sólo aporta información de un número limitado de tonos. Finalmente, los errores restantes, son debido a que la informaciónrepresentada en el chromagrama no se corresponde con la esperada.

4.6 Valoración de resultadosAl intentar conseguir un sistema sensible a cambios cortos de modalidad,se ha trabajado con una ventana de 8 segundos. Es posible que en dichaduración, la información que aporta su chromagrama no sea suficientepara una estimación correcta. No obstante, el resultado global me parecefavorable, puesto que la efectividad media de 65% es alta, considerandoque para cada estimación existen 48 diferentes modalidades posibles. Utilizando el sistema con canciones no analizadas previamente, es posibleque la estimación fragmentada sea errónea en muchos casos y elporcentage de acierto disminuya. Sin embargo, en los casos en que lacanción se encuentra en una sola modalidad, la estimación de lamodalidad global o media tiende a ser acertada.

4.7 Consideraciones de la evaluaciónLa evaluación del sistema creado no se ha calculado por validacióncruzada. Simplemente se ha estudiado un dataset intentando crear que losperfiles modales tuvieran la mejor eficacia. Aunque no se ha realizado la validación se ha probado el sistema paracanciones no incluidas en el conjunto estudiado y los resultados variabandesde una eficacia casi perfecta (90% o superior) hasta una eficaciamayormente errónea. Por eso, los resultados y evaluación dependerían dede la adecuación de las canciones a los perfiles modales propuestos. Losmétodos de estimación tonal/modal basados en perfiles no son, porconstrucción, generalizables a todo tipo de música.

59

60

5. Conclusiones

Es difícil definir con exactitud un perfil de modalidad. Éstos perfiles, sonel resultado de aplicar el estudio de estimación a una base de datos, cuyaelección puede venir definida por algún atributo, como el estilo musical,artista, época... El objetivo de los perfiles de modalidad, es crear unmodelo representativo para cada escala. El resultado va a estar definidopor el conjunto estudiado, por lo que puede no corresponder con laestimación de una obra no analizada previamente.En cuanto a la eficacia del programa creado en este TFG, me ha parecidosatisfactoria, puesto que la estimación mejoró bastante en relación a losperfiles creados en un primer momento. Para canciones no incluidas en eldata set, el sistema puede que la eficacia sea menor, sobretododependiendo del tamaño de ventana analizado. No obstante, cuando lascomposiciones analizadas están en un mismo modo a lo largo de la obra,el sistema tiende a estimar correctamente. 5.1 AportaciónUna de las contribuciones más obvias con este trabajo, es la de crear unsistema capaz de estimar las modalidades griegas. Como ya se hacomentado anteriormente, los sistemas existentes para estimación detonalidad solo analizaban modalidades mayores y menores. Con esteproyecto y la creación de los perfiles modales, se consigue una estimaciónmusical más correcta. No obstante, solo se han evaluado 4 perfiles en un pequeño dataset, por loque con un análisis y estudio más amplio, se puedan llegar a mejorar losperfiles y hacerlos más efectivos y representativos para cada modalidad. Además, la creación de una interfaz gráfica facilita visualmente el trabajoy análisis para el usuario.Finalmente, nombrar el trabajo de análisis modal para el conjunto decanciones estudiado.

5.2 LimitacionesLa estimación de modalidad de este proyecto, se basa únicamente encomparación de perfiles con dos métodos de similitud. Trabajando con elchromagrama CENS, los modelos se han definido por la intensidad oocurrencia de cada nota de la modalidad. Uno de los fundamentosaplicados en la gran mayoría de sistemas de estimación es el de que lanota tónica es la más frecuente, hecho por el que siempre tiene más pesoen cada perfil. No obstante, en los casos que no se cumpla, muyprobablemente el sistema falle. Es por esto que no es posible crear perfiles

61

representativos para cualquier canción o fragmento, sino que éstosdependeran del dataset al que van enfocados.

5.3 Posibles mejorasUn posible paso para mejorar estos métodos de estimación sería hacer unestudio musical de progresiones de acordes. Dependiendo del estilomusical, existen una serie de progresiones, como por ejemplo en el casodel blues predominan los grados I, IV y IV. Si se realiza un estudiosuficientemente grande, para la creación de progresiones, sería posibleque el sistema reconociera estos patrones y por lo tanto calcular laaproximación estimada para el grado fundamental en cada modalidad.Para la mejora de los perfiles existentes una opción es evaluar un datasetmás amplio, hacer un estudio de la armonía y composición de cada estilopara así determinar los grados y notas más frecuentes y su importancia.

5.4 Trabajo futuroUno de los próximos objetivos para este trabajo consiste en la mejora dela barra deslizadora de reproducción. De esta forma, se podrá accederrápidamente a la estimación de cualquier fragmento de la canción.Otra idea a tener en cuenta es la de poder modificar los perfilesdirectamente desde la interfaz sin tener que cambiarlos desde la funciónen el código. Esta tarea se podrá realizar creando una tabla en la interfazcon los valores de cada perfil modal.

62

Bibliografia

[1] “Escala musical” . Wikipedia. https://es.wikipedia.org/wiki/Escala_musical (accedido 10 mayo 2017)

[2] “Armonía modal”. Enciclopedia Libre Universal en Español. 19 enero 2008. Web. http://enciclopedia.us.es/index.php/Armon%C3%ADa_modal

[3] MacFarlane, P. “Determining the Key”. Guitar Lessons World. Web .20 diciembre de 2015. https://www.guitarlessonworld.com/lessons/determining-the-key/

[4] Serna, D. “Fretboard Theory: Guitar Chords, Scales, Progressions, Modes, and More!”, de Volumen 1 de Freatboard Theory. Desi Serna, 2008

[5] Berle, A. “Encyclopedia of Scales, Modes and Melodic Patterns “. Mel Bay Publications, Inc. 1997.

[6] “Pitch (music)” . Wikipedia. https://en.wikipedia.org/wiki/Pitch_(music)(accedido 15 Mayo de 2017)

[7] Müller, M., Ewert, S. . “Chroma Toolbox: Matlab Implementations for extracting variants of chroma-based audio features”. 2011.http://resources.mpi-inf.mpg.de/MIR/chromatoolbox/2011_MuellerEwert_ChromaToolbox_ISMIR.pdf

[8] Shepard, Roger N. “Approximation to Uniform Gradients of Generalization by Monotone Transformations of Scale" en Mostofsky, D. I. “Stimulus Generalization”. California: Stanford University Press, 1965.

[9] Grüner, C. “La serie Armónica” . Aula actual. 1998http://www.aulaactual.com/especiales/serie-armonica/

[10] Weihs,C., Jannach, D. Vatolkin,I. Rudolph, G.. “Music Data Analysis: Foundations and Applications”. Chapman and Hall/CRC, 2016.

[11] Krumhansl Carol L., “Cognitive foundations of musical Pitch”. New York: Oxford university Press, 1990. [12] Fujishima, T. “Realtime chord recognition of musical sound: a system using Common Lisp Music”. Beijing, China: ICMC, 1999 .

63

[13] Gomez, E. Herrera, P. “Estimating The Tonality Of Polyphonic Audio Files:Cognitive Versus Machine Learning Modelling Strategies”. ISMIR 2004

[14] Temperley, D. “The cognition of basic musical structures”. The MIT Press, 2001.

[15] “Correlation and dependence”. Wikipedia. https://en.wikipedia.org/wiki/Correlation_and_dependence (Accedido 4 Junio 2017).

[16] “Euclidean distance”. Wikipedia. https://en.wikipedia.org/wiki/Euclidean_distance (Accedido 24 Mayo 2017. ) [17]”Cosine similarity”. Wikipedia.https://en.wikipedia.org/wiki/Cosine_similarity (Accedido 3 Junio 2017.)

64

APÉNDICE

65

Tabla 9. Ejemplos de escalas griegas organizadas por Modos

66

Do Do Re Mi Fa Sol La SiRe Re Mi Fa# Sol La Si Do#Mi Mi Fa# Sol# La Si Do# Re#

Jónico Fa Fa Sol La Si♭ Do Re MiSol Sol La Si Do Re Mi Fa#La La Si Do# Re Mi Fa# Sol#Si Si Do# Re # Mi Fa# Sol# La#Do Do Re Mi♭ Fa Sol La Si♭Re Re Mi Fa Sol La Si DoMi Mi Fa# Sol La Si Do# Re

Dórico Fa Fa Sol La♭ Si♭ Do Re Mi♭Sol Sol La Si♭ Do Re Mi FaLa La Si Do Re Mi Fa# SolSi Si Do# Re Mi Fa# Sol# LaDo Do Re♭ Mi♭ Fa Sol La♭ Si♭Re Re Mi♭ Fa Sol La Si♭ DoMi Mi Fa Sol La Si Do Re

Frigio Fa Fa Sol♭ La♭ Si♭ Do Re♭ Mi♭Sol Sol La♭ Si♭ Do Re Mi♭ FaLa La Si♭ Do Re Mi Fa SolSi Si Do Re Mi Fa# Sol LaDo Do Re Mi Fa# Sol La SiRe Re Mi Fa# Sol# La Si Do#Mi Mi Fa# Sol# La# Si Do# Re#

Lidio Fa Fa Sol La Si Do Re MiSol Sol La Si Do# Re Mi Fa#La La Si Do# Re# Mi Fa# Sol#Si Si Do# Re# Mi# Fa# Sol# La#Do Do Re Mi Fa Sol La Si♭Re Re Mi Fa# Sol La Si DoMi Mi Fa# Sol# La Si Do# Re

Mixolidio Fa Fa Sol La Si♭ Do Re Mi♭Sol Sol La Si Do Re Mi FaLa La Si Do# Re Mi Fa# SolSi Si Do# Re# Mi Fa# Sol# LaDo Do Re Mi♭ Fa Sol La♭ Si♭Re Re Mi Fa Sol La Si♭ DoMi Mi Fa# Sol La Si Do Re

Eolio Fa Fa Sol La♭ Si♭ Do Re♭ Mi♭Sol Sol La Si♭ Do Re Mi♭ FaLa La Si Do Re Mi Fa SolSi Si Do# Re Mi Fa# Sol LaDo Do Re♭ Mi♭ Fa Sol♭ La♭ Si♭Re Re Mi♭ Fa Sol La♭ Si♭ DoMi Mi Fa Sol La Si♭ Do Re

Locrio Fa Fa Sol♭ La♭ Si♭ Do♭ Re♭ Mi♭Sol Sol La♭ Si♭ Do Re♭ Mi♭ FaLa La Si♭ Do Re Mi♭ Fa SolSi Si Do Re Mi Fa Sol La

Tabla 10. Ejemplos de escalas griegas organizadas por Notas

67

Mayor Do Re Mi Fa Sol La SiDórico Do Re Mi♭ Fa Sol La Si♭Frigio Do Re♭ Mi♭ Fa Sol La♭ Si♭

Do Lidio Do Re Mi Fa# Sol La SiMixolidio Do Re Mi Fa Sol La Si♭Eolio Do Re Mi♭ Fa Sol La♭ Si♭Locrio Do Re♭ Mi♭ Fa Sol♭ La♭ Si♭Mayor Re Mi Fa# Sol La Si Do#Dórico Re Mi Fa Sol La Si DoFrigio Re Mi♭ Fa Sol La Si♭ Do

Re Lidio Re Mi Fa# Sol# La Si Do#Mixolidio Re Mi Fa# Sol La Si DoEolio Re Mi Fa Sol La Si♭ DoLocrio Re Mi♭ Fa Sol La♭ Si♭ DoMayor Mi Fa# Sol# La Si Do# Re#Dórico Mi Fa# Sol La Si Do# Re Frigio Mi Fa Sol La Si Do Re

Mi Lidio Mi Fa# Sol# La# Si Do# Re#Mixolidio Mi Fa# Sol# La Si Do# Re Eolio Mi Fa# Sol La Si Do Re Locrio Mi Fa Sol La Si♭ Do Re Mayor Fa Sol La Si♭ Do Re MiDórico Fa Sol La♭ Si♭ Do Re Mi♭Frigio Fa Sol♭ La♭ Si♭ Do Re♭ Mi♭

Fa Lidio Fa Sol La Si Do Re MiMixolidio Fa Sol La Si♭ Do Re Mi♭Eolio Fa Sol La♭ Si♭ Do Re♭ Mi♭Locrio Fa Sol♭ La♭ Si♭ Do♭ Re♭ Mi♭Mayor Sol La Si Do Re Mi Fa#Dórico Sol La Si♭ Do Re Mi FaFrigio Sol La♭ Si♭ Do Re Mi♭ Fa

Sol Lidio Sol La Si Do# Re Mi Fa#Mixolidio Sol La Si Do Re Mi FaEolio Sol La Si♭ Do Re Mi♭ FaLocrio Sol La♭ Si♭ Do Re♭ Mi♭ FaMayor La Si Do# Re Mi Fa# Sol#Dórico La Si Do Re Mi Fa# SolFrigio La Si♭ Do Re Mi Fa Sol

La Lidio La Si Do# Re# Mi Fa# Sol#Mixolidio La Si Do# Re Mi Fa# SolEolio La Si Do Re Mi Fa SolLocrio La Si♭ Do Re Mi♭ Fa SolMayor Si Do# Re # Mi Fa# Sol# La#Dórico Si Do# Re Mi Fa# Sol# LaFrigio Si Do Re Mi Fa# Sol La

Si Lidio Si Do# Re# Mi# Fa# Sol# La#Mixolidio Si Do# Re# Mi Fa# Sol# LaEolio Si Do# Re Mi Fa# Sol LaLocrio Si Do Re Mi Fa Sol La

Función en Matlab para estimación modal

function [ chord,chord2,euclidean_dist,correlati_dist] = modal_estimation( f_CENS)

%Sergi Gomis Riera %Input :% f_CENS: Cens chromagram of any signal% f_CENS needs to be a vector 1x12 %Output:% chord: String corresponding to the modal estimation (euclidean distance)% chord2:String corresponding to the modal estimation (correlation)% euclidean_dist: Matrix with all probability estimations (euclidean dist.)% correlati_dist: Matrix with all probability estimations (correlation) % Profilesmixolydian= [11 0 3 0 6.5 5 0 8 0 4 6.5 0]';major= [11 0 2.5 0 7.5 4.8 0 9.5 0 7.5 0 4]';minor= [11 0 3 8 0 4 0 8 4.8 0 6 0]';dorian= [11 0 2.5 8 0 4 0 8 0 4.8 6.5 0]';phry= [8 2 0 5 3 4 0 5 2 0 2 0]';lydian= [8 0 2 0 4 0 4 6 0 1 0 1]';locrian= [8 4 0 6 0 3 6 0 3 0 3 0]';

%normalization [Weights within 0-1]mixolydian=mixolydian/norm(mixolydian);major=major/norm(major);minor=minor/norm(minor);phry=phry/norm(phry);lydian=lydian/norm(lydian);locrian=locrian/norm(locrian);dorian=dorian/norm(dorian); Major(12,12)=0;Minor(12,12)=0;Phry(12,12)=0;Dorian(12,12)=0;Lydian(12,12)=0;MixoLydian(12,12)=0;Locrian(12,12)=0;

68

disttance=zeros(7,12);correlations=zeros(7,12);for i=1:12 %major Major(:,i)=circshift(major,i-1); disttance(1,i)=norm(f_CENS-Major(:,i)); correlations(1,i)=corr(f_CENS,Major(:,i)); %minor Minor(:,i)=circshift(minor,i-1); disttance(2,i)=norm(f_CENS-Minor(:,i)); correlations(2,i)=corr(f_CENS,Minor(:,i)); %phrygian Phry(:,i)=circshift(phry,i-1); disttance(3,i)=norm(f_CENS-Phry(:,i)); correlations(3,i)=corr(A,Phry(:,i)); %dorian Dorian(:,i)=circshift(dorian,i-1); disttance(4,i)=norm(f_CENS-Dorian(:,i)); correlations(4,i)=corr(f_CENS,Dorian(:,i)); %lydian Lydian(:,i)=circshift(lydian,i-1); disttance(5,i)=abs(norm(f_CENS-Lydian(:,i))); correlations(5,i)=corr(A,Lydian(:,i)); %mixolydian MixoLydian(:,i)=circshift(mixolydian,i-1); disttance(6,i)=norm(f_CENS-MixoLydian(:,i)); correlations(6,i)=corr(f_CENS,MixoLydian(:,i)); %locrian Locrian(:,i)=circshift(locrian,i-1); disttance(7,i)=norm(f_CENS-Locrian(:,i)); correlations(7,i)=corr(A,Locrian(:,i)); end euclidean_dist=reshape(disttance.',1,[]);correlati_dist=reshape(correlations.',1,[]); [~ ,idx] = min(euclidean_dist);[~, idx2]=max(correlati_dist); %Create dictionary

69

words={'1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26','27','28','29','30','31','32','33','34','35','36'};words2={'37','38','39','40','41','42','43','44','45','46','47','48','49','50','51','52','53','54','55','56','57','58','59','60'};words3={'61','62','63','64','65','66','67','68','69','70','71','72','73','74','75','76','77','78','79','80','81','82','83','84'};all_words=[words,words2,words3];definitions={'C Major','C# Major','D Major','D# Major','E Major','F Major','F# Major','G Major','G# Major','A Major','A# Major','B Major','C Minor','C# Minor','D Minor','D# Minor','E Minor','F Minor','F# Minor','G Minor','G# Minor','A Minor','A# Minor','B Minor','C Phrygian','C# Phrygian','D Phrygian','D# Phrygian','E Phrygian','F Phrygian','F# Phrygian','G Phrygian','G# Phrygian','A Phrygian','A# Phrygian','B Phrygian'};definitions2={'C Dorian','C# Dorian','D Dorian', 'D# Dorian','E Dorian', 'F Dorian', 'F# Dorian', 'G Dorian', 'G# Dorian', 'A Dorian', 'A# Dorian', 'B Dorian','C Lydian','C# Lydian','D Lydian', 'D# Lydian','E Lydian', 'F Lydian', 'F# Lydian', 'G Lydian', 'G# Lydian', 'A Lydian', 'A# Lydian', 'B Lydian'};definitions3={'C MixoLydian','C# MixoLydian','D MixoLydian', 'D# MixoLydian','E MixoLydian', 'F MixoLydian', 'F# MixoLydian', 'G MixoLydian', 'G# MixoLydian', 'A MixoLydian', 'A# MixoLydian', 'B MixoLydian','C Locrian','C# Locrian','D Locrian', 'D# Locrian','E Locrian', 'F Locrian', 'F# Locrian', 'G Locrian', 'G# Locrian', 'A Locrian', 'A# Locrian', 'B Locrian'};modal_dictionary=[definitions,definitions2,definitions3]; %sum(sum(corrcoef(c,B))) %Translate value to escalemapObj = containers.Map(all_words,modal_dictionary);chord=mapObj(int2str(idx));chord2=mapObj(int2str(idx2));end

70