5 Audio Engineering Society

Audio Engineering SocietyPapel ConvencinPresentado en la Convencin 1292010 11 04 al 07San Francisco, CA, EE.UU.Los trabajos en este Convenio se han seleccionado sobre la base de una sntesis abstracta y ampliado presentadas que han sido compaerosrevisado por al menos dos revisores annimos calificados. Este documento convencin se ha reproducido de antelacin del autormanuscrito, sin edicin, correcciones, o la consideracin de la Junta de Revisin. La AES no asume ninguna responsabilidad por los contenidos.Trabajos adicionales se pueden obtener mediante el envo de la solicitud y de las remesas de Audio Engineering Society, 60 East 42ndStreet, NuevaYork, Nueva York 10165-2520, EE.UU.; vase tambin www.aes.org. Todos los derechos reservados. La reproduccin de este documento, o cualquier parte del mismo,no est permitido hacerlo sin el permiso directo de la Revista de la Sociedad de Ingeniera de Audio.SISTEMA DE PRODUCCIN MUSICAL AUTOMTICAEMPLEO DE SISTEMAS EXPERTOS probabilsticoRen Gang1, Gregory Bocko2, Justin Lundberg3, Dave Headlam4, Y Mark F. Bocko51Departamento de Ingeniera Elctrica y Computacin, Edmund A. Hajim Escuela de Ingeniera y AplicadasCiencias de la Universidad de [email protected] de Ingeniera Elctrica y Computacin, Edmund A. Hajim Escuela de Ingeniera y AplicadasCiencias de la Universidad de Rochestergregory.bocko @ rochester.edu3Departamento de Teora de la Msica, la Escuela de Msica Eastman de la Universidad de Rochesterjustin.lundburg @ rochester.edu4Departamento de Ingeniera Elctrica y Computacin, Edmund A. Hajim Escuela de Ingeniera y AplicadasCiencias, Univ. de Rochester; Departamento de Teora de la Msica, la Escuela de Msica Eastman, Univ. de [email protected] de Ingeniera Elctrica y Computacin, Edmund A. Hajim Escuela de Ingeniera y AplicadasCiencias, Univ. de Rochester; Departamento de Teora de la Msica, la Escuela de Msica Eastman, Univ. de [email protected] propone un sistema de produccin musical automtico basado en conocimientos de ingeniera de audio de expertos. Un sistema expertobasado en un modelo grfico probabilstico se emplea para integrar los conocimientos profesionales de ingeniera de audio e inferirdecisiones de produccin automticas basadas en informacin musical extrada de los archivos de audio. El patrn de produccin,que se representa como modelo grfico probabilstico, puede ser "aprendido" a partir de los datos de la operacin de un sistema de audio humanoingeniero o construidos de forma manual desde el conocimiento del dominio. Los autores tambin discuten la aplicacin en tiempo real deel sistema de produccin automtica propuesta por escenarios de aplicacin de mezcla en vivo. Alineacin evento musical yalgoritmos de prediccin se introducen para mejorar el rendimiento de la sincronizacin de tiempo de nuestro modelo de produccin.Los autores concluyen con evaluaciones de desempeo y un breve resumen.1.INTRODUCCINDurante la ltima dcada se han producido cambios dramticosen las formas en que podemos crear, distribuir y consumimosmedios de msica. Produccin musical, que sola ser unprofesin muy tcnica, se ha convertido en altamenteaccesible a travs de la tecnologa del consumidor-grado. Laasequibilidad de hardware de produccin de msica / softwarey mejora de la interfaz hace que sea posible paraal pblico a participar en los aspectos de la produccin musical,y crear contenido multimedia personalizado queenfoques de calidad profesional de produccin. Automticoproduccin musical tambin se ha convertido en una parte integral delos medios de consumo "crculo", ya que proporciona la flexibilidaden la distribucin de los medios de comunicacin y permite un alto grado deinteraccin con el pblico ms all de los medios pasivos. Enprofesinreas de aplicacin, automtico de la msicasistema de produccin puede reducir dramticamente la operacincosto de pequeos conjuntos de msica. Los sistemas automticos puedenTambin se integrarn en la produccin de audio profesionalflujo de trabajo para aliviar los ingenieros de audio de repeticinpuestos de trabajo.Proveer para la produccin automtica de audio quese aproxima al rendimiento de los ingenieros de audio humanos,Se han propuesto diversos sistemas [1-4]. Los sistemasen [1,2] son regla basada y se aplican bsica automticamezclando las decisiones de acuerdo a ciertas caractersticas de audio.Los sistemas en [3,4] tambin proporcionan mejorafunciones que se aplican las rutinas de procesamiento de seal agenerar efectos sonoros. La calidad de la produccin de estossistemas es aceptable en escenarios de aplicaciones sencillastales como monitor de mezcla [2]. Sin embargo, en comparacin conel desempeo de los ingenieros de audio humanos enescenarios de aplicaciones profesionales, la produccincalidad de estos sistemas automticos es a menudoinsatisfactoria. En nuestro sistema propuesto, se emplea unamodelo grfico probabilstico del aprendizaje automtico paranuestro sistema de produccin automtica de msica incorporado. Lasistema propuesto aprende los modelos de produccin de lamezclar los datos de operacin de los ingenieros de audio humanos yaplica automticamente este modelo para la nueva produccinescenarios. Al mejorar la modelizacin del expertola produccin de conocimiento y la utilizacin de la probabilsticaproceso de razonamiento, nuestra msica automtica propuestamodelo de produccin simula mejor el proceso de trabajode los ingenieros de audio humanos y logra adyacenterendimiento de la produccin en las tareas de produccin simplesen comparacin con los ingenieros de audio humanos.La parte fundamental de nuestra msica automtica propuestasistema de produccin comprende tres funciones principalesunidades. El patrn de produccin de mdulos de aprendizaje identificael patrn de la produccin musical de los patrones encontrados enarchivos de datos de mezcla y de produccin producidos porLos ingenieros de audio humanos. La produccin identificadopatrn, que representa la produccin musical expertoconocimiento, se incrusta en una probabilsticomodelo grfico. De la msica novela no producidomateriales, las caractersticas musical obtiene del mdulo de extraccincaractersticas de audio relacionados con el proceso de produccin musical.En base a las caractersticas musicales extradas y elmodelo probabilstico grfica obtenida a partir de la formacinde datos, el mdulo de decisin de produccin inferencia realizalos algoritmos de inferencia para generar la ptimalas decisiones de produccin. El modelo de produccin que'Descubierto' desvela las dependencias probabilsticasentre las caractersticas musicales y las instrucciones de produccin enla formacin alcanzar la base de datos. El conjunto de caractersticas musicalesHemos identificado a partir de la msica incluimos la partitura (o puntajedatos de la transcripcin) y los datos de la expresividad musicalcomo se ilustra en [5]. El conjunto de instrucciones de produccin bsicaen nuestro sistema incluye el control de volumen, panorama yecualizacin. El conjunto de instrucciones de produccin ampliadaincluye adems efectos, compresin y gating. Nuestrosistema propuesto se puede entender como un aprendizaje-y-marco generalizado. Nos enteramos de 'la dependenciaestructura entre funcin musical e ingeniero humanodecisin de produccin y aplicar el modelo "aprendido" anuevos datos. Utilizando su capacidad de modelado de altoconjuntos de datos tridimensionales de gran escala, el probabilsticomodelos grficos proporcionan una ms ampliarepresentacin del conocimiento experto en comparacin consistemas basados en reglas convencionales. La inferenciaalgoritmo generaliza an ms la produccin de 'aprendido'patrn de datos de msica 'invisibles'. Este algoritmo de inferenciase asemeja a proceso y razonamiento humano elel rendimiento es similar a la de un humano de audioingeniero.2.CARACTERSTICAS DE PRODUCCIN MUSICALLas caractersticas de produccin de msica incluyen caractersticas musicalese instrucciones de produccin. El conjunto de caractersticas de la msica es elcaractersticas hemos extrado de contenidos musicales. Sec. 2.1introduce el conjunto de caractersticas de la msica e introducirlo internacapas de entidades que incluyen funcin de nivel de cuenta, msicafuncin expresiva y caractersticas tcnicas de audio. Sec. 2.2detalla el conjunto de instrucciones de produccin musical, lo querepresentar las operaciones de mezcla y produccin en tpicalos flujos de trabajo de produccin.

Figura 1. Arquitectura del sistema. Las funciones de msicaincluyendo las caractersticas de nivel de puntuacin, las caractersticas expresivas de la msicay las caractersticas tcnicas de audio se extraen de audiopista de entrada. Basado en el resultado del anlisis caracterstica musicaly un modelo de produccin de msica, la msica automticaLos algoritmos de produccin infieren las decisiones de produccin yasignar estas instrucciones para pistas de audio.2.1. Funciones de msica2.1.1. Puntuacin Nivel CaractersticasCaractersticas de nivel Score incluyendo parmetros descriptivos deformatos de representacin relacionados partitura [5-7] (por ejemplo,formatos de software de notacin musical). Pelota afuerala informacin se puede obtener de cuenta de la msica oforma de audio transcritas [8]. La inclusin de la pelota afueracaractersticas permite a los productores de msica para utilizar yintegrar los materiales musicales en la partitura relacionadosformatos de representacin. A medida que el puntaje representa elParte "coherente" [5] de la msica, la puntuacin de las funciones relacionadas consuelen ser la parte ms slida de nuestra msica propuestaconjunto de caractersticas, especialmente para la msica profesionalactuaciones en las partituras musicales son con precisinseguido de una precisin asombrosa [5]. Para tiempo realimplementaciones como en Sec. 4, funcin de marcador puede serobtenido y pre-almacenada en el sistema de audio antes de lael desempeo real de informacin previa ymejorar la "instantaneidad" de un sistema de produccinEl conjunto de caractersticas pelota afuera de nuestro sistema propuesto esorganizada como una secuencia de eventos de puntuacin descriptores.Las cotas de la funcin de un descriptor de evento puntuacinincluir el terreno de juego, el tiempo, y la puntuacin de la etiqueta estructural de unnota musical.Puntuacin de tonoA medida que la informacin ms importante que la puntuacin, tono puntuacin esla frecuencia fsico esperado de una nota musical. Lavalor de tono puntuacin se exponencialmente relacionado con el MIDIvalor1120 como:2 440(1)Puntuacin TimingPuntuacin calendario incluye comienzo esperado y el tiempo de liberacin.El momento puntaje se puede basar en la msica valor de la mtrica otiempo fsico de acuerdo a la representacin diferenteformato. El momento simblico se traduce en fsicamomento por alinear los puntos de anclaje de archivo de audio para anotarevento y calcular el valor de la mtrica entre dos anclajepuntos. Aqu Los puntos de anclaje se refieren a la alineacin conocidapuntos entre la puntuacin y el audio. Significativopuntos de anclaje se pueden identificar mediante la deteccin dediscontinuidades dentro del rango de bsqueda de segmentacin enel archivo de audio.Marcas de expresin, las instrucciones verbalesLas marcas de expresin (por ejemplo, p, sf) y las instrucciones verbales(Por ejemplo, andante, espressivo) son anotaciones abreviadas dedirecciones de interpretacin musical importantes. A medida que el menosobservado (y ms flexibles) parte de la puntuacin de la msica, susignificado es sobre una base aproximada [6] y msinterpretaciones artsticas de los msicos de rendimientoa veces prevalecer. A pesar de estos no-deterministanaturaleza, estas notaciones son codificados en nuestra puntuacininformacin como la informacin previa de los materiales musicalespara la implementacin de sistemas de mezcla en tiempo real.Las ms importantes marcas de expresin con respecto a nuestrasistema de produccin automtica es las marcas dinmicas,nivel dinmico de suave pp al ff ms fuerte, yfp acento especial, sf [6]. Se aplican en tiempo realaplicaciones como el volumen previsto de una actuacinseguimiento cuando rendimiento de audio sincronizado no sondisponible.Puntuacin patrn estructuralParmetros de control de la estructura de puntuacin basada son msmusicalmente relevante, ya que los msicos tienden a tratar puntuacinestructuras como unidades cognitivas [12]. Una puntuacin estructuralevento incluye los eventos correspondiente puntuacin y su calendariorelaciones. Anlisis estructural Puntuacin basada se puede aplicarpara asignar una etiqueta a cada puntuacin evento estructuralindicar el papel musical acta en un paso ms grande. Paracontenido de la msica tonal unas etiquetas descriptivas se obtienen por la aplicacin del anlisis schenkeriano [13] o de la teora generativade la msica tonal (GTTM) [14,15] como el anlisis de los patrones deherramientas ..2.1.2. Msica rasgos expresivosRasgos expresivos musicales son extrados de la msicaactuaciones de audio como se ilustra en [5]. La expresivacaractersticas representan los detalles sutiles pero importantes quelos msicos de rendimiento agregado al sonido musicalms all de la partitura. Para obtener un rendimiento profesional de la msica,estos rasgos expresivos son consistentes: la msica mltipleel rendimiento de la misma pieza de msica son muy similares[5]. Tambin implementamos estas caractersticas para modelar elescuchar la experiencia de un productor de msica, ya que estosrasgos expresivos dan forma dramticamente la percepciny la comprensin cognitiva de los contenidos musicales. Nuestroconjunto de funciones expresiva incluye seis dimensiones decaractersticas fsicas: Desviacin tono, el volumen, el tiempo,timbre, ataque / release y vibrato. Algunos ejemplos de losrasgos expresivos thesemusical se ilustran en la figura2.Desviacin PasoPitch Performance describe las sutiles variaciones de tonolos msicos de rendimiento introducidas. El terreno de juegodesviacin en ciento [5] se puede calcular como:1200 log(2)Donderepresentar pitch rendimiento detectado utilizandolos algoritmos en [1] yrepresentar pitch puntuacin como enSec. 2.1.1. En la aplicacin prctica de la cancha puntuacin esuna versin calibrada, que absorbe la constantedesviaciones entre la frecuencia de la puntuacin y el audiofrecuencia.VolumenLa sonoridad se define como la intensidad de percepcin de sonido.El nivel de sonoridad de una seal de audiopuede sercalculado como:log(3)dondees la curva de correccin de tono basado en elresultado de la deteccin de tono.modelos, la diferencia derespuesta auditiva de la seal de tonos puros de diferentesfrecuencia como se detalla en [5]. Desde sonido musical no estonos sinusoidales puras, esta formulacin slo proporcionan unaaproximacin gruesa. Modelaje ms detallado basado enmsica distribuciones parciales sonoras se introducen en [5]SincronizacinTemporizacin describe la compresin o estiramiento de unlnea de tiempo del desempeo; Este es un elemento esencial quedistingue actuacin en directo y automatizado. En vivorendimiento, la funcin de tiempo se detecta comodesvos con respecto al ritmo exacto ymetros de la partitura. Caractersticas brutas de tiempo pueden serextrada del algoritmo de anlisis de tempo suavizado[5]. Caractersticas ms detalladas de temporizacin se pueden obtener porel clculo de la compresin o extensin de tiempoinformacin obtenida duracin de la partitura / audioalgoritmo de alineamiento como en [6]. El factor de distribucin (TMF)da la desviacin del intervalo de tiempo medidoentre un inicio dado y el siguiente inicio predicho encomparacin con el intervalo predicho. El alisadofactor de temporizacin (STF) es una mtrica similares extrado deel anlisis de tempo alisada. Tambin comparamos lainicio actual con la puntuacin para calcular demora inicio(OSD), que es la falta de alineacin acumulado entrela partitura y el audio.TimbreCaractersticas Timbre pueden ser extrados por espectrogrficoanlisis del patrn de distribucin de la energa del sonido enel tiempo y el dominio de la frecuencia. El espectrograma esse define como |, |, Donde,es la STFTcalculada en (2). El Vector Armnico Bruto (GHV)calcula el valor promedio de tiempo de |, | En la primeraseis posiciones parciales armnicos como la distribucin de energapatrn entre parciales armnicos. Tambin nos normalizamos|, | Para producir un tiempo-frecuencia 6 12matriz de distribucin que refleja el tiempo de 12 puntospatrn de variacin de los seis primeros parciales armnicos. Laposicin parcial de armnicos se detecta usando elalgoritmo de la transcripcin en [5].Ataque / LiberacinLa fuerza de ataque se calcula como el contenido de energadel segmento de seal despus de un inicio de nota de msica. En generaldebe ser normalizado usando la energa mediacontenidos en la duracin completa de notas. Funcin de estreno escalculado como contenido de energa del segmento de sealpoco precede el desplazamiento de una nota musical.VibratoModelos de vibrato de la conformacin de la amplitud y la frecuencia deuna nota musical. La funcin de vibrato es extrado por primeraseparan los parciales fundamentales forman un msicoestructura armnica. A continuacin, los parmetros de vibratoincluyendo la frecuencia de modulacin y la profundidad puede serse extrajo usando el algoritmo de deteccin en [5] o laalgoritmos de anlisis tiempo-frecuencia en [12].(A)(B)(C)(D)Figura 2. Ejemplos de funciones de msica Extradode Score y pistas de audio. (a) es el audioforma de onda. (B) es el terreno de juego el rendimiento. (C) es elcurva de sonoridad auditiva rendimiento. (D) es el ejemplode un papel puntaje GTTM.2.1.3. Caractersticas tcnicas de audioEl contenido de audio obtenida a partir de diferentes fuentes puedensonar incompatibles: grabaciones de poca suelen tenerruido de la grabacin y reproduccin observable ruido meditico,y algunos pueden tener componentes de frecuencia desequilibrados.Las pistas de msica grabadas en lugares de interpretacin en directopuede contener ruido significativo de la audiencia. En generalpistas de grabacin del estudio tienen importantes deficiencias debidasa horas de estudio limitados, o la acstica de la 'sala'.Estas imperfecciones se pueden mitigar mediante audioLos algoritmos de restauracin durante una produccin musicalsesin. Tcnicas de mezcla y los efectos tambin pueden "cubrir"deficiencias en pistas de produccin. El audio importantecaractersticas tcnicas incluyen el nivel de ruido / interferencia,variacin dinmica temporal, perfil de la frecuenciadistorsiones, imperfecciones de grabacin, y el rendimientodefectos.El ruido y la interferencia NivelLa relacin seal-ruido de material de produccin semedido utilizando el algoritmo en [17] o clasificar manualmente.Temporal Dinmica de variacinLa curva de variacin de la dinmica se calcula como unversin suavizada de la curva de variacin de la energa de la msicaseal.Las imperfecciones de grabacinImperfecciones de grabacin incluyen la grabacin abruptadegradacin de la calidad, las interferencias ocasionales ointerrupcin, recortado de forma de onda debido a la sobrecarga de audio enel proceso de grabacin, que se puede encontrar en histricograbacin de archivos.Defectos RendimientoFallas de rendimiento son tratados como caracterstica tcnica de audioporque los ingenieros de grabacin estn esperando para mitigarsu efecto en la mezcla final utilizando el procesamiento tcnicoprocedimientos. Fallas de desempeo pueden ser causados por la limitadahoras de estudio o de la carencia de intrpretes.2.2. Mezclar y Produccin InstruccionesLas instrucciones de produccin representan el proceso de operacinde los ingenieros de sonido de un proceso de mezcla / produccin. Laproduccininstrucciones incluyen las operacionesrealizado en cada pista de audio. En nuestra propuesta sistema de mezcla automtica caracterstica de la produccin musicales escasa ya que las instrucciones de produccin generados poringeniero de sonido humano puede ser modelado como una Varying lentaproceso. Esta caracterstica garantiza la msica posterioraprendizaje del modelo de produccin y la inferencia / decisinalgoritmos a implementar de manera efectiva, como se ilustraen la Seccin. 3. La instruccin bsica de produccin establecido en nuestrasistema incluye control de volumen, panorama yecualizacin. El conjunto de instrucciones de produccin ampliadaincluye adems efectos, compresin y gating.Control de volumenEl control de volumen es la msica ms elementalinstrucciones de produccin. Como la principal herramienta para gruesaajuste de audio de nivel [17], el funcionamiento bsico esaumentar el volumen a darse cuenta de-ms percibida ms fuerte-unpatrn, para cambiar al papel de una pista de audio desdeperceptible para significativa. Fader como la ms activainterfaz controlada en un proceso de produccin de la msica tambinayudar a formar patrones artsticos que transmite la msicaintensin. Para cada pista de msica, control de volumen de audio esmodelado como una secuencia de datos temporal sincronizada conel audio. Para el propsito de modelo de simplificacin, lainstruccin de control de volumen se asigna a cada msicanotas. En nuestro sistema propuesto, slo el nivel de volumen esconsiderado para tres segmentos de igual particiones dentro decada nota musical.Toma panormicaOperacin Toma panormica a crear un sentido de la anchura aural porlocalizar una pista en el campo de sonido de percepcin. Por paneopistas de audio a diferentes altavoces, la msica puede serresumi acsticamente, en lugar de sumarse a la internasistema de produccin. Como resultado acstico creamos uncampo aural que puede acomodar a ms contenido de sonidoy aumentar el umbral de enmascaramiento auditivo. Toma panormicainstrucciones tambin pueden sirve funciones artsticas. Por ejemplopor lo general una panormica de dos pistas de contraste o en conflicto conubicaciones complementarias, para mejorar el significadonivel de ambos pista.Una localizacin de efecto panormico se registra para cada nota de la msica como unsimplificacin. En nuestro sistema propuesto una panormicavalor de ubicacin tomar valor discreto de reloj sartn del 7 al17, que 12 representan la posicin central [17,18].De acuerdo con las leyes de paneo la sonoridad de la msica de Willcambiar cuando la olla entonces la cacerola est pasando de la extremaposiciones (extremo izquierdo: 7, o hacia la derecha dura: 17) en el centroposicin (12). En nuestro modelo simplificado asumimos lapaneo no causar esta sonoridad disociar lainstrucciones de produccin musical de control de volumen ypaneo. Ingenieros de sonido experimentados suelen utilizarpaneo para colocar pistas de sonido a la imagen del sonido objetivoubicacin en un canal estreo. Por lo general, la panormica tambin sirvecomo una herramienta de agrupacin pista de audio: pistas relacionadas sonagrupados de acuerdo a sus ubicaciones de panorama.IgualdadLa ecualizacin se implementa para manipular elcontenido de frecuencia de cada pistas de produccin. Generalmentela funcin ms fundamental la igualdadprocesamiento implementar es proporcionar un equilibradoespectro en el panorama general [186]. Presentacin Tonalde control, que manipulan la distribucin de frecuencias decada pista de audio, se puede colocar de manera creativa las diferentes pistas enun espacio de tiempo-frecuencia para realizar sus papeles musicales.Manipulaciones ecualizacin tambin puede dar forma a lael estado de nimo emocional de pistas de msica. Para ejemplos, algunosla gente cree que atenan la parte de baja frecuencia devoz humana proporcionar una expresin ms juvenil.La ecualizacin tambin sirve como accesorio estreo porintroducir la diferencia de contenido de frecuencia en dos estreocanales. En nuestra ecualizacin del sistema propuesto esrealizado en base a segmentos nota. En nuestra propuestasistema de una seleccin limitada de ecualizacin tpicaplantillas [17] se seleccionan sobre la base de cierta msicaestilo de actuacin. Estas plantillas de ecualizacin ysus roles tpicos se detallan en [17].Extended Instrucciones ProduccinEfectos se asignan a cada pista de audio en general, acumplir con el propsito. En primer lugar, un procesador de efectos pozo asignadohace que los roles de una pista de audio artsticamente. Paraejemplo, la aplicacin de retardo y reverberacin puede hacerciertas emociones musicales, aadir espacio auditivo, profundidad ydistancia perceptual [18]. La segunda funcin es la de ocultar lafallas en las pistas de audio. Por ejemplo, la aplicacin de laefectos de coro produce un efecto de desenfoque aural y marcaslos detalles de bajo nivel menos audible.Los mtodos de procesamiento de rango dinmico incluyendocompresin y gating se disearon originalmente para mantenerforma de grabacin de msica sobrecarga y para impulsar ladinmica general de una mezcla final, para mantener la dinmicanivel 'caliente' y sigue siendo la "presencia". En los ltimos aos,ingenieros de grabacin empieza a abandonar estos ultra-enfoques de compresin y perseguir ms artsticodimensiones en el espacio de la gama dinmica. Compresin tambin altera los niveles de la dinmica temporal y hace que elcontrol de volumen ms fcil de manipular.3.PRODUCCIN MUSICAL MODELAJELas funciones que utilizan PROBABILSTICOModelos grficosUtilizando el modelo grfico probabilstico, se explora ladependencias entre las caractersticas de la msica y de la produccininstrucciones introducidas en Sec. 2 para establecer unamodelo de produccin de la msica computacional.Entonces estemodelo se aplica a los sistemas de produccin de msica automticopara imitar el proceso de produccin de msica operado por unaingeniero de sonido humano, donde las instrucciones de produccin esobtenido como un proceso de razonamiento humano, sobre la base de su / ellacomprensin de los contenidos de msica y de fondoconocimiento. En Sec. 3.1 ofrecemos una breve introduccinde aprendizaje probabilstico modelo grfico y el razonamiento.En Sec. 3.2 se introduce el procedimiento de la mano-la construccin del modelo de produccin musical de humanoexperiencia. En Sec. 3.3 introducimos el marco deaprender el modelo de produccin de humana registradadatos de operacin. En Sec. 3.4 introducimos el marcoaplicar el modelo de produccin musical en automticosistemas de produccin.3.1. Modelos grficos probabilsticosUn modelo grfico probabilstico tpica (PGM)compilado para un contexto de produccin automtica de la msica esse ilustra en la Figura 3 (a). Sus elementos bsicos sonvrtices, aristas y probabilidades condicionales. Cadavrtice representa una variable aleatoria. Los bordes de la grficamodelo de indicar las relaciones probabilsticos directos, lo que puedeen general, debe ser interpretado y procesado como la causalidadlas relaciones [19-21]. Las probabilidades condicionales adicionalesmodelar las dependencias probabilsticas de variables vinculadasproporcionando descripciones paramtricas detalladas.El modelo de PGM en la Figura 3 (b) se puede interpretar como lacorrelacin entre la puntuacin de la etiqueta estructural, suavizadacurva dinmica y control de equilibrio. Es afirmar que si la puntuacinetiqueta estructural indica que el acontecimiento de la msica actual escerca de un GTTM notas de alto nivel, y luego curva dinmicava en aumento, la ganancia del control de desvanecimiento debe aumentar. Siel evento musical actual est an muy lejos de GTTMnota alta nivel, y la curva dinmica va en aumento, laganancia de atenuador est disminuyendo. Las probabilidades condicionalesmodelar la naturaleza aleatoria de los datos de produccin, yindicar la confianza de llevar a cabo este tipo de produccinoperaciones como resultado de razonamiento automtico. El PGM en(B) proporcionar una topologa ms compleja.(A)(B)Figura 3: Modelo basado Probabilstico grficaModelos de produccin musical. Estos modelos describen larelacin entre las variables de caractersticas de la msica y lalas variables de instrucciones de produccin. El PGM en (a) el estadoque si la etiqueta estructural puntaje indica que la corrienteevento musical es cerca de un GTTM notas de alto nivel, y luegocurva dinmica va en aumento, la ganancia de la decoloracin de controldebera aumentar. Si el evento de msica actual est todava lejoslejos de GTTM nota de alto nivel, y la dinmicacurva es ascendente, la ganancia de atenuador est disminuyendo. Laprobabilidades condicionales modelar la naturaleza aleatoria en ellos datos de produccin, e indicar la confianza de llevar aa cabo tales operaciones de produccin como el razonamiento automticoresultado. El PGM en (b) proporcionar una ms complejatopologa, donde la dependencia de las caractersticas musicales ydecisiones de produccin en lugares temporales adyacentes sontambin considerado.Una PGM jerrquico se ilustra en la Figura 4 para el modelolas variedades de las relaciones probabilsticas entre la msicacaractersticas de produccin. Las PGMs en la primera capa puede serentendida como fragmento de la sintaxis del lenguaje de los expertosconocimiento. La segunda capa PGMs modelos del lossintaxis y variaciones del patrn de evolucin de la primeraPGMs capas. En este ejemplo ilustrativo, la primera segundacapa PGM G1 indica que si el modelo PGM L1 en la capa1 se aplica, no habra muy probable que PGMmodelo L2 seguira. Entonces G2 indican una diferenteevolucin temporal. Las mltiples capas de PGM puede seraplicado a otros modelos de los patrones de variacin de laPGMs capa segundos, pero el modelo de dos capas aqu bastanuestro sistema de produccin automtica Basado Figura 4. Produccin Musical Modelo sobreJerrquica Probabilstico grfica Modelo. Elmodelo latente locales se aprenden y se aplica similar a laMGP en la Figura 2. La dependencia temporal y elevolucin de la estructura de PGM se modelan adicionalmente usando uncapa superior del modelo grfico como modelos latentes globales.3.2. Compilado de Produccin Musical ModeloConocimiento ExpertoRelacin descriptiva de los procedimientos de produccin musical[22-24] se puede formalizar y suscit como expertoconocimiento y cumplimiento en un modelo de PGM mediante elprocedimiento de ingeniera del conocimiento detallado en [5]. LaProcedimiento de compilacin red bayesiana se detalla en[24]. Este procedimiento se denomina ingeniera del conocimientocon redes bayesianas (KEBN). Para un Bayesianomodelado de tareas, la construccin de modelos KEBN incluye elelicitacin de la estructura grfica BN y condicionalprobabilidades.La mayor parte de las variables y los bordes de una BN se identificande relaciones de causalidad en la descripcin de su expertoestrategias de toma de decisiones. Aunque las relaciones ocasionalesno son necesarios para aadir un borde BN, las topologasbasado encausalrelaciones maximizar larepresentacin de independencias condicionales y conducen aun modelo compacto, ms inteligente [26]. El conocimientoconsultas de ingeniera introducidas en [27] pueden identificar uncomplejo patrn de dependencia e independenciarelaciones para la construccin de una estructura bsica BN.Consultas de causalidad son ms eficaces en nuestra automticamodelo de produccin musical provocacin ya que la mayoraparte del conocimiento experto descriptiva se basa en causaldeclaraciones, cuenta como determinista o vaga de larelaciones de conexiones variables [26]. Otrorelaciones incluyen las relaciones de asociacin yrelaciones temporales tambin se pueden aplicar a esteproceso de construccin estructural. El condicionalprobabilidad de modelo de BN se asigna sobre la base de laconocimiento experto subjetiva ya que su nivel de confianza delciertos enlaces. Como el nmero de probabilidad condicionales exponencial con el nmero de variables [22], nosimplementar un escaso estructura mediante la incorporacin msEnlaces deterministas para reducir la escala de latareas de inferencia probabilstica en seg. 5.3.3. Produccin Musical Aprendiendo de Modeloconjunto de datosEl conjunto de datos de produccin musical puede ser recogido en elproceso de produccin manual, mediante la captura y grabacinlas instrucciones de produccin de audio profesionalingenieros. Las instrucciones de produccin tambin pueden estarestimada a partir de las grabaciones mezcladas utilizando la sealalgoritmos de procesamiento. Sobre la base de la produccin de msicadatos recopilados nuestro sistema propuesto puede automaticamenteaprender un modelo de produccin de msica mediante el aprendizaje PGMparadigmas introducidos en [22-24]. Utilizando el enfoque en[22] individuo PGM puede ser compilado a partir de mltiplesejemplificaciones de sus variables de caractersticas de bsqueda dePGM que mejor se ajusta a los datos de manera probabilstica. Nos primeraimplementar un algoritmo de muestreo plantilla que transformarla msica conjunto de datos de produccin en funcin de mltiplesejemplificaciones variables. Una plantilla tpica para un unosecuencia de produccin se destacan dimensin puede serrepresentado como:, ...,(4)Los puntos de la plantilla,, ...,en esteimplementacin simple se encuentra de manera uniforme durante el muestreopuntos alrededor ubicacin de la plantilla. La plantillavariables en (1) modelos de las dependencias temporales delongitud1. La plantilla implementamos sonmontado en el conjunto de datos de produccin musical en un no-de manera solapada como se ilustra en la Figura 4. Lamuestras de plantillas estn organizadas como:, ...,(5)Donderepresentar la matriz de datos en la plantilla de muestreo como:,, ...,,(6)Nuestra produccin musical multidimensional propuestoconjunto de caractersticas se representa como:1,11,1,, 1,,, 1...,,(7)donde cada fila representa la variacin temporal de uncaracterstica individual. Un elemento,indicar caractersticaapuntar a la ubicacin temporal y dimensin. Un binariomscara de plantilla puede ser implementado como:,1,, 1,(8)El PGMse aprende depor la bsqueda de unajuste de mxima probabilidad como:augmax|(9)donde|se evala utilizando el enfoque como en[22]. Regularizacin de complejidad PGM se aplica aevitar el exceso de ajuste: un PGM excesivamente compleja que se ajustan alcapacitacin de los datos a la perfeccin, pero exhiben pobre generalizacincapacidad. La regularizacin se basa en penalizar a losestructura grfica excesivamente complejo.Un marco ms completa tambin se puede implementarcomo en [26] que se aplica la longitud mnima Descripcin(MDL) criterio de regularizar modelo grficocomplejidad.Para reducir el coste de computacin de aprendizaje modelo en (4),se aplican algoritmos aproximados como en [26]. Estosalgoritmo proporciona un sub-ptima que acercarse a laestructura de. La utilizacin de la robustez del PGM basadoparadigma de la inferencia, el modelo de aplicacin basado enproporcionar un rendimiento comparable a los sistemas basados eninferencia exacta [27]. En nuestra implementacin aplicamoslimitar de bsqueda basado en la capa-1 PGM, y aplicar unaBsqueda DAG limitada capa-2 PGM.Para modelar el carcter no estacionario de la produccin musicalcaractersticas en diferentes regiones temporales. Mltiples PGMsse implementan y se asigna a las regiones debase de datos de funcin de la produccin musical. Para obtener mltiplesMGP a partir de muestras de la plantilla de nuestro sistema de primera admiten ungama de PGMs seleccionados sobre la base de las mejores puntuaciones amuestras de la plantilla como en (5)::|(10)Los mltiples modelos grficos se representan como lacandidato PGM establece:, ...,(11)Para la estructura del modelo como se ilustra en la Figura 2. Lacandidato modelo grfico se puede asignar a los datoszonas de soporte haciendo coincidir cada muestra de plantilla paralas PGMs en conjunto . Elegimos un modelo grfico para unmuestra de plantilla como:augmax|(12)El dataset de entidades de produccin musical puede ser an ms divididaen tramas temporales como un elemento de ajuste. Cada cuadrocontenidos mltiples muestras de plantilla internos como:,, ...,,(13)El PGM latente se elige como:augmax|(14)El uso de una estructura de bastidor que mejor puede preservar elcontinuidad temporal de los PGM latentes, cambios abruptos comoson rechazadas como modelos atpicos. La capa-2 PGM puede seraprendido usando un enfoque similar a la capa-1 MGP. CadaTipo de PGM en la capa 1 PGM se trata como una etiqueta de funcin,mientras que la capa-2 PGMs se implementan para modelar elvariaciones temporales de capa-1 etiquetas PGM.La extraccin de modelo de produccin de msica de resolucin conjunto de datosel cuello de botella para la construccin de un sistema experto: eldificultades en encontrar el experto de dominio, dominio expresivoconocimiento formal e implementar estos dominiosconocimiento computacional. Como un procedimiento automticoeste proceso tambin nos permite aplicar una escala mayormodelo de datos en comparacin con el procedimiento manualintroducido en la seccin. 3.2 4.LA APLICACIN AUTOMTICASistemas productivos basados enPRODUCCIN MUSICAL PROBABILSTICOMODELOLas decisiones de produccin de msica se genera como una variableresultados de inferencia a partir del modelo de produccin musicalobtenido en Sec. 3 con una parte de las variables instanciadaspor caractersticas musicales extrados de las pistas de un-mixtos. Nuestropropuesto sistema de produccin automtica est diseado como unsistema de inferencia probabilstica. El empleo de una inferenciamarco como en [22-27], una tarea de inferencia en un bayesianored es calcular una probabilidad posterior|,dondees un conjunto de las variables desconocidas (nodos de consulta),yrepresentan conocer las variables o instanciaslas variables (nodos evidencia). En nuestra produccin automticaaplicacinrepresentar las caractersticas de la msica depistas sin mezclar, yrepresentar a la produccin musicalinstrucciones. Este proceso de clculo se llama creenciaactualizacin [24], ya que las probabilidades subjetivas de consultanodos se actualizan basndose en el valor de los nodos en la evidencia.Una lista de los disponibles algoritmo de inferencia BN esresumen en [25]. En nuestro sistema se implementa unalgoritmo de inferencia aproximada como en [26].Las decisiones de produccin se generan a partir de laposterior probabilidades por la eleccin de la variable quemaximiza la probabilidad posterior. Un ejemplo detales red decisin se ilustra en la Figura 5. Basadaen la parte posterior probabilidades inferidas de bayesianaredes calculamos un valor de utilidad [25] para apoyarla toma de decisiones. En concreto se ha valorado la msicainstrucciones de produccin en estudio, en el que elde servicios pblicos y las preferencias resultados proporcionan una red de decisin[25]. Una utilidad esperada se calcula como:||,|(15)aques la evidencia disponible, en nuestro sistema,representar las caractersticas de la msica. representa la accin, aqurepresentar las instrucciones de produccin. es el resultado del BN correspondiente cuandoysoncombinado.| Representa la utilidad de la obtenidaresultado XX, cuando se toman medidas A. El PGM automticamodelos de la mezcla, nos permiten tomar decisiones deinstrucciones de produccin por la eleccin de la accin preferentecomo la accin que obtiene la mxima esperadautilidad como se ilustra en [25]. La informacin previa puedeser incrustado en| Para incorporar ms dominioconocimiento y los parmetros del sistema la configuracin.Figura 5. Instrucciones Infer ptima de produccinUsando Bayesiano Decisin de red. La ptimadecisin de produccin se basa en la maximizacin de lautilidad esperada. La asignacin de valor de utilidad se basasobre las decisiones de produccin preferidos y el peso dediferentes tipos de errores. En este sencillo ejemplo, laincremento del nivel de fader est restringido mediante la asignacin de alto costoen false accin incremento de nivel de fader.5.IMPLEMENTACIONES TIEMPO REALUn problema importante de los sistemas automticos aplica en vivola produccin es la falta de simultaneidad. En estos tiempo realescenarios de aplicacin, la decisin de produccin de sistemaen [7-9] se basan en los resultados del anlisis de entrantelas seales de audio y causar un retraso importante produccin,lo que significa que la decisin de produccin sigue la msicaeventos a los que se supone que las decisiones de produccina aplicar. Por tiempo instrucciones cruciales mezclar estosretrasos en la produccin provocan un efecto sonoro 'descuidado' ycomprometer el rendimiento del sistema. Mezcla Humanoingenieros poseen capacidades sorprendentes para coordinarlas acciones de mezcla con todo el "equipo de msica". Msinstrucciones de produccin de audio emitidas por humanaLos ingenieros estn sincronizadas exactamente con los eventos de msica opreceder a los eventos musicales reales. Para simular elcapacidades "predictivos" de los ingenieros humanos, musicalalgoritmos de alineacin de eventos y de prediccin sonimplementado. Algoritmo de eventos musicales de alineacin[5,10] estiman los acontecimientos "futuro" de la msica en funcin de laalineacin de la seal de audio en vivo con actuaciones musicales enun archivo de msica similar. Msica anlisis terico puedetambin predecir el "futuro" de la msica en directo en funcin de su"Historia" y los modelos tericos de la msica. La automticadecisiones de produccin sobre la base de esta msica predichoeventos se pueden aplicar antes de la aparicin de eventos musicalesen los escenarios de actuacin en vivo para mejorar el tiempola sincronizacin de los sistemas de produccin automtica. 6.RESUMENUn sistema de produccin automtica de la msica se implementabasado en un modelo de produccin musical construido conmodelos grficos probabilsticos. La produccin musicalmodelos pueden cumplirse forma dominio descriptivoconocimiento o aprendido de datos. El uso de un Bayesianoproduccin ptima enfoque de red decisininstrucciones se pueden inferir de caractersticas de la msica de un-pistas de msica mezclada. Mediante la implementacin de contenido de audioalgoritmos de alineacin, nuestro sistema propuesto puede seraplicado a los escenarios de aplicacin en tiempo real aproporcionar instrucciones de produccin con la prediccin musicalcapacidades.Los modelos grficos probabilsticos que implementamosproporcionar una mejora significativa del rendimiento sobreotras herramientas de modelado de datos [28]. Las mejoras de rendimientose pueden resumir en dos aspectos: primero, PGMproporciona una manera natural de representar y aplicarel conocimiento humano y pueden construirse a partirconocimiento experto descriptivo o aprendido de datos;en segundo lugar, la inferencia y la toma algoritmo PGM essimilar al proceso de razonamiento humano y puede proporcionarresultados de inferencia plausibles similares a procesamiento humanaresultados.7.REFERENCIAS[1] EP Gonzlez y J. Reiss. Automtico de ganancia ycontrol de equilibrio para una mezcla en vivo. IEEE Taller sobreAplicaciones de Procesado de Seal de Audio yAcstica (WASPAA), 18-21 de octubre de 2009.[2] MJ Terrell y J. Reiss. Monitor automticode mezcla para la interpretacin musical en vivo. Revista de laAudio Engineering Society, 57 (11) :927-936,Noviembre de 2009.[3] EP Gonzlez y J. Reiss. Igualacin automticade audio multi-canal mediante cross-adaptativamtodos. Convenio 127 de Ingeniera de AudioSociedad, 9-12 de octubre de 2009.[4] EP Gonzlez y J. Reiss. Un semi-tiempo realsistema panormico de audio autnoma para la msicamezclar. Diario Avances en Procesamiento de Seales,Nmero especial sobre Digital Audio Effects, Enero 2010.[5] G. Ren, J. Lundberg, MF Bocko y D.Headlam, La forma del sonido musical: en tiempo realvisualizacin de la expresividad musical enrendimiento, Actas de la 159 Reunin dela Sociedad Acstica de Amrica, abril de 2010.[6] H. Lampl, Turning Notas en Msica: unaIntroduccin a la Interpretacin Musical , TheScarecrow Press, Lanham, MD, 1996.[7] E. Selfridge-Field, Ms all de MIDI: El manualCdigos de Msica, The MIT Press, 1997[8] JP Bello, L. Daudet, S. Abdallah, C. Duxbury, M.Davies, y MB Sandler, "Un tutorial sobre OnsetDeteccin de seales de msica, " IEEE Trans. enProcesamiento de audio y voz y , vol. 13, pp 1035 -1047, septiembre de 2005.[9] G. Ren, MF Bocko, D. Headlam, y J. Lundberg,"Polyphonic Music Transcripcin Empleando Max-margen Clasificacin de espectrogrfico Caractersticas "IEEE sobre las aplicaciones de la sealProcesamiento de Audio y Acstica , New Paltz, Nueva York,18 hasta 21 octubre 2009.[10] M. Mller, Recuperacin de Informacin para la Msica yMovimiento , Springer, Nueva York, NY, 2007.[11] A. Klapuri y M. Davy, Procesamiento de SealesLos mtodos para la transcripcin de msica , Springer, NuevaYork, Nueva York, 2006[12] WN Rothstein, Frase ritmo en la msica tonal ,Springer, Nueva York, NY, 2007.[13] A. Cadwallader, D. Gagne, Anlisis de TonalMsica: Una schenkerianoApproach , OxfordUniversity Press, Nueva York, NY, 2006.[14] D. Temperley, Msica y Probabilidad , The MITPress, Boston, MA, 2007.[15] AD Patel, Msica, Idiomas, y el cerebro ,Oxford University Press, Nueva York, NY, 2007.[16] Godsill SJ, PJW Rayner, Audio DigitalRestauracin, Springer, 1998.[17] R. Izhaki: Mezcla de audio: Conceptos, Prcticas yHerramientas, Focal Press, 2008.[18] B. Owsinski, El Manual del ingeniero de mezcla, 2nded., Thomson, 2006

5 Audio Engineering Society

Documents

Transcript of 5 Audio Engineering Society