Descriptores de audio del MPEG-7

Descriptores de audio del MPEG-7

Descriptores de audio del MPEG-7

El MPEG-7 es un estándar que permite la indexación audiovisual. Dentro del estándar hay una parte dedicada al tratamiento de la información de audio, permitiendo conocer las características de la señal gracias a los descriptores. En este artículo nos centraremos en los descriptores de audio del MPEG-7, que nos darán información sobre como es la señal. Como en los descriptores visuales, los descriptores de audio podemos dividirlos en dos grandes grupos: descriptores de bajo nivel y alto nivel (herramientas específicas).


Contenido

Descriptores de bajo nivel

El objetivo de estos descriptores es proporcionar la información básica de la señal para poder definir herramientas específicas de nivel superior. El método de adquisición de dicha información puede ser la extracción de las características de una serie de intervalos regulares o de segmentos arbitrarios. En general podremos dividir los descriptores de bajo nivel en los siguientes grupos:

Básicos

Estos ofrecen un valor mínimo y máximo de la amplitud de la señal de audio en el periodo de muestreo, que nos permite la visualización de la onda de sonido (descriptor AudioWaveformType), o bien definen la potencia de las muestras de la señal de audio (descriptor AudioPowerType).

Espectrales básicos

Describen el contenido espectral de la señal y reflejan la respuesta del oído humano (aproximadamente logarítmica). Dicho espectro es caracterizado por el descriptor AudioSpectrumEnvelopeType y calculado a partir de la FFT. Como complemento al AudioSpectrumEnvelopeType existen otros descriptores que nos proporcionan otras características: AudioSpectrumCentroidType, indica si el espectro esta dominado por altas o bajas frecuencias. AudioSpectrumSpreadType, indica la forma de la energía del espectro y donde se concentra. AudioSpectrumFlatnessType, indica lo plano que es el espectro para cada banda de frecuencia.

Parámetros de señal

El cálculo de estos parámetros se sujeta a la estimación y pueden describir el detalle del espectro en términos de estructura armónica. Uno de los parámetros que podemos calcular es la frecuencia fundamental, para la cual no hay ninguna normal que marque el mecanismo de cálculo del descriptor AudioFundamentalFrequencyType. Otro descriptor es el AudioHarmonicityType. Nos va a dar medidas armónicas de la naturaleza de la señal del espectro gracias a dos medidas: HarmonicRatio (medida de la proporción de componentes armónicos de energía en el espectro) y UpperLimitOfHarmonicity (punto del espectro a partir del cual no tenemos armónicos).

Timbre temporal

Se utilizan para el cálculo, únicamente dentro de un segmento de audio, de los parámetros de la envolvente de la señal. Los descriptores son: LogAttackTimeType y TemporalCentroid.

Timbre espectral

Se pueden utilizar para dar más caracterización a la señal. Se complementan con los descriptores básicos y amplían las posibilidades ofrecidas por los descriptores de parámetro de señal.

Representaciones del espectro base

Ofrece herramientas para proyectar una señal de audio del espectro en una baja representación tridimensional.

Segmento silencio

Herramienta sencilla que nos indica si hay silencio en un segmento de audio.


Descriptores de alto nivel

El objetivo de estos descriptores es proporcionar información más avanzada sobre la señal, teniendo en cuenta las características básicas de dicha señal. En la actualidad se esta investigando sobre estos descriptores de alto nivel ya que no están acabados de desarrollar.

Herramientas de reconocimiento general de sonido e indexación

Las herramientas de reconocimiento general del sonido sirven para indexar y clasificar los efectos sonoros y los sonidos en general.

Herramientas de descripción del contenido hablado

La descripción del contenido parte de la imperfección de los actuales sistemas de reconocimiento de voz y consiste en la combinación de palabras y enrejados telefónicos.

Herramientas de descripción del tono de un instrumento musical

Describe las características de percepción de un instrumento de sonido. Estos descriptores se refieren a conceptos como ataque, brillo o riqueza de un sonido.

Herramientas de descripción de la melodía

Incluye una amplia representación de la información melódica monofónica para facilitar la eficiencia, robustez y similitud.

Enlaces de Interés

Véase también


Wikimedia foundation. 2010.

Игры ⚽ Нужно сделать НИР?

Mira otros diccionarios:

  • Descriptores de timbre de audio del MPEG-7 — Saltar a navegación, búsqueda El estándar MPEG 7 define varios tipos de descriptores para los metadatos (etiquetas) de las señales que contienen. Como se ha podido ver en otros artículos (véase descriptores visuales, descriptores de audio del… …   Wikipedia Español

  • Descriptores básicos de audio del MPEG-7 — Saltar a navegación, búsqueda Los descriptores básicos son una parte de los descriptores de audio del MPEG 7, los cuales se consideran de bajo nivel, y que nos ofrecen dos tipos de valores que permiten conocer las características de la señal… …   Wikipedia Español

  • MPEG-7 — consiste en una representación estándar de la información audiovisual que permite la descripción de contenidos (metadatos) para: Palabras clave Significado semántico (quién, qué, cuándo, dónde) Significado estructural (formas, colores, texturas,… …   Wikipedia Español

  • Descriptores visuales — Saltar a navegación, búsqueda Los descriptores visuales describen las características visuales de los contenidos dispuestos en imágenes o en vídeos. Describen características elementales tales como la forma, el color, la textura o el movimiento,… …   Wikipedia Español

  • MPEG-PSI — (Program Specific Information) un múltiplex de transporte de MPEG 2 puede transportar varios programas, cada uno compuesto por uno o varios trenes elementales de paquetes (PES) de manera que para guiar y simplificar los procesos de… …   Wikipedia Español

  • Indexación audiovisual — La indexación de contenidos audiovisuales (indexación audiovisual) consiste en la generación de etiquetas descriptivas del material audiovisual que se basan en unos contenidos creados previamente. Utilizando el etiquetado de información… …   Wikipedia Español

  • Transport Stream — es un protocolo de comunicación para audio, vídeo y datos especificado en los estándares de MPEG 2. Los flujos binarios de vídeo y audio de cada programa se comprimen independientemente formando cada uno de ellos una “corriente elemental” (ES –… …   Wikipedia Español

Compartir el artículo y extractos

Link directo
Do a right-click on the link above
and select “Copy Link”