Modelos de mixturas finitas para la caracterización y mejora de las redes de monitorización de la calidad del aire
Metadata
Show full item recordAuthor
Gómez Losada, ÁlvaroEditorial
Universidad de Granada
Departamento
Universidad de Granada. Departamento de Estadística e Investigación OperativaMateria
Contaminación Aire Monitorización Estadística Vigilancia ambiental
Date
2014Fecha lectura
2014Sponsorship
Universidad de Granada. Máster Universitario en Estadística AplicadaAbstract
Antecedentes Los planes de monitorización de la calidad del aire, en ocasiones, no son convenientemente actualizados en concordancia con las
cambiantes condiciones locales, repercutiendo en la información atmosférica que proporcionan, bien dejando de detectar nuevas fuentes de contaminación
o duplicando cierta información. Además, posibles mantenimientos deficientes del equipamiento de las redes de monitorización suponen a
aquel un inconveniente añadido. Para abodar estos aspectos, se ha recurrido a una combinación de métodos estadísticos para la optimización de los
recursos empleados en la monitorización, introduciendo nuevos criterios para su mejora.
Métodos Datos de monitorización de contaminantes clave como el monóxido de carbono (CO), dióxido de nitrógeno (NO2), ozono (O3), material
particulado (PM10) y dióxido de azufre (SO2) fueron obtenidos de 12 estaciones de monitorización de la calidad del aire en Sevilla (España). Un
total de 49 conjuntos de datos fueron modelizados mediante mixturas finitas gaussianas utilizando el algoritmo de esperanza-maximización (EM).
Para resumir estos 49 modelos, la media (μm) y coeficiente de variación (cvm) de cada mixtura fueron calculados, y a partir de ellos, se realizó un
análisis clúster jerárquico (ACJ) para estudiar el agrupamiento de las estaciones de acuerdo con estos estadísticos. El valor de los parámetros no
monitorizados en las estaciones de medición fueron imputados aplicando un algoritmo basado en bosques aleatorios, utilizando los valores de μm y
cvm conocidos. Posteriormente, el análisis de componentes principales (ACP) permitió comprender la relación intrínseca entre las estaciones de la
red, así como la concordancia en su clasificación. Todas las técnicas fueron aplicadas utilizando el software estadístico gratuito y de código abierto R.
Resultados y conclusiones Se ha analizado un ejemplo de atribución y contribución de fuentes utilizando la modelización mediante mixturas
finitas, y el potencial de estos modelos es propuesto para caracterizar tendencias de contaminación. Los estadísticos de la mixturas μm y cvm
representan su huella dactilar, y su empleo es nuevo en la caracterización de los modelos mixtos en el área de la gestión de la calidad del aire.
La técnica de imputación empleada ha permitido la estimación de valores de concentración de parámetros no monitorizados y el planteamiento de
nuevos esquemas de monitorización para esta red. El empleo posterior del ACP ha confirmado una clasificación errónea de una estación detectada
inicialmente mediante el ACJ. Background Existing air quality monitoring programs are, on occasion, not updated according to local, varying conditions and as such the monitoring
programs become non-informative over time, under-detecting new sources of pollutants or duplicating information. Furthermore, inadequate
maintenance may cause the monitoring equipment to be utterly deficient in providing information. To deal with these issues, a combination of
formal statistical methods is used to optimize resources for monitoring and to characterize the monitoring networks, introducing new criteria for
their refinement.
Methods Monitoring data were obtained on key pollutants such as carbon monoxide (CO), nitrogen dioxide (NO2), ozone (O3), particulate
matter (PM10) and sulfur dioxide (SO2) from 12 air quality monitoring sites in Seville (Spain) during 2012. A total of 49 data sets were fit to
mixture models of Gaussian distribution using the expectation-maximization (EM) algorithm. To summarize these 49 models, the mean (μm) and
coefficient of variation (cvm) were calculated for each mixture and carried out a hierarchical clustering analysis (HCA) to study the grouping of the
sites according to these statistics. To handle the lack of observational data from the sites with unmonitored pollutants, the missing statistical values
were imputed by applying the random forests technique and then later, a principal component analysis (PCA) was carried out to better understand
the relationship between the level of pollution and the classification of monitoring sites. All of the techniques were applied using free, open-source,
statistical software R.
Results and conclusions One example of source attribution and contribution is analyzed using mixture models and the potential for mixture
models is posed in characterizing pollution trends. The mixture statistics μm and cvm have proven to be a fingerprint for every model and this
work presents a novel use of it and represents a promising approach to characterizing mixture models in the air quality management discipline. The
imputation technique used is allowed for estimating the missing information from key unmonitored pollutants to gather information about unknown
pollution levels and to suggest new possible monitoring configurations for this network. Posterior PCA confirmed the misclassification of one site
detected with HCA.