Statistical methods to improve estimates obtained from probability and nonprobability samples
Metadatos
Mostrar el registro completo del ítemAutor
Ferri García, RamónEditorial
Universidad de Granada
Director
Rueda García, María Del MarDepartamento
Universidad de Granada. Programa de Doctorado en Estadística Matemática y AplicadaMateria
Statistical methods Estimates Probability Nonprobability Samples Métodos estadísticos Estimaciones Probabilidad No probabilístico Muestras
Fecha
2021Fecha lectura
2021-06-28Referencia bibliográfica
Ferri García, Ramón. Statistical methods to improve estimates obtained from probability and nonprobability samples. Granada: Universidad de Granada, 2021. [http://hdl.handle.net/10481/69645]
Patrocinador
Tesis Univ. Granada.Resumen
Since their theoretical development in the rst half of the XXth century,
surveys have been the standard procedure to obtain information from a population
of interest. The statistical properties of the estimators of population
parameters, such as totals, means or proportions, allow researchers to make
inferences about a target population using only a reduced sample of it, as
well as obtain a measure of the variability of the estimations.
The rst surveys were administrated by directly interviewing the respondents
in person, a mode known as face-to-face surveying. This administration
mode has been considered the "gold standard"practice in surveys, but their
increasing costs and the advances in communication technologies favored the
rise of telephone surveys and self-administered questionnaires, such as those
used in mail surveys.
In the last decades, these modes have also experienced an increase in
costs and coverage problems, as well as a decline in response rates. Again,
the development of new technologies has been the factor that has allowed the
appearance of a new set of questionnaire administration techniques known as
online surveys. Some examples include SMS surveys, e-mail surveys, smartphone
surveys, and especially Web surveys, which are those that are administered
and completed in web browsers.
Online surveys comprise many advantages for researchers to conduct their
studies. Recruitment of participants can be done much faster than in other
survey modes, and at largely reduced costs. In addition, the use of technology
allows researchers to design questionnaires with a wider spectrum of
possibilities than in face-to-face, telephone or mail surveys.
On the other hand, online surveys present several relevant sources of
error. By de nition, such surveys can only reach online users or people with
some kind of access to information and communication technology networks.
This is an important coverage issue that can lead to biased estimates if the
composition of the o ine population di ers signi cantly from that of the
online population, which is often the case as the di erences are associated
to demographics such as education level or age.
In addition, the impossibility to nd any reliable sampling frame of the
online population contributes to the use of self-selection procedures in online surveys. This practice constitutes an example of nonprobability sampling
where the estimators of population parameters and their variance cannot
be calculated because of the inability of inclusion probabilities to meet the
requirements of a probability sampling. The main consequence of the application
of these procedures is selection bias, which can be very relevant
if there is any relationship between propensity to participate (self-select) in
the survey and the variables of interest of the study.
In those cases where a sampling frame is available for an online survey,
and therefore it is possible to design a sampling scheme, non-response bias
is also prone to appear. This is a particularly relevant issue in online panel
surveys, and it has been associated with factors such as questionnaire length,
incentives or invitation reminders.
Some methods have been developed in survey methodology literature to
address these issues. Non-response error is a common problem to all probability
sampling surveys, and in consequence many methods have been developed
to mitigate it, from which imputation and reweighting techniques
can be pointed out. The correction of coverage and self-selection biases depends
on the auxiliary information available. If only population totals for a
set of covariates are available, calibration procedures can be applied; these
have been proven to reduce coverage error, but their use in the correction of
self-selection bias in online surveys is unclear.
In some cases, a probability survey of reference, conducted in the same
target population, is available. The variable of interest has not been measured
on it, but if some auxiliary covariates (also measured in the online survey) are
available, some adjustments can be considered. The most remarkable ones
are Propensity Score Adjustment (PSA) and Statistical Matching or Mass
Imputation. These adjustments focus on the mitigation of self-selection bias.
Finally, if a population census is available for some auxiliary covariates
(also measured in the online survey), methods based on superpopulation
modeling can be considered, such as model-based, model-adjusted and
model-calibrated estimators. These methods have been mostly considered in
probability sampling contexts, although some recent works adapt some of
them to nonprobability sampling problems.
To contribute with the development of online surveys, we propose some
methodological advances, such as the development of estimators of general
parameters and the estimator of their variance, the study of the properties
of the combination of PSA and calibration, the use of modern prediction
techniques and variable selection methods in PSA, and the adaptation of all
the superpopulation modeling approaches to the nonprobability sampling
context considering modern prediction techniques as well.
We also adapt the weight smoothing strategy, developed for increasing
the e ciency of the estimators in multipurpose probability surveys, to the
nonprobability sampling context. Adapting the weighting adjustments existent for such samples to multipurpose surveys could be the key to their adoptation
in the production of o cial statistics or their inclusion in large-scale
studies.
Finally, we use PSA in the study of health-related variables in healthcare
professionals using data from an online survey as the main source of
information and the population census as the reference sample. We compare
the results to the unadjusted case and evaluate the performance of the
aforementioned adjustment.
Note: This thesis is presented as a compendium of seven publications
in relation with the contents of the thesis. The full version of the papers is
included in Appendices A1 - A7. Desde su desarrollo teórico en la primera mitad del siglo XX, las encuestas
han sido el método estándar de obtención de información de una población
de interés. Las propiedades estadísticas de los estimadores de parámetros
poblacionales, como los totales, las medias o las proporciones, permiten a
los investigadores hacer inferencia sobre una población objetivo utilizando
únicamente una muestra reducida de ella, así como obtener una medida de
la variabilidad de las estimaciones.
Las primeras encuestas fueron administradas entrevistando directamente
a los encuestados en persona, un modo conocido como la encuesta cara
a cara. Este modo de administración ha sido considerado como la práctica
"gold standard.en encuestas, pero sus crecientes costes y los avances en las
tecnologías de la comunicación favorecieron el surgimiento de encuestas telef
ónicas y cuestionarios autoadministrados, como los empleados en encuestas
por correo.
En las últimas décadas, estos modos también han experimentado un incremento
en costes y problemas de cobertura, así como un declive de las
tasas de respuesta. De nuevo, el desarrollo de nuevas tecnologías ha sido el
factor que ha permitido la aparición de un nuevo conjunto de técnicas de administraci
ón de cuestionarios conocido como las encuestas online. Algunos
ejemplos incluyen las encuestas por SMS, las encuestas por e-mail, las encuestas
por smartphone y especialmente las encuestas Web, que son aquellas
que se administran y se completan en navegadores web.
Las encuestas online incluyen muchas ventajas para los investigadores
de cara a realizar sus estudios. El reclutamiento de participantes puede ser
realizado mucho más rápido que en otros modos de encuesta, y con costes
ampliamente reducidos. Además, el uso de la tecnología permite a los investigadores
diseñar cuestionarios con un espectro más amplio de posibilidades
que en las encuestas cara a cara, telefónicas o por correo.
Por otra parte, las encuestas online presentan algunas fuentes de error
relevantes. Por de nición, estas encuestas sólo pueden llegar hasta usuarios
online o personas con algún tipo de acceso a las redes de las tecnologías de la
información y comunicación. Este es un importante problema de cobertura
que puede traducirse en estimaciones sesgadas si la composición de la población o ine di ere signi cativamente de la de la población online, lo que suele
ser el caso dado que las diferencias están asociadas a variables demográ cas
como el nivel educativo o la edad.
Junto a ello, la imposibilidad de encontrar algún marco muestral able
de la población online contribuye al uso de técnicas de autoselección en las
encuestas online. Esta práctica constituye un ejemplo de muestreo no probabil
ístico donde la varianza no puede ser calculada por la imposibilidad de
las probabilidades de inclusión de cumplir los requerimientos de un muestreo
probabilístico. La principal consecuencia de la aplicación de estos métodos
es el sesgo de selección, que puede ser muy relevante si existe alguna relaci
ón entre la propensión a participar (autoseleccionarse) en la encuesta y las
variables de interés del estudio.
En aquellos casos en los que haya un marco muestral disponible para una
encuesta online, y por tanto sea posible diseñar un esquema de muestreo, el
sesgo de no respuesta también es proclive a aparecer. Este problema es particularmente
relevante en las encuestas de paneles online, y ha sido asociado
a factores como la longitud del cuestionario, los incentivos o los recordatorios
de invitación. Se han desarrollado algunos métodos en la literatura
para atajar estos problemas. El sesgo de no respuesta es un problema común
a todas las encuestas probabilísticas, y en consecuencia se han desarrollado
muchos métodos para mitigarlo, de los cuales se pueden destacar las técnicas
de imputación y reponderación.
La corrección de los sesgos de selección y cobertura depende de la informaci
ón auxiliar disponible. Si sólo están disponibles los totales poblacionales
para un conjunto de covariables, se pueden aplicar métodos de calibración;
se ha comprobado que éstos reducen el error de cobertura, pero su uso en la
corrección del sesgo de autoselección en las encuestas online no está claro.
En algunos casos, una encuesta probabilística de referencia, llevada a cabo
en la misma población objetivo, está disponible. La variable de interés no
ha sido medida en ella, pero si hay disponibles algunas covariables auxiliares
(también medidas en la encuesta online), se pueden considerar algunos
ajustes. Los más conocidos son el Propensity Score Adjustment (PSA) y
el Statistical Matching o Mass Imputation. Estos ajustes se centran en la
mitigación del sesgo de selección.
Finalmente, si está disponible un censo de la población para algunas
covariables auxiliares (también medidas en la encuesta online), se pueden
considerar métodos basados en los modelos de superpoblación, como los estimadores
modelo basado, modelo asistido y modelo calibrado. Estos métodos
se han considerado principalmente en contextos de muestreo probabilístico,
aunque algunos trabajos recientes adaptan algunos de ellos a problemas de
muestreo no probabilístico.
Para contribuir al desarrollo de las encuestas online, proponemos algunos
avances metodológicos, como el desarrollo de estimadores de parámetros generales y el estimador de su varianza, el estudio de las propiedades de la
combinación de PSA y calibración, el uso de técnicas modernas de predicci
ón y selección de variables en PSA, y la adaptación de todos los métodos
de modelos de superpoblación al contexto del muestreo no probabilístico
considerando asimismo técnicas modernas de predicción.
Adaptamos también la estrategia de suavizado de pesos, desarrollada
para incrementar la e ciencia de los estimadores en encuestas probabilísticas
multipropósito, al contexto del muestreo no probabilístico. Adaptar los
ajustes de ponderación existentes para estas muestras a las encuestas multiprop
ósito podría ser la clave para adoptarlas en la producción de estadísticas
o ciales o incluirlas en estudios a gran escala.
Finalmente, empleamos PSA en el estudio de variables relacionadas con
la salud en profesionales sanitarios utilizando datos de una encuesta online
como la principal fuente de información y el censo de la población como
la muestra de referencia. Comparamos los resultados al caso sin ajustar y
evaluamos el rendimiento del mencionado ajuste.
Nota: Esta tesis se presenta como un compendio de 7 publicaciones relacionadas
con los contenidos de la tesis. La versión íntegra de los artículos se
incluye en los Apéndices A1 - A7.