Capítulo 3 Acrónimos y glosario
3.1 Acrónimos
Acrónimo | Descripción |
---|---|
AEPD | Agencia Española de Protección de Datos |
Bloque | Trozo de código en R que permite cargar y procesar datos, realizar los análisis estadísticos e imprimir los resultados |
CEPAL | Comisión Económica para América Latina y el Caribe |
DANE | Departamento Administrativo Nacional de Estadística |
ENUSC | Encuesta Nacional Urbana de Seguridad Ciudadana |
FCYTE | Fundación Española de Ciencia y Tecnología |
GSBPM [1] | Modelo Genérico del Proceso Estadístico |
IHSN [2] | Red Internacional de Encuestas de Hogares |
INE | Instituto Nacional de Estadísticas |
INEGI | Instituto Nacional de Estadística y Geografía |
MINSEGPRES | Ministerio Secretaría General de la Presidencia |
OCDE | Organización para la Cooperación y el Desarrollo Económicos |
ONE | Oficina Nacional de Estadística |
PITEC | Panel de Innovación tecnológica |
PRAM [3] | Método de Post-Aleatorización |
PUF [4] | Archivo de Uso Público |
RUT | Rol Único Tributario |
ROL | Identifica a una propiedad o bien raíz |
SEN | Sistema Estadístico Nacional |
SDC [5] | Control de Divulgación Estadística |
sdcMicro | Paquete de implementación bajo el software R |
STATCAN [6] | Estadísticas de Canadá |
SUF [7] | Archivo de Uso Científico |
UNECE [8] | Comisión Económica de las Naciones Unidas para Europa |
[1] En inglés, Generic Statistical Business Process Model.
[2] En inglés, International Household Survey Network.
[3] En inglés, Post Randomization Method.
[4] En inglés, Public Use File.
[5] En inglés, Statistical Disclosure Control.
[6] En inglés, Statistics Canada.
[7] En inglés, Scientific Use File.
[8] En inglés, United Nations Economic Commission for Europe.
3.2 Glosario
Respecto a los términos, conceptos o categorías utilizadas en esta guía se detallan aquellos que son relevantes para la comprensión del subproceso.
Término | Definición | Referencia |
---|---|---|
Adición de ruido | Método basado en agregar o multiplicar un número aleatorio a los valores originales para proteger los datos de la coincidencia exacta con archivos externos. La adición de ruido se aplica típicamente a variables continuas. | (Benschop and Welch 2021), pág. 9 |
Anonimización | Proceso técnico que consiste en transformar los datos individuales de las unidades de observación, de tal modo que no sea posible identificar sujetos o características individuales de la fuente de información, preservando así las propiedades estadísticas en los resultados. | (Instituto Nacional de Estadísticas 2022) |
Archivo de datos para uso científico | Archivo de uso científico (SUF, por su sigla en inglés, Scientific Use File), es un tipo de publicación del archivo de microdatos, que solo está disponible para investigadores seleccionados bajo un acuerdo. También conocido como “archivo con licencia”, “microdatos bajo contrato” o “archivo de investigación”. | (Benschop and Welch 2021), pág. 10 |
Archivo de datos para uso en centro de datos de investigación controlado o enclave | Son los archivos que pueden ofrecerse a los usuarios bajo condiciones estrictas en un enclave de datos. Se trata de una sala equipada con computadores que no están conectados a Internet ni a una red externa, y del que no se puede descargar información a través de puertos USB u otras unidades. Los enclaves de datos contienen datos que son particularmente sensibles o permiten la identificación directa o fácil de los informantes. Los ejemplos incluyen conjuntos de datos completos de censos de población, encuestas empresariales, etc. | Adaptado de (Benschop and Welch 2021), pág. 20 |
Archivo de datos para uso público | Archivo de uso público (PUF, por sus siglas en inglés, Public Use File), es un tipo de publicación del archivo de microdatos, que está disponible gratuitamente para cualquier usuario, por ejemplo, en el sitio web del INE. | (Benschop and Welch 2021), pág. 10 |
Barajado (En inglés, shuffling) | Método que consiste en enmascarar una variable considerada confidencial mediante la generación de una distribución condicional. | (Benschop and Welch 2021), pág. 74 |
Base de datos | Una colección lógica de información que está interrelacionada y que se gestiona y almacena como una unidad, por ejemplo, en el mismo archivo informático. | (OECD s.f.) |
Celdas confidenciales | Las celdas de una tabla que no son publicables debido al riesgo de divulgación estadística se denominan celdas confidenciales. | (OECD s.f.) |
Clave | Combinación o patrón de variables clave o cuasi – identificadores. También, es usado el término llave. | (Benschop and Welch 2021), pág. 9 |
Codificación superior o inferior | Corresponde a la agrupación de una variable continua en una categoría en los extremos de los valores posibles que agrupa todos los valores mayores o menores a un número (por ejemplo: valores mayores o iguales a 5 quedarán en la categoría “5 o más” mientras que el resto conserva su valor). | Adaptado de (Benschop and Welch 2021), pág. 52 |
Confidencialidad de los datos | Es una propiedad de los datos, generalmente como resultado de medidas legislativas, que previenen su divulgación no autorizada. | (OECD s.f.) |
Control de Divulgación Estadística (SDC) | Proceso que busca tratar y alterar los datos para que puedan publicarse o difundirse sin revelar la información confidencial que contiene, mientras que, al mismo tiempo, limitan la pérdida de información debido al anonimato de los datos. En el GSBPM, estos métodos están relacionados con la etapa de difusión y generalmente se basan en restringir la cantidad o modificar los datos publicados. | (Australian Bureau of Statistics 2021) |
Convenio | Contrato, convención o acuerdo que se desarrolla en función de un asunto específico destinado a crear, transferir, modificar o extinguir una obligación. - Es un acuerdo de voluntades entre dos o más organismos públicos con personalidad jurídica, sobre cualquier cuestión pendiente de resolver. - Son instrumentos jurídicos, suscritos por dos o más organismos de la Administración del Estado, que tienen por finalidad, comprometer la colaboración mutua entre ellos, dentro de las facultades que la ley les confiere para satisfacer necesidades actuales o futuras y que requieren de su formalización, mediante actos administrativos, para producir efectos jurídicos. Tipos de convenios: 1. Marco: establece las bases para el intercambio de información, mediante convenios específicos. 2. Específico: consiste en la materialización de un convenio marco, y tiene por objeto señalar específicamente las obligaciones de cada parte, detallando los compromisos que adquiere cada institución. | Fiscalía INE |
Datos personales | Son datos de carácter personal o datos personales, “los relativos a cualquier información concerniente a personas naturales, identificadas o identificables”. | [Ley N° 19628 1999] |
Datos originales | Datos a los que no se les aplica algún método de anonimización. También se denominan “datos brutos” o “datos no tratados”. | (Benschop and Welch 2021), pág. 11 |
Divulgación | Se produce cuando una persona u organización reconoce o aprende algo que no sabía sobre otra persona u organización a través de los datos divulgados. Ver también Divulgación de identidad, Divulgación de atributos y Divulgación inferencial. | (Benschop and Welch 2021), pág. 9 |
Divulgación de atributos | La divulgación de atributos ocurre cuando un usuario puede determinar nuevas características de un individuo u organización con base en la información disponible en los datos publicados. A este usuario se le denominará intruso, ver intruso. | (Benschop and Welch 2021), pág. 8 |
Divulgación de identidad | La divulgación de identidad ocurre cuando un intruso asocia a un individuo (o grupo) u organización conocida, con un registro de datos publicado. | (Benschop and Welch 2021), pág. 9 |
Divulgación inferencial | La divulgación inferencial ocurre si un intruso puede determinar, a partir de los datos publicados, el valor de alguna característica de un individuo u organización con mayor precisión que lo pretendido. | (Benschop and Welch 2021), pág. 9 |
Encuesta | Investigación sobre las características de una población particular, que utiliza procedimientos estandarizados para recopilar información de la población de estudio (incluidos censos, encuestas de muestra, la recopilación de datos de registros administrativos y actividades estadísticas derivadas) para estimar sus características mediante el uso sistemático de la metodología estadística. | (Instituto Nacional de Estadísticas 2022) |
Escenario de divulgación | Describe la información potencialmente disponible para un tercero (por ejemplo: datos del censo, padrones electorales, registro de población, datos recopilados por empresas privadas o incluso datos de encuestas publicadas por el INE), para identificar a los encuestados y las formas en que dicha información se puede combinar con los microdatos establecidos para ser publicados y utilizados para la re-identificación de registros en el conjunto de datos. | (Benschop and Welch 2021), págs. 25-26 |
Estructura jerárquica | Datos que se componen de colecciones de registros que están interconectados a través de enlaces, por ejemplo, individuos que pertenecen a grupos/hogares o empleados que pertenecen a empresas. | (Benschop and Welch 2021), pág. 9 |
Identificador | Variable/información (o grupo de variables) que puede utilizarse para establecer la identidad de un individuo u organización. Los identificadores pueden conducir a una identificación directa o indirecta. | (Benschop and Welch 2021), pág. 9 |
Identificadores directos | Son variables que identifican inequívocamente unidades estadísticas, como, RUT, ROL, número de seguro social, o nombres y direcciones de empresas o personas. Los identificadores directos deben eliminarse como primer paso del proceso de anonimización. | (Benschop and Welch 2021), pág. 9 |
Identificadores indirectos | Son variables que, si bien no identifican inequívocamente unidades estadísticas, en combinación se pueden vincular a información externa para re-identificar a los informantes en el conjunto de datos publicado. También se les denomina “cuasi-identificadores” o “variables clave”. | (Benschop and Welch 2021), pág. 9 |
Informante | Empresas, autoridades, personas individuales, etc., de quienes se recopilan datos e información asociada para su uso en la compilación de estadísticas. | Adaptado de (OECD s.f.) |
Intervalo | Un conjunto de números entre dos cotas designadas que pueden o no estar incluidos (abiertos, semiabiertos o cerrados). Los corchetes (por ejemplo, [0, 1]) denotan un intervalo cerrado, que incluye los puntos finales 0 y 1. Los paréntesis, por ejemplo, (0, 1) denotan un intervalo abierto, que no incluye los puntos finales. | Adaptado de (Benschop and Welch 2021), pág. 9 |
Intruso | Usuario que hace mal uso de los datos publicados al tratar de identificar y divulgar información sobre un individuo u organización, utilizando un conjunto de características conocidas por el usuario. | (Benschop and Welch 2021), pág. 9 |
K-anonimato | La medida de riesgo 𝑘-anonimato se basa en el principio de que, en un conjunto de datos seguro, el número de individuos que comparten la misma combinación de valores (claves) de identificadores indirectos categóricos debe ser superior a un umbral especificado 𝑘. Es una medida de riesgo basada en los microdatos que se liberarán, ya que solo tiene en consideración la muestra. | (Benschop and Welch 2021), pág. 28 |
Metadatos | Son datos que entregan la información necesaria para el uso e interpretación adecuada de las estadísticas por parte de las personas usuarias. Los metadatos describen los datos producidos por medio de la documentación de contenidos relacionados, por ejemplo, con la metodología; el trabajo de campo; el procesamiento; análisis y la calidad; entre otros, de una operación estadística particular. Contexto: Generalmente se hace una distinción entre metadatos estructurales y de referencia. Los metadatos estructurales se utilizan para identificar y describir formalmente: nombres de dimensiones, diccionarios de variables, descripciones técnicas de conjuntos de datos, ubicaciones de conjuntos de datos, palabras clave para buscar datos, etc Los metadatos de referencia (a veces llamados metadatos explicativos) describen los contenidos y la calidad de los resultados estadísticos. Incluye documentación descriptiva sobre el contexto de la información producida, como, por ejemplo, las metodologías para la recolección y análisis de datos, así como características de la calidad y difusión de la operación. | (Instituto Nacional de Estadísticas 2022) |
Métodos determinísticos | Métodos que siguen cierto algoritmo y producen los mismos resultados si se aplican repetidamente a los mismos datos con el mismo conjunto de parámetros. | (Benschop and Welch 2021), pág. 8 |
Métodos no perturbativos | Métodos que reducen los detalles en los datos o suprimen ciertos valores (enmascaramiento) sin distorsionar la estructura de datos. | (Benschop and Welch 2021), pág. 9 |
Métodos perturbativos | Métodos que alteran los valores para limitar el riesgo de divulgación al crear incertidumbre en torno a los valores verdaderos, al tiempo que conservan la mayor cantidad de contenido y estructura posible, por ejemplo, microagregación y adición de ruido. | (Benschop and Welch 2021), pág. 9 |
Métodos probabilísticos | Métodos que dependen de un mecanismo de probabilidad o un mecanismo de generación de números aleatorios. Cada vez que se utiliza un método probabilístico se genera un resultado diferente. | (Benschop and Welch 2021), pág. 9 |
Microagregación | Método que se basa en la sustitución de valores para una determinada variable con un valor común para un grupo de registros. La agrupación de registros se basa en una medida de proximidad de variables de interés. Los grupos de registros también se utilizan para calcular el valor de reemplazo. | (Benschop and Welch 2021), pág. 9 |
Microdatos | Corresponde a los datos sobre las características asociadas a las unidades estadísticas que se encuentran consolidadas en una base de datos. Son observaciones no agregadas o mediciones de las características de la o las unidades estadísticas, siendo la forma primaria en la que se almacenan los datos y que a partir de esta se derivan los resultados. El conjunto de microdatos es uno de los resultados y/o producto de la recolección de datos y del procesamiento de los datos. | (Instituto Nacional de Estadísticas 2022) |
Muestra única | Un registro de la muestra con un conjunto particular de características que no se repite en otras observaciones, de modo que el individuo u organización se puede distinguir de otras unidades de la muestra en función de ese conjunto de características. | (Benschop and Welch 2021), pág. 10 |
Operación estadística | Aplicación de un conjunto interrelacionado de procesos, que comprende la detección de necesidades, el diseño, construcción, recolección de datos, procesamiento, análisis, difusión y evaluación, lo cual conduce a la obtención de resultados estadísticos sobre un tema de estudio. Contexto: cuando se hace referencia al concepto se deben tener las siguientes consideraciones. • El concepto de operación estadística permite identificar e individualizar un proceso estadístico sobre un tema o ámbito particular; por ejemplo, el Índice de Precios al Consumidor, la Encuesta Nacional de Empleo o el Censo de Población y Viviendas, corresponden a operaciones específicas que se realizan implementando un proceso compuesto por subprocesos, tareas y actividades. • Las operaciones estadísticas que realizan las oficinas estadísticas o unidades del sistema estadístico pueden ser clasificadas y agrupadas por medio de inventarios o catastros permitiendo la coordinación y planificación estadística, los cuales constituyen la base para la formulación de los Planes Nacionales de Recopilación Estadística (PNRE). | (Instituto Nacional de Estadísticas 2022) |
Pérdida de información | Se refiere a la reducción del contenido de información en los datos liberados en relación con el contenido de información en los datos sin procesar. A menudo se mide con el uso de medidas analíticas comunes, como regresiones e indicadores. Ver también Utilidad de los datos. | (Benschop and Welch 2021), pág. 9 |
Población única | Un registro en la población con un conjunto particular de características que no se repite en la población, de modo que el individuo u organización puede distinguirse de otras unidades de la población en función de ese conjunto de características. | (Benschop and Welch 2021), pág. 10 |
Post Randomization Method (PRAM) | Método en el que los puntajes de una variable categórica se alteran de acuerdo con ciertas probabilidades. Por lo tanto, es una clasificación errónea intencional con probabilidades de clasificación errónea conocidas | (Benschop and Welch 2021), pág. 10 |
Privacidad | Es un concepto que se aplica a las unidades, mientras que la confidencialidad se aplica a los datos. El concepto se define de la siguiente manera: “Es el estatus otorgado a los datos que ha sido acordado entre la persona u organización que proporciona los datos y la organización que los recibe y que describe el grado de protección que se brindará”. | (OECD s.f.) |
Producto estadístico | Resultados físicos o digitales de una operación estadística, en general corresponden a publicaciones de información mediante la presentación de datos y metadatos, que buscan satisfacer las necesidades de la comunidad usuaria. | (Instituto Nacional de Estadísticas 2022) |
Protección de datos | Se refiere al conjunto de leyes, políticas y procedimientos motivados por la privacidad que tienen como objetivo minimizar la intrusión en la privacidad de los informantes causada por la recopilación, el almacenamiento y la difusión de datos personales. | (OECD s.f.) |
Recodificación | Método en el que se agrupan categorías o valores existentes y se reemplazan con nuevos valores, por ejemplo, las categorías “protestante” y “católico” se reemplazan por “cristiano”. La recodificación reduce los detalles en los datos y, para las variables continuas, conduce a una transformación de continua a categórica, por ejemplo, creando bandas de ingresos. | (Benschop and Welch 2021), pág. 10 |
Registro | Un conjunto de datos derivados de un objeto/unidad de estudio, por ejemplo, un individuo (en datos a nivel individual), un hogar (en datos a nivel de hogar) o una empresa (en datos de la empresa). Los registros también se denominan “observaciones”. | (Benschop and Welch 2021), pág. 10 |
Registro administrativo | Conjunto de datos recopilados y utilizados para fines administrativos por una entidad pública o privada sobre un tipo de hecho, evento, acción, objeto, sujeto, obtenidos sistemáticamente con base en un formato específico ya sea impreso, digital u otro y dentro del marco de sus atribuciones. Contexto: a modo de ejemplo, se consideran registros administrativos las bases de datos con identificadores únicos asociados a números de identificación personal, números de identificación tributaria u otros, los datos geográficos que permitan identificar o ubicar espacialmente los datos, así como los listados de unidades y transacciones administrados por los integrantes del SEN, así como entidades privadas de interés para las oficinas estadísticas. | (Instituto Nacional de Estadísticas 2022) |
Regresión | Proceso estadístico para medir la relación entre el valor medio de una variable y los valores correspondientes de otras variables. | (Benschop and Welch 2021), pág. 10 |
Riesgo de divulgación | Se refiere a la probabilidad de que ocurra efectivamente una divulgación de la información confidencial de un informante, o una divulgación exacta con un alto nivel de confianza. | Adaptado de (Benschop and Welch 2021), pág. 9 |
Riesgo global | Es una medida sobre todo el conjunto de datos que agrega los riesgos individuales como la proporción esperada de individuos en una muestra que pueden ser correctamente re-identificados por un intruso. Hay que utilizar con cuidado esta medida, ya que puede esconder altos riesgos individuales con un riesgo global aceptable. | (Benschop and Welch 2021), pág. 40 |
Riesgo individual | Es la probabilidad de una correcta re-identificación de individuos en los datos divulgados. | Adaptado de (Benschop and Welch 2021), pág. 28 |
Riesgo jerárquico | Es la probabilidad de una correcta re-identificación de unidades tomando en cuenta la estructura jerárquica de los datos. La estructura jerárquica de un conjunto de datos puede estar dado por ser miembros de un hogar, trabajadores de una empresa o alumnos de un colegio, entre otros ejemplos, el riesgo entonces tomará en cuenta que si se identifica algún miembro de este hogar, empresa o colegio puede que se identifique al resto de sus miembros. | Adaptado de (Benschop and Welch 2021), pág. 41 |
sdcMicro | Un paquete basado en R creado por Templ, M., Kowarik, A. y Meindl, B. con herramientas para la anonimización de microdatos, es decir, para la creación de archivos de uso público y científico con cierto estándar de anonimato en las observaciones. | (Benschop and Welch 2021), pág. 11 |
Supresión de datos | La supresión de datos implica no divulgar información que se considera insegura porque no se aplican las reglas de confidencialidad. A veces esto se hace reemplazando valores que significan atributos individuales con valores faltantes (por ejemplo, pasando del nivel de ingresos de un hogar a un “missing” o “sin dato” para proteger la identidad del hogar). En el contexto de esta guía, generalmente para lograr el nivel deseado de k – anonimato. | (Benschop and Welch 2021), pág. 11 |
Tabulados | Expresión gráfica que sintetiza un valor o estimación producto del cruce entre dos o más variables. | [Instituto Nacional de Estadísticas 2020] pág. 60 |
Técnicas de control de divulgación estadística | Se pueden definir como el conjunto de métodos para reducir el riesgo de divulgar información sobre personas, empresas u otras organizaciones. Dichos métodos solo están relacionados con el paso de difusión y generalmente se basan en restringir la cantidad o modificar los datos publicados. | (OECD s.f.) |
Umbral de riesgo | Nivel, valor, margen o punto establecido a partir del cual se produce la identificación de unidades. Si no es seguro, se deberán tomar medidas adicionales para reducir el riesgo de identificación. | (Benschop and Welch 2021), pág. 11 |
Unidad de observación | Unidad identificable sobre la que se obtiene información (o son informados), registran y compilan datos estadísticos. | (Instituto Nacional de Estadísticas 2022) |
Usuario final | El usuario del archivo de microdatos liberado después de la anonimización. | Adaptado de (Benschop and Welch 2021), pág. 9 |
Utilidad de los datos | Describe el valor de una publicación de datos determinada como recurso analítico. Esto comprende la integridad analítica de los datos y su validez analítica. Los métodos de control de divulgación suelen tener un efecto adverso en la utilidad de los datos. Idealmente, el objetivo de cualquier régimen de control de divulgación debería ser maximizar la utilidad de los datos al tiempo que se minimiza el riesgo de divulgación. En la práctica, las decisiones de control de divulgación son una compensación entre la utilidad y el riesgo de divulgación. | (OECD s.f.) |
Valor atípico | Un valor inusual que se informa correctamente pero que no es típico del resto de la población. Los valores atípicos (outliers, en inglés) también pueden ser observaciones con una combinación inusual de valores para variables, como la viuda de 20 años. En su propia edad, 20 y viuda no son valores inusuales, pero su combinación puede serlo. | (Benschop and Welch 2021), pág. 10 |
Variable | Cualquier característica, número o cantidad que se puede medir o contar para cada unidad de observación. | (Benschop and Welch 2021), pág. 11 |
Variable categórica | Una variable discreta que toma valores sobre un conjunto finito, por ejemplo, sexo representado por los números 1 o 0 para hombre y mujer. También llamado factor en R. | (Benschop and Welch 2021), pág. 8 |
Variable continua | Una variable que puede tomar valores sobre un conjunto denso. Ejemplos son los ingresos, la altura del cuerpo y el tamaño de la parcela. | Adaptado de (Benschop and Welch 2021), pág. 8 |
Variables de no identificación | Son variables que no pueden utilizarse para la re-identificación de los informantes o fuentes. Esto podría deberse a que estas variables no están contenidas en ningún otro archivo de datos u otra fuente externa. Estas variables son importantes en el procedimiento del control a la divulgación, ya que pueden contener variables sensibles. | (Benschop and Welch 2021), pág. 24 |
Variable factor | Son una forma de clasificar variables categóricas en factores, que pueden ser ordenadas o no. | (Benschop and Welch 2021), pág. 9 |
Variable semicontinua (discreta) | Es una variable que toma valores contenidos en un conjunto discreto. Un ejemplo es la edad medida en años, que podría tomar valores en el conjunto {0, 1, . . ., 100}. La naturaleza finita de los valores para estas variables significa que pueden tratarse como variables categóricas a los efectos de SDC. | Adaptado de (Benschop and Welch 2021), pág. 24 |
Variable sensible | Variable contenida en un registro de datos, además de las variables clave, que pertenecen al dominio privado de los informantes que no quisieran que se divulgaran. Algunos datos son claramente sensibles, como la posesión de antecedentes penales o la condición médica, pero hay otros casos en los que la distinción depende de las circunstancias, por ejemplo, los ingresos de una persona pueden considerarse como una variable sensible en algunos países. La determinación de variables sensibles a menudo está sujeta a preocupaciones legales y éticas. | (OECD s.f.) |
Referencias
Australian Bureau of Statistics. 2021. “Glossary | Australian Bureau of Statistics.” https://www.abs.gov.au/about/data-services/data-confidentiality-guide/glossary.
Benschop, Thijs, and Matthew Welch. 2021. “Statistical Disclosure Control: A Practice Guide.” 26/07/2021, 195. https://sdcpractice.readthedocs.io/en/latest/.
———. 2022. “Glosario de conceptos estadísticos,” February. https://www.ine.gob.cl/docs/default-source/buenas-practicas/directrices-metodologicas/glosario-de-conceptos-estadisticos/documentos/glosario-de-conceptos-ine-v_1-0.pdf?sfvrsn=f9766bd9_2.
OECD. s.f. “The OECD Glossary of Statistical Terms.” https://stats.oecd.org/glossary/.