miércoles, 9 de julio de 2025

El uso de datos masivos y sus técnicas analíticas para el diseño e implementación de políticas públicas en Latinoamérica y el Caribe

Resumen del documento "El uso de datos masivos y sus técnicas analíticas para el diseño e implementación de políticas públicas en Latinoamérica y el Caribe".

El Poder Transformador de los Datos Masivos en el Diseño y Evaluación de Políticas Públicas para Latinoamérica y el Caribe

1. Introducción al Paradigma de Datos Masivos: Un Factor Esencial en la Era Digital

  • En la actividad económica moderna, los datos se han consolidado como un factor esencial para la producción, comparable a los activos fijos y el capital humano.
  • El desarrollo acelerado de las Tecnologías de la Información y la Comunicación (TIC) ha transformado los datos de escasos a superabundantes, impulsando el desarrollo de nuevas tecnologías y conocimientos.
  • Este documento tiene como objetivo revisitar la definición de 'Big Data' (datos masivos) y sus técnicas analíticas en el contexto de la formulación de políticas públicas en América Latina y el Caribe.
  • También se analizan aspectos sensibles del uso de Big Data como la seguridad, propiedad de datos, privacidad y el marco ético.

2. Marco Conceptual de los Datos Masivos: Definición, Características y Procesamiento

  • El término 'Big Data' o "datos masivos" es un concepto amplio que abarca los datos en sí, las tecnologías para su manipulación, las técnicas para su análisis y los profesionales que los manejan.
  • Originalmente, el término se refiere a conjuntos de datos cuyo tamaño excede la capacidad del software y hardware estándar para capturarlos, almacenarlos y analizarlos.
  • Las características fundamentales de los datos masivos son las "V":
    • Volumen: la gran cantidad de datos existentes y los recursos de almacenamiento y cómputo que requieren.
    • Velocidad: los datos son producidos, procesados, analizados y almacenados aceleradamente.
    • Variedad: refiere a las múltiples fuentes y tipos de datos, como texto, audio, video y redes sociales, clasificables en estructurados, semiestructurados e inestructurados.
  • A estas se añaden dimensiones más cualitativas:
    • Variabilidad: la alta cantidad de anomalías que, en datos masivos, dejan de ser "outliers" para formar parte del fenómeno.
    • Complejidad: explicada por la proliferación de dispositivos conectados (ej., GPS, sensores del Internet de las Cosas) que generan datos inter-sujeto e intra-sujeto.
    • Veracidad: la calidad, confiabilidad y certeza de los datos, especialmente su origen y construcción.
    • Representatividad: la cuestión de si los datos masivos reflejan adecuadamente las poblaciones analizadas.
  • Los datos masivos tienen poco valor por sí mismos; su valor se obtiene después de su procesamiento para construir conocimiento, mejorar procesos y apoyar la toma de decisiones.
  • La Ciencia de Datos es la disciplina que ha surgido para procesar y analizar estos datos, combinando técnicas de Ciencias de la Computación, Matemáticas, Estadística, Econometría e Investigación Operativa.
  • Este proceso implica un ciclo de vida iterativo que incluye la gestión de datos (adquisición, almacenamiento, limpieza, preparación) y la analítica de datos (modelado y análisis para responder preguntas).

3. Aplicación de la Analítica Avanzada en Políticas Públicas: Casos y Ejemplos

  • El objetivo de usar la Ciencia de Datos en políticas públicas es producir evidencia pertinente, de calidad y oportuna para fundamentar decisiones, un proceso llamado "toma de decisiones guiadas por datos".
  • Esto permite diagnosticar problemas desapercibidos y generar soluciones más efectivas en áreas como salud, educación, transporte y atención a grupos desfavorecidos.
  • Ejemplos de aplicación en distintas áreas incluyen:
    • Pobreza: Utilización de imágenes satelitales nocturnas para predecir la pobreza en India, Sri Lanka, Pakistán y Nigeria.
    • Crimen y seguridad: Análisis de rutas de buses y modelado de terreno riesgoso en Colombia para identificar zonas y horarios con mayor ocurrencia de delitos.
    • Transporte: Desarrollo de aplicaciones como OpenRoad y Open Traffic en Filipinas (seguimiento de proyectos viales, visualización de tráfico con datos GPS de taxis) y RoadLab en Bielorrusia (evaluación de calidad de calles con acelerómetro de celulares).
    • Salud: Identificación de áreas con mayor proporción de pacientes con SIDA en Sudáfrica para optimizar estrategias de atención.
  • Casos de implementación en América Latina y el Caribe:
    • Movilidad Urbana Sostenible (Rosario, Argentina): Estudio de patrones de movilidad de ciclistas (públicos y privados mediante GPS) para entender su relación con la infraestructura vial y los accidentes de tránsito. Se identificaron focos de accidentes y la necesidad de mejoras en infraestructuras específicas como Bulevar Oroño.
    • Ciudades Inteligentes (Latinoamérica): Se analizaron iniciativas en:
      • Bahía Blanca (Argentina): Plataforma y aplicación móvil '¿Qué pasa Bahía Blanca?' (QPBB) que publica en tiempo real datos de sensores sobre contaminación ambiental y acústica industrial.
      • Córdoba (Argentina): Sistema de seguimiento de flota de transporte público con GPS y recopilación de datos de pago por tarjeta única para optimizar tiempos de viaje y rutas.
      • São Bernardo do Campo (Brasil): Aplicación móvil Você SBC para quejas y sugerencias ciudadanas sobre servicios no urgentes, permitiendo monitorear necesidades urbanas.
      • Fortaleza (Brasil): Proyectos piloto usando GPS en buses para evitar retrasos, datos de bicicletas públicas para expansión y un dashboard unificado de indicadores de transporte.
    • Productividad a Nivel de Empresa: Estudio del crecimiento y dispersión de la Productividad Total de los Factores (TFP) en 20 millones de empresas de 30 países durante ocho años, usando la base de datos Orbis. El principal desafío fue la limpieza y preparación de los datos, y se usaron múltiples metodologías para calcular las funciones de producción.

4. Desafíos y Limitaciones: Ética, Privacidad y Confiabilidad

  • El uso de datos masivos presenta limitaciones metodológicas y cuestionamientos éticos, legales y de seguridad.
  • Desafíos metodológicos:
    • La superabundancia de datos no es sinónimo de representatividad. Los datos pueden no representar la diversidad de la población, especialmente si provienen de canales digitales o ciertas regiones.
    • La analítica de datos masivos no es enteramente objetiva, ya que los científicos de datos toman decisiones que pueden ser subjetivas o arbitrarias durante el proceso de análisis.
    • Existe un riesgo de "correlaciones espurias" y "sobreajuste" (overfitting) de los modelos debido al gran volumen de datos, lo que puede llevar a conclusiones erróneas si no se consideran el contexto y la generalización.
    • La analítica avanzada de datos masivos debe ser un complemento y no un sustituto de métodos de investigación tradicionales, especialmente los cualitativos.
  • Privacidad, aspectos éticos y legales:
    • El tratamiento de datos masivos con variables personales hace necesaria la protección de la información privada (anonimato).
    • Se cuestiona la equidad o el perjuicio por la intromisión en la vida privada de las personas.
    • Es crucial definir la propiedad de los datos masivos y los derechos/licencias para su administración y explotación.
    • Debe establecerse la responsabilidad legal cuando el análisis de datos masivos genere consecuencias negativas, incluyendo problemas de seguridad y protección del consumidor.
    • Cuando el gobierno trabaja con entidades externas, es vital resguardar la propiedad y establecer mecanismos de protección y prohibición de uso posterior de los datos.

5. Recomendaciones y Oportunidades: Hacia una Inteligencia de Valor Público

  • Es posible desarrollar una "inteligencia de valor público" que funcione como un componente estratégico para la toma de decisiones y el diseño de políticas públicas.
  • Para la adopción de esta inteligencia en las agencias de gobierno, se requieren capacidades institucionales en tres dimensiones:
    • Capital humano: Profesionales para estudiar, limpiar, preparar datos, y realizar análisis específicos, así como "consumidores inteligentes" que analicen críticamente la información y formulen preguntas. La escasez de científicos de datos y la necesidad de un trabajo multidisciplinario son desafíos.
    • Tecnología: Recursos para grandes conjuntos de datos, servicios de software, almacenamiento e interoperabilidad entre sistemas de distintas agencias.
    • Desarrollo de estrategias: Un plan que defina las preguntas urgentes, los datos a recopilar y las técnicas de análisis, incluyendo alianzas estratégicas.
  • Es fundamental establecer una institucionalidad que lidere el uso de datos masivos, asegure su sostenibilidad, mantenga los resguardos necesarios y promueva la comunicación fluida y el intercambio de datos entre agencias.
  • Se debe transparentar la analítica utilizada para generar evidencia, documentando los procesos para que sean auditables y permitan la mejora continua, diseminación de metodologías y corrección de errores a tiempo, especialmente ante filtraciones de información o recomendaciones algorítmicas erradas.
  • Las oportunidades incluyen:
    • La evaluación del nivel de madurez de proyectos de datos masivos usando rúbricas como la desarrollada por Townsend & Zambrano-Barragan.
    • El compartir y diseminar datos entre agencias gubernamentales, lo que puede generar sinergias y análisis multisectoriales.
    • La aplicación de técnicas de "predicción pura", donde no se necesita establecer causalidad, como la estimación del nivel socioeconómico con imágenes satelitales, el riesgo de deserción escolar o la mejora de políticas de fiscalización usando reseñas en línea.

6. Conclusiones: El Futuro Guiado por los Datos

  • La implementación y el uso de Big Data y sus técnicas analíticas son cruciales para el avance y la mejora de la administración pública en la región.
  • Estos avances permiten diseñar políticas públicas más informadas, fomentar la transparencia y potenciar la eficiencia en la gestión pública, lo que puede conducir a una democracia más participativa y legítima.
  • Es imperativo equilibrar el gran potencial de los datos masivos con la atención a los desafíos éticos, legales y de privacidad para garantizar un uso responsable y beneficioso para la sociedad.

Fuente 
Resumen en Audio

No hay comentarios:

Publicar un comentario

La era del big data y open data en la administración pública

  Dos Opciones de Resumen del documento  Opcion A El artículo "Big Data: una herramienta para la administración pública" explica c...