jueves, 19 de diciembre de 2019

Cocinando Datos Con Power BI

Tips Cocina de Datos Power BI



1.Generar la conexión a los orígenes de datos necesarios.
2.No cargar directamente sino transformar datos.
3.Acceder a Power Query Editor y desde alli ejecutar de ser necesario:
  • Reubicacion o ajuste de headers de columnas 
  • Eliminar filas.
  • Eliminar Columnas(evitar redundancia con otros origenes de datos relacionados).
  • Renombrado de headers de Columnas
  • Transformación de datos (por ejemplo spliteo, unpivot , etc)
  • Generación de columnas Indices.
  • Generación de Columnas condicionales( para agrupamientos)
  • Reemplazo de datos en columnas para estandarizacion.
  • Cambio de el tipo de datos de columnas.
  • Eliminación grupal de las columnas innecesarias que puedan  aparecer eventualmente en e origen.
  • Eliminacion de filas duplicadas.
4.Verificar la calidad de los datos de las columnas.
5. revisar las dependencias de las consultas.

Recomendaciones

1. Eliminar los pasos automáticos que pueda haber realizado el  editor sobre todo las conversiones automáticas de datos.

2. Para datos dudosos evitar inferir sobre estos hallazgos de datos ( null o cero ) y validar con el usuario final del reporte que cual es el significado de estos para el negocio o si que informe que son realmente errores de carga en el archivo origen.

3.Utilizar siempre las opciones que apliquen acciones sobre el resto de columnas mas que sobre una selección de columnas fijas.


domingo, 15 de diciembre de 2019

Herramientas de Visualización de Datos

Kit
Si querés iniciarte en la Visualización de Datos, te compartimos por un lado, portales de datos y, por otro, algunas aplicaciones que pueden ayudarte a empezar.

Portal de Datos Abiertos del Gobierno Argentino
http://datos.gob.ar/
Portal de Datos del Banco Mundial:
https://datacatalog.worldbank.org/.
Para trabajar con gráficos estadísticos

https://www.highcharts.com/
https://developers.google.com/chart/
https://infogram.com/
Para trabajar con mapas

https://www.mapbox.com/
https://carto.com/
Para generar paletas de colores

https://color.adobe.com/es/create/color-wheel/
http://tristen.ca/hcl-picker/#/hlc/6/1.05/303713/B77AA6

martes, 10 de diciembre de 2019

Visualización de Datos

VISUALIZACIÓN DE DATOS




Objetivos


  • Explorar el concepto de visualizaciones de datos y las formas de desarrollarlas para favorecer la comprensión de datos presentados / diseñados de esta forma.
  • Indagar el recorrido por el proceso de creación de casos paradigmaticos de visualizaciones de datos para indagar sobre la información alli presentada y las decisiones de diseño que se tomaron en la presentación.
  • Dar cuenta de la producción de visualizaciones de datos y su comunicación en los distintos niveles de gobierno para indagar en procesos comunicacionales de la información pública.


Aplicaciones comentadas en el curso.


domingo, 8 de diciembre de 2019

Producción de Datos Abiertos Gubernamentales...

PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES USANDO MS EXCEL



Tim Berners-Lee, el inventor de la Web e iniciador de los Datos Enlazados (Linked Data), sugirió un esquema de desarrollo de 5 estrellas para Datos Abiertos2, que podemos detallar de la siguiente manera:

Una estrella: ofrecer los datos en cualquier formato, aunque sean difíciles de manipular, como un pdf o una imagen escaneada. 

Dos estrellas: entregar los datos de manera estructurada, como en un archivo Excel con extensión xls. 

Tres estrellas: entregar los datos en un formato que no sea propietario, como .csv en vez de Excel. 

Cuatro estrellas: usar las URL (que es una dirección web de un dato que sirve para enlazarlo con otros datos) para identificar cosas y propiedades, de manera que se pueda apuntar a los datos. Requiere usar un estándar RDF. 

Cinco estrellas: vincular sus datos con los de otras personas, dotándolos de contexto. En la práctica, que la información entregada también apunte a otras fuentes de datos. Por ejemplo, si publico información sobre un libro dentro de mis datos, enlazar descripciones del libro que pertenezcan a otros publicadores (como DBPedia o Amazon)3.



3 Fuente: Biblioteca del Congreso Nacional de Chile. En línea: http://datos.bcn.cl/es/informacion/las-5-estrellas

Contenidos:


  • Datasets
  • Meta datos.
  • Ejemplos de Meta datos.
  • Limpieza de datos.


  • sábado, 7 de diciembre de 2019

    Data Cleasing (Recomendaciones)

    PROCESO DE DATA CLEASING

    El data cleansing, data scrubbing o limpieza de datos es el acto de descubrimiento, corrección o eliminación de datos erróneos de una base de datos. Este proceso permite identificar datos incompletos, incorrectos, inexactos, no pertinentes, etc. y luego substituir, modificar o eliminar estos datos sucios (data duty), para alcanzar datos de calidad (data quality) 1 .

    1 Fuente: Wikipedia. Limpieza de datos. En línea: https://es.wikipedia.org/wiki/Limpieza_de_datos


    Recomendaciones para el proceso de Data Cleasing:

    1) Los Datos deben ser Precisos.

    El proceso de limpieza de datos debe garantizar que los datos son certeros , precisos , validos y la mejor manera de garantizar esto es comparándolos con otros orígenes de datos, sino existe esta fuente o la fuente utilizada para comparar nuestros datos es inexacta nuestros datos también lo serán y la limpieza no cumplirá su objetivo.

    2) Los Datos deben ser consistentes.

    Los datos deben ser los mismos en calidad y representación en los distintos orígenes de datos de los que tengamos gobernanza, la consistencia es mas que asegurar la integridad de datos a través del uso de relaciones entre entidades de una base de datos, la consistencia ademas de asegurar la adecuada integridad entre entidades de una base de datos debe velar porque la operatoria de los sistemas con su funcionamiento no habilite el ingreso de inconsistencia de datos como redundancia , edición parcial de datos, etc.

    3) Los Datos deben ser validados.

    Se debe preguntar si los datos cumplen con reglas y restricciones particulares que se definen comopueden ser la validacion de datos ingresados a traves de APIs que garanticen la integridad de los mismos o como puede ser asegurar que donde se guarde la estatura no se guarde el peso de un paciente en un sistema del servicio de nutricion de un hospital pediatrico.

    4) Los datos deben estar completos.

    La incompletitud de datos es algo que la limpieza de datos no puede evitar sin embargo se pueden efectuar procesos  que generen datos con los cuales se completen a los faltantes.

    5) Los Datos deben ser uniformes.

    Es importante que los datos se manejen en las mismas unidades y de ser necesario se manejen sistemas de equivalencias entre datos que sean consistentes con las reglas del negocio de manera que no afecten a la informacion producida a partir de esos datos.
    Es critico que las unidades de medida sean conocidas para la limpieza de datos , si se desconoce las unidades de carga inicial de los datos se tornara imposible la limpieza de datos.

    Fuente 
    https://www.dataisbeauty.com/data-cleansing-best-practices-strategy/









    • Soporte al agente SSH.

    martes, 3 de diciembre de 2019

    Gestión de Múltiples Bases de Datos

    GESTIÓN DE BASES DE DATOS CON DBEAVER


    Es una herramienta de Gestion de Base de Datos de codigo libre soporta conexion a las bases de datos mas populares como pueden ser : SQL Server , Postgresql , Mysql , Oracle , Sybase ,FireBird, etc. 


    La version de Diciembre del 2019 trae:

    • Soporte al agente SSH.
    • Se agrego complementos de Eclipse.
    • Se mejoro el manejo del autocommit.
    • Se mejoro sus capacidades de exportacion.
    • Se graba sesiones del editor sql.
    • Ahora controla duplicacion de nombres entre los objetos de una base.
    • Para postgres se añadio el soporte de alias de tipos extras y tipos de datos arreglo.
    • etc.

    La era del big data y open data en la administración pública

      Dos Opciones de Resumen del documento  Opcion A El artículo "Big Data: una herramienta para la administración pública" explica c...