El data cleansing, data scrubbing o limpieza de datos es el acto de descubrimiento, corrección o
eliminación de datos erróneos de una base de datos. Este proceso permite identificar datos
incompletos, incorrectos, inexactos, no pertinentes, etc. y luego substituir, modificar o eliminar
estos datos sucios (data duty), para alcanzar datos de calidad (data quality)
1
.
1 Fuente: Wikipedia. Limpieza de datos. En línea: https://es.wikipedia.org/wiki/Limpieza_de_datos
Recomendaciones para el proceso de Data Cleasing:
1) Los Datos deben ser Precisos.
El proceso de limpieza de datos debe garantizar que los datos son certeros , precisos , validos y la mejor manera de garantizar esto es comparándolos con otros orígenes de datos, sino existe esta fuente o la fuente utilizada para comparar nuestros datos es inexacta nuestros datos también lo serán y la limpieza no cumplirá su objetivo.
2) Los Datos deben ser consistentes.
Los datos deben ser los mismos en calidad y representación en los distintos orígenes de datos de los que tengamos gobernanza, la consistencia es mas que asegurar la integridad de datos a través del uso de relaciones entre entidades de una base de datos, la consistencia ademas de asegurar la adecuada integridad entre entidades de una base de datos debe velar porque la operatoria de los sistemas con su funcionamiento no habilite el ingreso de inconsistencia de datos como redundancia , edición parcial de datos, etc.
3) Los Datos deben ser validados.
Se debe preguntar si los datos cumplen con reglas y restricciones particulares que se definen comopueden ser la validacion de datos ingresados a traves de APIs que garanticen la integridad de los mismos o como puede ser asegurar que donde se guarde la estatura no se guarde el peso de un paciente en un sistema del servicio de nutricion de un hospital pediatrico.
4) Los datos deben estar completos.
La incompletitud de datos es algo que la limpieza de datos no puede evitar sin embargo se pueden efectuar procesos que generen datos con los cuales se completen a los faltantes.
5) Los Datos deben ser uniformes.
Es importante que los datos se manejen en las mismas unidades y de ser necesario se manejen sistemas de equivalencias entre datos que sean consistentes con las reglas del negocio de manera que no afecten a la informacion producida a partir de esos datos.
Es critico que las unidades de medida sean conocidas para la limpieza de datos , si se desconoce las unidades de carga inicial de los datos se tornara imposible la limpieza de datos.
Fuente
https://www.dataisbeauty.com/data-cleansing-best-practices-strategy/
1 Fuente: Wikipedia. Limpieza de datos. En línea: https://es.wikipedia.org/wiki/Limpieza_de_datos
Recomendaciones para el proceso de Data Cleasing:
1) Los Datos deben ser Precisos.
El proceso de limpieza de datos debe garantizar que los datos son certeros , precisos , validos y la mejor manera de garantizar esto es comparándolos con otros orígenes de datos, sino existe esta fuente o la fuente utilizada para comparar nuestros datos es inexacta nuestros datos también lo serán y la limpieza no cumplirá su objetivo.
2) Los Datos deben ser consistentes.
Los datos deben ser los mismos en calidad y representación en los distintos orígenes de datos de los que tengamos gobernanza, la consistencia es mas que asegurar la integridad de datos a través del uso de relaciones entre entidades de una base de datos, la consistencia ademas de asegurar la adecuada integridad entre entidades de una base de datos debe velar porque la operatoria de los sistemas con su funcionamiento no habilite el ingreso de inconsistencia de datos como redundancia , edición parcial de datos, etc.
3) Los Datos deben ser validados.
Se debe preguntar si los datos cumplen con reglas y restricciones particulares que se definen comopueden ser la validacion de datos ingresados a traves de APIs que garanticen la integridad de los mismos o como puede ser asegurar que donde se guarde la estatura no se guarde el peso de un paciente en un sistema del servicio de nutricion de un hospital pediatrico.
4) Los datos deben estar completos.
La incompletitud de datos es algo que la limpieza de datos no puede evitar sin embargo se pueden efectuar procesos que generen datos con los cuales se completen a los faltantes.
5) Los Datos deben ser uniformes.
Es importante que los datos se manejen en las mismas unidades y de ser necesario se manejen sistemas de equivalencias entre datos que sean consistentes con las reglas del negocio de manera que no afecten a la informacion producida a partir de esos datos.
Es critico que las unidades de medida sean conocidas para la limpieza de datos , si se desconoce las unidades de carga inicial de los datos se tornara imposible la limpieza de datos.
Fuente
https://www.dataisbeauty.com/data-cleansing-best-practices-strategy/
- Soporte al agente SSH.
No hay comentarios:
Publicar un comentario