Tecnología

Inicio

Las teorías de limpieza de datos

Las teorías de limpieza de datos


Se pueden cometer errores durante la recolección e integración de datos, y los analistas necesitan saber cómo identificar y corregir estos errores. Esto se denomina depuración de los datos, o de la depuración de datos. Esto no es una ciencia exacta, y, a veces la decisión de qué hacer se basa en el criterio del analista; Sin embargo, sabe que no sólo es importante contar con una cantidad suficiente de datos - debe ser de una calidad de buena reputación, también.

Semántica y formato

Una de las tareas de limpieza de datos común implica la eliminación de errores en el formato. Esto podría ser algo tan simple como faltas de ortografía hechas durante la recolección de datos o de entrada, hasta problemas con el símbolo que se utiliza para separar las entradas. Por ejemplo, imagine la siguiente pieza de datos está dentro de un conjunto de datos, donde se utiliza un apóstrofe para separar las entradas:

Los observadores de aves 'Club'42 Beacon Street'Boston

Este sería leído como:

Los observadores de aves
Club
42 Beacon Street
Bostón

consultas y programas automatizados a menudo se utilizan para limpiar los datos de este error.

Integración

Algunos conjuntos de datos están solos bien, pero se vuelven problemáticos, una vez que se integran en un repositorio más grande o un almacén de datos. Por ejemplo, la edad se puede almacenar como fecha de nacimiento:

dd / mm / aa
dd / mm / aaaa

O por rango:

20-30, 30-40, 40-50
15-25, 25-35, 35-45

En algunos casos, como la fecha de nacimiento de formato, es bastante fácil de identificar las estructuras semánticas y normalizar las entradas. En casos como la edad oscila sin embargo, se deben hacer suposiciones. Por ejemplo; es el número de personas 25-35 envejeció la media de las personas 20 a 30 y 30 a 40 años de edad?

Los valores atípicos

Los valores extremos son los puntos de datos que se encuentran muy lejos del resto de los datos. Por ejemplo, una edad de 600, o una prueba de puntuación varias veces superiores a la media. En el primer caso, se puede asumir con seguridad que era un error tipográfico, pero en este último no es tan evidente. Cuando no se sabe si es un valor atípico es un error o un punto de datos legítima, es su juicio si eliminar o no, teniendo en cuenta la finalidad de los datos.

Datos perdidos

También debe decidir qué hacer si los datos no se encuentra. En primer lugar, los patrones deben ser identificados mediante consultas y análisis estadísticos - la distribución de los datos que faltan determina lo que debe hacer. Por ejemplo, si una encuesta en línea tiene dos páginas, pero solo se respondieron las preguntas de la primera página, esta información puede ser utilizada para ayudar a refinar las formas. Si los datos faltantes se distribuyen al azar y se encuentra en la misma variable, a veces es posible hacer estimaciones sobre la base de lo ya conocido.