Tecnología

Inicio

Minería de datos y el proceso de ETL

Minería de datos y el proceso de ETL


La capacidad de procesamiento de los ordenadores permite a los investigadores y las empresas para analizar los datos de forma más compleja que cada antes. La minería de datos es el proceso de tratar de encontrar información útil en grandes conjuntos de datos. proceso de ETL de minería de datos se refiere a las etapas por las que están grabados los datos, codificados y se escriben en una base de datos para su posterior análisis.

definiciones

La minería de datos se define como el proceso de análisis de datos y la agregación en información que puede ser sometida a fines útiles. El proceso de minería de datos consiste en encontrar patrones en conjuntos de datos que proporcionan información categórica acerca de cómo el conjunto de datos se organiza. La minería de datos se puede utilizar para analizar la relación entre las variables de casi cualquier mensurables; algunas aplicaciones del mundo real de la minería de datos incluyen el análisis de las estrategias de marketing, procesos de producción y las tendencias de comportamiento humanos. El término ETL es un acrónimo de extracción, transformación y carga. Extraer, transformar y cargar se refiere a los tres procesos por los cuales se crea un sistema de base de datos para el análisis.

Extracción

El primer paso en la creación de un almacén de datos que puede ser extraído para el análisis es para extraer los datos de su fuente original. Los procedimientos de extracción varían en función del tipo de datos que está siendo extraído. A veces la extracción implica localizar y recuperar un subconjunto de datos de una o más bases de datos existentes. En otros casos, el proceso de extracción requiere una investigación original, como buscando en la web para los sitios que contienen información relevante.

Transformar

Una vez que los datos apropiados se encuentra durante el proceso de extracción a continuación, que los datos deben ser manipuladas de modo que se puede almacenar en una base de datos para su posterior análisis. El proceso de cambiar los datos de su forma original a una forma regularizado se denomina transformación. La transformación puede implicar cualquier número de cambios en los datos, incluyendo las funciones relativamente simples, tales como la conversión de las letras en minúsculas y la eliminación de los signos de puntuación de cadenas de caracteres. El proceso de transformación también puede incluir procedimientos más complejos, tales como la realización de funciones aritméticas sobre valores de origen, clasificación de datos y la verificación de la validez de los datos de origen. El objetivo de la fase de transformación es tomar los datos de extracción sin refinar y convertirla en datos que es útil para los objetivos del proyecto de minería de datos.

Carga

Una vez que los datos se transforma en el formato adecuado, que debe ser almacenado en un almacén de datos. La fase de carga se refiere al proceso por el cual transforma los datos se registra en una base de datos de ordenador. Una vez que la información se almacena en la base de datos, puede ser sometido a análisis cualitativo y cuantitativo para buscar patrones de interés.