Tecnología

Inicio

Introducción a las técnicas de clasificación en Bioinformática

La bioinformática es la aplicación de técnicas informáticas para el campo de la biología. Los objetivos de la bioinformática son para ayudar a los científicos de la vida en la organización de los datos biológicos y el desarrollo de las herramientas informáticas necesarias para el descubrimiento de nuevas hipótesis científicas. técnicas de clasificación, también conocidas como técnicas de agrupamiento, son importantes en la bioinformática, ya que permiten la separación de diversos datos biológicos con atributos similares en conjuntos distintos.

Historia

El tamaño de los datos biológicos ha ido creciendo exponencialmente, con la duplicación de la información observado cada 15 meses. Como resultado, la informática y las técnicas informáticas se utilizan intensivamente en el tratamiento y gestión de datos biológicos. El concepto más fundamental en la bioinformática es que la mayoría de los datos biológicos comparten características similares y se pueden separar en grupos. Por ejemplo, los genes de un organismo se pueden clasificar en sus grupos funcionales o rutas metabólicas. Las proteínas también pueden ser clasificadas en función de los genes que se expresan. Técnicas de clasificación o agrupamiento son necesarias en el manejo de grandes bases de datos de los datos genéticos y biológicos. Hay dos tipos principales de técnicas de clasificación en bioinformática: el jerárquico y las técnicas de clasificación k-medias.

La clasificación jerárquica

La técnica de clasificación jerárquica organiza los datos biológicos en una estructura de datos en árbol. Los genes se expresan como nodos en el árbol, mientras que cada sub-árbol de nodos representa un grupo o agrupación de genes. El árbol puede ser o bien arraigados o sin raíz. Un árbol con raíz se define como un árbol con un solo nodo en la parte superior. Por el contrario, un árbol de unrooted tiene múltiples nodos más altas.

k-medias Clasificación

Una técnica de clasificación más complicada es la clasificación k-medias, que trata de encontrar un conjunto de centros que minimizan la distorsión de error cuadrático entre los conjuntos de datos en el espacio multidimensional. Un grupo se clasifica mediante la agrupación de puntos relacionados con su centro más cercano. El algoritmo de Lloyd se utiliza a menudo en la técnica de clasificación k-medias. En este algoritmo, los puntos de datos están dispuestas al azar en grupos separados, que posteriormente se optimizan para producir las distorsiones de error cuadrado locales mínimos.

Significado

Después de proteínas relacionadas se han clasificado en grupos similares, ciencias de la vida se pueden utilizar esa información para predecir las propiedades de ciertas proteínas menos estudiados. Esto es aplicable a otros aspectos de la estructura de las proteínas también. Otro uso de técnicas de clasificación es resolver el problema de determinar el árbol evolutivo de ciertos organismos en base a sus secuencias genéticas. El árbol evolutivo se construye a partir de la secuencia de ADN del organismo ya sea utilizando técnicas de clasificación jerárquica o de k-medias.

consideraciones

técnica de clasificación jerárquica es una manera relativamente simple y eficaz de la agrupación de datos biológicos. Por el contrario, no existe ningún algoritmo eficiente en el momento de la escritura que es capaz de realizar la técnica de clasificación k-medias eficazmente como el tamaño de los datos aumenta biológicos. Esto sugiere que a menudo se requiere una gran potencia de cálculo para llevar a cabo la clasificación k-medias, que es un factor importante a considerar cuando se selecciona la técnica de clasificación para utilizar en aplicaciones de la bioinformática.