Bioinformatik ist die Anwendung von Informatik -Techniken, um auf dem Gebiet der Biologie. Die Ziele der Bioinformatik sind Biowissenschaftler in der Organisation biologischer Daten und die Entwicklung der erforderlichen IT-Werkzeuge für die Entdeckung neuer wissenschaftlicher Hypothesen unterstützen. Klassifizierung Techniken , die auch als Clustering-Techniken bekannt sind, sind in der Bioinformatik wichtig, da sie die Trennung von verschiedenen biologischen Daten mit ähnlichen Attributen in verschiedene Gruppen zu ermöglichen. History
Die Größe der biologischen Daten ist exponentiell wächst, mit der Verdoppelung von Informationen beobachtet alle 15 Monate. Als Ergebnis sind Informatik und Informatik -Techniken intensiv in der Bearbeitung und Verwaltung von biologischen Daten verwendet. Das grundlegende Konzept der Bioinformatik ist , dass die meisten biologischen Daten ähnliche Merkmale aufweisen und kann in Clustern getrennt werden. Zum Beispiel können die Gene von einem Organismus in ihrer funktionellen Gruppen oder Stoffwechselwege klassifiziert werden. Proteine können auch auf der Grundlage der Gene, die exprimiert werden klassifiziert werden. Klassifikation bzw. Clustering Techniken erforderlich sind bei der Behandlung von großen Datenbanken von genetischen und biologischen Daten . Es gibt zwei Haupttypen von Klassifizierung Techniken in der Bioinformatik : . Die hierarchischen und die k -Means Klassifikationstechniken
hierarchische Klassifikation
Die hierarchische Klassifikation Technik biologischer Daten organisiert in ein Baum-Datenstruktur . Gene werden als Knoten im Baum ausgedrückt , während jeder Teilbaum von Knoten repräsentiert einen Cluster oder Gruppierung von Genen. Der Baum könnte entweder verwurzelt sein oder unbewurzelter . Ein Baum verwurzelt ist wie ein Baum mit nur einem Knoten an der Spitze definiert. Im Gegensatz dazu hat ein unbewurzelten Baum mehrere obersten Knoten .
K -Means Klassifizierung
komplizierter Klassifizierung Technik ist die k -Means Klassifikation, die versucht um einen Satz von Zentren, die quadratische Fehler Verzerrung unter den Datensätzen in mehrdimensionalen Raum zu minimieren finden. Ein Cluster wird durch die Gruppierung ähnliche Punkte auf ihrer nächsten Zentrum eingestuft. Der Lloyd-Algorithmus wird häufig in der k -Means Klassifizierung Technik verwendet . In diesem Algorithmus werden Datenpunkte zufällig in separate Cluster , die anschließend optimiert werden, um die minimale lokale quadratische Fehler Verzerrungen produzieren angeordnet.
Bedeutung
Nach verwandte Proteine wurden klassifiziert in ähnliche Gruppen , kann das Leben Wissenschaftler nutzen diese Informationen , um die Eigenschaften bestimmter weniger untersuchten Proteine vorherzusagen. Dies ist auch anwendbar auf andere Aspekte der Struktur von Proteinen. Eine weitere Verwendung der Klassifikation Techniken ist es das Problem der Bestimmung der Stammbaum der Organismen, auf ihren genetischen Sequenzen zu lösen. Die evolutionäre Baum wird von der DNA-Sequenz des Organismus entweder mit hierarchischen oder k -Means Klassifizierung Techniken konstruiert .
Überlegungen
hierarchische Klassifikation Technik ist eine relativ einfache und effektive über Clustering biologischer Daten. Im Gegensatz dazu gibt es keinen effizienten Algorithmus zum Zeitpunkt des Schreibens, das der Lage, die K -Means Klassifizierungstechnik effektiv , wenn die Größe der biologischen Daten erhöht ist . Dies deutet darauf hin , dass eine große Rechenleistung oft erforderlich ist, um k -Means Klassifizierung , die ein wichtiger Faktor bei der Auswahl der Technik zur Klassifizierung in der Bioinformatik -Anwendungen ist durchzuführen.