
Bioinformatik Interaktiv
Description
Alles über E-Books | Antworten auf Fragen rund um E-Books, Kopierschutz und Dateiformate finden Sie in unserem Info- & Hilfebereich.
Reviews / Votes
"Das Buch bietet dem Leser außerdem unter www.wiley-vch.de/home/bioinformatik eine attraktive Webseite mit Zusatzmaterial an. Sehr zu empfehlen für Bibliotheken an Hochschulstandorten."ekz-Informationsdienst
More details
Other editions
Additional editions

Persons
Stephan Waack ist Leiter der Forschungsgruppe Theoretische Informatik und Algorithmische Methoden des Instituts für Informatik der Universität Göttingen. Er hat an der Humboldt-Universität zu Berlin Mathematik studiert, wurde dort 1983 promoviert und hat sich 1989 habilitiert. Sein Hauptarbeitsgebiet war zunächst die Komplexitätstheorie. Seit 2001 beschäftigt er sich auch mit algorithmischen Problemen in der Angewandten Informatik, insbesondere der Bioinformatik. In dieser Zeit sind 28 Publikationen entstanden.
Content
GRUNDLAGEN - BIOLOGIE UND DATENBANKEN
Biologische Grundlagen
Sequenzen und ihre Funktion
Datenbanken
LERNEN, OPTIMIEREN UND ENTSCHEIDEN
Grundbegriffe der Stochastik
Bayessche Entscheidungstheorie und Klassifikatoren
Klassische Cluster- und Klassifikationsverfahren
Neuronale Netze
Genetische Algorithmen
ALGORITHMEN UND MODELLE DER BIOINFORMATIK
Paarweiser Sequenzvergleich
Sequenz-Motive
Scoring-Schemata
FASTA, BLAST, PSI-BLAST
Multiple Sequenzalignments
Grundlagen phylogenetischer Analysen
Hidden-Markov-Modelle
Profil-HMMs
Conditional Random Fields
Vorhersage der Sekundärstruktur
Vergleich von Protein-3D-Strukturen
Homologiemodellierung und Vorhersage der Protein-3D-Struktur
Analyse integraler Membranproteine
Entschlüsselung von Genomen
Auswertung von Genexpressionsdaten
Analyse von Protein-Protein-Interaktionen
Zum Schluss
Webseite mit Zusatzmaterial und Fragen: www.wiley-vch.de/HOME/bioinformatik/.
1
Biologische Grundlagen
In den folgenden Kapiteln beschäftigen wir uns hauptsächlich mit Algorithmen auf Makromolekülen. Für das Verständnis der Methoden und Modellierungsansätze benötigen wir biologische Grundkenntnisse, die wir in diesem Kapitel einführen. Zu den wichtigsten molekularbiologischen Objekten gehören DNA, RNA und Proteine. Dies sind Moleküle, die jeweils aus kleineren, spezifischen Bausteinen aufgebaut sind. Deren lineare Abfolge kann in Form einer Zeichenkette (Sequenz) angegeben werden. Mit Sequenzen beschäftigen wir uns im folgenden Kapitel 2 genauer.
Drei wichtige Makromoleküle: DNA, RNA, Proteine
Die DNA ist der wichtigste Datenträger der Molekularbiologie. Hochdurchsatzmethoden sind mittlerweile so verfeinert, dass die Zusammensetzung der DNA mit geringem Aufwand bestimmt werden kann. Proteine haben Funktionen sowohl als Umsetzung der Geninformation als auch bei der Weitergabe der Gene an die nachfolgenden Generationen. Die biologische Bedeutung der RNA hat sich durch Befunde der letzten Jahre stark verändert. Es ist klar geworden, dass RNA-Moleküle in erheblichem Ausmaß an Regulationsaufgaben beteiligt sind.
In vivo liegen DNA, RNA und Proteine als dreidimensionale Strukturen vor. Neben der Beschreibung dieser Strukturen gehen wir im Folgenden auf solche Eigenschaften oder Prozesse ein, die in bioinformatischen Algorithmen von Bedeutung sind. Einen breiteren Raum nimmt die Darstellung von Proteinarchitekturen ein. Das Kapitel schließt mit einer Definition wichtiger Fachbegriffe.
1.1 DNA
Im bioinformatischen Kontext stehen Sequenzen in der Regel für die Abfolge einer kleinen, definierten Menge von Einzelbausteinen. DNA-Sequenzen sind Modelle für Makromoleküle der Desoxyribonucleinsäure (abgekürzt DNS oder DNA), die als fädige Struktur vorliegt. Jeder Strang ist eine Folge von vier Einzelbausteinen (Nucleotide), diese bestehen jeweils aus
Nucleotid
- einem Zucker (in der DNA: Desoxyribose),
- einer der Purin- oder Pyrimidinbasen Adenin, Guanin oder Cytosin, Thymin und
- einem Phosphatrest.
In der Zelle kommt DNA üblicherweise in doppelsträngiger Form vor. Darin stehen sich Nucleotide paarweise gegenüber, wobei nur zwei Paarungen zugelassen sind (siehe Abb. 1.1 und Abb. 1.2).
Aufgrund des chemischen Aufbaus der Nucleotide hat jeder DNA-Strang beliebiger Länge eine eindeutige Orientierung mit jeweils einem freien 3′-OH- und einem 5′-OH-Ende. Sequenzen werden nach Übereinkunft stets so geschrieben, dass das 5′-OH Ende links und das 3′-OH-Ende rechts steht. In vivo ist die DNA-Doppelhelix meist zu einem Ring geschlossen, z. B. in Chromosomen oder Plasmiden. Darin sind die beiden komplementären DNA-Stränge gegenläufig angeordnet. Die durch den Aufbau vorgegebene Orientierung bedingt die Richtung, in der Gene abgelesen werden. Da Gene auf beiden Strängen codiert sein können, in Datensammlungen jedoch nur die Sequenz eines Stranges abgelegt wird, muss zur Bestimmung der Sequenz des Gegenstranges das reverse Komplement gebildet werden.
Reverses Komplement: Sequenz des Gegenstranges
Abb. 1.1 Raumstruktur der DNA. In der Abbildung ist die Doppelhelix gut zu erkennen. Die basischen Anteile der Nucleotide sind nach innen gerichtet und durch Wasserstoffbrücken verknüpft. Außen verlaufen die Zucker-Phosphat-Anteile der polymerisierten Nucleotide.
Abb. 1.2 Basenpaarungen in der DNA. In der als Doppelhelix bekannten DNA-Struktur liegen sich jeweils paarweise die Basen Adenin und Thymin sowie Guanin und Cytosin gegenüber. Zwischen A:T-Paaren können zwei, zwischen G:C-Paaren drei Wasserstoffbrücken ausgebildet werden. Je höher der Anteil von G:C-Paaren, desto mehr Energie muss für das Trennen der beiden Stränge einer DNA-Doppelhelix aufgewendet werden.
1.2 Genetischer Code und Genomkomposition
Die Sequenzinformation eines jeden Proteins ist in Form eines Gens in der DNA-Sequenz codiert. Jeweils drei direkt aufeinanderfolgende Nucleotide, die nicht überlappend abgelesen werden, codieren für eine Aminosäure. Eine solche Nucleotidgruppe wird Triplett oder Codon genannt. Die Abbildung der 64 Tripletts auf die 20 Aminosäuren heißt genetischer Code, dieser ist in Tabelle 1.1 dargestellt. Dieser Code ist quasi universell, abweichende Codonzuordnungen finden sich z. B. bei Mitochondrien, Mycoplasma und einigen Protozoen (Übersicht in [1]).
Basentriplett
Codon
Die Struktur der DNA legt die Lage der einzelnen Gene inner-halb einer DNA-Sequenz nicht fest, daher ergeben sich – wegen der zwei möglichen Ableserichtungen und der drei möglichen Intervalle pro Leserichtung – insgesamt sechs Leseraster. Prinzipiell kann jede Codonsequenz ein Gen codieren, sofern sie zwischen ein im selben Leseraster liegendes Start- und Stoppcodon eingebettet ist. Eine derartige Sequenz wird zur Unterscheidung von Genen (für die eine Funktion nachgewiesen ist) offenes Leseraster (open reading frame, ORF genannt.
Leseraster
ORF
Tab. 1.1 Der genetische Code. Die Zahlen geben die Nucleotidposition im Codon an. In einigen speziellen Fällen, wie in mitochondrialen Genomen, kann es Abweichungen von diesem kanonischen Code geben.
Diese Situation wird im folgenden Beispiel klar. Je nach Leseraster resultieren aus derselben DNA-Sequenz unterschiedliche Proteinsequenzen:
Beispiel
Leserichtung → |.....ORF.....| Leserahmen 1 ..MetValGlyLeuSer*** 2 .TyrGlyArgProGluLeu. 3 ValTrpSerAla***Val.. DNA, GTATGGTCGGCCTGAGTTAA (Doppelstrang) CATACCAGCCGGACTCAATT Leserahmen 4 ..HisAspAlaGlnThrLeu 5 .IleThrProArgLeu***. 6 TyrProArgGlySerAsn.. ← Leserichtung Im gezeigten Beispiel existiert genau ein ORF (hier im Leserahmen 1), dessen Lage durch ein Startcodon (Met) und ein Stoppcodon (durch *** markiert) definiert ist. In allen anderen Leserastern treten in der gezeigten Sequenz Stoppcodons auf oder es fehlt ein Startcodon. Gene haben allerdings in der Regel eine Länge von mehr als 80 Codonen.
Der Informationsgehalt I der drei Basenpositionen im Codon ist nicht gleich, es gilt I(Position 2) > I(Position 1) > I(Position 3) [2]. Hierfür ist der genetische Code verantwortlich: Eine Mutation der dritten Base im Codon verändert die Aminosäurenkomposition häufig nicht; eine Mutation in der ersten Basenposition führt häufig zum Einbau einer Aminosäure mit ähnlichen Eigenschaften; eine Mutation der mittleren Base verursacht häufig den Einbau einer Aminosäure mit anderen Eigenschaften [1]. Die geringsten Auswirkungen auf die Aminosäurenkomposition der Proteine haben somit Veränderungen der Basenkomposition in Position 3 des Codons, gefolgt von Veränderungen der Basenkomposition an Position 1. Diese Befunde machen deutlich, dass simple statistische Konzepte nicht dazu geeignet sind, codierende Sequenzen adäquat zu modellieren.
Informationsgehalt der Basenpositionen ist unterschiedlich
Der GC-Gehalt ist eine charakteristische Größe eines Genoms. In bakteriellen Genomen schwankt der GC-Gehalt zwischen 25 % und 75 %. In G:C-Basenpaaren werden drei Wasserstoffbrückenbindungen ausgebildet, in A:T-Basenpaaren nur zwei; daher wurde vermutet, dass ein hoher GC-Gehalt des Genoms z. B. für thermophile [3] oder halophile [4] Organismen vorteilhaft wäre. Allerdings ist der GC-Gehalt phylogenetisch und nicht phänotypisch bedingt. Thermophile Organismen leben in Habitaten mit erhöhten Umgebungstemperaturen, halophile kommen in Umgebungen mit erhöhter Salzkonzentration vor. Der spezifische GC-Gehalt einer phylogenetischen Linie scheint durch evolutionären Druck eingestellt zu werden [5]. Aus dem Vergleich des GC-Gehalts der Genome solcher Bakteriophagen, die ihr eigenes DNA-Replikationssystem, und solcher, die das Replikationssystem des Wirts Escherichia coli verwenden, mit dem GC-Gehalt des Genoms von Escherichia coli wurde geschlossen, dass der GC-Gehalt vom DNA-Replikationssystem moduliert wird [1]. Mutationen im mutT Gen von Escherichia coli induzieren Transversionen von A:T- nach G:C-Basenpaaren [6] und Mutationen im mutY Gen Transversionen von G:C- nach...
System requirements
File format: ePUB
Copy protection: Adobe-DRM (Digital Rights Management)
System requirements:
- Computer (Windows; MacOS X; Linux): Install the free reader Adobe Digital Editions prior to download (see eBook Help).
- Tablet/smartphone (Android; iOS): Install the free app Adobe Digital Editions or the app PocketBook before downloading (see eBook Help).
- E-reader: Bookeen, Kobo, Pocketbook, Sony, Tolino and many more (not Kindle).
The file format ePub works well for novels and non-fiction books – i.e., „flowing” text without complex layout. On an e-reader or smartphone, line and page breaks automatically adjust to fit the small displays.
This eBook uses Adobe-DRM, a „hard” copy protection. If the necessary requirements are not met, unfortunately you will not be able to open the eBook. You will therefore need to prepare your reading hardware before downloading.
Please note: We strongly recommend that you authorise using your personal Adobe ID after installation of any reading software.
For more information, see our ebook Help page.