Halle-Wittenberg – Das Erbgut von Pflanzen und Tieren zu analysieren und die Position einzelner Gene zu bestimmen, ist ein komplexer Prozess. Modellorganismen, wie die berühmte Ackerschmalwand (Arabidopsis thaliana), sind das Untersuchungsobjekt vieler Forschergruppen weltweit. Entsprechend detailliert ist auch das Wissen über ihr Genom, die darin kodierten Gene und deren Varianten. "Für frisch sequenzierte Genome muss jedoch deren Lage durch Computerprogramme vorhergesagt und anhand der Ähnlichkeit zu bekannten Genen eine wahrscheinliche Funktion zugeordnet werden", erklärt Jan Grau von der Martin-Luther-Universität Halle-Wittenberg (MLU).

Um das Erbgut entsprechend beschreiben zu können, arbeiten die Forscher mit speziellen Computerprogrammen. Die Software durchsucht dabei das neu sequenzierte Erbgut nach Regionen, die sehr ähnlich mit bereits bekannten Genen sind. Der Ansatz erwies sich in den vergangenen Jahren als besonders erfolgversprechend bei sogenannten proteinkodierenden Genen, die die Blaupause für Proteine und Enzyme darstellen.

Das Problem in höher entwickelten Organismen ist allerdings, dass die Gene im Erbgut nicht immer zusammenhängend vorliegen, weil relevante Gen-Abschnitte, so genannte Exons, durch Teilabschnitte unterbrochen werden. Diese nicht kodierenden Abschnitte werden auch Introns genannt. "Die Gene liegen also zum Teil in mehrere Abschnitte unterteilt vor, was es Computerprogrammen mitunter erschwert, diese korrekt zu erkennen", so Jens Keilwagen Julius Kühn-Instituts (JKI) Quedlinburg.

Introns folgen bestimmten Regeln

Die Forschergruppe von MLU und JKI hat dafür nun einen neuen Lösungsansatz entwickelt, indem sie für eine spezielle Gruppe von Genen feststellten, dass die Lage der jeweiligen Intron einem allgemeinen Prinzip folgen. Auf dieser Grundlage entwickelte die Forschergruppe eine Software, mit der Wissenschafter Genome nach gut erforschten Genen durchsuchen können. Das Programm sucht dazu nach ähnlichen Abschnitten für jedes Exon eines Gens, wobei die Treffer jedoch weit über das Genom verstreut liegen können.

"Um das aufzulösen, haben wir einen effizienten Algorithmus entwickelt, der uns diese Treffer plausibel zusammenbaut. Das heißt, dass die Exons in der richtigen Reihenfolge und auf dem Genom nicht zu weit voneinander entfernt liegen. Außerdem sollten möglichst alle Exons in der entsprechenden Region auch wiedergefunden werden", erklärt Keilwagen.

Im Praxistest haben die Forscher ihre neue Software mit anderen Programmen verglichen. Das Ergebnis: Das neue Programm kann eine größere Anzahl von Genen genauer vorhersagen als andere Programme. Die Forscher haben ihr neues Programm mit dem Namen "GeMoMa" als frei zugängliche Open-Source-Software veröffentlicht. (red, 22.2.2016)