DFG-Projekt: Ein flexibles und effizientes System für RNA Sequenz-Struktur-Motive

Description of the project:
- no english description available -

Nicht-kodierende RNAs (ncRNAs) sind an vielen regulatorischen Prozessen einer Zelle beteiligt. Eine große Anzahl von ncRNAs, von denen die meisten nicht annotiert sind, wird durch Transkriptomanalysen (next-generation-sequencing (NGS)) gefunden. Die funktionale Analyse von ncRNAs stützt sich maßgeblich auf Sequenz-Struktur Ähnlichkeiten. Wegen der hohen rechnerischen Komplexität werden jedoch Programme, die Sequenz-Struktur Ähnlichkeiten finden, zur Zeit nicht bei der Annotierung von neu gefunden ncRNAs verwendet. Gängige Computer-gestützte genomweite ncRNA Analysen benötigen oft enorme Rechenressourcen (zehn bis hundert Computer-Jahre). Unser Ziel ist es, ein effizientes System zur Analyse und Annotation von ncRNAs aufzubauen. Wir werden ein einfach zu bedienendes webbasiertes Interface bereitstellen, welches Biologen ermöglicht ncRNAs zu annotieren und diese in ihrem genomischen Kontext zu analysieren, indem personalisierte Tracks im Genom-Browser genutzt werden. Das kombinierte System wird Folgendes leisten: 1.) Suche nach annotierten ncRNAs oder ncRNA Transkripten in anderen NGS Daten sowie in ncRNA-Datenbanken, die strukturelle Ähnlichkeit mit einer neu entdeckten ncRNA haben. Wir werden sowohl strukturierte kleine ncRNAs als auch lange nicht-kodierende RNAs (lncRNA), bei denen noch keine global konservierte Struktur gefunden wurde, berücksichtigen. 2.) Clustern einer Menge von neuen nicht-kodierenden RNAs, um strukturelle Gruppen bestimmen zu können, was eine Voraussetzung für die funktionale Annotierung von neuen ncRNA Klassen darstellt. Dies beinhaltet insbesondere ein globales Clustern von kompletten Transkripten. Wir werden zusätzlich an dem Problem des lokalen Clusterns basierend auf lokalen Alignments arbeiten, um regulatorische Motive zu finden, die in längeren Transkripten eingebettet sind. Dieses Problem ist gegenwärtig nur schwer mit automatisierten Programmen zu lösen. Ein wichtiges Ziel ist die Verbesserung der Effizienz und der Qualität von unserem Sequenz-Struktur Alignment Programm unter Verwendung fortschrittlicher algorithmischer Techniken. Gegenwärtig sind die besten exakten algorithmischen Ansätze nicht effizient genug für das routinemäßige Scannen von hunderten (wenn nicht tausenden) ncRNAs, die typischerweise in Transkriptomdaten gefunden werden. Um unsere Programme in der Praxis anwendbar zu machen, und damit die Bedürfnisse unserer Kooperationspartner zu erfüllen, müssen wir schnelle und sensitive Filter entwerfen, um die Anzahl der teuren Sequenz-Struktur Vergleiche zu reduzieren. Bisherige Verfahren verwendeten sequenzbasiertes Filtern. Offensichtlich funktioniert dieses Filtern nur für ncRNAs mit hoher Sequenz-Ähnlichkeit. Es ist jedoch bekannt, dass konservierte ncRNAs eine sehr geringe Sequenz-Konservierung haben können. Demzufolge ist ein weiteres Ziel, schnelle Sequenz-Struktur basierte Filtermethoden zu entwickeln, die auf unserem effizienten Graph-Kernel Ansatz basieren.

contact person: Prof. Dr. Rolf Backofen
Phone: +49 (0)761 203 7461
Email: backofen@informatik.uni-freiburg.de
Runtime:
Start of project: 2015
End of project: 2020
Project Management:
Albert-Ludwigs-University Freiburg
Prof. Dr. Rolf Backofen
Bioinformatik
Prof. Dr. Rolf Backofen
Georges-Köhler-Allee 106
79110 Freiburg
Germany

Phone: +49 (0) 761-203-7461
Fax: +49 (0) 761-203-7462
Email: backofen@informatik.uni-freiburg.de
http://www.bioinf.uni-freiburg.de
Actual Research Report
Financing:
  • DFG