Please use this identifier to cite or link to this item: https://hdl.handle.net/11147/4864
Title: Automatic, fast and accurate sequence decontamination
Other Titles: Otomatik, hızlı ve doğru dizi dekontaminasyonu
Authors: Bağcı, Caner
Advisors: Allmer, Jens
Tekir, Selma
Keywords: Molecular biology
Biotechnology
Bioinformatics
Next generation sequencing
DNA sequencing
Publisher: Izmir Institute of Technology
Source: Bağcı, C. (2016). Automatic, fast and accurate sequence decontamination. Unpublished master's thesis, İzmir Institute of Technology, İzmir, Turkey
Abstract: The introduction of massively parallel sequencing technologies was a revolutionary step in genomics. Their decreasing cost and powerful features have put them more and more on demand in the last decade. It is now possible to sequence even complete genomes of organisms, using massively parallel sequencing technologies even for small laboratories around the world. However, the power of this powerful technology comes with its challenges. The challenges are both in technological and computational side of the work. In this work, one of these computational challenges is addressed and a novel algorithm is offered to solve the problem. Sequencing by synthesis is one of the methods used in many different massively parallel sequencing instruments. This method utilizes the biological process of DNA replication and with the help of different means of detection, it allows sequencing a DNA molecule while it is replicated. Since DNA polymerase requires a primer to start the replication reaction, short oligonucleotide adapters are used in sequencing by synthesis methods to initiate the reaction. However, certain circumstances allow these adapters to contaminate final sequence reads. Several tools have been offered to trim adapters from reads; but all depend on the prior knowledge of the adapter sequence by the bioinformatician. In this work, an algorithm is offered to detect and trim adapters only using the sequences of reads, without relying on prior knowledge of adapter sequences. The algorithm was shown to perform better or on the same grounds with existing methods in terms of speed and efficiency.
Kitlesel parallel dizileme yöntemlerinin ortaya çıkışı genomik alanında devrim niteliğinde bir adım oldu. Giderek düşen fiyatları ve güçlü özellikleri bu yöntemleri her geçen gün daha ilgi çekici hale getirdi. Günümüzde bu yöntemlerin kullanımı, dünya çapında küçük laboratuvarların bile genom düzeyinde dizileme yapabilmesine olanak sağlamaktadır. Ancak bu yöntemin de güçlü özellikleri yanında bazı problemleriyle geliyor. Bu problemler hem teknolojik, hem de bilişimsel alanlardadır. Bu çalışmada, bu bilişimsel problemlerden biri ele alınmış ve çözümü için yeni bir algoritma önerilmiştir. Sentez ile sekanslama, bir çok kitlesel parallel sekanslama aletinde kullanılan yaygın bir yöntemdir. Bu yöntem biyolojik DNA kopyalanması reaksiyonunu kullanarak, değişik algılama yöntemleriyle DNA dizilimesi yapmayı sağlar. DNA polimeraz enzimi kopyalama reaksiyonunu başlatabilmek için bir primer’e ihtiyaç duyduğu için, sentez ile sekanslama yöntemlerinde kısa adaptör sekansları kullanılır. Ancak bazı durumlar bu adaptörlerin sonuçta çıkan dizi okumalarını kontamine etmesine sebep olur. Bu dizileri temizlemek için çeşitli yöntemler önerilmiş olsa da, bunların hepsi adaptör dizilerinin önceden biliniyor olması varsayımı üzerine çalışır. Bu çalışmada, adaptör sekanslarını önceden herhangi bir bilgi olmadan sadece okumaların kendilerini kullanarak bulan ve temizleyen bir algoritma önerilmektedir. Algoritmanın hız ve etkinlik açısından, var olan yöntemlerden daha iyi veya eşit düzeylerde olduğu gösterilmiştir.
Description: Thesis (Master)--Izmir Institute of Technology, Biotechnology, Izmir, 2016
Full text release delayed at author's request until 2019.08.15
Includes bibliographical references (leaves: 31-39)
Text in English; Abstract: Turkish and English
xi, 44 leaves
URI: http://hdl.handle.net/11147/4864
Appears in Collections:Master Degree / Yüksek Lisans Tezleri

Files in This Item:
File Description SizeFormat 
T001522.pdfMasterThesis1 MBAdobe PDFThumbnail
View/Open
Show full item record



CORE Recommender

Page view(s)

136
checked on Apr 15, 2024

Download(s)

38
checked on Apr 15, 2024

Google ScholarTM

Check





Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.