Please use this identifier to cite or link to this item: https://hdl.handle.net/11147/4850
Title: Cost and benefit analysis of features used in machine learning based pre-miRNA detection
Other Titles: Makine öğrenimine dayalı öncül miRNA tespitinde kullanılan özelliklerin fayda ve maliyet analizi
Authors: Suluyayla, Rabia
Advisors: Allmaer, Jens
Keywords: MicroRNAs
RNA molecules
miRNA detection
Machine learning
Cost analysis
Benefit analysis
Publisher: Izmir Institute of Technology
Source: Suluyayla, R. (2016). Cost and benefit analysis of features used in machine learning based pre-miRNA detection. Unpublished master's thesis, İzmir Institute of Technology, İzmir, Turkey
Abstract: MicroRNAs (miRNAs) are short RNA molecules which play important roles in the post-trancriptional regulation of gene expression. Their transcription is followed by two RNA III endonuclease processing steps leading to mature miRNA formation. They are then incorporated into the RISC-complex which mediates mRNA targeting. Experimental miRNA prediction is difficult since detection relies on many factors therefore, computational methods have become indispensable. Therefore, machine learning methods rely on features describing precursor-miRNAs (pre-miRNAs) to be able to differentiate them from other hairpins in a genome. It is important to define feature groups which are informative, not highly correlated, and don’t incur a large computational cost in order to facilitate accurate miRNA detection. In this study for more than 800 pre-miRNA features the computational cost and benefit was analyzed. From these analyses five features (assl, lsr(%bp), lscm, asal and hpmfe rf I3), (four structural and one structuralthermodynamic one), which aren’t correlated, informative and are not computationally expensive are noticeable. Analyses are done with human hairpins, pseudo data; and a case study using the measles virus and the measles KEGG pathway genes. Overall calculation of human hairpins and measles virus took approximately 2 USD (United States Dollar) on Amazon web services. Supervised learning and random forest machine learning for miRNA prediction was applied and to two genes (TAB2 and BCC3) within the measles KEGG pathway and three hairpins were predicted. They were found to have human mature miRNA sequences embedded in them and their already annotated targets helped enlarge the KEGG measles pathway.
Gen ifadesinin post-transkripsiyonel regülasyonunda önemli bir rolü olan kısa RNA moleküller mikroRNAlardır (miRNA). Transkripsionlarını iki RNA III endonükleaz işlemi takip eder ve olgun miRNA oluşumuyla RISC-kompleksi mRNA hedeflemesini başlatır. Deneysel miRNA tahmini zordur çünkü miRNA ifadesni belirleme işlemi birçok faktöre dayanır bu yüzden bilişimsel metotlar daha umut vericidir. Genomdaki diğer saç tokası yapılarından (hairpin) ayırt edebilmek ve miRNA tespiti için, miRNAların karakteristik özellikleri tanımlanmalıdır. Bu sebeple, Veri Madenciliği metodları öncül miRNA (pre-miRNA) özelliklerini temel alır. Bu çalışmada 800den fazla pre-miRNA özelliğinin maliyet ve yarar analizi yapılmıştır. Bilgi kazanımı skoru özelliğin ne kadar ayırt edici olduğunu, Linear Korelasyon katsayısı özelliklerin birbirleriyle nasıl bağlı olduğunu ve zaman ölçümü de bir özelliğin ne kadar bilşimsel maliyetinin olduğunu gösterir. Sonuçardan yavaş olmayan ve bilgi verici beş özellik (assl, lsr(%bp), lscm, asal and hpmfe rfI3) (dört yapısal ve bir yapısal-enerjik) seçildi ve birbiriyle korelasyonları olmadığı görüldü. Analizler insan hairpin, sözde (pseudo) veri ve kızamık (measles) virüsü, Measles insan KEGG Patikası genleri ile yapılmıştır. İnsan hairpin ve measles virüsünün genel hesaplanması Amazon serverında yaklaşık olarak 2 USD (Amerikan Doları) tutmuştur. Gözetimli öğrenme ve Rastgele Orman karar ağacı Veri Madenciliği kullanılarak iki measles KEGG patikası geninden (TAB2 and BCC3) üç miRNA tahmin edilmiştir. Bunlarda olgun miRNA dizlileri gömülü bulunmuştur.
Description: Thesis (Master)--Izmir Institute of Technology, Molecular Biology and Genetics, Izmir, 2016
Full text release delayed at author's request until 2019.08.31
Includes bibliographical references (leaves: 41-46)
Text in English; Abstract: Turkish an English
xi, 78 leaves
URI: http://hdl.handle.net/11147/4850
Appears in Collections:Master Degree / Yüksek Lisans Tezleri

Files in This Item:
File Description SizeFormat 
T001507.pdfMasterThesis2.71 MBAdobe PDFThumbnail
View/Open
Show full item record



CORE Recommender

Page view(s)

154
checked on Nov 25, 2024

Download(s)

92
checked on Nov 25, 2024

Google ScholarTM

Check





Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.