Doğal Dil İşleme ile Viral Evrimin Modellenmesi

Tenekeci, Samet

Doğal Dil İşleme ile Viral Evrimin Modellenmesi

Date

2025

Authors

Tenekeci, Samet

Abstract

Etkili önleyici tedaviler geliştirmek için viral evrimin ardındaki karmaşık kuralları ve mekanizmaları anlamak kritik önem taşır; ancak bağışıklık sisteminden kaçan mutasyonların tahmini hala önemli bir zorluk teşkil etmektedir. Protein dil modellerindeki son gelişmeler, viral kaçışın in silico analizine yönelik yenilikçi yöntemlerin önünü açmıştır. Bu çalışmada, Siamese (CoV-SNN), Üçlü (CoV-TNN) ve Sınıflandırıcı (CoV-CLS) sinir ağı mimarilerine dayanan üç karşıt öğrenme çerçevesi geliştirilmektedir. Bu modeller, düşük maliyetli bir protein dil modelinden (CoV-RoBERTa) elde edilen temsiller üzerinden protein dizileri arasındaki benzerlikleri ve farklılıkları yakalayarak varyantları etkili bir şekilde sınıflandırmaktadır. Modeller, antijenik varyasyonu anlamsal değişimle, viral uyumu ise dilbilgisellikle eşleştirmekte; viral kaçışı tespit etmek için Sınırlı Anlamsal Değişim Arama (CSCS) çerçevesini kullanmaktadır. Önerilen modellerin doğruluk ve verimliliği artırmak için yüksek kaliteli bir SARS-CoV-2 Spike proteini veri kümesi, özel bir belirteçleyici, özgün ikili ve üçlü seçme algoritmaları geliştirilmekte ve yeni bir dilbilgisellik ölçütü önerilmektedir. Geliştirilen modeller, hem laboratuvar ortamında doğrulanmış hem de yapay olarak üretilmiş kaçış mutasyonları üzerinde test edilmektedir. Varyant sınıflandırmada CoV-RoBERTa doğruluğu %5 artırırken, eğitimi 30 kat, tahminlemeyi 45 kat hızlandırmaktadır. Viral kaçış tahmininde CoV-SNN top-K doğruluğu 3.5 kat artırırken, GPU bellek kullanımını 20 kat, ön eğitim süresini 2 kat, tahminleme süresini 125 kat azaltmaktadır. Ayrıca, sıfır atış sınıflandırmasında %91.5 doğruluk sağlamaktadır. Bu sonuçlar, özelleştirilmiş dil modellerinin viroloji alanındaki potansiyelini ortaya koyarak, genomik sürveyans çalışmalarında güçlü bir araç olabileceklerini göstermektedir.
Understanding the complex rules and mechanisms behind viral evolution is crucial for developing better preventive treatments, yet predicting immune-evading mutations remains challenging. Recent advances in protein language models have led to novel approaches for in silico analysis of viral escape. In this work, we introduce three contrastive learning frameworks based on Siamese (CoV-SNN), Triplet (CoV-TNN), and Classifier (CoV-CLS) neural networks. These models classify variants by capturing the similarities and differences between their protein sequences through embeddings from a light-weight protein language model (CoV-RoBERTa). The models map antigenic variation to semantic change and viral fitness to grammaticality, employing Constrained Semantic Change Search (CSCS) framework to detect viral escape. To further enhance the accuracy and efficiency of the proposed models, we develop a high-quality SARS-CoV-2 Spike protein dataset, a custom tokenizer, novel pair and triplet selection algorithms, and propose a new proxy for grammaticality. We evaluate our models on novel variant sequences with wet-lab verified and computationally generated escape mutations. For variant classification, CoV-RoBERTa improves accuracy by 5%, while speeding up training and inference by 30 and 45 times. In viral escape prediction, CoV-SNN boosts top-K accuracy by 3.5 times, reduces GPU memory usage by 20 times, halves pre-training time, and speeds up inference by 125 times, achieving 91.5% accuracy in zero-shot classification. Furthermore, our models reach a mean AUC of 0.81 on wet-lab verified escape mutations, outperforming nine baselines. These results demonstrate the potential of domain-specific language models in virology, positioning them as a powerful tool for genomic surveillance studies.

Keywords

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Doğal Dil İşleme, Evrişimli Sinir Ağları, Yapay Sinir Ağları, Computer Engineering and Computer Science and Control, Natural Language Processing, Convolutional Neural Networks, Artificial Neural Networks

Turkish CoHE Thesis Center URL

Click Here

End Page

116

URI

https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=Xau5rw3KuCgEuy-FuJQtsO6inmWfiPI3JF0i0adDJ2MFw4h8VsoZmh6w96Mbh_HL
https://hdl.handle.net/11147/18611

Collections

Phd Degree / Doktora

Full item page

Google Scholar™

Check

Doğal Dil İşleme ile Viral Evrimin Modellenmesi

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Open Access Color

OpenAIRE Downloads

OpenAIRE Views

Research Projects

Journal Issue

Abstract

Description

Keywords

Turkish CoHE Thesis Center URL

Fields of Science

Citation

WoS Q

Scopus Q

Source

Volume

Issue

Start Page

End Page

URI

Collections

Google Scholar™

Sustainable Development Goals