Doğal Dil İşleme ile Viral Evrimin Modellenmesi
No Thumbnail Available
Date
2025
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
Etkili önleyici tedaviler geliştirmek için viral evrimin ardındaki karmaşık kuralları ve mekanizmaları anlamak kritik önem taşır; ancak bağışıklık sisteminden kaçan mutasyonların tahmini hala önemli bir zorluk teşkil etmektedir. Protein dil modellerindeki son gelişmeler, viral kaçışın in silico analizine yönelik yenilikçi yöntemlerin önünü açmıştır. Bu çalışmada, Siamese (CoV-SNN), Üçlü (CoV-TNN) ve Sınıflandırıcı (CoV-CLS) sinir ağı mimarilerine dayanan üç karşıt öğrenme çerçevesi geliştirilmektedir. Bu modeller, düşük maliyetli bir protein dil modelinden (CoV-RoBERTa) elde edilen temsiller üzerinden protein dizileri arasındaki benzerlikleri ve farklılıkları yakalayarak varyantları etkili bir şekilde sınıflandırmaktadır. Modeller, antijenik varyasyonu anlamsal değişimle, viral uyumu ise dilbilgisellikle eşleştirmekte; viral kaçışı tespit etmek için Sınırlı Anlamsal Değişim Arama (CSCS) çerçevesini kullanmaktadır. Önerilen modellerin doğruluk ve verimliliği artırmak için yüksek kaliteli bir SARS-CoV-2 Spike proteini veri kümesi, özel bir belirteçleyici, özgün ikili ve üçlü seçme algoritmaları geliştirilmekte ve yeni bir dilbilgisellik ölçütü önerilmektedir. Geliştirilen modeller, hem laboratuvar ortamında doğrulanmış hem de yapay olarak üretilmiş kaçış mutasyonları üzerinde test edilmektedir. Varyant sınıflandırmada CoV-RoBERTa doğruluğu %5 artırırken, eğitimi 30 kat, tahminlemeyi 45 kat hızlandırmaktadır. Viral kaçış tahmininde CoV-SNN top-K doğruluğu 3.5 kat artırırken, GPU bellek kullanımını 20 kat, ön eğitim süresini 2 kat, tahminleme süresini 125 kat azaltmaktadır. Ayrıca, sıfır atış sınıflandırmasında %91.5 doğruluk sağlamaktadır. Bu sonuçlar, özelleştirilmiş dil modellerinin viroloji alanındaki potansiyelini ortaya koyarak, genomik sürveyans çalışmalarında güçlü bir araç olabileceklerini göstermektedir.
Understanding the complex rules and mechanisms behind viral evolution is crucial for developing better preventive treatments, yet predicting immune-evading mutations remains challenging. Recent advances in protein language models have led to novel approaches for in silico analysis of viral escape. In this work, we introduce three contrastive learning frameworks based on Siamese (CoV-SNN), Triplet (CoV-TNN), and Classifier (CoV-CLS) neural networks. These models classify variants by capturing the similarities and differences between their protein sequences through embeddings from a light-weight protein language model (CoV-RoBERTa). The models map antigenic variation to semantic change and viral fitness to grammaticality, employing Constrained Semantic Change Search (CSCS) framework to detect viral escape. To further enhance the accuracy and efficiency of the proposed models, we develop a high-quality SARS-CoV-2 Spike protein dataset, a custom tokenizer, novel pair and triplet selection algorithms, and propose a new proxy for grammaticality. We evaluate our models on novel variant sequences with wet-lab verified and computationally generated escape mutations. For variant classification, CoV-RoBERTa improves accuracy by 5%, while speeding up training and inference by 30 and 45 times. In viral escape prediction, CoV-SNN boosts top-K accuracy by 3.5 times, reduces GPU memory usage by 20 times, halves pre-training time, and speeds up inference by 125 times, achieving 91.5% accuracy in zero-shot classification. Furthermore, our models reach a mean AUC of 0.81 on wet-lab verified escape mutations, outperforming nine baselines. These results demonstrate the potential of domain-specific language models in virology, positioning them as a powerful tool for genomic surveillance studies.
Understanding the complex rules and mechanisms behind viral evolution is crucial for developing better preventive treatments, yet predicting immune-evading mutations remains challenging. Recent advances in protein language models have led to novel approaches for in silico analysis of viral escape. In this work, we introduce three contrastive learning frameworks based on Siamese (CoV-SNN), Triplet (CoV-TNN), and Classifier (CoV-CLS) neural networks. These models classify variants by capturing the similarities and differences between their protein sequences through embeddings from a light-weight protein language model (CoV-RoBERTa). The models map antigenic variation to semantic change and viral fitness to grammaticality, employing Constrained Semantic Change Search (CSCS) framework to detect viral escape. To further enhance the accuracy and efficiency of the proposed models, we develop a high-quality SARS-CoV-2 Spike protein dataset, a custom tokenizer, novel pair and triplet selection algorithms, and propose a new proxy for grammaticality. We evaluate our models on novel variant sequences with wet-lab verified and computationally generated escape mutations. For variant classification, CoV-RoBERTa improves accuracy by 5%, while speeding up training and inference by 30 and 45 times. In viral escape prediction, CoV-SNN boosts top-K accuracy by 3.5 times, reduces GPU memory usage by 20 times, halves pre-training time, and speeds up inference by 125 times, achieving 91.5% accuracy in zero-shot classification. Furthermore, our models reach a mean AUC of 0.81 on wet-lab verified escape mutations, outperforming nine baselines. These results demonstrate the potential of domain-specific language models in virology, positioning them as a powerful tool for genomic surveillance studies.
Description
Keywords
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Doğal Dil İşleme, Evrişimli Sinir Ağları, Yapay Sinir Ağları, Computer Engineering and Computer Science and Control, Natural Language Processing, Convolutional Neural Networks, Artificial Neural Networks
Turkish CoHE Thesis Center URL
Fields of Science
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
End Page
116