Please use this identifier to cite or link to this item:
https://hdl.handle.net/11147/14455
Title: | Performance-Reliability Tradeoff Analysis for Safety-Critical Systems With Gpus | Other Titles: | Güvenlik kritik sistemlerde GPU kullanımının performans ve güvenirlik açısından değerlendirilmesi | Authors: | Sezgin, Yağızcan | Advisors: | Öz, Işıl | Keywords: | Computers, Reliability Graphics processing units System safety |
Abstract: | GPUs were mostly used for image processing purposes when they were first introduced. These applications can be considered non-critical, and they were not given sufficient importance for reliability. Due to the evolving nature of GPUs, they offer highly parallelized architecture and provide extremely powerful computation, they become one of the most crucial parts of the systems that have complex applications in safety-critical domains such as automotive and space to fulfill the high computational demand. In this thesis, we evaluate the performance and reliability tradeoff in the safety-critical domain. We propose software-based redundancy schemes with different spheres of replications on the GPU4S benchmark in the safety-critical domain. Our proposal includes profiling the baseline application without any redundancy, applying fault injection using NVBitFI and changing implementation manually according to proposed redundancy schemes, measuring performance metrics such as execution time, memory copy operations, and power consumption on the real hardware that is widely used on target domain instead of using well-known GPU simulators to see actual performance. We reveal that our proposed redundancy schemes are managed to eliminate all the soft errors in the cases if we apply full redundancy for single-kernel benchmarks, for the reliability evaluation with the cost of performance degradation, depending on the application. We show that most soft errors can be eliminated using partial redundancy for complex applications, with a small performance impact. GPU'lar ilk kez tanıtıldığında çoğunlukla görüntü işleme amaçlı kullanılmıştır. Bu uygulamalar genellikle kritik olmayan olarak kabul edilebilir ve güvenilirlik için yeterli önem verilmemiştir. GPU'ların evrilen doğası nedeniyle yüksek seviyede paralel mimarinin kullanılabilmesi ve son derecede güçlü hesaplama imkanı sağlaması nedeniyle otomotiv ve uzay gibi güvenliğin kritik olduğu alanlarda karmaşık uygulamalara sahip sistemlerin vazgeçilmez bir parçası haline gelmiştir ve alanlarda yüksek hesaplama gücü isteğini karşılayabilmek için kullanılmaktadır. Bu tezde, güvenlik kritik alanlardaki performans ve güvenirlik arasındaki dengeyi ve birbiri arasındaki ilişkiyi değerlendiriyoruz. Güvenlik kritik alanda kullanılan GPU4S performans göstergesini kullanarak farklı replikasyonlar ile yazılım tabanlı yedekleme yaklaşımları öneriyoruz. Önerimiz, uygulamaların orijinal ve yedekleme olmayan hallerinin profil edilmesini, NVBitFI aracını kullanarak hata enjekte edilmesini ve önerilen yedekleme uygulamalarının yazılım implementasyonuna elle uygulamasını, ardından da hafıza ve yürütülme zamanları, güç tüketimi gibi performans ölçütlerinin hedef alanda yaygın bir şekilde kullanılan bir donanım üzerinde ölçümlenmesini öneriyoruz. Önerdiğimiz yöntemlerin tek üniteye sahip uygulamalarda eğer tamamen yedekleme uygularsak geçici hataların hepsinin performans düşüşüyle beraber giderilebildiğini ortaya koyduk. Karmaşık ünitelere sahip uygulamalarda ise kısmi yedekleme uygulamanın birçok hatanın giderilmesinde ufak bir performans etkisiyle mümkün olabileceğini ortaya koyduk. |
URI: | https://hdl.handle.net/11147/14455 |
Appears in Collections: | Master Degree / Yüksek Lisans Tezleri |
Show full item record
CORE Recommender
Page view(s)
140
checked on Mar 31, 2025
Download(s)
60
checked on Mar 31, 2025
Google ScholarTM
Check
Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.