Veri Doğrulama
Last updated
Last updated
Veri doğrulama neden gereklidir? Kısa bir cevap, kullanıcıların kötü niyetli veriler göndermesini engellemektir.
AI modeli, eğitim ve ince ayar için tonlarca temizlenmiş ve nitelikli verilere ihtiyaç duyar. Felsefe, modeli daha da güçlendiren nitelikli veri katkıda bulunanlar için teşvik edici bir sistem kurmaktır; öte yandan, kötü niyetli veri gönderen kullanıcılar ceza alacaktır.
Bu hedefe ulaşmak için, çerçevemiz merkeziyetsiz ağların paylaşılan bir hesaplama dizisi üzerinde anlaştığı platformlara uygulanır. Bu paylaşılan kodda akıllı sözleşme kullanılır. Akıllı sözleşme, veri alanlarını içerir ve yeni kod ve olaylarla yöntem çağrıları aracılığıyla etkileşimde bulunur. Zincir üzerindeki bir hesaplama, hesaplamanın bir akıllı sözleşme içinde yapıldığı anlamına gelir. Hesaplamanın girişi ve sonucu genellikle blok zincirinde depolanır. Aksine, zincir dışı (off-chain) hesaplama, hesaplamanın istemcinin makinesinde yerel olarak yapılabileceği ve zorunlu olarak kamuya açık olması gerekmediği anlamına gelir.
Geleneksel hukuk sistemlerinde, bir anlaşmanın ihlal edilmesi bir ceza veya para cezası ile sonuçlanabilir. Bir akıllı sözleşme aracılığıyla ceza uygulamak karmaşıktır çünkü bir kullanıcıyı ödeme yapmaya zorlamak mümkün değildir. Bunun yerine, blok zinciri alanındaki birçok çözüm, kullanıcıların kurallara uyarlarsa daha sonra geri alınabilir olan "teminat" yatırmalarını gerektirir. Benzer şekilde, yeni verilerin gönderimi için bazı teşvik mekanizmalarını basitleştirmek amacıyla teminat yatırmayı öneriyoruz.
(1) Teşvik Mekanizması işlemi doğrular; bazen bir “teminat” veya maddi depozito gereklidir.
(2) DataHandler, verileri ve meta verileri blok zincirine kaydeder. Bu, verilerin gelecekteki tüm kullanımlar için erişilebilir olmasını sağlar, yalnızca bu akıllı sözleşme ile sınırlı değildir.
(3) Makine öğrenimi modeli, önceden tanımlanmış eğitim algoritmalarına göre güncellenir. Veri eklemenin yanı sıra, herkes modelden tahminler için sorgulama yapabilir ve teşvik mekanizması, kullanıcılara ödül vermek için tetiklenebilir.
İşte "Bitcoin" konusuyla ilgili iki Tweet örneği:
İlk Tweet, İngilizce olarak, hesaplama modeli için oldukça basit bir örnektir, ancak içinde #Bitcoin hashtag’i bulunmaktadır.
İkinci Tweet'te ise "Flatbread" kelimesi Bitcoin’i belirtmektedir; bu, İngilizce'de Bitcoin ile açıkça ilişkili değildir ama Çince'de çok iyi bilinmektedir.
Bu durumda, her iki Tweet de doğrulama düğümü tarafından tahmin sürecini geçecektir. Ardından, her iki tweet de BTC olarak etiketlenecek ve modelin güncellenebilir paylaşımlarını ince ayar yapmak için veri setine eklenecektir. Toplanan ve doğrulanan veri setleri ne kadar fazla olursa, yeni eklenen verilerle modeli ince ayar yaparak model o kadar güçlü hale gelecektir.
Teminat Tabanlı Öz Değerlendirme Mekanizması
Hatalı verilerin sunulması için ceza veya yaptırımların uygulanması, ideal bir optimal çerçevede en iyi yöntemdir. Veri kalitesini değerlendirmede yaygın bir yöntem, geleneksel kitlesel zekâ modellerinde yaygın olarak bilinen akran doğrulamasını kullanmaktır. Ancak, akıllı sözleşmeler aracılığıyla sunum sonrası yaptırımların uygulanması belirli zorluklar sunar. Cezaların uygulanma sürecini kolaylaştırmak için, veri katkısının yapıldığı noktada bir depozito mekanizması entegre edilmiştir.
Yeni sunulan verileri doğrulamada kritik bir rol oynayan özel olarak dağıtılmış bir model, h, mevcuttur. Bu modelin, veri girişlerini makul bir hassasiyetle doğru bir şekilde sınıflandırma yeteneğine sahip olduğundan emin olmak için başlangıçta eğitilmesi önemlidir. Süreç birkaç hayati adımdan oluşur:
Model Dağıtımı: Veri doğrulama sürecine, belirli bir veri alt kümesi üzerinde önceden eğitilmiş olan h modelinin tanıtılması.
Depozito Gereksinimi: Her veri sunumu için, veri x ve onunla ilişkili etiket y'yi kapsayan bir depozito zorunludur. Bu, verilerin ve meta verilerinin blok zincirine güvenli bir şekilde kaydedilmesini sağlar ve veri katkılarında hesap verebilirlik ve kalite ortamını teşvik eder.
İade: Belirli bir süre t geçtikten sonra, eğer mevcut model h, ilk sunulan sınıflandırma ile hâlâ hemfikir ise, yani h(x) == y ise, katkıda bulunan kişi depozitosunun tamamını d geri alabilir.
Şimdi (x, y) “iyi” veriler olarak varsayılmaktadır.
Depozitonun başarılı bir şekilde iade edilmesi, cüzdan adresi için bir puan sayımında kaydedilmelidir.
Alım: İade aşamasında verileri doğrulanmış bir katkıda bulunan, h(x) ile y'nin eşit olmadığı bir veri noktası (x, y) bulabilir ve (x, y) sunulduğunda verilen depozitonun bir kısmını almak için talepte bulunabilir.
Eğer sunulan örnek (x, y) hatalı veya geçersizse, o zaman süre t içinde diğer katkıda bulunanların (x, y0) sunması gerekir; burada y0, x için doğru veya en azından genel olarak tercih edilen etikettir ve y0, y ile eşit olmamalıdır. Bu, genellikle popüler Wikipedia makalelerinde kötü düzenlemelerin hızla düzeltilmesini beklemekle benzerlik taşımaktadır.
Depozito Talep Etme: İade aşamasında verileri daha önce doğrulanan bir katkıda bulunan, modelin çıktısının h(x) ile y'den farklı olduğu bir veri girişi x,y belirleyerek, x,y için başlangıçta yatırılan depozitonun bir kısmını talep etme sürecini başlatma yetkisine sahiptir. Bu mekanizma, sistemde veri bütünlüğünü koruma amacı taşır. Sunulan bir veri seti x,y hatalı veya geçersiz olarak değerlendirildiğinde, diğer ağ katılımcılarının y'den farklı olarak x için doğru veya yaygın kabul edilen etiketi temsil eden x,y0 verilerini sunarak düzeltmeler önermeleri için belirli bir süre t ayrılır. Bu işlem, Wikipedia gibi platformlarda gözlemlenen işbirlikçi düzenleme ve düzeltme dinamiklerini yansıtarak, yanlışlıkların hızlı bir şekilde düzeltilmesini sağlar.
İade İçin Bekleme Süresi: Akıllı sözleşme çerçevesinde, t kritik bir zaman parametresi olarak hizmet eder ve katkıda bulunanların depozitoları için iade talep etmeye başlamadan önce beklemeleri gereken süreyi belirler. t'nin, diğer ağ katılımcılarına, veri setindeki tutarsızlıkları tespit ettiklerinde düzeltici sunumlar önerme fırsatı verecek kadar uzun olması önemlidir. Örneğin, t'yi en az bir hafta olarak ayarlamak bu süreci kolaylaştırabilir. Bu gecikme, modelin daha düşük duyarlılık gösterdiği durumlar için özellikle kritik olup, modelin yeni senaryolara uyum sağlaması için gerekli çeşitli örnekleri toplamak için yeterli zaman sağlar.
Yüksek duyarlılığa sahip modeller, yanlışlıkla sunulan veriler için erken iade talebine izin verebileceğinden, belirli bir zorluk sunar; bu, diğer katkıda bulunanların düzeltici eylemleri mümkün olmadan gerçekleşebilir. Bu riski azaltmak için, bu tür modeller, hızlı ve kötü niyetli gönderimleri caydırmayı amaçlayan önemli ölçüde daha yüksek bir depozito gereksinimi gerektirir. t'nin belirlenmesinden önce titiz testler ve dikkatli değerlendirmeler yapılmalıdır, böylece model duyarlılığı ile veri doğruluğu ihtiyacı arasında dengeli bir şekilde ayarlanır.
t parametresi statik olmak zorunda değildir. Süresi, veri örneğinin doğası, sunum sıklığı veya modelin veri doğruluğundaki güven düzeyi gibi çeşitli faktörlere dayanarak dinamik bir şekilde ayarlanabilir. Örneğin, bir model bir gönderimin doğruluğunun olasılığını P(h(x)=y) şeklinde belirleyebiliyorsa, bu olasılık metriği, modelin gönderimin geçerliliğine olan güveni yüksek olduğunda t'nin azaltılmasını haklı çıkarabilir; bu, sonraki değişikliklerin olası olmadığını öne sürer.
Değişken Depozito: Depozito gereksiniminin uygulanması, sistem içinde birden fazla amacı gerçekleştirmektedir:
Ekosisteme değer katar; doğru veri sunan katılımcıları ödüllendirerek yüksek kaliteli bilgilerin sunulmasını teşvik eder.
Modelin aşırı sık değiştirilmesine karşı bir caydırıcı görevi görerek sistemin istikrarını ve güvenilirliğini korur.
Yanlış veya geçersiz veri gönderimlerini tanımlayan spam akışını azaltarak genel veri bütünlüğünü artırır.
Bu hedefleri gerçekleştirmek için, katılımcıların kısa bir zaman diliminde yüksek hacimli güncellemeler göndermelerini mali açıdan caydırıcı hale getirmek için belirli bir denklem kullanılmaktadır. Bu yaklaşım, modelin tahmin işlevini kullanan kullanıcılara daha tutarlı ve güvenilir bir deneyim sunmayı hedeflemektedir. Bu ilkenin bir örneği, bir gün içinde birkaç kez verilen aynı sesli komutlara (örneğin, haberleri oynatma talebi) kişisel asistan cihazından tutarlı yanıtlar beklemektir.
Başkasının Depositosunu Alma: "Kötü" veriyi bildiren bir katılımcının, orijinal katılımcıdan bir miktar depozito alabilmesi için bazı yönergeler sunulmaktadır. Katkıda bulunan verinin ve ona ilişkin meta verilerin veri işleyicisinde veya yayımlanan olaylarda bulunabileceği not edilmelidir.
Öncelikle bazı tanımlar:
r(Cr, d): Katkıda bulunan raporcu cr'nin, depozito d ile birlikte (x, y) verisini bildirdiğinde aldığı ödül.
n(c): Katılımcı c için geri ödeme aldığı veri örneği sayısı (iyi veri olarak varsayılmıştır).
Yönergeler:
h(x) != y: Mevcut model etiketle anlaşmıyor. Bu nedenle verinin "kötü" olduğu varsayılmaktadır.
n(cr) > 0: Raporcunun zaten geri ödemesini aldığı verileri olmalıdır. Bu, sistemden fayda sağlama girişiminde bulunmadan önce "iyi" veri sunmuş olmasını sağlamaktadır.
cr != c: Raporcu orijinal katkıda bulunan olamaz. Aksi takdirde, katılımcılar "kötü" veri için depozitolarını kolayca geri talep edebilirler.
Ödül, "iyi" katılımcılar arasında paylaşılmalıdır.
- Bu, bir katılımcının ikinci bir hesap kullanarak tüm depozitosunu geri almasını önlemek için koruma sağlar. Başka bir hesapla bazı ödüllerini geri talep edebilirler, ancak o diğer hesapla bazı "iyi" veriler için geri ödeme almak zorunda kalacaklardır.
r(cr, d) > ε > 0: Ödül, potansiyel işlem maliyetlerini karşılamak için en azından belirli bir minimum değerde olmalıdır.
Veri işleyicisi, talep edilebilecek kalan depozitoyu dr ≤ d şeklinde takip etmelidir.
n(c) zamanla değiştiğinden, (3) üzerindeki oran, rapor edenlerin d üzerindeki paylarını talep etmesiyle değişir. Bu nedenle, bazı rapor edenlerin d'nin daha küçük bir oranını alması mümkündür. Bu konudaki bazı olası çözümleri III-C5'te tartışıyoruz.
Modeli Taraflı Hale Getirme: Önerilen sistemde, katkıda bulunanların, iade döneminde modelin mutabakatını koruyacağı beklentisiyle, mevcut model tahminleriyle (h(x) = y) uyumlu verileri öncelikli olarak sunma potansiyeli bulunmaktadır. Böyle bir strateji, model içinde yanlışlıkla bir onaylama yanlılığı yaratabilir ve modeli daha önce karşılaştığı verileri yeniden onaylamaya yönlendirebilir. Katkıda bulunanların işlem ücreti ödemesi gerekliliği, yani hem depozito yatırma hem de iade alma konusunda nominal bir maliyetle karşılaşmaları, bu yanlılık riskini tamamen ortadan kaldırmaz.
Bu nedenle modelin seçimi ve eğitim yöntemi son derece önemlidir ve veri gönderimlerinin kabulü ve işlenmesi konusunda stratejik bir yaklaşım gerektirir. Sistem mimarının, aşırı derecede benzer veya tekrarlayan veri girişlerinin etkisini tanımlayıp azaltabilecek mekanizmaları uygulaması hayati önem taşır; bu, veri setinin çeşitliliğini ve temsil edebilirliğini tehlikeye atabilir. Bu amaca yönelik olarak, Bilgi Yöneticisi (IM), daha önce sunulan verilere aşırı derecede benzerlik gösteren başvuruları reddetme yetkisine sahiptir, bu da modelin sürekli olarak geniş bir bilgi yelpazesine maruz kalmasını sağlar.
Kilitlemelerin Önlenmesi: Bu bölüm, fonların akıllı sözleşme içinde "kilitlenmesini" veya "sıkışmasını" önleme yollarını tartışmaktadır. Katkıda bulunanların, iade taleplerini unutmaları ya da depozitolarının bir kısmını talep etmemeleri durumunda, değerlerin sözleşme içinde "sıkışması" mümkündür. Bunu önlemek için iki yeni parametre tanıtıyoruz:
tc: Oluşturucunun belirli bir katkı için kalan iade (dr) almak üzere beklemesi gereken süre. Burada tc > t'dir. Ayrıca, bu, oluşturucuları bir model dağıtmaya teşvik eder, çünkü d'nin önemli bir kısmını talep etme şansı elde edebilirler. Sözleşmelerin, bu sürenin iade talebinde bulunmak için beklenen süreden çok daha fazla olmasını sağlamak isteyeceği düşünülebilir, bu da katkıda bulunanlara depozitolarını geri alma konusunda daha fazla zaman tanır ve oluşturucunun aşırı miktar almasına engel olur (tc ≥ t).
ta: Herkesin kalan iade (dr) almak için beklemesi gereken süre. Burada ta ≥ tc > t'dir ve bu, oluşturucunun sözleşmeden "sıkışmış" değeri almaması durumunda kullanılır.
Gerçekten de, iade almış veri katkıda bulunanları (n(c) > 0) için td gibi daha fazla varyant olabilmektedir; burada ta ≥ td ≥ tc.
Bu bölüm, fonların akıllı sözleşme çerçevesi içinde erişilemez veya "kilitlenmiş" hale gelmesini önlemek için stratejiler ortaya koymaktadır. Katkıda bulunanların iadelerini alma konusunda dikkatsizlik göstermeleri veya depozitolarının belirlenen kısmını talep etmemeleri durumunda, fonların sözleşme içinde talep edilmemesi söz konusu olabilir. Bu tür senaryoları hafifletmek amacıyla iki yeni parametre tanıtılmaktadır:
tc: Bu parametre, bir oluşturucunun belirli bir katkı için tahsis edilen kalan iade (dr) talep edebilmesi için beklemesi gereken süreyi belirtir. tc > t koşulu, oluşturucuların modelleri dağıtma konusunda motive olmalarını sağlar; çünkü eğer katkıda bulunanlar tarafından talep edilmezse, d'nin önemli bir kısmına erişme şansı elde ederler. Sözleşmelerin, iade talepleri için bekleme süresinin çok daha üzerinde bir süre belirlemesi önerilmektedir; bu, katkıda bulunanlara depozitolarını geri almak için yeterli fırsat sunar ve oluşturucuların çekebileceği miktarı sınırlar (tc ≥ t).
ta: Bu parametre, herhangi bir tarafın kalan iade (dr) talep etmeden önce beklemesi gereken süreyi tanımlar. ta ≥ tc > t koşulu, özellikle oluşturucunun sözleşmeden "kilitlenmiş" fonları geri almayı unuttuğu durumlarda önemlidir.
Ayrıca, iade talep eden (n(c) > 0) katılımcılar için td gibi bu parametrelerin daha fazla uyarlamaları düşünülmektedir; burada ta ≥ td ≥ tc koşulu geçerlidir. Bu önlemler, sistem içindeki fonların akışkan dolaşımını sağlamak, akıllı sözleşmeler içinde talep edilmemiş varlıkların birikimini önlemek ve dinamik ve tepki veren model dağıtım ve iyileştirme sürecini teşvik etmek amacıyla tasarlanmıştır.
Günümüz dijital ekosisteminde, son kullanıcı cihazlarının, akıllı telefonlar, tabletler ve dizüstü bilgisayarlar gibi, hesaplama yetenekleri genellikle yeterince kullanılmamaktadır ve tam olarak değerlendirilmeyen bir işleme gücü fazlası sergilemektedir. Bu çerçevede, kullanıcılar, bu çevresel cihazlar üzerinde belirli algoritmaları içeren dApp'leri çalıştırarak ağa katılım sağlamaktadır. Bu katılım, ağ genelinde veri doğrulamasını kolaylaştırırken, aynı zamanda temel modellerin yinelemeli iyileştirilmesine de katkıda bulunmaktadır. Ayrıca, her doğrulama noduna, hesaplama kaynakları ve ağda katılım süreleri ile ilgili geçmiş katkılarına dayalı olarak bir itibar puanı atanır. Daha yüksek itibar puanına sahip nodlar, daha büyük görevler üstlenir ve buna bağlı olarak daha önemli ödüller alır. Bu mekanizma, görevlerin ve teşviklerin erdemli bir dağıtımını sağlayarak ağın bütünlüğünü ve verimliliğini güçlendirir.