
Büyük veri yedekleme, bulut depolama ve veri aktarım sistemlerinde deduplication (veri tekilleştirme), aynı verinin birden fazla kopyasının depolanmasını önleyerek depolama alanından ve bant genişliğinden tasarruf sağlar. Bu işlem, verinin hash değerleri üzerinden karşılaştırılarak yapılır.
Deduplication, nerede yapıldığına göre ikiye ayrılır:
- Client-Side Deduplication (İstemci Tarafında Tekilleştirme)
- Server-Side Deduplication (Sunucu Tarafında Tekilleştirme)
1. Client-Side Deduplication
Veri, yedekleme yazılımının (client veya proxy sunucusunda) chunk’lara bölünür, hash’ler hesaplanır ve sadece yeni veriler hedefe gönderilir. Bant genişliği tasarrufu sağlar, ancak CPU yükü kaynakta yoğunlaşır.
İş Akışı
- Dosya → 4 KB’lık chunk’lara bölünür
- Her chunk için SHA-256 hash hesaplanır (istemcide)
- Hash listesi sunucuya gönderilir
- Sunucu: “Şu hash’ler yok” der
- Sadece eksik chunk’lar gönderilir
Örnek Senaryo : Veeam, bir yedekleme sunucusu (backup server) olarak, client-side deduplication’ı ön planda kullanır. Veeam Backup & Replication, proxy sunucularında (source-side data mover) veriyi analiz eder, duplicate blokları tespit eder ve sadece unique veriyi repository’ye (hedef depolama) gönderir. Bu, özellikle yedekleme işlerinde backup-window sürelerini azaltır.
Avantajları
- Bant genişliği tasarrufu: Aynı veri zaten varsa hiç gönderilmez.
- Hızlı yedekleme: Tekrarlanan veriler hiç ağa girmez.
Dezavantajları
- CPU yükü istemcide: Hash hesaplama cihazı yorar (özellikle mobil).
- Sunucu metadata yükü: Her istemci için hash tablosu tutmak gerekir.
2. Server-Side Deduplication
Tüm veri önce sunucuya gönderilir, sunucu veriyi chunk’lara böler, hash hesaplar ve kendi veritabanında kontrol eder. Aynı veri varsa, yeni kopya depolanmaz.
İş Akışı
Hash DB’de varsa → atlanır, yoksa → kaydedilir
Tüm dosya sunucuya gönderilir
Sunucu dosyayı chunk’lara böler
Her chunk için hash hesaplar
Örnek Senaryo : HPE StoreOnce, bir backup appliance olarak, her iki yöntemi de destekler ancak server-side (target-side) deduplication’ı temel alır. Catalyst protokolü ile cilent-side dedup yapabilir, ama varsayılan ve optimize mod server-side’dır. Federated deduplication ile birden fazla sitede global dedup sağlar.
Avantajı StoreOnce’da: Hibrit dedup ile esneklik.
Target-side deduplication: Veri appliance’e ulaşır, chunk hash’ler hesaplanır ve duplicates silinir. Yüksek oran (20:1+).
Avantajları
- İstemci yükü azalır: CPU yükü sunucudadır.
- Kolay yönetim: Tekilleştirme merkezi olarak kontrol edilir.
- Güvenli: Hash collision riski sunucu tarafında yönetilir.
Dezavantajları
- Sunucu yükü yüksek: Hem depolama hem hash hesaplama sunucuda.