Veritas Dark Data Assessment

Merhaba;

Bugün sizlere “Veritas Dark Data Assessment” ürünü hakkında bilgi aktarımı yapmak istiyorum.

Pek çok firma, yapısal olmayan verileriyle ilgili çok az görünürlük bilgisine sahiptir. Acaba ihtiyaç duymadıkları veriyi depoluyorlar mi? İhtiyaç duymadıkları veriyi mi yedekliyorlar? Önemli dosyaları, fazlalıkları, eski, artık herhangi bir hükmü olmayan dosyaları birbirinden ayrıştırabiliyorlar mı? Acaba firma kendisi için artık çöp olmuş dosyaları ayıklasa ve sadece kendisi için önem arzeden dosyaları depolasa, yedeklese ne kadar maliyet avantajı yakalar? Hepimizin bildiği gibi, KVKV/GDPR regülasyonlarında özellikle karanlık (“dark”) verinin belirlenmesi, içeriğinin bilinir olması oldukça önemlidir.

“Veritas Dark Data Assessment” ile firmalar karanlık (“dark”) verilerine ışık tutabilir. Analiz sonrası çıkan sonuca göre Gantek olarak sunacağımız önerilerle maliyetlerini düşürmelerine ve karşılaşacakları riskleri azaltmalarına yardımcı olabiliriz.

Gartner, karanlık veriyi (“dark data”), organizasyonların bilgi değeri olarak tanımlamaktadır. Günlük iş aktiviteleri sırasında toplanan, işlenen ve depolanan bu bilgiden firmalar maalesef fayda sağlayamıyor. Örneğin, üzerinde analitik çalıştıramıyor, iş bağlantılarını genişletmek, büyütmek için kullanamıyor, verinin maddi değerini belirleyemiyor. Genellikle organizasyonlar, karanlık veriyi (“dark data”), uygunluk/regülasyon için muhafaza etmek istiyor. Gerçek değerini bilemiyor, organizasyonun faydası için kullanamıyor.

Bilgi, “information”, elbette firmaların en kritik değeridir. Veritas, “dark data”yı iki şekilde inceliyor. “Data Genomics” indeks için “Information Map”i kullanıyor. “Databerg” olarak isimlendirilen analizde veriyi anlamaya çalışıyor. “Genome” ile gerçek veride neler olup bittiğini saptıyor. “Data Genomics Index”, organizasyonların ortalama depoladığı gerçek veriyi gösteriyor. Genelde bu analiz sonuçlarında görünen, organizasyonların değersiz veri için aşırı derecede harcama yaptıklarıdır. “Databerg” raporunda görünen de firmaların genelde herşeyi depolama eğiliminde olduklarıdır. Kullanıcı davranışı, maalesef, herşeyi istifleme şeklindedir. Sanırım bende öyle bir kullanıcıyım.

“Data Genomics” indeksden görüldüğü gibi, verinin yıllık büyüme oranı %39’dur. Verinin %41’i son 3 yıl içinde hiç değiştirilmemiştir. Verilerin %12’si ise son 7 yıl içinde hiç değiştirilmemiştir. “Databerg” raporuna baktığımız zaman, verinin %52’si karanlık (“dark”) veri statüsündedir. %33, fazlalık, artık kullanılmayan, değerini yitirmiş veridir. Özet olarak aslında bu raporlarda görünen, verilerin üstel bir şekilde artış gösterdiği, pek çok veriye uzun bir süre boyunca hiç dokunulmadığı ve depolanan verilerin içeriğinin maalesef bilinmediğidir.

Veriyle ilgili üç ciddi problem yaşamaktayız. Pek çok organizasyon, ne tür bilgiye sahip olduklarıyla ilgili herhangi bir fikre sahip değildir. Yani sakladıkları verinin değerli olup olmadığını, saklamaya değer olup olmadığını bilmezler ama herhangi bir duruma karşı saklamaya devam ederler. İkinci problem, yine pek çok firma regülasyona tabii verinin tam olarak nerelerde depolandığını bilmez. Hassas veriyi, kendileri için büyük değer taşıyan veriyi, diğer verilerden ayrıştıramayabilir. Üçüncü problem, organizasyonların gerçekten bir bilgiye ihtiyaç duyduklarında, bu veriye ulaşmalarının uzun zaman almasıdır. Genellikle de ihtiyaç duydukları için bekledikleri veri ellerine ulaştığında veri ya eksiktir ya da birden fazla tutarsız sonuç içerir. Gün sonunda hem zaman kaybı yaşanmış olur hem de istenen veri regülasyonlarla ilgili bir veriyse, maddi pek çok yaptırıma maruz kalınabilir.

Tüm bu sıkıntılara çözüm olarak “Veritas Dark Data Assesment” çözümünü öneriyoruz. Bu analizde “Veritas Data Insight” ürünü kullanılır. Dosya sistemleri taranır. Çıkan raporda;

Herhangi bir yere bağı olmayan bozulmuş dosyalar,

Kullanılmayan dosyalar,

Data tüketimi,

Dosya anormallikleri

Dosya üzerindeki aktiviteler,

Kullanıcı, grup imtiyazları,

Güvenlik ve regülasyon bilgileri

Görüntülenir.

“Dark Data Assessment” nasıl çalışır? Öncelikle analiz için bir hedef dosya sunucusu seçmemiz gerekir. Hedef üzerinde en azından okuma (“read”) hakkımızın olması gerekir. İkinci aşamada dosya sunucusu taranır (“scan”). İşte bu aşamada “Data Insight” çalışır. Hedef dosya sunucusu üzerindeki “metadata”, imtiyazlar, sınıflama bilgisi (“classification”) toplanır. Son adımda da bulgular raporlanır. İşte asıl işimiz burda başlar. Rapor üzerinde zaman harcamamız, kafa yormamız, çıkan sonuca göre doğru aksiyonlar almamız gerekir.

Hedef sunucu “Windows” ve/veya “NetApp” olabilir. DDA (“Dark Data Assesment”) eğer NetApp üzerinde çalışacaksa, “Data Insight” sistemi ile “Netapp” aynı “domain” de olmalıdır.

“Data Insight” mimarisini aşağıdaki görsel ile anlamaya çalışalım.

“Management Server”, “Data Insight” için kullanıcı arabirimi sağlar. Raporlama, yönetim, iyilileştirme işlemlerini yapmamızı sağlar. “Indexer Node”, SQLite veritabanı kullanır. “Collector Node” dan gelen “metadata” bilgisini depolamak için veritabanı sağlar. “Collector Node”, “metadata” yı toplar ve depolar, “metadata”yı “Indexer Node” a gönderir. “Event” leri kayıt altına alır, “audit” bilgisini tutar. “Agent,” “audit” bilgisini “Collector Node” a gönderir.

Bir aşama daha ileri gitmek istersek, yani dosya içeriğine, “pattern” lere bakmak istersek, bu durumda “Classification Server” da ortama almak gerekir. Aşağıdaki görselde görüldüğü şekilde yapıya dahil olur.

Çözümün ne şekilde yapılandırıldığına bakalım. En çok kullanılan yapı, “3-Tier Deployment” olarak isimlendirdiğimiz yapıdır. Büyük ortamlarda en çok kullanılan yapıdır. Birden fazla “Indexer” ve “Collectors” olabilir. “Audit event” ler için ajanlar kullanılır. Ortamda “Classification Server”da vardır. “Management Server” kendi başınadır. Yani başka bir bileşeni içermez. Aşağıdaki görsel yapıyı daha anlaşılır göstermektedir.

2. yapılandırma modeli “2-Tier Deployment” olarak isimlendirilir. Küçük yapılardan orta ölçekli yapılara kadar kullanılan bir modeldir. “Management Server” aynı zamanda “Indexer” olarakta çalışır. Birden fazla “Collector” olabilir. “Audit event” ler için ajan kullanılır. “Classification Server”, ortama eklenedebilir, eklenmeyedebilir. Aşağıdaki görsel, “2-tier Deployment”ı göstermektedir.

Son yapılandırma modeli, “Single-Tier Deployment” modelidir. POC’lerde, küçük yapılarda kullanılır. “Management Server”, “Indexer” ve “Collector” olarakta davranır. “Audit event” ler için ajan kullanılabilir. “Classification Server”, ortama eklenedebilir, eklenmeyedebilir. Aşağıdaki şekilde yapı görülmektedir.

“Dark Data Assesment” çalışmalarında, “Single-tier” kurulum genelde yapıyoruz. Ajan yüklemiyoruz. Ortama müşterimizin arzusuna göre “Classification Server” ekleyebiliriz veya eklemeyebiliriz. Dosya sunucu üzerinde mimimum bir etkiye sahiptir. Tek kullanıcının sunucuya girmesinden daha fazla etki etmez. Tarama, “single-thread” çalışır. IP adres kullanılacaksa 445. port kullanılır. Isimden çözme kullanılırsa, 137-139 arası portlar kullanılır. “Metadata” için dosya başına tarama, 400-700 dosyadır. Sınıflama (“classification”), 10MBps’da uygulanır.

Özetlemek gerekirse, “Dark Data Assessment” ile temiz verinizi (kullandığınız aktif veri), işe yaramayan, eski ve kullanılmayan (ROT: Redundant, Obsolete, Trivial) veriden ayrıştırabilirsiniz. Karanlık (dark) verinize ışık tutabilir, organizasyonunuz için bu veriden fayda sağlayabilirsiniz. Rapordan çıkan sonuca göre, arzu ederseniz, dosyalarınızı “Veritas Enterprise Vault File System Archiving” ürünü ile arşivleyebilirsiniz.

Lütfen ürünlerle ilgili bilgi almak isterseniz, ortamınızda bir PoC yapılmasını tercih ederseniz support@gantek.com adresine e-posta iletmenizi rica ederiz.

Asiye Yigit – 24 Şubat 2018 Cumartesi

Veritas Dark Data Assessment

DevOps ve GitLab

OpenShift, Data Science ve GPU

Kubernetes Ortamlarında Network Gözlemlenebilirliği

MLOps ve DevOps

Açık Kaynak Yazılım Lisans Türleri

Leave A Comment Cancel reply

Veritas Dark Data Assessment

Share This Story!

Related Posts

DevOps ve GitLab

OpenShift, Data Science ve GPU

Kubernetes Ortamlarında Network Gözlemlenebilirliği

MLOps ve DevOps

Açık Kaynak Yazılım Lisans Türleri

Leave A Comment Cancel reply