Merhaba;

Bugün sizlere “Gold” iş ortağı olduğumuz “Vertica” ileri düzey analitik platformundan bahsedeceğim. Daha önceki yazılarımda, büyük veri ekosisteminin bileşenlerinden bahsetmiştim (linklerini aşağıda belirttim). Makalelerimi okumaya vakit ayırırsanız sizlere çok faydalı olacağına inanıyorum. İleri düzey analitik işlemleri için; hızlı, ölçeklenebilir, kullanım kolaylığına sahip, açık kaynak teknolojileriyle tamamen entegre olabilen, dağıtık ve sıkıştırılmış sütun (kolon) mimarisine sahip Vertica’nın daha fazla özelliğini okumaya ne dersiniz? Hadi gelin başlayalım.

https://www.linkedin.com/pulse/kafka-cluster-asiye-yigit/

https://www.linkedin.com/pulse/y%C3%B6neticiler-i%C3%A7in-b%C3%BCy%C3%BCk-veri-kavramlar%C4%B1-b%C3%B6l%C3%BCm-2-asiye-yigit/

https://www.linkedin.com/pulse/y%C3%B6neticiler-i%C3%A7in-b%C3%BCy%C3%BCk-veri-kavramlar%C4%B1-b%C3%B6l%C3%BCm-1-asiye-yigit/

https://www.linkedin.com/pulse/oracle-big-data-platform-asiye-yigit/

https://asiyeyigit.com/pentaho/

Vertica ileri düzey analitik platformu (sonrasında sadece Vertica olarak kullanacağım), sorgulamaları, geleneksel veritabanlarına göre 10-50 kat daha hızlı yapabilmektedir. Sunucu başına 10-30 kat arasında daha fazla veriyi depolayabilmektedir. Açık mimarisinden dolayı, herhangi bir ETL/BI aracını, Hadoop yapısını Vertica ile birlikte kullanabilirsiniz.

Modern veri merkezi altyapılarında, her yerden veri gelmektedir. Verinin geldiği yapılar, CRM, ERP gibi iş sistemleri, IoT alıcılar/seziciler, tweet ve diğer sosyal medya ortamları, Web logları/veri akış sistemleri, gaz hatları, elektrik altyapı sistemleri, mobile ağları gibi pek çok farklı ortamdır. Firmalar bu verileri saklamak ve yönetmek için farklı türlerde daha ucuz depolama birimleri kullanmak istemektedir. Bu çeşitlilikte ve ölçekte ileri düzey analitik işlemlerini yapma zorluğundan dolayı da silolar oluşturmaktadırlar. Aslında yapı, analitik işlemler yapabilmek için daha karmaşık bir hale gelmekte ve fakat sonuç olarakta istedikleri hızda, kalitede analitik yapamamaktadırlar.  Bu büyüklükteki veriyi yönetmek için daha yenilikci büyük veri analitik platformları elbette ortaya çıkmaktadır. Fakat pek çoğu, her çeşit veriye ulaşamamakta, bütünleşik bir bakış açısı sunamamaktadır. Ancak herhangi bir altyapı kısıtı olmayan tüm veriye bütüncül bir bakış açısıyla bütünleşik mimaride bakabilen ileri düzeydeki analitik çözümleri veri-güdümlü organizasyonların analitik gereksinimlerini karşılayabilir.

Büyük veri analitik platformu için kritik ne tür gereksinimler vardır? Öncelikle bütünleşik bir gözle büyük miktarlardaki veriyi analiz edebilmelidir. Verinin doğru zamanda doğru yerde tutulduğu sınırsız bir ölçeklenebilirlik yapısına sahip ortamlar bu amaç için ideal yapılardır elbette. Ölçeklenebilirlik günümüzde Terabytle’lardan Petabyte’lara dönüşüyor olmakta birlikte çok yakın zamanda Exabyte’ları düşünmek zorunda kalacağız. İkinci öncelikli gereksinim, kullanıcı sonuçları görebilmek için beklememelidir. Çözüm, SLA’leri karşılayacak ölçekte olmalıdır. En iyi TCO ve hızlı ROI sağlarken, iş gereksinimlerini karşılayabilir yapılar olmalıdır. Üçüncü olarak sağlayacağınız çözüm, popüler olan tüm araçları kucaklamalıdır. Büyük veri ortamınız ETL araçlarını veya SLQ tabanlı görselleştirme araçlarını kullanıyor olabilir. Analitik platformunuz güçlü ve güvenli SQL sunabilmeli ve tüm bu popüler büyük veri araçlarıyla uyumlu çalışabilmelidir.

Vertica’nın çekirdeği, günümüzün ve geleceğin analitik iş yüklerini karşılayabilmek için, sütun odaklı, ilişkisel veritabanı yapısındadır. Uzun zaman önce geliştirilen satır odaklı ve daha küçük veriye göre ölçeklenmiş ticari ve açık kaynak yapıların aksine, Vertica’nın sağladığı avantajları aşağıdaki gibi sıralayabiliriz.

SQL tabanlı tüm analitik fonksiyonları sağlar.

Büyük veriyi depolamak için kümeleme (cluster) mantığı sunar. Üstün sorgu ve analitik performansı sağlar.

Diğer veri analitiği çözümleriyle karşılaştırıldığında sağladığı sıkıştırma algoritmaları sayesinde daha az sunucu ve depolama birimi maliyeti sağlar.

Esnek ve ölçeklenebilir yapısı sayesinde artan iş yüklerini karşılama kolaylığı sağlar.

R, Phyton, veri tabanı makine öğrenme algoritmalarıyla genişleyebilme özelliği sağlar.

Veri tabanı yöneticilerinin performansı artırmak için çok fazla ayar yapmasına gerek kalmaz.

Sunduğu ileri düzeydeki analitik fonksiyonları (join, karmaşık veri türleri, SQL tabanlı tahminleme), Petabyte’larca veri için ölçeklenebilmesi, hızlı analitik işlemleri (what-if, A/B test), Phyton ve R desteği, SQL tabanlı geleneksel görselleştirme ve ETL araçlarıyla çalışabilmesi, Vertica’yı tam özellikli bir analitik platform yapmaktadır (Şekil 1).

No alt text provided for this image

Şekil 1. Vertica Analitik Platform.

Vertica, kütlesel parallel işleme yapısı (Massively Parallel Processing – MPP) sayesinde, Exabyte ölçülerine çıkabilmektedir. Bu sayede, endüstride pek çok talep edilen kullanım alanında yer edinebilmiştir.  Sütun depolama algoritması, sıkıştırma özelliği sayesinde çok hızlı büyük veri analizleri yapabilmekte, saatler süren sorguları dakikalara, dakikalar süren sorguları saniyelere indirgeyebilmektedir. Vertica, ileri düzeyde SQL tabanlı analitik sunarken, grafik analizi, “triangle counting”, Monte Carlo simülasyonları, coğrafik mekansal (geospatial) gibi daha pek çok yapıyı sunar.  Veri analitiği, Vertica’ya yüklediğiniz veri üzerine veya dışarda bulunan, Amazon S3, HDFS gibi lokasyonlarda, veriyi taşımanıza gerek kalmadan birleşik/bütünleşik bir görünümde yapılabilir. Vertica, makine öğrenme sürecini uçtan uca destekler ve modeli, Vertica kümesi (cluster) üzerinde çalıştırabilirsiniz.

Vertica’nın tüm sürümleri, görselleştirme ve ETL araçları ile birlikte test edilir. Popüler SQL ve JDBC, ODBC bağlantılarını destekler. Bu sayede organizasyonlar yaptıkları yatırımları korumuş olurlar. Pentaho, Informatica, Talend gibi ETL araçlarını, yine Pentaho, Tableau, MicroStrategy gibi görselleştirme araçlarıyla uyumlu şekilde çalışır. Vertica, bellek-disk arasındaki dengeli sütun bazlı sıkıştırma modeliyle, modern veri analitiği iş yükleri için, eski teknolojilere göre üstel olarak hız sağlar.

Vertica, endüstri standardı  olan güvenlik protokollerini destekleyerek uçtan uca güvenliği sağlar. LDAP, Kerberos, TLS, FIPS 140-2, AWS IAM ve  Apache Sentry gibi protokolleri destekler. Vertica, istemci ve sunucu arasındaki güvenli bağlantı için TLS kullanır. Kimlik doğrulama ve erişim, SHA, LDAP, Kerberos ve SSL sertifikalarda saklanan şifrelerle kontrol edilir. Vertica’nın güvenlik modeli, ANSI standardı rol bazlı erişim kontrolü üzerine inşa edilmiştir. İmtiyazlar, rollere atanır, rollerde kullanıcılara atanır. Vertica, erişim kontrol kuralları sayesinde, satır ve sütun verisi erişimini daha hassasiyetle yapar. Sütun maskeleme özelliğine sahiptir. Ek olarak, loglama mekanizması sayesinde, yapılan operasyonun izini takip eder ve bu iz, farklı bir güvenlik yapısına aktarılabilir.

Vertica çözümünü kendi veri merkezinizde çalıştırabilirsiniz. İsterseniz, “public” ve “private” bulut üzerinde de çalıştırabilirsiniz. Vertica, Amazon, Azure, Google, VMware bulut üzerinde çalışabilir. Vertica analitik motoru, Apache Hadoop üzerinde çalıştırılabilir. Apache Hadoop üzerinde çalışan Vertica SQL, veri keşfini ve SQL analitiğini hızlandırır. ORC, Parquet, Avro gibi Hadoop dosya formatlarını okur ve Parquet’e yazar. Vertica SQL motorunun Hadoop üzerinde çalışması sayesinde, Hadoop’un yetenekleri üzerinde ileri düzeyde ve geniş kapsamlı SQL sorgularını yönetebilirsiniz. TPC-DS sorgularınızı bir değişikliğe gerek kalmadan herhangi bir Hadoop dağıtımı üzerinde çalıştırabilirsiniz.

Vertica, on-prem’de hiçbir şeyi paylaşma (shared-nothing) mantığıyla, maliyet avantajlı sunucuların oluşturduğu kümeleme yapısı üzerinde dağıtık olarak çalıştığı için, ortamın performansını artırmak, yapıya yeni sunucuların eklenmesiyle kolayca yapılır. Vertica’nın grid yapısı sayesinde, donanım ve ölçeklendirme maliyetleri %70 – %90 arasında azalmaktadır. Vertica’nın analitik iş yükleri için uygun olmasını sağlayan dört özellik, sütun odaklı depolama, sıkıştırma özelliği, herhangi bir hata noktası olmayan kümeleme yapısı, dağıtık sorgu çalıştırabilmesi Şekil 2 üzerinde görsel olarak görülebilir.

No alt text provided for this image

Şekil 2. Vertica’yı Özgün kılan özellikler.

Bu yazımda Vertica Analitik Platform’undan genel olarak bahsettim. Yazımın başında belirttiğim gibi Vertica özelinde Microfocus ile Gold Partner’ız. Sizlerle gerek PoC süreci için gerekse ürünün daha detaylı anlatımı için çalışabiliriz.

Asiye Yiğit – 21 Temmuz Pazar