Pentaho

Merhaba;

Sizlere HDS’in (“Hitachi Data Systems”) ürün ailesine dahil ettiği Pentaho ile ilgili genel bir bilgi aktarmaya çalışacağım. Pentaho ile neler yapabileceğimize bakmadan önce veri büyüklüğü ile ilgili mevcut durumdan ve bazı tahminlerden bahsetmek istiyorum. Açıkcası günümüzde bir veri devriminin başladığını söylemek yalnış olmaz. Örneğin, 2008’de internete bağlı cihaz sayısının, yaşayan insan sayısından fazla olduğu rapor edilmiş. IDC, 2020’ye kadar her birey için 5200GB’dan daha fazla veri olacağını tahmin ediyor. Günümüzden 2020 yılına kadar dijital dünyanın, her 2 yılda 2’ye katlanacağı ifade ediliyor. Oluşan verilerin büyük bir kısmı makine verisi ve yapısal olmayan (“unstructured”) veridir. Bu kadar verinin ise %97’si gibi büyük bir kısmı hiç etiketlenmemiş, hiç bir şekilde kullanılmamış durumdadır. İnanılmaz değil mi?
Büyük veriyi üç özelliği ile tanımlıyorduk: “volume”, “variety”, ve “velocity”. “Volume”, verimizin büyüklüğünü, “variety”, verinin pek çok farklı kaynaktan geldiğini, “velocity” ise bir t anında ne kadar verinin biriktiğini ifade ediyordu. Bu üç “v” arttıkça, firmaların verilerini nasıl depolayacağını, depoladığı verileri nasıl analiz edeceğini, verilerini nasıl gelire dönüştüreceğini adreslemesi gerekmektedir.
Yaptığımız işle ilgili kendimizi geliştirip daha çok kazanç sağlayabilmemiz ve sosyal inovasyon için verinin ne kadar önemli olduğunun hepimiz farkındayız. Dahası veri yapısınında hızla değiştiğini görüyoruz. Yıllarca, yapısal verilerle uğraştık. Sonra, birden insanların ürettiği yapısal olmayan tüm verilerin (mesajlar, dökümanlar, sosyal medya aktiviteleri gibi) aslında ne kadar önemli bilgileri bize sağlayabileceğini farkettik. Kısa bir zaman içerisinde üretilen bu verilerin, miktar olarak yapısal veriyi solladığını gördük. Öyleki büyümedeki yüksek hız bu verileri yönetmek zorunda olan firmalara hazırlıksız oldukları için zorluklar yaşattı. Bir adım daha öteye gidersek artık makine verisi dediğimiz hızla büyüyen bir veri daha var karşımızda.
Büyük veri (“Big Data”) ve analitiğin firmaların can damarı haline gelmekte olduğunu görüyoruz. HDS’in büyük veri üzerindeki odağı, sadece geçmişi analiz etmek değil, şimdiyi daha iyi hale getirmek ve geleceği iyileştirmektir. Üretilen veri miktarlarıyla ilgili yine bazı sayısal örnekler verelim. “New York Stock Exchange” merkezleri her gün yaklaşık 1TB veri oluşturmaktadır. “Twitter”, her gün yaklaşık 10TB veri üretmektedir. Makineler tarafından üretilen verileri dikkate aldığımızda bu değer çok daha fazla artış göstermektedir. Örneğin “Boeing 747” jeti, 24 saatlik uçuşunda nerdeyse 2000TB’lık veri oluşturmaktadır. CERN (“the European organization for nuclear research)’deki “Hadron Collider” parçaçık hızlandırıcısı, saniyede 40TB gibi inanılmaz büyüklükte veri oluşturmaktadır (Kaynak: Information Management, Shawn Rogers, big Data Is Scaling bI and Analytics, Sept. 2011.).
Firmaların büyük veri ile ilgili yaşadıkları zorluklara bir göz atalım. Evet verinin analiz edilmesindeki zorlukları biliyoruz. Eğer veri verimli bir şekilde yakalanmamış, depolanmamış ve yönetilmemiş ise daha bu analiz aşamasına bile gelemiyoruz zaten. En doğru çıkarımların, pek çok kaynaktan gelen/toplanan verilerin analizleri sonucu olabileceği açıktır.
İşte burda Pentaho işin içine giriyor. Büyük verimizden doğru çıkarımlar yapmak zorundayız ve gerçekten kaybedecek zamanımız yok. Tabiri caizse atı alan Üsküdar’ı geçiyor. Hızlı sonuçlar üretmemiz, hızlı aksiyonlar alabilmemiz gerekiyor. Büyük verimizi anlamlandırabilmemiz gerekiyor. Veri, mobil verisi, tıklama dizisi verisi (“clickstreams”), müşteri verisi, sosyal medya verisi, uygulama logları, makinelerin ürettği veriler gibi pek çok veri türü olabilir. Büyük veri analizlerinde kullanılan geleneksel yöntemler, pek çok beklemeyi içerdiği gibi, usandırıcı kompleks kodlama süreçlerinide içinde barındırıyor. Haliyle, bu süreçte firmaların en kısa zamanda büyük veriden hızla aksiyona dönüştürülebilen anlamlı sonuçlar çıkarabilme süresini uzatıyor. Rekabette geri kalmalarına, sonucu olarak para keybetmelerine neden oluyor. Pentaho, büyük veri için ölçeklenebilir, yönetilebilir, verimli ve maliyet avantajlı bir altyapı sunuyor. Pentaho, büyük verinin analitik yaşam döngüsünü kısaltıyor ve basitleştiriyor. Görsel veri yönetimini zengin analitik araçlarıyla sunabilen bir çözüm. İşaretle ve tıkla (“point-and-click”) yöntemine göre çalışan görsel geliştirme ortamı ile büyük verinin hazırlık ve modelleme aşaması sadece java/BI ve geleneksel kod yazan uzman arkadaşların yapabildiği bir işlem olmaktan sıyrılmış oluyor. Pentaho, Hadoop “cluster” üzerinde çalışır. Raporlarınızı ve kontrol/gösterge panellerini oluşturabilir, farklı kaynaklardan gelen verilerinizi farklı boyutlarda analiz edebilirsiniz. Pentaho, zengin ve etkileşimli veri görüntüleme ve verinin keşfedilmesi yeteneklerine sahiptir. Bu yetenekler sayesinde iş kullanıcıları ve analistler, desenleri ve eğilimleri kolayca belirleyebilirler.
“Pentaho Instaview” etkileşimli analitik uygulamasıyla, verinin keşfedilmesi, görüntülenmesi ve analiz edilmesi için ihtiyaç duyulan süreyi kısaltabilirsiniz. Bu uygulama sayesinde veri bilimcileri, veri analistleri veriden, verinin analitiğine kolayca geçiş yapabilirler. Hadoop verisine (HDFS, hive), NoSQL veriye (Hbase, Cassandra, MongoDB), twitter, Facebook, Log dosyalarına, web loglarına kolayca erişim sağlayabilirsiniz. Görüldüğü gibi pek çok farklı veri türüne ulaşabilmekte ve geniş bir görüş açısıyla müşterileri, iş operasyonlarını, performans verilerini analiz edebilmektedir. Veri kaynaklarını seçtikten sonra, “instaview”, ham (“raw”) ve yapısal olmayan veriyi otomatik olarak analitik yapılabilir veri setlerine dönüştürür. IT uzmanlarına, “MapReduce” geliştiricilerine çok gerek olmadan kuralsız verinin gruplanmasını, sıralanmasını, toplanmasını sağlar. Sunduğu etkileşimli kullanıcı arabirimiyle, verinin görüntülenmesini ve incelenmesini sağlar. Görüntüleme için, “geo-mapping”, “heat-grids”, “scatter/bubble charts”, “bar/column lines” içerir. “Instaview”, sadece hızlı bir şekilde büyük verinin incelenmesini ve görüntülenmesini sağlamaz aynı zamanda IT ve kod geliştiricilerin büyük veri kaynaklarıyla daha verimli çalışmasınıda sağlar. İçerisinde olan şablonlarla, büyük veri kaynaklarına bakış sağlar. Büyük veri şablonları oluşturulmasını ve bu şablonların çoklu veri kaynaklarıyla zenginleştirilmesini sağlar. Yönetilebilir veri erişimi ile büyük veri kaynaklarına güvenli erişimi garanti eder.
Pentaho, tahmini (“predictive”) analitik yetenekleride sunar. Bu sayede, standart analiz raporlama araçlarıyla görülemeyecek anlamlı desenleri ve korelasyonları ortaya çıkarmanızı sağlar. Görüldüğü gibi, Pentaho, büyük veri kaynaklarından, büyük veri kararları çıkarılması için gereken süreyi dramatik olarak azaltmaktadır (nerdeyse 15 kat).
Özetlemek gerekirse, Pentaho ile raporlar ve kontrol/gösterge panelleri oluşturabilirsiniz, uygulamalara Pentaho’yu gömerek analitik sonuçlar üretebilirsiniz, farklı kaynaklardan gelen veriyi yüklemek ve çıkarmak için ihtiyaç duyulan pahalı ve kompleks kod ihtiyacını ortadan kaldırabilirsiniz. Tüm veri kaynaklarına ulaşabilirsiniz. Veriyi, geleneksel, büyük veri, bulut ortamları arasında taşıyabilirsiniz. Taşıma esnasında veriyi dönüştürebilir, zenginleştirebilir, temizleyebilirsiniz. Veri kaynaklarına dosdoğru, gerçek zamanlı ulaşabilirsiniz. Verinizi analitik araçlarla detaylı inceleyebilir, görüntüleyebilirsiniz. Büyük veriyi, bağlantısal veriyle karıştırabilir, karıştırılan bu veriyi,” farklı türdeki son kullanıcıların raporlar ve görüntüler oluşturacağı şekilde sunabilir bu sayede veriniz üzerinde “360 derece görüş/bakış” oluşturabilirsiniz. Herhangi bir kodlamaya ihtiyaç duymadan Hadoop’u mevcut ortamınızla bütünleştirebilir ve çok kısa zamanda verinizden anlamlı sonuçlar çıkarabileceğiniz “veri ambarı optimizasyonu” sağlayabilirsiniz. Hadoop verisi üzerinde iş kullanıcıları için self-servis analitik yapabilecek şekilde sürecinizi otomatize edebilir, veri ambarları, analitik veri tabanları gibi pek çok veri ile bütünleştirerek kolaylaştırılmış veri arıtımı (“streamlined data refinery”) yapabilirsiniz.

Asiye Yiğit – 14 Haziran 2017

Pentaho

DevOps ve GitLab

OpenShift, Data Science ve GPU

Kubernetes Ortamlarında Network Gözlemlenebilirliği

MLOps ve DevOps

Açık Kaynak Yazılım Lisans Türleri

One Comment

Leave A Comment Cancel reply

Pentaho

Share This Story!

Related Posts

DevOps ve GitLab

OpenShift, Data Science ve GPU

Kubernetes Ortamlarında Network Gözlemlenebilirliği

MLOps ve DevOps

Açık Kaynak Yazılım Lisans Türleri

One Comment

Leave A Comment Cancel reply