Oracle AI Vector Search ve Vector Embeddings: Kavramlar, Modeller ve Workflow
Giriş
Yapısal olmayan verilerin (metin, görsel, ses vb.) hızla artması, bu verilerden anlamlı sonuçlar çıkarmayı giderek daha zor hale getiriyor. Geleneksel ilişkisel veri tabanı sorguları, bu tür verilerin içeriksel benzerliklerini yakalamakta yetersiz kalıyor. İşte bu noktada vector embeddings ve similarity search kavramları devreye giriyor. Oracle Database, son yıllarda bu alan için güçlü özellikler sunmaya başladı. Bu makalede, vector embeddings’in ne olduğu, nasıl üretildiği, similarity search mantığı, embedding modelleri ve Oracle AI Vector Search Workflow’un adımları detaylı şekilde ele alınacaktır.
Vector Embeddings Nedir?
Vector embeddings, verilerin anlam ve bağlamına göre oluşturulan matematiksel temsillerdir. Metin, ses ya da görsel gibi yapısal olmayan veriler, çok boyutlu sayısal vektörlere dönüştürülerek temsil edilir. Böylece farklı veri parçaları arasındaki benzerliklerin ölçülmesi mümkün hale gelir.
Embeddings yalnızca Oracle Database dışında değil, doğrudan Oracle Database içinde de üretilebilir. Bunun için ONNX tabanlı machine learning modelleri kullanılabilir veya üçüncü taraf REST API servislerinden faydalanılabilir. Bu yaklaşım sayesinde belgeler, e-postalar, müşteri yorumları, ses kayıtları ya da fotoğraflar gibi farklı veri tipleri embedding vektörlerine dönüştürülebilir. En yaygın kullanım alanlarından biri proximity search (benzerlik aramaları)dır. Örneğin, büyük bir belge havuzunda birbirine yakın içerikleri bulmak, görseller arasındaki benzer fotoğrafları tespit etmek veya ses kayıtları arasında yakınlık ölçmek bu yöntemle hızlı ve verimli bir şekilde yapılabilir.
Similarity Search Mantığı
Similarity search (benzerlik araması), bir sorgu vektörüne en yakın k adet vektörün bulunması sürecidir. Bu arama sonucunda, sorgu vektörüne en çok benzeyen öğelerden başlayarak sıralı bir liste elde edilir. Burada önemli olan nokta, mutlak mesafenin değeri değil, vektörler arasındaki göreceli sıralamadır.Basit bir örnek: Vektör uzayında “köpek (dog)”, “kurt (wolf)” ve “kedi yavrusu (kitten)” vektörlerini ele alalım. Köpek ile kurt arasındaki mesafe, köpek ile kedi yavrusu arasındaki mesafeden daha kısadır. Bu nedenle sistem, köpeği kurda, kediden daha benzer kabul eder. Bu, similarity search’ün temel mantığını net bir şekilde görselleştirir.
Similarity search genellikle kümelenmiş (clustered) veri üzerinde çalışır. Bir sorgu, tek bir kümeden ya da birden fazla kümeden sonuç döndürebilir. Burada iki yaklaşım vardır:
- Approximate search (yaklaşık arama): Vektör indekslerini kullanarak aramayı belirli kümelerle sınırlar, hız kazandırır.
- Exact search (kesin arama): Tüm kümelerdeki vektörleri inceler, daha doğru ama daha maliyetli sonuçlar üretir.
Vector Embedding Modelleri
Embeddings üretmek için farklı modellerden yararlanılır. Bu modeller, bir kelimeye, cümleye, görseldeki piksellere veya ses dalga formlarına anlam atayarak onları çok boyutlu sayısal uzayda temsil eder.
- Transformer tabanlı modeller: Modern embedding yöntemlerinin büyük kısmı transformer mimarisine dayanır.
- CNN (Convolutional Neural Networks): Özellikle görsel veriler için kullanılabilir.
- Sentence Transformers: Kelimeleri, cümleleri veya paragrafları embedding vektörlerine dönüştürür.
- ResNet (Residual Network): Görsel verilerde yaygın olarak kullanılan bir mimaridir.
- Spectrogram temsilleri: Ses verilerinin görselleştirilerek embedding’e dönüştürülmesine olanak tanır.
Embedding modelleri yalnızca hazır (pretrained) açık kaynaklı modellerle sınırlı değildir. Kendi veri setlerinizle eğitilmiş modeller de kullanılabilir. Ayrıca her model, embedding vektörünün boyut sayısını (dimensions) belirler. Örneğin:
- Cohere embed-english-v3.0:024 boyutlu vektörler üretir.
- OpenAI text-embedding-3-large:072 boyutlu vektörler üretir.
Daha yüksek boyut sayısı, daha fazla ayrıntı yakalama kapasitesi sunar, ancak işlem maliyetini de artırır.
Oracle Database ve ONNX Desteği
Oracle Database, embedding üretimini yalnızca harici servislerle sınırlamaz. ONNX (Open Neural Network Exchange) standardı ile uyumlu modelleri doğrudan veri tabanı içinde çalıştırmaya imkân tanır. Oracle, kendi içinde bir ONNX runtime barındırır. Bu sayede SQL kullanarak embedding üretmek mümkündür.
Örneğin, my_embedding_model adındaki bir ONNX modelini Oracle Database’e yüklemek için DBMS_VECTOR paketindeki LOAD_ONNX_MODEL prosedürü kullanılabilir. Modelin bulunduğu dizin (DM_DUMP) belirtilir ve veri tabanı içinde modele bir isim verilir (doc_model). Ardından, bu modele dayalı embeddings üretmek için SQL üzerinden TO_VECTOR VECTOR_EMBEDDING alt programları kullanılabilir. Örneğin, “hello” ifadesi bu yöntemle embedding’e dönüştürülebilir.
Bu özellik, verilerin veritabanı dışına çıkarılmadan işlenmesine imkân tanıdığı için hem güvenlik hem de performans açısından kritik avantajlar sağlar.
Oracle AI Vector Search Workflow
Oracle AI Vector Search Workflow, vektör tabanlı aramaların adım adım nasıl uygulanacağını tanımlar. Bu süreç şu dört temel adımdan oluşur:
- Vector Embeddings Üretmek: Yapısal olmayan verilerden (metin, görsel, ses) embeddings oluşturulur.
- Embeddings’i Saklamak: Oracle Database’de vector data type kullanarak tablolar içinde veya primary–foreign key ilişkili yardımcı tablolarda saklanır.
- Vector Index Oluşturmak: Büyük vektör uzaylarıyla çalışırken aramaları hızlandırmak için opsiyonel olarak index’ler tanımlanır.
- Similarity Search ile Sorgulamak: Native SQL üzerinden similarity aramaları yapılır ve ilişkisel sorgularla birleştirilerek en alakalı sonuçlar elde edilir.
Ek olarak, RAG (Retrieval-Augmented Generation) entegrasyonu da mümkündür. Similarity search sonuçları bir prompt’a dönüştürülerek büyük dil modellerine (LLM) gönderilir. Böylece yalnızca arama değil, bağlama uygun yanıtlar üreten bir yapay zekâ pipeline’ı oluşturulmuş olur.
Sonuç
Vector embeddings ve similarity search, modern veri işleme yaklaşımlarının temelini oluşturuyor. Oracle Database’in sunduğu AI Vector Search Workflow, bu kavramları doğrudan veri tabanı içinde kullanarak kurumlara hem performans hem de güvenlik açısından büyük avantaj sağlıyor. Embeddings’in üretilmesi, saklanması, indekslenmesi ve similarity search ile sorgulanması süreçleri, yapısal olmayan verilerin işlenmesinde güçlü bir temel sunuyor.
Oracle’ın ONNX entegrasyonu ve SQL tabanlı embedding üretimi, verilerin veri tabanı dışına çıkmadan işlenmesini mümkün kılıyor. Bu da kurumların yapay zekâ çözümlerini daha güvenli, daha hızlı ve daha ölçeklenebilir şekilde hayata geçirmesine katkı sağlıyor.
Sarav Asiye Yiğit * 12 Eylül 2025 Cuma
Kaynakça:
“Oracle AI Vector Search Fundamentals” eğitimi






Yorumunuzu Bırakın