Bir PASS Kararı İçin Gerçekten GPU Çalıştırmak Zorunda mıyız?
AI dünyasında rahatsız edici bir soru sormak istiyorum.
Bir sistemin yalnızca “İlerle”, “Bekle” veya “Durdur” demesi gerekiyorsa, neden yüz milyarlarca parametre çalıştırıyoruz?
Gerçekten.
Bugün birçok şirket operasyonel kararlar için LLM kullanıyor.
- Bir deployment başlayacak.
- Bir agent aksiyon alacak.
- Bir workflow ilerleyecek.
- Bir otomasyon dış sisteme erişecek.
Ve sistemden beklenen şey çoğu zaman yalnızca şu:
- PASS
- HOLD
- RED
Yani:
- İlerle.
- Bekle.
- Durdur.
Fakat bu birkaç byte’lık karar için çoğu zaman devasa bir hesaplama makinesi çalıştırılıyor.
Tipik Bir LLM Çağrısının Maliyeti
Tipik bir LLM çağrısı çoğu zaman şu maliyetlerle gelir:
- 100ms – 3000ms+ gecikme.
- GPU bağımlılığı.
- Token tüketimi.
- Inference maliyeti.
- Network gecikmesi.
- Aynı girdide her zaman aynı sonucu üretmeme ihtimali.
Çünkü LLM’lerin temel amacı karar vermek değil, içerik üretmektir.
Bu noktada ilginç bir soru ortaya çıkıyor:
Eğer amaç bir makale yazmak değilse, bir kullanıcıyla sohbet etmek değilse ve yalnızca operasyonel bir karar üretmekse, neden hâlâ içerik üretmek için tasarlanmış bir sistem kullanıyoruz?
Daha Büyük Model Her Zaman Doğru Cevap mı?
Son birkaç yıldır AI dünyası daha büyük modeller inşa etmeye odaklandı.
- Daha fazla parametre.
- Daha fazla GPU.
- Daha fazla hesaplama.
Fakat belki de bazı problemler için doğru soru şu değildir:
“Daha büyük modeli nasıl yaparız?”
Belki de doğru soru şudur:
“Bu problem gerçekten bir LLM gerektiriyor mu?”
Aether Core Neden Ortaya Çıktı?
Biz kendi çalışmalarımız sırasında bu sorunun peşine düştük.
Sonuç olarak Aether Core ortaya çıktı.
Aether bir chatbot değil.
Bir LLM değil.
Bir generative AI sistemi değil.
Aether, Deterministic Cognitive Physics Engine olarak tasarlandı.
Amacı içerik üretmek değil.
- Davranışı ölçmek.
- Yapıyı ayrıştırmak.
- Operasyonel sinyalleri analiz etmek.
Bu çekirdeğin üzerine kurduğumuz VAXONI katmanı ise PASS / HOLD / RED kararları üretiyor.
VAXONI Ölçüm Katmanı Benchmark Sonuçları
Benchmarklarımızda ölçüm katmanının ortalama çalışma süresi yaklaşık olarak:
0.20ms
P95 değeri:
0.42ms
Ve bu karar katmanı için gerekenler:
- GPU: Yok.
- Token: Yok.
- Inference: Yok.
- Prompt engineering: Yok.
Asıl Tartışma Hız Değil, Mimari
Bu noktada asıl tartışma başlıyor.
Çünkü konu artık yalnızca hız değil.
Konu mimari.
Önümüzdeki birkaç yıl içinde milyonlarca, hatta milyarlarca AI agent çalışacak.
Her agent aksiyonu öncesinde ne olacak?
- Her karar için bir LLM mi çağrılacak?
- Her kontrol noktası için GPU mu çalıştırılacak?
- Her operasyonel doğrulama için token mı harcanacak?
- Yoksa karar güvenliği için tamamen farklı bir katman mı oluşacak?
Her Problem İçerik Üretme Problemi Değildir
Benim kişisel görüşüm şu:
LLM’ler içerik üretmek için olağanüstü sistemler.
Fakat her problem içerik üretme problemi değil.
- Bazı problemler karar verme problemi.
- Bazı problemler kontrol problemi.
- Bazı problemler durdurma problemi.
Ve bu problemler için farklı mimariler ortaya çıkacak.
Geleceğin Sorusu
Belki de geleceğin en önemli sorusu şu olmayacak:
“Daha büyük modeli nasıl yaparız?”
Belki de asıl soru şu olacak:
“Bir PASS kararı için gerçekten GPU çalıştırmak zorunda mıyız?”
Siz Olsanız Ne Yapardınız?
Merak ediyorum.
Bir sistemin yalnızca PASS / HOLD / RED üretmesi gerekiyorsa...
- Bir LLM mi kullanırdınız?
- Yoksa bunun için farklı bir mimari gerektiğini mi düşünüyorsunuz?