Grok yine zirvede: Yapay zekaların halüsinasyon oranlarında şaşırtıcı sonuçlar

OpenAI, geçtiğimiz Perşembe günü ChatGPT-5’i tanıttığında CEO Sam Altman, bu sürümün şimdiye kadar yayınladıkları en “güçlü, akıllı, hızlı, güvenilir ve sağlam” ChatGPT olduğunu vurguladı. Lansman sırasında, şirket çalışanları ayrıca ChatGPT-5’in “halüsinasyon” olarak bilinen yanlış bilgi üretme oranını azaltacağını belirtti.

Halüsinasyon nedir?

Yapay zekâ, gerçekte olmayan bilgileri gerçekmiş gibi sunduğunda bu durum “halüsinasyon” olarak adlandırılır. Büyük dil modellerinin (LLM) halüsinasyon oranları son yıllarda düşse de, hâlâ tamamen ortadan kalkmış değil. Bu da, insan gözetimi olmadan görevleri güvenle yerine getirmelerini engelleyen temel faktörlerden biri.

Vectara testleri: ChatGPT-5, GPT-4o’dan sadece %0,09 daha iyi

LLM performansını ölçen Vectara, halüsinasyon oranlarını karşılaştırmak için kendi “Hughes Halüsinasyon Değerlendirme Modeli” (HHEM) tablosunu kullandı. Sonuçlara göre:

  • ChatGPT-5: %1,4 halüsinasyon oranı

  • GPT-4: %1,8

  • GPT-4 Turbo & 4o Mini: %1,69

  • GPT-4o: %1,49

Yani ChatGPT-5, GPT-4o’dan yalnızca %0,09 oranında daha düşük halüsinasyon üretiyor. İlginç bir şekilde, ChatGPT-5’in oranı, %1,2 ile daha iyi bir performans sergileyen ChatGPT-4.5 Önizleme sürümünden biraz daha yüksek. Öte yandan, OpenAI’nin en iyi akıl yürütme modeli olan o3-mini %0,795 ile hâlâ en düşük halüsinasyon oranına sahip.

Grok’un yüksek halüsinasyon oranı ve tartışmalı “Spicy” modu

Karşılaştırmada, rakip modellerin performansı ChatGPT-5’in hâlâ önde olduğunu gösteriyor.

  • Gemini-2.5-pro: %2,6

  • Grok-4: %4,8

Özellikle Grok, halüsinasyon üretme konusunda listenin zirvesinde. XAI’nin geliştirdiği Grok, yakın zamanda “Spicy” modu ile de eleştiri topladı. Bu mod, ünlü isimler üzerinde deepfake içerikler oluşturulmasına zemin hazırlayabileceği endişesi yarattı. Şirket, sistemin çıplaklık veya cinsel içerikleri engelleyecek filtreler içerdiğini söylese de, bazı örnekler bu endişeleri güçlendirdi.

Eski modellerin kaldırılması tepki çekti

ChatGPT-5’in piyasaya sürülmesiyle birlikte OpenAI, ChatGPT-4, GPT-4o ve 4o-mini gibi sürümleri Plus kullanıcılarının erişiminden kaldırdı. Bu durum, kullanıcıların tepkisine yol açtı. Bazı Reddit kullanıcıları, “tek arkadaşını bir gecede kaybetmek” benzetmesiyle tepkilerini dile getirdi.

Sam Altman, X üzerinden yaptığı açıklamada, GPT-5’in genel olarak daha iyi olsa da GPT-4o’da sevilen bazı özelliklerin önemini hafife aldıklarını kabul etti. Şirket, bu tepkiler üzerine sınırlı bir süreliğine GPT-4o’yu Plus kullanıcılarına geri getireceğini duyurdu.

Related Posts

Microsoft, muhtemelen varlığını bile hatırlamadığınız özel Windows 11 sürümünü sonlandırıyor

Microsoft bir yandan herkesi Windows 11e geçmeye ikna etmek için uğraşırken, diğer yandan özel bir Windows 11 sürümünü sonlandırmaya hazırkanıyor.

İnsanların sokakta yürüme hızları, 30 yıl içinde neden arttı?

1980’lerden bu yana büyük şehirlerde insanlar daha hızlı yürüyor, daha az vakit geçiriyor. Eski video kayıtları ve yeni teknolojilerle yapılan karşılaştırmalar, şehir hayatının sessiz dönüşümüne ışık tutuyor.

İkinci el otomobil satıcıları bayram etti

Sıfır otomobil fiyatları hızla yükselirken, ikinci el araç piyasasında şaşırtıcı bir hareketlilik yaşanıyor. Bayram tatilleriyle birleşen ekonomik belirsizlik, alıcıları doğrudan ikinci el piyasasına yönlendirdi. Artan talep, satıcıların yüzünü güldürürken, satış rakamları da son yılların en yüksek seviyelerine ulaştı.

Chopard yaza iddialı bir giriş yapıyor

Chopard’ın zarif ve seçkin çizgileriyle tanınan Alpine Eagle serisi, bu yaz radikal bir değişimle karşımızda. Marka, 41 mm’lik sportif ve şık modellerine ilk kez bu denli iddialı renkler kattı. Maritime Blue ve Rock Jasmine tonlarındaki yeni modeller …

Yüzyıllık büyük gizemde sona gelindi: İlk uçağı kim icat etti? Çok şaşıracaksınız

Wright Kardeşler mi, Santos-Dumont mu, yoksa Osmanlı’dan Hezârfen mi? İşte gökyüzüne uzanan gerçek hikâye… Uçmak, insanlığın en büyük hayaliydi. Ama bu hayali kim ilk gerçekleştirdi? Herkesin bildiği Wright Kardeşler mi, yoksa tarihin unuttuğu kahramanlar mı? Uçuşun tarihine dair bilinmeyenler, tartışmalar ve şaşırtıcı detaylar…

Türkiye kıyılarında köpekbalığı sayısı artıyor mu?

Türkiye kıyılarında köpekbalığı sayısı artıyor mu?