![]() |
![]() |
| [ Ana Sayfa | Editörler | Danışma Kurulu | Dergi Hakkında | İçindekiler | Arşiv | Yayın Arama | Yazarlara Bilgi | E-Posta ] | |
| Fırat University Medical Journal of Health Sciences |
| 2026, Cilt 40, Sayı 1, Sayfa(lar) 098-104 |
| [ English ] [ Tam Metin ] [ PDF ] |
| Pediatrik Çölyak Hastalığı Hakkında Bilgi Sağlamada Üç Yapay Zekâ Chatbotunun Karşılaştırmalı Değerlendirilmesi |
| Ecem İpek ALTINOK1, Özlem SÜMER COŞAR2, Volkan ALTINOK3 |
| 1Ordu University, Faculty of Medicine, Department of Child Health and Diseases, Ordu, TÜRKİYE 2Gazi University, Faculty of Medicine, Department of Pediatric Gastroenterology, Ankara, TÜRKİYE 3Ordu University, Faculty of Medicine, Department of Pediatric Surgery, Ordu, TÜRKİYE |
| Anahtar Kelimeler: Çölyak hastalığı, pediatri, yapay zekâ, sohbet robotu |
|
Amaç: Bu çalışmanın amacı, çocukluk çağı çölyak hastalığı (ÇH) ile ilgili sık sorulan sorulara (SSS) doğru ve güvenilir yanıt verme açısından yaygın olarak kullanılan üç sohbet motorunun—ChatGPT, Gemini ve Copilot—performanslarını değerlendirmek ve karşılaştırmaktır.
Gereç ve Yöntem: Uluslararası kılavuzlar ve güncel derleme makaleler temel alınarak; tanım, tanı, klinik bulgular, laboratuvar testleri, komplikasyonlar, tedavi ve izlem başlıklarını kapsayan 40 maddelik bir SSS seti oluşturuldu. Her soru, bağlamsal yanlılığı en aza indirmek amacıyla Ağustos 2025’te yeni oturumlar kullanılarak Türkçe olarak ChatGPT, Gemini ve Copilot’a ayrı ayrı yöneltildi. Elde edilen yanıtlar, bir çocuk gastroenteroloğu, bir pediatrist ve çölyak hastalığı bulunan bir çocuk cerrahı tarafından körleme olarak değerlendirildi. Yanıtlar; (1) kapsamlı/doğru, (2) eksik/kısmen doğru, (3) karma/yanıltıcı ve (4) yanlış/ilgisiz olmak üzere dört kategoride sınıflandırıldı. Modeller arası uyum Cohen’s kappa katsayısı ile değerlendirildi ve yanıt doğruluğundaki farklar karşılaştırmalı istatistiksel analizlerle incelendi. Bulgular: ChatGPT, kapsamlı/doğru yanıt oranı en yüksek olan sohbet motoru idi (35/40; %87,5); bunu Gemini ve Copilot izledi (her biri 28/40; %70). ChatGPT’nin doğruluk oranı diğer sohbet motorlarına kıyasla istatistiksel olarak anlamlı derecede yüksekti (χ² testi, p<0,05). Yanıltıcı yanıt oranı en yüksek olan model Copilot’tu (6/40; %15). Alt grup analizlerinde ChatGPT, tedavi ve izlem sorularında en iyi performansı gösterirken (16/17; %94,1), Gemini temel bilgi ve klinik bulgular alanında görece daha iyi performans sergiledi ve yanıltıcı yanıt üretmedi. Modeller arası uyum düşüktü (ChatGPT–Copilot κ=0,32; Gemini–Copilot κ=0,35; ChatGPT–Gemini κ=0,11). Sonuç: ChatGPT, kılavuzlarla en uyumlu performansı sergilerken, Copilot daha yüksek yanıltıcı yanıt riski taşımaktadır. Bulgular, yapay zekâ tabanlı sohbet motorlarının hasta ve aile eğitimi için ilk temas aracı olarak potansiyelini ortaya koymakla birlikte, uzman denetimi, olası halüsinasyonların farkında olunması ve kılavuz temelli çerçevelerin gerekliliğini vurgulamaktadır. |
| [ English ] [ Tam Metin ] [ PDF ] |
![]() |
| [ Ana Sayfa | Editörler | Danışma Kurulu | Dergi Hakkında | İçindekiler | Arşiv | Yayın Arama | Yazarlara Bilgi | E-Posta ] |