צ'אטבוטים של בינה מלאכותית (Artificial intelligence chatbots) עשויים להיות בעלי פוטנציאל ברפואת עיניים, בגלל יכולתם לחסוך את המפגש עם המטופל לצורך מעקב בריאותי. פרסומים קודמים הבליטו את יכולתם לספק דיוק אבחנתי רב, לתרום לידע החולים, לאפשר ניטור מרחוק של מצבים כרוניים בעיניים, ולהפחית את הנטל מהעוסקים בתחום הבריאות. מאידך, כשמתייחסים לדרישות הרגולציה ולצנעת הפרט, האינטגרציה המלאה של צ'אטבוטים של בינה מלאכותית במערכות הבריאות מצריכה בדיקות נוספות. קיים ענין עצום במודלים של large language models (LLMs), ובמיוחד ב- ChatGPT-4 (OpenAI) בגלל היכולת שלו לבצע הערכה של סימנים רפואיים בזמן אמת. הגרסאות הקודמות של צ'אטבוט זה הוגבלו לבדיקות של סימנים המבוססות על טקסטים. במחקרים הקודמים של מחברי המאמר הנוכחי נמצא שהביצועים של הצ'אטבוט בתחומי רפואה ורפואת עיניים השתפרו בקצב מרשים, אולם היכולת החדשה של הגרסה האחרונה של הצ'אטבוט לפרש תמונות מתחום רפואת העיניים עדיין לא נבדקה. רפואת עיניים מבוססת על פיענוח יעיל של הדמיות מולטי-מודליות כדי לאפשר דיוק באבחנה. לצ'אטבוט בגרסתו החדשה יש פוטנציאל רב להגביר את היעילות של פיענוח תמונות מתחום רפואת העיניים, דבר שיפחית את עומס העבודה של הקלינאים, יפחית שונות וטעויות באבחנה ויתרום לתוצאות טיפוליות משופרות. מטרת המחקר הנוכחי הייתה לבדוק את הביצועים של ChatGPT-4 בפירוש הדמיות של מקרים לימודיים.
החוקרים היו מקנדה. הם השתמשו בבסיס המידע הפתוח של מקרים עם מחלות עיניים מה- OCTCases, שהינו פלטפורמה ללימוד רפואה של מחלקת העיניים ומדעי הראייה של האוניברסיטה של טורונטו. היא כוללת הדמיות מולטי-מודליות ושאלות ברירה. לגבי 136 מתוך 137 מקרים היו שאלות ברירה. במחקר הוצגו לצ'אטבוט שאלות שכללו הדמיות מולטי-מודליות מ- 16 אוקטובר עד 23 אוקטובר 2023. התוצאים העיקריים היו מידת היכולת של הצ'אטבוט לענות נכון על שאלות מרובות אפשרויות (multiple-choice questions) המתייחסות לזיהוי תמונה במקרים של מחלות עיניים. בוצעו בדיקות סטטיסטיות להשוואה של מידת ההצלחה במענה על השאלות בתת-תחומים שונים ברפואת עיניים.
סך הכול נבדקו 436 שאלות מרובות אפשרויות בנוגע ל- 136 מקרים עם מחלות עיניים שכללו 448 תמונות. הצ'אטבוט ענה נכון על 299 שאלות (70%) מכל המקרים. הביצועים היו טובים יותר בתחום הרשתית (77% תשובות נכונות) מאשר בתחום הנוירו-אופתלמולוגיה (58% תשובות נכונות). ביצועי הצ'אטבוט היו טובים יותר בשאלות ללא תמונות (82% תשובות נכונות) מאשר בשאלות שכללו פיענוח תמונות (65% תשובות נכונות). הביצועים הטובים ביותר היו בתחום הרשתית והגרועות ביותר בתחום הנוירו-אופתלמולוגיה. הביצועים היו בינוניים בתחום אונקולוגיה של העין (72% תשובות נכונות), רפואת עיניים של ילדים (68% תשובות נכונות), אובאיטיס (67% תשובות נכונות) וגלאוקומה (61% תשובות נכונות).
המסקנות היו שהצ'אטבוט בגרסתו האחרונה ענה נכון בערך על שני שליש מהשאלות המבוססות על הדמיות בנוגע לחולים במחלות עיניים. הצ'אטבוט המולטי-מודלי הראה ביצועים טובים יותר בתשובה על שאלות שלא כוללות פיענוח תמונות הדמיה. לאור הביצועים שהודגמו יש להדגיש את הצורך בשילוב נכון של כלי כזה ברפואה.
Mihalache A, Huang RS, Popovic MM, Patil NS, Pandya BU, Shor R, Pereira A, Kwok JM, Yan P, Wong DT, Kertes PJ, Muni RH
Accuracy of an Artificial Intelligence Chatbot’s Interpretation of Clinical Ophthalmic Images
JAMA Ophthalmol. 2024;142(4):321-326
השאירו תגובה
רוצה להצטרף לדיון?תרגישו חופשי לתרום!