Oceń
Sztuczna inteligencja znajduje coraz więcej zastosowań w różnych dziedzinach. Ostatnie badania wykazały, że ChatGPT mógłby pomóc pacjentom, udzielając porad medycznych. Eksperyment udowodnił, że technologia jest nawet bardziej empatyczna niż lekarze… Trwają kolejne badania, które mają sprawdzić, w jakim zakresie ChatGPT mógłby pomóc w szpitalach czy przychodniach. Czy jest to w ogóle możliwe?
– Najnowsza wersja ChatuGPT potrafi interpretować wyniki medycznych badań obrazowych na tyle dobrze, że zdała egzamin na lekarza radiologa; ma jednak nadal pewne widoczne wady, ograniczające wiarygodność tak postawionych diagnoz – informuje pismo „Radiology”.
ChatGPT to chatbot wykorzystujący sztuczną inteligencję (AI). Dzięki modelowi głębokiego uczenia się rozpoznaje wzorce i relacje między słowami w ogromnych zbiorach danych w celu generowania odpowiedzi podobnych do ludzkich. Bywa jednak, że jego odpowiedzi nie są zgodne ze stanem rzeczywistym.
– Wykorzystanie dużych modeli językowych, takich jak ChatGPT, rośnie i będzie rosło. Nasze badania dają wgląd w możliwości ChatuGPT w kontekście radiologii, podkreślając niesamowity potencjał dużych modeli językowych, wraz z obecnymi ograniczeniami, które czynią go niewiarygodnym — powiedział główny autor, dr Rajesh Bhayana, radiolog z University Medical Imaging w Toronto (Kanada).
ChatGPT 3.5 a egzamin z radiologii
Naukowcy, by ocenić skuteczność AI w zdawaniu egzaminu na radiologa najpierw przetestowali ChatGPT w oparciu o GPT-3.5, obecnie najczęściej używaną wersję, stosując treść i poziom trudności egzaminów Canadian Royal College i American Board of Radiology. Pytania zostały uporządkowane w taki sposób, by ocenić najprostsze czynności myślowe (zastosowanie, analiza, synteza). W przypadku tych bardziej złożonych oceniano z kolei opisywanie znalezionych cech obrazu, postępowanie kliniczne, klasyfikację oraz powiązania chorób. ChatGPT oparty na GPT-3.5 odpowiedział poprawnie na 69 proc. pytań (104 ze 150). Miał jednak trudności z pytaniami dotyczącymi takich kwestii, jak myślenie wyższego rzędu, kalkulacja i klasyfikacja, stosowanie pojęć.
W kolejnym badaniu udostępniony w marcu 2023 jako płatna usługa GPT-4 odpowiedział poprawnie na 81 proc. (121 ze 150) tych samych pytań, przewyższając GPT-3.5 i przekraczając próg zaliczenia wynoszący 70 proc. GPT-4 działał znacznie lepiej niż GPT-3.5 w przypadku bardziej skomplikowanych intelektualnie czynności, zwłaszcza gdy chodziło o opisy wyników badań obrazowych (85 proc.) i stosowanie pojęć (90 proc.).
Oznacza to, że bardziej zaawansowane możliwości rozumowania GPT-4 umożliwiają lepszą wydajność w tej dziedzinie.
– Nasze badanie pokazuje imponującą poprawę wydajności ChatuGPT w radiologii w krótkim okresie, podkreślając rosnący potencjał dużych modeli językowych w tym kontekście” – powiedział dr Bhayana.
GPT-4 nie wykazał poprawy w przypadku pytań dotyczących czynności umysłowych niższego rzędu (80 proc. vs 84 proc.) i odpowiedział niepoprawnie na 12 pytań, na które GPT-3.5 odpowiedział poprawnie, co rodzi pytania dotyczące jego wiarygodności w zakresie gromadzenia informacji.
– Początkowo byliśmy zaskoczeni dokładnymi i pewnymi odpowiedziami ChatuGPT na niektóre trudne pytania radiologiczne, ale potem równie zaskoczeni niektórymi bardzo nielogicznymi i niedokładnymi twierdzeniami – powiedział dr Bhayana.
Niebezpieczna tendencja ChatuGPT do generowania niedokładnych, dziwnych odpowiedzi (zwanych też „halucynacjami”) jest rzadsza w wersji GPT-4. Nadal jednak stanowi to duże ograniczenie, jeśli chodzi o praktykę kliniczną. Zwłaszcza, że ChatGPT konsekwentnie wypowiadał się w sposób wskazujący, że jest czegoś pewien, nawet jeśli wyraźnie nie miał racji.
– Dla mnie jest to jego największe ograniczenie. Obecnie ChatGPT najlepiej nadaje się do pobudzania pomysłów, pomagania w rozpoczęciu procesu pisania medycznego i podsumowywania danych. Jeśli jest używany do szybkiego przywoływania informacji, zawsze musi być zweryfikowany – zaznaczył dr Bhajana.
Źródło:
- R.Bhayana, R. R. Bleakney, S.Krishna, Performance of ChatGPT on a Radiology Board-style Examination: Insights into Current Strengths and Limitations, doi/10.1148/radiol.230582
Oceń artykuł