,

ChatGPT zdał egzamin z radiologii. Problem w tym, że zmyślił niektóre diagnozy

17.05.2023 10:27

Czy sztuczna inteligencja zastąpi lekarzy? To nie takie proste. Chociaż oprogramowanie poradziło sobie z egzaminem z radiologii, pojawiły się widoczne wady, które wykluczają pracę z “prawdziwymi” pacjentami. Sprawdź, co odkryli naukowcy.

ChatGPT zdał egzamin z radiologii
fot. Shutterstock

Sztuczna inteligencja znajduje coraz więcej zastosowań w różnych dziedzinach. Ostatnie badania wykazały, że ChatGPT mógłby pomóc pacjentom, udzielając porad medycznych. Eksperyment udowodnił, że technologia jest nawet bardziej empatyczna niż lekarze… Trwają kolejne badania, które mają sprawdzić, w jakim zakresie ChatGPT mógłby pomóc w szpitalach czy przychodniach. Czy jest to w ogóle możliwe?

–  Najnowsza wersja ChatuGPT potrafi interpretować wyniki medycznych badań obrazowych na tyle dobrze, że zdała egzamin na lekarza radiologa; ma jednak nadal pewne widoczne wady, ograniczające wiarygodność tak postawionych diagnoz –  informuje pismo „Radiology”.

ChatGPT to chatbot wykorzystujący sztuczną inteligencję (AI). Dzięki modelowi głębokiego uczenia się rozpoznaje wzorce i relacje między słowami w ogromnych zbiorach danych w celu generowania odpowiedzi podobnych do ludzkich. Bywa jednak, że jego odpowiedzi nie są zgodne ze stanem rzeczywistym.

– Wykorzystanie dużych modeli językowych, takich jak ChatGPT, rośnie i będzie rosło. Nasze badania dają wgląd w możliwości ChatuGPT w kontekście radiologii, podkreślając niesamowity potencjał dużych modeli językowych, wraz z obecnymi ograniczeniami, które czynią go niewiarygodnym — powiedział główny autor, dr Rajesh Bhayana, radiolog z University Medical Imaging w Toronto (Kanada).

ChatGPT 3.5 a egzamin z radiologii

Naukowcy, by ocenić  skuteczność AI w zdawaniu egzaminu na radiologa najpierw przetestowali ChatGPT w oparciu o GPT-3.5, obecnie najczęściej używaną wersję, stosując treść i poziom trudności egzaminów Canadian Royal College i American Board of Radiology. Pytania zostały uporządkowane w taki sposób, by ocenić najprostsze czynności myślowe (zastosowanie, analiza, synteza). W przypadku tych bardziej złożonych oceniano z kolei opisywanie znalezionych cech obrazu, postępowanie kliniczne, klasyfikację oraz  powiązania chorób. ChatGPT oparty na GPT-3.5 odpowiedział poprawnie na 69 proc. pytań (104 ze 150). Miał jednak trudności z pytaniami dotyczącymi takich kwestii, jak myślenie wyższego rzędu, kalkulacja i klasyfikacja, stosowanie pojęć.

W kolejnym badaniu udostępniony w marcu 2023 jako płatna usługa GPT-4 odpowiedział poprawnie na 81 proc. (121 ze 150) tych samych pytań, przewyższając GPT-3.5 i przekraczając próg zaliczenia wynoszący 70 proc. GPT-4 działał znacznie lepiej niż GPT-3.5 w przypadku bardziej skomplikowanych intelektualnie czynności, zwłaszcza gdy chodziło o opisy wyników badań obrazowych (85 proc.) i stosowanie pojęć (90 proc.).

Oznacza to, że bardziej zaawansowane możliwości rozumowania GPT-4 umożliwiają lepszą wydajność w tej dziedzinie.

– Nasze badanie pokazuje imponującą poprawę wydajności ChatuGPT w radiologii w krótkim okresie, podkreślając rosnący potencjał dużych modeli językowych w tym kontekście” – powiedział dr Bhayana.
GPT-4 nie wykazał poprawy w przypadku pytań dotyczących czynności umysłowych niższego rzędu (80 proc. vs 84 proc.) i odpowiedział niepoprawnie na 12 pytań, na które GPT-3.5 odpowiedział poprawnie, co rodzi pytania dotyczące jego wiarygodności w zakresie gromadzenia informacji.

– Początkowo byliśmy zaskoczeni dokładnymi i pewnymi odpowiedziami ChatuGPT na niektóre trudne pytania radiologiczne, ale potem równie zaskoczeni niektórymi bardzo nielogicznymi i niedokładnymi twierdzeniami – powiedział dr Bhayana.

Niebezpieczna tendencja ChatuGPT do generowania niedokładnych, dziwnych odpowiedzi (zwanych też „halucynacjami”) jest rzadsza w wersji GPT-4. Nadal jednak stanowi to duże ograniczenie, jeśli chodzi o praktykę kliniczną. Zwłaszcza, że  ChatGPT konsekwentnie wypowiadał się w sposób wskazujący, że jest czegoś pewien, nawet jeśli wyraźnie nie miał racji.

– Dla mnie jest to jego największe ograniczenie. Obecnie ChatGPT najlepiej nadaje się do pobudzania pomysłów, pomagania w rozpoczęciu procesu pisania medycznego i podsumowywania danych. Jeśli jest używany do szybkiego przywoływania informacji, zawsze musi być zweryfikowany –  zaznaczył dr Bhajana.

Źródło:  

  • R.Bhayana, R. R. Bleakney, S.Krishna, Performance of ChatGPT on a Radiology Board-style Examination: Insights into Current Strengths and Limitations, doi/10.1148/radiol.230582

logo Tu się dzieje