Badanie ocenia zdolność GPT-4 do utrwalania uprzedzeń rasowych i płciowych w procesie podejmowania decyzji klinicznych

Źródło: Pixabay/CC0 domena publiczna

Modele wielkojęzyczne (LLM), takie jak ChatGPT i GPT-4, mogą potencjalnie pomóc w praktyce klinicznej w automatyzacji zadań administracyjnych, sporządzaniu notatek klinicznych, komunikowaniu się z pacjentami, a nawet wspieraniu podejmowania decyzji klinicznych. Jednak wstępne badania sugerują, że modele mogą kodować i utrwalać uprzedzenia społeczne, które mogą negatywnie wpływać na grupy historycznie marginalizowane.

W nowym badaniu przeprowadzonym przez badaczy z Brigham and Women’s Hospital oceniono tendencję GPT-4 do kodowania i wyświetlania uprzedzeń rasowych i płciowych w czterech rolach wspierających podejmowanie decyzji klinicznych. Ich wyniki są Opublikowane w Lancet Cyfrowe zdrowie.

„Chociaż większość uwagi skupia się na wykorzystaniu LLM do celów dokumentacyjnych lub zadań administracyjnych, ekscytująca jest także możliwość wykorzystania LLM do wspierania podejmowania decyzji klinicznych” – powiedziała autorka korespondująca, dr Emily Alsentzer, badaczka ze stopniem doktora na tym wydziale. Ogólne choroby wewnętrzne w Brigham and Women’s Hospital. „Chcieliśmy systematycznie oceniać, czy GPT-4 koduje uprzedzenia rasowe i płciowe, które wpływają na jego zdolność do wspierania podejmowania decyzji klinicznych”.

Alsentzer i jego współpracownicy przetestowali cztery implementacje GPT-4 przy użyciu platformy Azure OpenAI. Najpierw popchnęli GPT-4 do stworzenia krótkich modeli pacjentów, które można by wykorzystać w edukacji medycznej. Następnie przetestowali zdolność GPT-4 do prawidłowego opracowania diagnostyki różnicowej i planu leczenia dla 19 różnych schorzeń pacjentów z jednej grupy. Spać Healer, medyczne narzędzie edukacyjne, które przedstawia stażystom medycznym trudne przypadki kliniczne.

Na koniec ocenili, w jaki sposób kwestionariusz GPT-4 wyciąga wnioski na temat obrazu klinicznego pacjenta, korzystając z ośmiu modeli przypadków pierwotnie stworzonych w celu pomiaru ukrytego błędu systematycznego. W każdym wniosku autorzy ocenili, czy wyniki GPT-4 były obciążone rasą lub płcią.

Na potrzeby zadania związanego z edukacją medyczną badacze skonstruowali dziesięć podpowiedzi, które wymagały użycia narzędzia GPT-4 do stworzenia prezentacji postawionej diagnozy dla pacjenta. Przeanalizowali każdą falę 100 razy i odkryli, że GPT-4 wyolbrzymia znane różnice w częstości występowania chorób według grup demograficznych.

„Jednym z uderzających przykładów jest sytuacja, gdy GPT-4 zostaje poproszony o stworzenie winiety pacjenta chorego na sarkoidozę: GPT-4 opisuje czarną kobietę w 81% przypadków” – wyjaśnia Alcentzer. „Chociaż sarkoidoza występuje częściej wśród pacjentów rasy czarnej i kobiet, nie dotyka 81% wszystkich pacjentów”.

Następnie poproszono GPT-4 o opracowanie listy 10 możliwych diagnoz choroby Spać W przypadkach remisji zmiana płci pacjenta, rasa/pochodzenie etniczne w 37% przypadków znacząco wpływały na jego zdolność do ustalenia priorytetów w zakresie prawidłowej diagnozy.

„W niektórych przypadkach proces decyzyjny GPT-4 odzwierciedla uprzedzenia związane z płcią i rasą znane z literatury” – powiedział Alsentzer. „W przypadku zatorowości płucnej model sklasyfikował atak paniki/lęku jako diagnozę bardziej prawdopodobną u kobiet niż u mężczyzn. Sklasyfikował także zakażenia przenoszone drogą płciową, takie jak ostry wirus HIV i kiła, jako bardziej prawdopodobne u pacjentów pochodzących z mniejszości etnicznych niż u pacjentów pacjenci wywodzący się z mniejszości etnicznych. Biali pacjenci.”

Na pytanie o ocenę cech osobowości pacjenta, takich jak uczciwość, zrozumienie i tolerancja na ból, w przypadku 23% pytań kwestionariusz GPT-4 dał znacząco różne odpowiedzi ze względu na rasę, pochodzenie etniczne i płeć. Na przykład w badaniu GPT-4 znacznie częściej oceniano czarnych mężczyzn jako osoby nadużywające opioidu Percocet niż pacjentów rasy azjatyckiej, czarnej, latynoskiej i białej, podczas gdy odpowiedzi powinny być identyczne dla wszystkich symulowanych stanów pacjenta.

Ograniczenia obecnego badania obejmują testowanie odpowiedzi GPT-4 przy użyciu ograniczonej liczby symulowanych podpowiedzi i analizowanie wydajności modelu przy użyciu tylko kilku tradycyjnych kategorii tożsamości demograficznych. Przyszłe prace powinny zbadać błędy systematyczne na podstawie notatek klinicznych z elektronicznej karty zdrowia.

„Chociaż narzędzia oparte na LLM są obecnie wdrażane wraz z klinicystą na bieżąco w celu weryfikacji wyników modelu, klinicystom bardzo trudno jest wykryć błędy systemowe podczas przeglądania poszczególnych przypadków pacjentów” – powiedział Alsentzer. „Bardzo ważne jest, abyśmy przeprowadzili ocenę błędu systematycznego dla każdego zamierzonego zastosowania domen LLM, tak jak robimy to w przypadku innych modeli uczenia maszynowego w dziedzinie medycyny. Nasza praca może pomóc w rozpoczęciu rozmowy na temat zdolności GPT-4 do propagowania błędu systematycznego w praktyce klinicznej aplikacje wspomagające podejmowanie decyzji.”

Dodatkowi autorzy BWH to Jorge A. Rodriguez, David W. Bates i Raja Eli E. Abdel Nour. Do dodatkowych autorów należą Travis Zak, Eric Lehman, Mirak Sozgun, Leo Anthony Sealy, Judy Jichoya, Dan Jurafsky, Peter Szolovic i Atul J. Butt.

więcej informacji:
Travis Zack i wsp., Ocena potencjału GPT-4 w celu utrwalenia uprzedzeń rasowych i płciowych w opiece zdrowotnej: badanie oceniające model, Lancet Cyfrowe zdrowie (2023). doi: 10.1016/S2589-7500(23)00225-X

Informacje o magazynie:
New England Journal of Medicine

Badanie ocenia zdolność GPT-4 do utrwalania uprzedzeń rasowych i płciowych w procesie podejmowania decyzji klinicznych

Garmin wprowadza 28 poprawek, ulepszeń i zmian w aktualizacji Fenix 7

Bezpieczne poświadczenia programu PowerShell za pośrednictwem Menedżera poświadczeń systemu Windows

Zapowiedziano burgera z kurczakiem Stellar Blade na PlayStation x Gami

You may have missed

NRL 2024, aktualizacja trenera Brada Arthura Parramatta Eels rozstaje się z trenerem

Garmin wprowadza 28 poprawek, ulepszeń i zmian w aktualizacji Fenix 7

Influencerka plus-size doświadczyła „dyskryminacji” podczas lotu po tym, jak odmówiła pomocy na wózku inwalidzkim

Rozwiązanie problemu luki płacowej w Polsce: od „miło mieć” do niezbędnego

Dodaj komentarz Anuluj pisanie odpowiedzi

More Stories

Garmin wprowadza 28 poprawek, ulepszeń i zmian w aktualizacji Fenix ​​​​7

Bezpieczne poświadczenia programu PowerShell za pośrednictwem Menedżera poświadczeń systemu Windows

Zapowiedziano burgera z kurczakiem Stellar Blade na PlayStation x Gami

You may have missed

NRL 2024, aktualizacja trenera Brada Arthura Parramatta Eels rozstaje się z trenerem

Garmin wprowadza 28 poprawek, ulepszeń i zmian w aktualizacji Fenix ​​​​7

Influencerka plus-size doświadczyła „dyskryminacji” podczas lotu po tym, jak odmówiła pomocy na wózku inwalidzkim

Rozwiązanie problemu luki płacowej w Polsce: od „miło mieć” do niezbędnego

Garmin wprowadza 28 poprawek, ulepszeń i zmian w aktualizacji Fenix 7

Garmin wprowadza 28 poprawek, ulepszeń i zmian w aktualizacji Fenix 7