INFOSTRATEG-IV/0042/2022

Cele projektu

Celem projektu było opracowanie narzędzi pozwalających na przetwarzanie mowy (fraz wypowiadanych przez lekarza i pacjenta podczas wywiadu dotyczącego stanu zdrowia) i wydobywanie z tekstu istotnych informacji, które będą przetwarzane, aby:

automatycznie wyekstrahować słowa kluczowe oraz wstawić je do odpowiedniego formularza medycznego, wspomagając w tym lekarza,
dokonać przetwarzania semantycznego mającego na celu identyfikację charakteru rozmowy (np. wywiad ogólny, rekomendacje odnośnie do leczenia, czy skierowanie na konkretne badania) oraz sugestie dotyczące charakteru schorzenia (które mogą stanowić wsparcie dla lekarza).

Istotą projektu jest wykorzystanie metod sztucznej inteligencji (w szczególności uczenia głębokiego) do rozpoznawania słów na podstawie rejestrowanych kwestii ypowiadanych przez lekarza oraz analizy tak wyekstrahowanych wypowiedzi w formie tekstowej. W efekcie możliwa będzie automatyczna rejestracja przebiegu wywiadu lekarskiego oraz wspomaganie decyzji lekarza np. poprzez sugerowanie diagnozy na podstawie wyekstrahowanych fraz. Wyzwaniem jest nie tylko konieczność przetwarzania mowy w języku polskim, ale i rozpoznawanie słów i fonemów w warunkach utrudnionej słyszalności, związanej z obecnością np. zakłóceń środowiskowych, ale i faktu, że zarówno lekarz, jak i pacjent mogą mieć nałożone maski chroniące przed zakażeniem COVID-19. W związku z obecną pandemią takie sytuacje są na porządku dziennym, wymagając innowacyjnych algorytmów przetwarzania języka naturalnego. Uzyskane rezultaty wyprowadzane będą do wcześniej opracowanych formularzy i bazy danych. Formularze powinny być zgodne z obowiązującymi i powszechnie stosowanymi wzorami i jednocześnie elastyczne, tak aby mogły być modyfikowane wraz z rozwojem narzędzi medycznych oraz dostosowywane do specjalności lekarza, który z nich korzysta. Na podstawie zebranej wiedzy system będzie też automatycznie generował dokumenty: recepty, zwolnienia, skierowania do dalszych badań diagnostycznych, itp.

Generyczny system będzie bazował na zbiorze uczącym dotyczącym określonej w ramach badań przemysłowych specjalizacji. Jednocześnie będzie na tyle uniwersalny, że będzie mógł być łatwo przystosowany do innych obszarów badań lekarskich. Równie istotnym założeniem dla projektu jest wprowadzenie elementów poprawiających skuteczność analizy mowy w utrudnionych warunkach akustycznych (takie jak maseczki noszone przez lekarzy, ale też hałas, wady wymowy, itd.). Ponieważ system ma być dedykowany zastosowaniom medycznym, zadaniem algorytmów ma być w szczególności ekstrakcja określeń medycznych, które są trudniejsze do właściwej analizy.

Planowane efekty

Oczekiwanym rezultatem projektu jest system informatyczny o charakterze rozproszonym, zdolny do rejestracji rozmowy prowadzonej przez lekarza z pacjentem, wykrywania poszczególnych słów kluczowych, charakterystycznych dla konkretnej specjalizacji medycznej. Poprawne wykrywanie wypowiadanych kwestii umożliwi ich zapis w formie tekstowej (rejestracja rozmowy). Ponadto system będzie w stanie automatycznie wspomagać diagnozę na podstawie zarejestrowanego strumienia audio, stanowiąc tym samym formę systemu wspomagania decyzji (ang. Decision Support System) podejmowanych przez personel medyczny. Tym samym będzie to forma ekstrakcji wiedzy z tekstu (ang. text mining) z wykorzystaniem najnowszych algorytmów stosowanych w tej dziedzinie, jednak dopasowanych do specyfiki problemu (konieczność przetwarzania języka polskiego, obecność zakłóceń utrudniających rozpoznawanie treści rozmowy). Specjalizacją medyczną stanowiąca podstawę działania systemu w jego pierwotnej wersji (w ramach konkretnych wdrożeń specjalizacja będzie mogła być wybierana) będzie specjalizacja internistyczna (chorób wewnętrznych). Jest to podyktowane zarówno faktem, że jest to jedna z najliczniej reprezentowanych specjalności lekarskich, jest to również najczęściej odwiedzany przez pacjentów typ specjalisty (co przekłada się na duży sumaryczny czas wizyt u tego rodzaju specjalistów a tym samym na duże potencjalne oszczędności w przypadku możliwości skrócenia czasu wizyty) oraz jest to specjalizacja która obejmuje bardzo szeroki wachlarz chorób i dolegliwości, co wiąże się z najszerszym zasobem słów kluczowych niezbędnych do rozpoznawania (często pokrywających się ze słowami kluczowymi innych specjalizacji). Drugą specjalizacją, która zostanie uwzględniona w projekcie będzie specjalizacja kardiologia. W końcowym produkcie dostępny będzie moduł uczący pozwalający na rozszerzenie funkcjonalności systemu o kolejne specjalizacje medyczne (co będzie wymagało dostarczenia kolejnych podzbiorów zarejestrowanych rozmów).

Architektura systemu ma charakter rozproszony, z podziałem na część przetwarzania po stronie serwera oraz klienta. System zostanie zaprojektowany w modelu Software as a Service (SaaS), dostępnym dla użytkownika końcowego poprzez przeglądarkę internetową (z interfejsem responsywnym użytkownika zaprojektowanym dla komputerów stacjonarnych. Ze względu na dużą ilość informacji rejestrowanych za pomocą urządzenia końcowego (służącego do akwizycji danych) realizacja systemu w formie thin client (gdzie urządzenie odpowiada tylko za interfejs użytkownika) wiąże się z wieloma niebezpieczeństwami (np. zbyt dużą ilością informacji przesyłanych pomiędzy klientem i serwerem). Z tego powodu przetwarzanie danych w systemie zostanie podzielone na dwie części. Po stronie klienta odbywać się będzie rejestracja sygnałów dźwiękowych oraz detekcja słów, które następnie w formie tekstu zostaną przesłane za pomocą standardowego protokołu aplikacji (np. http) do modułu ekstrakcji treści rozmowy po stronie serwera. Część obliczeniowa (związana z algorytmami przetwarzania języka naturalnego na podstawie danych w formie tekstowej) będzie przede wszystkim zawierała funkcjonalność modułu inteligentnego, wykorzystującego np. głębokie sieci neuronowe typu LSTM lub transformer. Dzięki jej implementacji system będzie nie tylko w stanie zidentyfikować temat rozmowy, ale również dokonywać aproksymacji diagnozy na podstawie słów wypowiadanych przez lekarza (oraz pacjenta, jeśli rejestrowany jest wywiad medyczny). Część serwerowa będzie zaimplementowana na dedykowanej architekturze, również uwzględniając usługi chmurowe, którym dane dostarczone zostaną przez aplikację kliencką. Istotnym elementem systemu będzie moduł akwizycji danych, w podstawowej wersji komputer, wyposażony w mikrofon wbudowany lub dołączany jako urządzenie zewnętrzne. Projekt oferować będzie możliwość rejestracji sygnału dźwiękowego za pomocą szerokiej gamy urządzeń, przetwarzając go za pomocą zaawansowanych algorytmów w celu uzyskania tekstu stanowiącego zarejestrowane kwestie wypowiadane przez nagrywane osoby. Niemniej jednak w ramach projektu opracowane zostaną wytyczne dla użytkowników systemu, w których zostaną zdefiniowane minimalne wymagania co do parametrów sprzętu nagrywającego oraz warunków ich użytkowania gwarantujących wysoką skuteczność działania systemu. W przypadku, gdy istniejące urządzenia do rejestracji dźwięku nie będą spełniać wymagań minimalnych skuteczność działania systemu może ulec pogorszeniu i konieczne może być wyposażenie komputera lekarza w lepszej jakości sprzęt do rejestracji dźwięku . W takim przypadku powinien to być sprzęt niskobudżetowy, ale lepszej jakości niż ten wbudowany w komputer, Dodatkowo, w trakcie realizacji projektu stworzona zostanie prosta aplikacja dla użytkowników końcowych, testująca jakość istniejących urządzeń w komputerze lekarza. System zaimplementowany może zostać praktycznie w każdej placówce medycznej, zarówno w prywatnym gabinecie lekarskim, jak i np. instytucji publicznej typu przychodnia lub szpital. System może być wykorzystany jako narzędzie szkoleniowe wprowadzające do prawidłowych technik prowadzenia wywiadu lekarskiego z pacjentem. W wyniku przygotowania merytorycznego do realizacji projektu konsorcjum osiągnęło III poziom gotowości technologicznej. Uzyskano informacje na temat istniejących rozwiązań o podobnej funkcjonalności (operujących głównie na języku angielskim), opracowano ogólne założenia dla projektowanego systemu, a także przygotowano wstępną konfigurację sprzętowo-programową niezbędną do implementacji systemu. Prawa własności intelektualnej do wiedzy pozyskanej dotychczas, zgodnie z warunkami umowy konsorcjum, należą do podmiotów odpowiedzialnych za jej zdobycie.

Inteligentny system przetwarzania mowy dla lekarzy

Program Strategiczny Program Badań Naukowych i Prac Rozwojowych
Zaawansowane technologie informacyjne, telekomunikacyjne i mechatroniczne - INFOSTRATEG Konkurs IV

Opis projektu

Cele projektu

Planowane efekty

Inteligentny system przetwarzania mowy dla lekarzy

Program Strategiczny Program Badań Naukowych i Prac Rozwojowych Zaawansowane technologie informacyjne, telekomunikacyjne i mechatroniczne - INFOSTRATEG Konkurs IV

Opis projektu

Cele projektu

Planowane efekty

Program Strategiczny Program Badań Naukowych i Prac Rozwojowych
Zaawansowane technologie informacyjne, telekomunikacyjne i mechatroniczne - INFOSTRATEG Konkurs IV