Cele projektu
Celem projektu było opracowanie narzędzi pozwalających na przetwarzanie mowy (fraz wypowiadanych przez lekarza i pacjenta podczas wywiadu dotyczącego stanu zdrowia) i
wydobywanie z tekstu istotnych informacji, które będą przetwarzane, aby:
- automatycznie wyekstrahować słowa kluczowe oraz wstawić je do odpowiedniego formularza medycznego, wspomagając w tym lekarza,
- dokonać przetwarzania semantycznego mającego na celu identyfikację charakteru rozmowy (np. wywiad ogólny, rekomendacje odnośnie do leczenia, czy skierowanie na konkretne
badania) oraz sugestie dotyczące charakteru schorzenia (które mogą stanowić wsparcie dla lekarza).
Istotą projektu jest wykorzystanie metod sztucznej inteligencji (w szczególności uczenia głębokiego) do rozpoznawania słów na podstawie rejestrowanych kwestii ypowiadanych przez
lekarza oraz analizy tak wyekstrahowanych wypowiedzi w formie tekstowej. W efekcie możliwa będzie automatyczna rejestracja przebiegu wywiadu lekarskiego oraz wspomaganie decyzji
lekarza np. poprzez sugerowanie diagnozy na podstawie wyekstrahowanych fraz. Wyzwaniem jest nie tylko konieczność przetwarzania mowy w języku polskim, ale i rozpoznawanie słów i
fonemów w warunkach utrudnionej słyszalności, związanej z obecnością np. zakłóceń środowiskowych, ale i faktu, że zarówno lekarz, jak i pacjent mogą mieć nałożone maski chroniące
przed zakażeniem COVID-19. W związku z obecną pandemią takie sytuacje są na porządku dziennym, wymagając innowacyjnych algorytmów przetwarzania języka naturalnego. Uzyskane
rezultaty wyprowadzane będą do wcześniej opracowanych formularzy i bazy danych. Formularze powinny być zgodne z obowiązującymi i powszechnie stosowanymi wzorami i jednocześnie
elastyczne, tak aby mogły być modyfikowane wraz z rozwojem narzędzi medycznych oraz dostosowywane do specjalności lekarza, który z nich korzysta. Na podstawie zebranej wiedzy
system będzie też automatycznie generował dokumenty: recepty, zwolnienia, skierowania do dalszych badań diagnostycznych, itp.
Generyczny system będzie bazował na zbiorze uczącym dotyczącym określonej w ramach badań przemysłowych specjalizacji. Jednocześnie będzie na tyle uniwersalny, że będzie mógł być
łatwo przystosowany do innych obszarów badań lekarskich. Równie istotnym założeniem dla projektu jest wprowadzenie elementów poprawiających skuteczność analizy mowy w
utrudnionych warunkach akustycznych (takie jak maseczki noszone przez lekarzy, ale też hałas, wady wymowy, itd.). Ponieważ system ma być dedykowany zastosowaniom medycznym,
zadaniem algorytmów ma być w szczególności ekstrakcja określeń medycznych, które są trudniejsze do właściwej analizy.
Planowane efekty
Oczekiwanym rezultatem projektu jest system informatyczny o charakterze rozproszonym, zdolny do rejestracji rozmowy prowadzonej przez lekarza z pacjentem, wykrywania
poszczególnych słów kluczowych, charakterystycznych dla konkretnej specjalizacji medycznej. Poprawne wykrywanie wypowiadanych kwestii umożliwi ich zapis w formie tekstowej
(rejestracja rozmowy). Ponadto system będzie w stanie automatycznie wspomagać diagnozę na podstawie zarejestrowanego strumienia audio, stanowiąc tym samym formę systemu
wspomagania decyzji (ang. Decision Support System) podejmowanych przez personel medyczny. Tym samym będzie to forma ekstrakcji wiedzy z tekstu (ang. text mining) z
wykorzystaniem najnowszych algorytmów stosowanych w tej dziedzinie, jednak dopasowanych do specyfiki problemu (konieczność przetwarzania języka polskiego, obecność zakłóceń
utrudniających rozpoznawanie treści rozmowy). Specjalizacją medyczną stanowiąca podstawę działania systemu w jego pierwotnej wersji (w ramach konkretnych wdrożeń specjalizacja
będzie mogła być wybierana) będzie specjalizacja internistyczna (chorób wewnętrznych). Jest to podyktowane zarówno faktem, że jest to jedna z najliczniej reprezentowanych specjalności
lekarskich, jest to również najczęściej odwiedzany przez pacjentów typ specjalisty (co przekłada się na duży sumaryczny czas wizyt u tego rodzaju specjalistów a tym samym na duże
potencjalne oszczędności w przypadku możliwości skrócenia czasu wizyty) oraz jest to specjalizacja która obejmuje bardzo szeroki wachlarz chorób i dolegliwości, co wiąże się z
najszerszym zasobem słów kluczowych niezbędnych do rozpoznawania (często pokrywających się ze słowami kluczowymi innych specjalizacji). Drugą specjalizacją, która zostanie
uwzględniona w projekcie będzie specjalizacja kardiologia. W końcowym produkcie dostępny będzie moduł uczący pozwalający na rozszerzenie funkcjonalności systemu o kolejne
specjalizacje medyczne (co będzie wymagało dostarczenia kolejnych podzbiorów zarejestrowanych rozmów).
Architektura systemu ma charakter rozproszony, z podziałem na część przetwarzania po stronie serwera oraz klienta. System zostanie zaprojektowany w modelu Software as a
Service (SaaS), dostępnym dla użytkownika końcowego poprzez przeglądarkę internetową (z interfejsem responsywnym użytkownika zaprojektowanym dla komputerów stacjonarnych. Ze
względu na dużą ilość informacji rejestrowanych za pomocą urządzenia końcowego (służącego do akwizycji danych) realizacja systemu w formie thin client (gdzie urządzenie odpowiada
tylko za interfejs użytkownika) wiąże się z wieloma niebezpieczeństwami (np. zbyt dużą ilością informacji przesyłanych pomiędzy klientem i serwerem). Z tego powodu przetwarzanie
danych w systemie zostanie podzielone na dwie części. Po stronie klienta odbywać się będzie rejestracja sygnałów dźwiękowych oraz detekcja słów, które następnie w formie tekstu
zostaną przesłane za pomocą standardowego protokołu aplikacji (np. http) do modułu ekstrakcji treści rozmowy po stronie serwera.
Część obliczeniowa (związana z algorytmami przetwarzania języka naturalnego na podstawie danych w formie tekstowej) będzie przede wszystkim zawierała funkcjonalność modułu
inteligentnego, wykorzystującego np. głębokie sieci neuronowe typu LSTM lub transformer. Dzięki jej implementacji system będzie nie tylko w stanie zidentyfikować temat rozmowy, ale
również dokonywać aproksymacji diagnozy na podstawie słów wypowiadanych przez lekarza (oraz pacjenta, jeśli rejestrowany jest wywiad medyczny). Część serwerowa będzie
zaimplementowana na dedykowanej architekturze, również uwzględniając usługi chmurowe, którym dane dostarczone zostaną przez aplikację kliencką. Istotnym elementem systemu
będzie moduł akwizycji danych, w podstawowej wersji komputer, wyposażony w mikrofon wbudowany lub dołączany jako urządzenie zewnętrzne. Projekt oferować będzie możliwość
rejestracji sygnału dźwiękowego za pomocą szerokiej gamy urządzeń, przetwarzając go za pomocą zaawansowanych algorytmów w celu uzyskania tekstu stanowiącego zarejestrowane
kwestie wypowiadane przez nagrywane osoby. Niemniej jednak w ramach projektu opracowane zostaną wytyczne dla użytkowników systemu, w których zostaną zdefiniowane minimalne
wymagania co do parametrów sprzętu nagrywającego oraz warunków ich użytkowania gwarantujących wysoką skuteczność działania systemu.
W przypadku, gdy istniejące urządzenia do rejestracji dźwięku nie będą spełniać wymagań minimalnych skuteczność działania systemu może ulec pogorszeniu i konieczne może być
wyposażenie komputera lekarza w lepszej jakości sprzęt do rejestracji dźwięku . W takim przypadku powinien to być sprzęt niskobudżetowy, ale lepszej jakości niż ten wbudowany w
komputer, Dodatkowo, w trakcie realizacji projektu stworzona zostanie prosta aplikacja dla użytkowników końcowych, testująca jakość istniejących urządzeń w komputerze lekarza. System
zaimplementowany może zostać praktycznie w każdej placówce medycznej, zarówno w prywatnym gabinecie lekarskim, jak i np. instytucji publicznej typu przychodnia lub szpital. System
może być wykorzystany jako narzędzie szkoleniowe wprowadzające do prawidłowych technik prowadzenia wywiadu lekarskiego z pacjentem. W wyniku przygotowania merytorycznego do
realizacji projektu konsorcjum osiągnęło III poziom gotowości technologicznej. Uzyskano informacje na temat istniejących rozwiązań o podobnej funkcjonalności (operujących głównie na
języku angielskim), opracowano ogólne założenia dla projektowanego systemu, a także przygotowano wstępną konfigurację sprzętowo-programową niezbędną do implementacji systemu.
Prawa własności intelektualnej do wiedzy pozyskanej dotychczas, zgodnie z warunkami umowy konsorcjum, należą do podmiotów odpowiedzialnych za jej zdobycie.
Wartość projektu: 6 855 562,50 PLN
Wysokość dofinansowania: 93.16 %
Projekt współfinansowany przez Narodowe Centrum Badań i Rozwoju w ramach programu badawczego Infostrateg IV