Този сайт използва бисквитки (cookies). Ако желаете можете да научите повече тук. Разбрах

Новини Технологии и концепции
бр. 1, 2018

Семантичното нормализиране на данни в полза на медицината

от , 07 февруари 2018 0 860 прочитания,

Семантичното нормализиране на данни в полза на медицината

Мария Динкова

Събирането, съхраняването и анализирането на данни ще бъде в основата на почти всички открития, които предстои да бъдат направени през новото хилядолетие. Технологиите вече ни позволяват да обработваме немислими досега количества информация и да създаваме основите на един нов свят на знанието. От тези възможности в голяма степен се възползва медицината – като се започне от по-прости системи за управление на бази данни и здравните услуги и се стигне до методите за секвениране на генома.
Напредъкът на технологиите подпомага борбата на човечеството с болестите, като разширява данните, с които специалистите работят, за да могат те да вземат по-информирани решения. Пример за това е технологията за ефективен анализ на медицински резултати чрез семантично нормализиране на данни, разработена от българската компания „Онтотекст“. Работата по нея започва още преди около девет години и оттогава тя е била приложена в редица проекти на международни компании. Отличителна черта е комбинацията от текстов анализ и графови бази данни, позволяващи точно моделиране на знанието в атомарен вид.

Какво означава семантичното нормализиране (или текст-анализ)
Медицината използва много стандарти за описване на данните – това са различни онтологии, терминологии и речници. Особено широко приложение например има Международната класификация на болестите, която представлява систематизиран списък на всички заболявания. Разбира се, съществуват и други класификации като SNOMED и International Classification of Primary Care – ICPC, които са популярни предимно в Австралия и САЩ, разказва Тодор Примов, продуктов мениджър в „Онтотекст“. От гледна точка на практиката подобни класификации са полезни, тъй като улесняват работата на специалистите. Те обаче създават техническа трудност, „защото, ако имаме различни системи, които ползват различните онтологии и терминологии, те трудно могат да си комуникират“, подчертава Примов.
Семантичното нормализиране на данни всъщност означава анализ на свободен текст, при който откритите обекти се нормират към идентификатори на концепции от утвърдени онтологии и таксономии. „Когато има някакъв свободен текст, вписан в медицинския картон на пациент или в научна статия, информацията се превежда към съответната терминология“, посочва Примов. Обикновено лекарите в свободен стил описват симптомите на пациентите, които са индикация за определена диагноза. „И можем да идентифицираме всеки симптом поотделно, да го нормираме, т.е. да кажем, че точно тази дума или фраза съответства точно на този термин от тази терминология, и същото да го направим и за диагнозата. Това добре, това е, от една страна – с текст анализ се случва. Но другото, което е по-важно, ние във всеки един момент (трябва) да можем да дадем информация за откритите термини в която и да е от тези терминологии... към кой термин от другата терминология се отнася“, допълва Примов.
След откриването на термините в неструктурирания текст и нормирането им често, за да се предостави по-богата информация, се изисква добавяне на допълнителна бази данни. „Например за лекарства – какво е фармокологичното действие, (какъв е) механизмът на действие и (какви) странични ефекти има регистрирани до момента, с какви други лекарства взаимодейства, има ли нежелани ефекти, какви са дозите и т.н. С други думи, можем лесно да направим връзката между информацията в пациентския електронен запис (така да го наречем) с някакви вече съществуващи бази знания, които да дават допълнително информация, по-детайлна – дали е за болестта, дали са някакви симптоми и връзката с болестта, дали е за лекарството, с което се лекува пациентът“, посочва Примов.

Какво е приложението на семантичното нормализиране на данни
Tехнологията за семантично нормализиране на данни e приложима в редица области на медицината. От една страна, тя се използва върху информация от клинични изследвания, при които е много важно да се установят страничните ефекти от изпитваните лекарства – например при взимане на определени дози, в комбинация с други лекарства или за конкретни пациентски групи.
Текст-анализът е ценен метод и при електронните здравни картони (карти/досиета). Обикновено въведената медицинска терминология се отнася за основната или съпътстващата диагноза. Но в същото време при посещение при лекаря пациентът често предоставя допълнителна информация, която се записва в неструктуриран текст от медицинските сестри и впоследствие може да се окаже много важна за правилното поставяне на диагноза.
За да илюстрира подобно приложение на семантичното нормализиране на данни, Примов разказа за един от първите проекти на „Онтотекст“ в сферата, който е бил осъществен с лондонската психиатрична болница South London and Maudsley NHS Foundation Trust: „Имаха изследване, чрез което искаха да проследят точно какви са емоционалните състояния на пациенти, които се лекуват с определен клас лекарства и в същото време са пушачи, бивши пушачи или имат в семейството пушач, т.е. три категории пациенти. И тази информация дали е настоящ пушач, бивш пушач или има някого в кръга около него, който пуши, трябваше да се открие точно в този свободен текст... Да се открие това, че е бивш пушач, е най-сложното нещо. Просто е, (когато има) споменаване пуша, цигари и други такива ключови думи, които се откриват. Да се идентифицира, че е бивш пушач, че е пушил в миналото, а сега вече не, това вече е много сложно.“ Не на последно място, технологията представлява интерес и за иновативните компании. Наскоро „Онтотекст“ са изпълнили проект с американска стартъп фирма, която иска да интегрират огромно количество информация (осем милиарда различни факта) в база данни, за да откриват причинно-следствени връзки между фактите и съответно нови алтернативни лечения за конкретни състояния. „За целта за тях имахме такъв текст-анализ модул, с който обработихме 700 хил. научни статии – това е друг източник на неструктурирана информация. Тях ги интересуваше информация за връзки между гени, болести, химични съединения, лекарства. Това е типът информация, който за техния случай е приложим“, посочва Примов.


Кой може да се възползва от тази технология
Засега никоя българска компания или държавна институция не се възползва от технологията. Изготвените проекти досега са с чужди компании, предимно от англоезичните страни. От „Онтотекст“ смятат, че проблемът не е в цената на технологията. Според тях тя не е висока с оглед на добавената стойност и ползите, които може да донесе.
„Ако говорим за някакви обществени неправителствени организации с някакво външно финансиране, не би било проблем. Ако говорим за болници, може би те още не са готови. Защото в българските болници основният проблем е да се внедрят качествени информационни базови системи, които да помагат за акумулирането на информацията и правилното й съхранение, а след това чак да се обработва. Т.е. там малко нещата изостават. Четвъртата група са такива иновативни малки предприятия, които или предоставят някакъв нов тип услуга, или оптимизират някакъв друг съществуващ процес. Вече за тях зависи – за някои е скъпо, за други – не. Зависи какво финансиране имат и какъв продукт или услуга предоставят“, отбелязва Примов. Според него в най-оптимистичния вариант подобни системи за анализ ще могат да се приложат в българските лечебни заведения след около 5-10 години. Първите, които постигнат успех, ще имат предимство при използването на медицинската информация както за подобряване качеството на медицинските услуги, така и за оптимизиране на разходите за тях.

Какви са основните предизвикателства при работата с подобна технология
Както вече беше споменато, едни от основните предизвикателства произтичат от самия характер на неструктурирания текст и неговото съдържание. Особено трудно е да се установи, когато дадено състояние се е случило в миналото и когато има използвано отрицание. От „Онтотекст“ разработват специален компонент, който успява да идентифицира особеностите в текста. Също така работата се усложнява и от факта, че технологията трябва да се поддържа на няколко езика. Обикновено адаптирането към нов език изисква преправянето на около 80% от стария език.
„Другото, което е, че работим с чувствителна информация. Описателните здравни данни трябва да се минимизират според европейското законодателство. Тогава става много трудно да се идентифицира самият индивид или други индивиди, които имат отношение – например роднини. Друга трудност, която е по-скоро бизнес ориентирана, е, че самите организации не дават достъп до тази информация (пациентските данни). Което пък е свързано с неяснотата кой е собственик на медицинските данни. В Европейския съюз и в Щатите се смята, че това би трябвало да е пациентът. Такива са нагласите, обаче на практика не се случа това. Всеки, който е собственик на информационната система, смята, че е собственик на тази информация или поне е отговорен за нейната употреба“, изтъква Примов. Той посочва, че оттук следва обаче и един технически проблем – за да се тренират алгоритмите, трябва да се разполага с широка база от информация. Ограничаването на достъпа до тях се явява значително препятствие за развитието на технологията.
В тази връзка трябва да се уточни, че обикновено в повечето държави още при регистрацията пациентът решава дали да даде съгласието си негова медицинска информация да бъде използвана за научни цели. Какво се случва обаче, ако пациентът впоследствие оттегли информираното си съгласие? Въпросът не е напълно уточнен. Според Примов при клиничните изследвания методът за работа е най-добре установен. Пациентът се съгласява неговите данни да участват в конкретно клинично проучване и след неговото приключване те не могат да бъдат поместени другаде.
Ползите от прилагането на семантичното анализиране на данни вероятно тепърва ще подпомагат развитието на медицината. Към момента автоматично извлечената информация се използва за предоставянето на една по-пълна картина, така че съответните експерти да могат да стигнат до правилните заключения. Много вероятно е обаче в бъдеще да настъпи време, когато изводите ще бъдат правени също автоматично. Засега обаче сме още твърде далече от този етап. И след като вече разрешихме проблема със съхранението на големите данни, според Примов актуалният въпрос днес е как цялата тази информация да бъде анализирана, какви алгоритми да се използват и как да бъде представена на потребителите.

КОМЕНТАРИ ОТ  

Полезни страници
    За нас | Аудитория | Реклама | Контакти | Общи условия | Декларация за поверителност | Политика за бисквитки |
    Действителни собственици на настоящото издание са Иво Георгиев Прокопиев и Теодор Иванов Захов