Дигитализация

Изследователите на данни губят голяма част от времето си в рутина

Александър Главчев

Трудностите при получаването и пречистването на данните, субективността на моделите и осигуряването на поверителност, както и недостатъчният опит и технически навици, са главните предизвикателства, с които се се сблъскват изследователите на данни и инженерите програмисти, работещи в сферата на Data Science.

Компанията Anaconda, предлагаща едноименната дистрибуция на Python за научни приложения, публикува резултати от анкета, озаглавена "2020 State Of Data Science", в която са взели участие души от 100 страни.

Въпреки развитието през последните години, рутинната работа при обработката на данни и днес заема по-голямата част от времето на специалистите в областта. По оценки на анкетираните за зареждане и пречистване на данните отиват съответно 19% и 26% от работното, като техният сбор наближава половината от него. За избор на модел, обучение/разпределяне на количествените показатели и разгръщането му средно отива малко повече от една трета от времето (средно по 11% за всяка от тези дейности).

Когато става дума за използване на технологии за големи данни и "advanced" анализи за производствени цели, главно препятствие за изследователите, разработчиците си системните администратори става съблюдаването на изискванията за сигурност. Някои от тях създават допълнителни пречки при мащабни използвания на нови приложения, а жизнените цикли на аналитичните системи пораждат свои собствени проблеми, касаещи например отстраняване на уязвимости в софтуерни продукти с отворен код.

Друг въпрос касае разрива между образователните програми във висшите учебни заведения и уменията, които са необходими на компаниите. Повечето от университетите предлагак курсове по статистика, теория на машинното обучение и програмиране с Python и по-голямата част от студентите преминават именно тях. В същото време организациите имат нужда от умения за управление данни - дисциплина, която се преподава рядко, както и добра математическа подготовка, каквато студентите по правило не получават. Самите студенти пък се оплакват от недостатъчен опит (40%) и технически знания (26%), които се превръщат в основни пречки при намирането на работа.

Един от направените изводи вероятно няма да учуди никого. Python продължава да водещ за специалистите, занимаващи се с наука за данните. Надолу в класацията, с голямо изоставане, е езикът R, а след него се нареждат: JavaScript, Java, C/C++ и C#. Новоизгряващата звезда в сферата, програмният език Julia, въобще не е споменат, тъй като не е събрал достатъчно гласове от участниците в анкетата или просто не е бил включен в нея.

X