Този сайт използва бисквитки (cookies). Ако желаете можете да научите повече тук. Разбрах

Новини Методология

Науката за данните – метод за превръщане на информацията в стойност (Част 2)

Тази дисциплина позволява извличането на стойност без значение от големината на базата данни, независимо дали е структурирана, неструктурирана или полуструктурирана.

от , 05 юли 2018 0 1377 прочитания,

Прoцеси и методологии

Производствените инженери работят в спринтови цикли и планирани срокове. Това често затруднява екипите, занимаващи се с данни, защото при тях може да е нужно много време, за да се определи дали даден проект е осъществим и работещ”, казва Адам Хънт, главен анализатор в RiskIQ. По думите му в много случаи първата седмици, а дори и месец, минават в изследване – събиране, изчистване и структуриране на данните.

"Можем ли да отговорим на зададения въпрос? Ефективен ли би бил отговорът? Специалистите в науката за данните прекарват много време в проектиране и изследване. Много повече, отколкото биха могли да си позволят стандартните инженерни екипи”, категоричен е той. Според него науката за данните трябва да следва научни методи за работа, въпреки че невинаги това е възможно или нужно.

Прочетете още: Науката за данните – метод за превръщане на информацията в стойност (Част 1)



"Ако сте учен в сферата на данните, вие се опитвате да извлечете някакви прозрения от тях. За да можете да правите това многократно и уверено, и за да сте сигурни, че не си губите времето, трябва да използвате научни методи, които могат да докажат или отхвърлят точно вашата хипотеза. В същия момент обаче не мисля, че особено много изследователи на данни използват научен подход”, добавя Хънт, според когото това е така, защото науката отнема много време – първо, за да потвърдите хипотезата си, а после, за да се опитате да я опровергаете, преди тя да бъде приета напълно.

"Професионалистите в работата с данни винаги са част от компании, които гонят печалба и не искат да отделят достатъчно време, за категорично потвърждение на хипотезите. Едновременно с това, много от въпросите, на които се опитват да отговорят учените по данните, са от значение за кратки периоди от време. Ако става дума за сигурност например, искаме да идентифицираме зловредния актьор днес, а не утре, когато вече е имал време да навреди”, дава пример главният анализатор в RiskIQ.

Заради това резултати често могат да се определят като “достатъчно добри”, вместо като “възможно най-добри”. Тънкият момент в случая е, че тези резултати също така могат да станат жертва на отклонения в методологията или прекомерно натоварване.

"Ако всъщност не подходите научно към данните, за да потвърдите хипотезата си, тогава това, което правите, е просто да хвърляте данни в едни алгоритми с цел да потвърдите собствените си предположения", акцентира Хънт.

Инструменти

Научните екипи за данни използват широка гама от инструменти, включително SQL, Python, R, Java, както и изобилие от проекти с отворен код като Hive, oozie, и TensorFlow. Тези инструменти се използват за различни задачи, като се започне от извличането и изчистването на данни и се стигне до алгоритмичния анализ чрез статистически методи или машинно обучение.

"Първият инструмент, от който се нуждае ученият, са очите и пръстите му. Много често най-простите неща дават стойност, особено в началото. И най-простият аспект трябва да се разглежда критично, за да разберете как функционира системата”, съветва от своя страна Тед Дънинг, главен архитект на приложенията в MapR Technologies.

Инструментите ще помогнат впоследствие за разширяването на обхвата на вече постигнатите резултати.

"В процеса на работа ще се нуждаете и от добри инструменти за визуализация. От програмните инструменти моят личен фаворит е Python. Но реално ви трябват инструменти, които да изградят интересни модели. Затова и няма как да се ограничите само с един”, коментира още Дънинг и разказва, че в неговата компания екипите използват минимум пет различни решения, като в това число не влизат тези за визуализация.

Умения за научни данни

Науката за данните е развиваща се дисциплина и има много различни начини да се включите в нея. Въпреки че броят на академичните програми в сферата се увеличава в бързи темпове, те не са непременно това, което организациите търсят, когато искат да назначат подобни специалисти.



Марк Стандж-Тригиър, вицепрезидент по анализите в eBates, заявява, че търси кандидати, които имат опит в статистиката, за да е сигурен, че могат да разграничат реалните резултат от фалшивите, знания за домейни, за да постигнат контекстни резултати, и комуникационни умения, които им позволяват да ретранслират резултатите до бизнес потребителите.

"Аз съм пристрастен към хора, които имат докторати, но няма да пропусна някой, който има богат опит”, категоричен е Стандж-Тригиър.

Адам Хънт от своя страна обяснява, че по-специално търси докторанти по физика, математика, компютърни науки, икономика и дори социални науки. Разбира се, той не би обърнал гръб на кандидатите със степен в науката за данни или анализите, но има известни резерви. "Моят личен опит сочи, че подобни специалисти са много полезни, но се съсредоточават прекалено много върху операциите на моделите, а не върху мисленето", казва той.

Тед Дънинг пък се интересува повече от способността на кандидата да покаже нещо ново, отколкото от визитката на кандидат. "Това, което аз лично гледам най-вече по време на интервютата, е дали кандидатът ще ме научи на нещо ново. Просто нямам нужда от хора, които могат да правят това, което аз мога да правя”, обяснява Дъннинг.

КОМЕНТАРИ ОТ  

Полезни страници
    За нас | Аудитория | Реклама | Контакти | Общи условия | Декларация за поверителност | Политика за бисквитки |
    Действителни собственици на настоящото издание са Иво Георгиев Прокопиев и Теодор Иванов Захов