Този сайт използва бисквитки (cookies). Ако желаете можете да научите повече тук. Разбрах

Новини Технологии и концепции

Науката за данните – метод за превръщане на информацията в стойност (Част 1)

Тази дисциплина позволява извличането на стойност без значение от големината на базата данни, независимо дали е структурирана, неструктурирана или полуструктурирана.

от , 02 юли 2018 0 1744 прочитания,

Какво представлява науката за данните?

Науката за данните е метод за получаване на прозрения от структурирани и неструктурирани данни с помощта на подходи, вариращи от статистически анализ до машинно обучение. Повечето организации я използват за трансформиране на данните в стойност, която може да бъде под формата на подобрени приходи, намалени разходи, гъвкавост на бизнеса, подобрен клиентски опит, разработване на нови продукти и т.н.

"Колкото по-голямо количество данни имате, толкова по-добре. Но ако не ги използвате и не ги превърнете в нещо интересно, всъщност от тях няма смисъл. Науката за данните помага наличната информация да придобие ясна цел", коментира Адам Хънт, главен анализатор в RiskIQ.

Прочетете още: 3 често допускани грешки при машинното обучение



Науката за данните и анализът

Тъй като са тясно свързани, анализът на данните често се разглежда като компонент от науката за данните, която използва резултатите, за да решава проблемите на организацията.

"Науката за данните извежда заключения, които оптимизират процесите по анализ на наличната информация. Разбирането за това как изглеждат вашите данни е следствие от анализа. Ако с това знание не решавате проблеми, а просто изследвате, това си остава просто анализ. Ако обаче използвате информацията, за да си обясните нещо, вече преминавате от анализ към наука. В крайна сметка науката за данните има повече общо с реалното решаване на проблеми, отколкото с разглеждането, изследването и разбирането на масивите”, обяснява още Хънт.

Науката и големите данни

Науката за данните и големите данни често се разглеждат като свързани понятия. Тази дисциплина позволява извличането на стойност без значение от големината на базата данни, независимо дали е структурирана, неструктурирана или полуструктурирана.

Големите данни са изключително полезни за учените, тъй като колкото по голяма база имате, толкова повече параметри можете да включите в даден модел.

"С големите данни се избягват ограниченията, които срещате с с по-малките масиви. Те помагат в някои аспекти, но повече не винаги означава по-добре. Ако вземете фондовия пазар например и се опитате да го анализирате в цялост, ще бъде много трудно, но ако го гледате само определен период, ден или два, нещата ще се получат", обръща внимание Хънт.

Бизнес стойността на науката за данните

Бизнес стойността на науката за данните зависи от организацията, която обслужва. Тя би могла например да ѝ помогне да изгради инструменти за прогнозиране на хардуерните повреди, като по този начин ѝ позволи да извършва изпреварваща поддръжка и да предотврати непланирано спиране на системите. Също така може да се използва, за да прогнозира коя стока на кой рафт би била най-добре позиционирана в един супермаркет или колко популярен ще бъде един нов продукт.

"Един екип от учени по данните дава най-висока добавена стойност, когато е интегриран в бизнес звено. Почти по дефиниция, иновативно настроеният човек ще намери стойност, която голяма част от останалите хора не биха забелязали", казва Тед Дънинг, главен архитект на приложенията в MapR Technologies, и добавя, че подобни прозрения изненадват представителите на бизнес сферата, тъй като често стойността не е там, където първоначално са смятали.



Организирация на екипите

Науката за данните обикновено е отборна дисциплина. Учените в сферата като цяло са сърцевината на повечето екипи, занимаващи се с изследване на данни, но преминаването към анализ и трансформирането на резултатите от него в стойност изисква по-широк набор от умения и роли. Нужни са анализатори, които да поддържат моделите и инженери, които да изграждат пътищата за захранването им с информация, а след това и изпращането на крайните резултати до останалите звена в компанията.

Марк Стандж-Тригиър, вицепрезидент по анализите в eBates, е категоричен, че е важно да се мисли за екипи, а не за „еднорог“ - специалист, който съчетава нестандартно мислене със сериозни знания по математика и статистика и способност за кодиране.

"Инженерингът на данни според мен не е толкова ключова елемент. Трябват ми хора, които добавят по нещо ново. А и в крайна сметка, ако мога да накарам някой да изгради модел, да оцени статистиката и да комуникира ползите от този модел с бизнеса, тогава ще мога и да наема екип, който да е достатъчно добър, за да вземе този модел и да го приложи“, смята Стандж-Тригиър.

Вграден подход към науката за данните

Вместо да изолират научните екипи, някои организации избират да смесят учените с други специалисти. Според Дънинг от MapR например организациите трябва да следват подход DataOps, като ги внедряват в DevOps екипи с отговорности по бизнес линиите.

Тези DataOps екипи обикновено съчетават хора с различни умения като софтуерно инженерство, архитектура и планиране, управление на продуктите и др. и могат да оркестрират данните, инструментите, кода и екосистемата от началото до края. Освен това DataOps екипите имат склонноста да разглеждат аналитичните канали като аналогични на производствените линии.

"Екипът по данните не трябва да прави наука в някакъв абстрактен смисъл. Организациите искат да получат стойност от тази част от бизнеса. Един изолиран екип може да поиска да изгради възможно най-сложния модел. Когато обаче едно звено е интегрирано, то ще търси малки победи, които могат да бъдат поддържани, и прагматични решения, които да водят до навременни резултати", акцентира Дънинг.



Цели и резултати на науката за данните

Целта на науката за данните е създаването на средства за извличане на бизнес-фокусирана информация и прозрения. Това изисква разбиране как стойността и информацията влияят на бизнеса и способността да се идентифицират възможности. Макар че по-често работят на проектен принцип, подобни екипи също така се стремят да идентифицират ключовите активи от данни, които могат да бъдат превърнати в потоци и да захранват и поддържат налични инструменти и решения. Примерите включват решения за мониторинг на измами с кредитни карти, използвани от банките, или инструменти, използвани за оптимизиране на разположението на турбините във вятърните паркове.

Презентациите, чрез които екипът се отчита за работата си, също са важна част от резултатите, тъй като увереността, че той общува с останалата част от компанията, е изключително важна.

Очаквайте продължение!

КОМЕНТАРИ ОТ  

Полезни страници
    За нас | Аудитория | Реклама | Контакти | Общи условия | Декларация за поверителност | Политика за бисквитки |
    Действителни собственици на настоящото издание са Иво Георгиев Прокопиев и Теодор Иванов Захов