Този сайт използва бисквитки (cookies). Ако желаете можете да научите повече тук. Разбрах

Новини Технологии и концепции
бр. 5, 2016

Големи данни – неограничени възможности

Колкото повече са големите данни, толкова по-достоверни са резултатите и изводите, които правим чрез тях

от , 25 май 2016 0 3471 прочитания,

инж. Добрин Маринов

През последните няколко години все повече и повече се говори за т.нар. Big data. До съвсем скоро с пълна сила важеше факта – всеки говори за това, но никой нито го разбира, нито го използва. В световен мащаб се обсъждаха доста широко различни възможности, но нямаше много (да не кажем почти никакви) реализирани успешни проекти, като разбира се изключим огромните технологични компании, за които тези технологии са жизнено важни и липсата им би довела до внезапното им изчезване от пазара.

Тъй като, броят на подобни компании, особено на българския пазар е относително малък, а досегът до такива технологии силно ограничен, то съвсем логично е и лекото ни изоставане от световните тенденции в тази насока. Въпреки всичко, Big data е в своята фаза на зрялост и се използва все по-широко в продуктивни проекти.

инж. Добрин Маринов е ИТ мениджър на Орбико България ЕООД. В компанията е работил по проекти по цялостна модернизация на ИТ инфраструктурата, включваща виртуализация и оптимизация на сървърните инстанции; интеграция на централизиран софтуер за мониторинга и управлението им; внедряване на процедури и стандарти за ИТ сигурност; хетерогенна миграция на ERP системата – SAP; интеграция на система за управление на инциденти и проблеми. Реализирал също така проекти по интегриране на облачно базирани услуги с цел реализация на DR, както и BI решение, касаещо анализ на "нетипични" данни от социални мрежи. Носител е на наградата “ИТ мениджър на годината ‘2015” в категория “Мениджмънт”. 

Какво са Големите данни?

Всъщност е много трудно да кажем, кои данни са големи и кои не (все пак антипод на големи данни, като термин май не съществува)… въпреки това, общоприето е да се говори за големи данни, когато става дума за огромни като обем масиви от разнородни данни, които е почти невъзможно да бъдат управлявани и обработвани чрез конвенционални инструменти и похвати.

Прието е Големите данни да се характеризират с т.нар. 5V

>> Volume (Обем) - въпреки, че все повече навлиза схващането, че не обемът определя „големината“ на данните, то този фактор е от изключително значение особено при оценка на проекти свързани с големи данни.

>> Velocity (Скорост) - Освен обема, следва да се отчете и интензитета или скоростта на потока от данни. Комбинацията от обем и скорост, следва да бъде изследвана изключително внимателно и подробно при вземане на решения касаещи проекти с големи данни

>> Variety (Разнообразие) - Събираните данни могат да бъдат от различни типове, а именно – текстови и числови данни, изображения, видео и др. Също така данните могат да бъдат структурирани и неструктурирани - съобщения от социални медии, данни от различни източници, както и хетерогенни масиви от данни.

>> Veracity (Достоверност) - този показател е изключително важен за качеството на използваните данни. Тъй като все пак става дума за хетерогенни данни, най-често от различни източници, достоверността е изключително важен фактор, който трябва да докаже че крайните резултати са относително верни и те могат да задоволят крайната бизнес цел. Тук често посочван пример са извадки от социални мрежи в които няма структурираност на текстовите съобщения и всички правописни грешки, съкращения, жаргон и т.н. могат да окажат не малко влияние върху крайния резултат. Обикновено грешките и съкращенията се считат за преодолими, чрез първата характеристика на големите данни, а именно обемът.

>> Value (Стойност) – спокойно може да се твърди, че това е най-важната характеристика на големите данни, тъй като доказаната бизнес стойност е ключов фактор при вземането на решение за реализация на даден проект (това важи с пълна сила за почти всички проекти).

Източници на големи данни

Когато данните са налични, а бизнес целите набелязани, сравнително лесно могат да бъдат изградени модели за анализ на данните и тяхната трансформация от „Големи данни“ в „Безценна информация“. Източници на данни могат да бъдат практически всички познати ни информационни системи стига те да отговарят на гореописаните характеристика за класифициране на данните като “Големи”. Най-често сочени за безспорни и основни източници на големи данни са – социалните мрежи и Интернет на нещата (IoT). Под понятието социални мрежи, включвам и платформи за споделяне на видео и изображения, както и всяка платформа в която има интеракция и многопосочност. Разбира се и тук могат да се посочат множество изключения, но както знаем няма правила без изключения.

Обработка на големите данни

Тъй като, обичайно големите данни са толкова големи и толкова разнородни, конвенционалните системи за съхранение и обработка на данни се оказват меко казано безполезни. Тук идват на помощ модерните, дистрибутируеми и скалируеми системи за обработка на големи данни, чиято задача най-просто казано е да приведе данните в подходящ за работа вид за вече споменатите конвенционални системи. Обикновено такива системи са доста сложни и огромни като мащаби и обхват, често данните преминават през различни обработки и като краен продукт могат да бъдат идентифицирани резултатите от тези обработки. Като най-прост пример в случая могат да бъдат посочени данните от даден набор от сензори (IoT), които се събират, обработват и консолидират в система за обработка на големи данни, след което резултатите от тези обработки биват използвани като „суровина“ за по-нататъшни анализи.

Консуматори на големи данни

Основната цел на бизнеса е да превърне данните в информация, затова можем да твърдим, че основен консуматор на вече обработените данни са основно системи за анализи (Business intelligence). Разбира се, BI не е единствен потенциален консуматор на големи данни, други потенциални системи, които могат да се възползват от големите данни са CRM, Web платформи и др.

Ползите от големите данни

Заглавието на настоящата статия е „Големи данни – неограничени възможности“, а и както стана ясно най-важната характеристика на големите данни (а и не само) е стойността или иначе казано бизнес ползата, то следва да отделим специално внимание на ползите от използването на тези модерни технологии в бизнеса. Вече споменах, кои са потенциалните консуматори на големите данни, а ползите от интеграцията на подобни системи в предприятията е безспорна, в тази част бих желал да акцентирам върху преимуществата и ползите, не толкова от крайния резултат – отчет, анализ или подобряване на някаква услуга, а повече върху предимствата които носят сами по себе си големите данни, а именно:

>> Достоверни резултати. Известен е принципът на Мечо Пух – „Колкото повече, толкова повече“. Колкото повече са големите данни, толкова по-достоверни са резултатите и изводите, които правим чрез тях. Колкото повече са данните, толкова намалява статистически вероятността за грешка. Теоретически, би следвало да можем да заключим, че ако работим с безкрайно голям набор от данни, вероятността за грешка ще клони към нула, а верността на крайните резултати на макро ниво би било достатъчно висока, близка до 100%. За голямо съжаление, няма толкова голям набор от данни, който да гарантира подобни резултати, но стремейки се към увеличаване на обема на обработваните данни, като краен резултат увеличаваме достоверността на крайния резултат. Именно на това се дължи и ежедневно усъвършенстване на такива функции, като маркетингово таргетиране и предсказвания на събития.

>> Светкавични резултати. Ако с една конвенционална система, трябваше да се обработи дори сравнително малък набор от големи данни, навярно резултатите, които би следвало да се очакват като продукт от тази обработка, биха били налични тогава, когато вече са безполезно или най-общо казано с изтекъл срок на годност. Това е едно от основните предимства на големите данни и системите за работа с тях, че дават резултати в реално време (зависи все пак от решението) и могат да бъдат изключително полезни в условията на свръх динамично развиващия се бизнес.

>> Хетерогенност на източниците. Увеличаването на броя на източници на данни, следва да доведе до увеличаване на количеството и качеството им, което допълнително следва да подобри крайните резултати.

В заключение

Няма нужда да бъде споменавано, тъй като съм убеден че никой няма да възрази на това, че в бъдеще големите данни ще навлизат все по-широко в бизнеса и ежедневието ни. Въпросът е кой, кога ще реши да ги използва, защото данните са там и очакват да бъдат превърнати в информация, която може да даде на всеки един бизнес сериозна преднина в съревнованието с конкуренцията.

Настоящата статия не претендира да бъде изчерпателна, поради обширността на темата. Написаното е израз на гледна точка на автора.

КОМЕНТАРИ ОТ  

Полезни страници
    За нас | Аудитория | Реклама | Контакти | Общи условия | Декларация за поверителност | Политика за бисквитки |
    Действителни собственици на настоящото издание са Иво Георгиев Прокопиев и Теодор Иванов Захов