Мениджмънт

Всичко, което бихте искали да знаете за "големите данни" (част 2)

CIO Media

Вече има примери за успеха на технологиите за работа с големи обеми от данни (и в частност за техния анализ), но въпреки това, досега те все още преминаваха през необходимия начален стадии за тяхното развитие, свързан със съществени инвестиции и усилия. На практика, едва сега те, образно казано, “навлизат в промишлеността”, като в последно време всяка година носи нещо особено и уникално във връзка с Big Data.

Нека обаче продължим нашето изложение в стила на въпроси и отговори, както в първата част на тази статия.

Колко дълга е историята на технологиите Big Data?

Всичко, което бихте искали да знаете за големите данниДнес за Big Data се говори много и по най-различни поводи, което създава впечатлението, че “големи данни” е имало винаги и че те винаги са се наричали така. Всъщност първото, или по-точно “нулевото” споменаване на тези технологии в добре известния документ на Gartner систематизиращ нововъзникващите и развиващите се технологии (Gartner’s Hype Cycle for Emerging Technologies) е през 2010 г. По-конкретно, тогава за първи път се споменава за “Екстремална обработка на транзакции” (eXtreme Transaction Processing, XTP) и то само за структурирана информация. Тогава точката XTP бе разположена към средата на първата фаза на Hype Cycle и се очакваше тези технологии да станат масови през следващите 5-10 години.

Нека напомним, че разработената от компанията Gartner крива (Hype Cycle), изобразява жизнения цикъл на всяка информационна технология (фиг.1). Тази крива започва да нараства плавно, преминавайки през фазата на “появилите се мечти”, достига своята пикова стойност във фазата на “прекалените очаквания”, плавно намалява преминавайки през етапа на “освобождаване от илюзиите”, връща се към плавно нарастване в етапа на “преодоляване на недостатъците” и достига до устойчиви стойности в т.нар. “плато на продуктивността” – фаза от жизнения цикъл, която осигурява стабилна възвръщаемост на инвестициите в дадената технология.

2011-а бе годината на най-големи очаквания и оптимизъм във връзка с новите технологии в тази сфера. Направлението бе наречено “ ‘Big Data’ and Extreme Information”. Терминът “Big Data” за първи път бе признат от Gartner (донякъде неофициално, защото бе цитиран в кавички).

Понятието “екстремална информация”, като концепция за управление на информационна инфраструктура, бе официално разяснено за първи път през октомври 2011 г. по време на Gartner Symposium от анализатора Марк Бейер (Mark Beyer). Стана ясно, че вече се взема предвид както структурирана, така и неструктурирана информация, а Big Data бяха само част от общата картина.

Следващата 2012 г. в известен смисъл охлади емоциите, тъй като реалният прогрес в областта Big Data (цитирана вече без кавички и като самостоятелна технология) не беше така значителен, както се очакваше година по-рано. По кривата на Hype Cycle върхът на “прекалените очаквания” бе едва преодолян. Въпреки това (изглежда, по-скоро по инерция, отколкото заради действителни успехи) достигането – вече не на масовост (мейнстрийм), а на етап на зрялост и на “платото на възвръщаемостта” (в терминологията на Gartner) – се очакваше да настъпи в рамките на 2-5 години.

През следващата 2013 г. Gartner решително преразгледа отношението си към Big Data. В поредната версия на своя Hype Cycle изследователската компания отбеляза, че Big Data все още “тъпчат на място”, не достигайки дори върха на “прекалените очаквания”, така че анализаторите се върнаха към предишната си прогноза относно срока на съзряване на технологията, която предвиждаше 5-10 години.

През втората половина на 2013-а изглеждаше, че в развитието на технологиите за обработка на големи данни е необходимо да се направи почивка, която да даде възможност на разработчиците “да спрат и да се огледат”. В полза на тази теза е факта, че през 2014 г. Big Data отбеляза значителен напредък – напред и надолу по частта от Hype Cycle, която анализаторите на Gartner наричат “Trough of Disillusionment”. На практика, технологията навлезе в нова фаза - “освобождаване от илюзиите”, в която нейните запалени привърженици трябва да преживеят неизбежни разочарования. След това се очертава един относително спокоен период на допълнителни разработки, отстраняване на излишни функции, повишаване на възвръщаемостта (ROI) и т.н. Сроковете за съзряване на технологията, които посочват от Gartner, за сега все още са 5-10 години.

Доколко се технологиите Big data се прилагат към момента?

През пролетта на 2013 г., 42% от ИТ директорите бяха инвестирали или бяха готови да инвестират в Big Data проект в рамките на следващите 12 месеца, констатира проучване на Gartner [1].

Всъщност компаниите са принудени да предвидят разходи за обработката на големи данни, тъй като информационният пейзаж се променя неимоверно, което води до необходимостта от нови подходи към обработката на информацията. Много организации вече са осъзнали, че големите масиви с данни са критично важни, като работата с тях открива хоризонт към ползи, които не са достъпни при използването на традиционни източници за информация и традиционни методи за обработката и. В очакване на новите възможности, които ще донесат технологиите за обработка на големи данни, много компании вече организират процеси за събиране и съхранение на различен тип информация.

За образователни и правителствени организации, както и за компании от различни отрасли на промишлеността най-голям потенциал за трансформация на бизнеса е заложен в анализите на комбинация от натрупани данни с т.нар. “тъмни данни” (dark data), към които спадат съобщения по електронна поща, мултимедийно и друго подобно съдържание. Според Gartner, в конкурентната надпревара ще победят именно организациите, които се научат да използват най-разнообразни източници на информация.

 Фигура 1: Разработената от компанията Gartner методология Hype Cycle предоставя графично изображение за зрелостта, възприемането и бизнес приложенията на дадена технология

Как да се справим с големите данни?

Невижданото преди разнообразие от данни, възникващо, в резултат от огромния брой всевъзможни транзакции и взаимодействия, представлява отличен фундамент за уточняване на прогнози, за оценка на перспективи за развитие на продукти и цели направления, за по-добър контрол на разходите, оценка на ефективността и т.н. От друга страна, големите данни поставят сложни задачи пред ИТ отделите - те не само имат принципно нов характер, а и решаването им трябва да става в рамките на бюджетните ограничения за капиталови и текущи разходи.

Всеки ИТ директор, който си е поставил за цел да извлече нови ползи от големи масиви структурирани и неструктурирани данни, трябва да има предвид следните технически съображения [2]:

>> Разделяй и владей. Преместването и интеграцията на данните са необходими, но и двата подхода повишават капиталовите и оперативните разходи за инструменти за извличане на информацията, за нейното преобразуване и зареждане (ETL). От тази гледна точка не трябва да се пренебрегват възможностите на стандартните релационни бази данни и ориентирани към целите на анализите Data warehouse.

>> Компресия и дедупликация. И двете технологии отбелязаха значителен напредък. На пазара вече има продукти за тази цел, които са в състояние да намалят обема на активните данни до 80%. Прилагането на съвременни средства за дедупликация позволява не само да се спести пространство, но и да се увеличи скоростта на запазване и възстановяване на данните.

>> Не всички данни се обработват по еднакъв начин. В зависимост от конкретната ситуация диапазонът на заявките за бизнес анализи се мени в широки граници. Често за получаване на необходимата информация е достатъчно да получим отговор на една SQL заявка, но се срещат и доста по-дълбоки аналитични задачи, изискващи прилагане на BI инструменти и широк спектър от възможности за визуализация. За да не се допусне рязко увеличаване на оперативните разходи във връзка с инициативите за обработка на големи данни, организацията трябва да подходи внимателно и да подбере балансирано необходимите и патентовани технологии в комбинация със софтуер с отворен код като Apache Hadoop.

>> Мащабиране и управляемост. Организациите са изправени пред необходимостта да решават редица проблеми във връзка с разнородността на базите данни и аналитичните среди, затова възможностите за вертикално и хоризонтално мащабиране имат принципно значение. Лесното хоризонтално мащабиране е една от основните причини за бързото разпространение на Hadoop, особено в светлината на възможностите за паралелна обработка на информация на клъстери от обикновени сървъри – по този начин не са необходими сътрудници с тясна специализация и се спестяват инвестиции в ИТ ресурси.

Каква е разликата между BI и Big Data?

Според Крейг Бати, изпълнителен директор по маркетинг и технологии във Fujitsu Australia, днес бизнес анализите (BI) представляват описателен процес за анализ на резултати, достигнати от бизнеса в определен период от време. Скоростта на обработката на големи данни (Big Data) позволява да се провеждат предсказателни анализи и на бизнесът да се предлагат препоръки за бъдещето. Big Data технологиите позволяват също да се анализират повече типове данни отколкото с BI инструментите, което дава възможност да се използват не само структурирани хранилища.

Мат Слоукъм от O'Reilly Radar пояснява, че Big Data и BI имат еднаква цел (да отговарят на въпроси), но те се различават в 3 аспекта:

  • Big Data технологиите са предназначени за обработка на по-значителни обеми информация, отколкото BI (в съответствие с традиционното определение за големи данни)

  • Big Data технологиите са предназначени за обработка на по-бързо получавани и променящи се сведения, което поставя задачите за дълбоко изследване и интерактивност. В някои случаи резултатите се формират по-бързо, отколкото се зарежда web страница.

  • Big Data технологиите са предназначени за обработка на неструктурирани данни, методите за използване на които едва започваме да изучаваме. След като сме успели да осигурим тяхното събиране и съхранение, сега са ни необходими алгоритми и възможности за диалог, улесняващи търсенето на тенденции, съдържащи се в тези масиви.

При работата с големи данни подходът към информацията е различен в сравнение с този, който се прилага при провеждане на бизнес анализи, отбелязват и експертите от Oracle в публикувана от компанията бяла книга, озаглавена „Ръководство за архитекта по големи данни” [3]. Според ръководството, работата с големи данни не прилича на обичайния процес на бизнес анализ, при който прости изчисления с използване на известни стойности водят до резултата – например сумата на данните за платени сметки дава обема на продажбите за годината. При работа с големи данни резултатът се получава в процеса на тяхното почистване и последователно моделиране. Отначало се приема хипотеза, изгражда се статистически, визуален или семантичен модел, на базата на този модел се проверява верността на хипотезата и се приема следваща хипотеза. Този процес изисква от изследователя или интерпретация на визуални значения или съставяне на интерактивни въпроси на базата на знания, или разработка на адаптивни алгоритми за машинно обучение, способни да получат искания резултат.

В следващия брой на списание CIO очаквайте третата част на тази статия, в която ще отговорим на въпроси, свързани с прилагането на Big Data технологиите в различни индустрии. 

Източници:
 [1] Gartner Survey Finds 42 Percent of IT Leaders Have Invested in Big Data or Plan to Do So Within a Year, Gartner, март 2013
[2] Making the Most of Big Data, Dr. Hossein Eslambolchi, декември 2012, http://2020vp.com [3] Oracle Information Architecture: An Architect's Guide to Big Data, февруари 2015

X