Големи Данни

Анализите на данните се променят, но дали финансовият сектор е подготвен?

Мария Динкова

Икономистите предупреждават за дълбока и дълга икономическа криза, докато светът продължава да се бори с пандемията от Covid-19, пише IT Brief. На фона на тази ситуация финансовите институции ще се нуждаят от всяко едно предимство, което могат да постигнат, за да оцелият и да запазят своето място на пазара. Това е още една причина защо компаниите трябва да превърнат големите количества неструктурирани данни в ценни активи. Разбира се те също така трябва да гарантират съответствие с отвореното банкиране, както и да осигурят неприкосновеността на данните и защитата от кибератаките, напомнят експертите.

В допълнение банките са изправени и пред още едно предизвикателство, а именно фактът, че самата архитектура при анализите на данни се променя.

Организациите с езера от данни и Hadoop среди се стремят да извличат максимално много от съществуващите инвестиции. В същото време обаче те трябва да обмислят алтернативи за съхранението и управлението на данните, за да могат да отговарят на скоростта, с която се променят изискванията за анализите на данните, задачите и предизвикателствата.

Езера от данни
Специалистите по данни и анализаторите в днешно време имат за цел да идентифицират специфични въпроси, на които да отговорят; да определят конкретни бизнес цели, които да постигнат; да установят наборите от данни, които са необходими за определените задачи. Това със сигурност е методология, която помага в работата с големи количества данни, генерирани и събирани от компаниите днес. Това е начин да се открие стойност в данните и директно да се допринесе за постигането на целите.

В същото време обаче голяма част от работата се върши на по-малки файлове. Следователно използването на езера от данни, пълни с неструктурирана информация, не е най-добрият начин, по който наличните ресурси могат да се използват.

Модерният подход за dataops (операции с данни) предвижда данните да се оставят там,
където те се събират или са създавани, за да не се губят време, пари и усилия за тяхното извличане в централизирана локация, посочват експертите. По този начин процесите и съхранението могат да се разглеждат като отделни операции с отделни решения.

Разделение на обработката на данните и съхранението
Hadoop е среда за езеро от данни, която се сблъсква с предизвикателствата, свързани с мащабите, когато става дума за голямо количество данни. Това просто не е икономично решение за съхранение за голям обем данни - като ежедневните данни от банкомати, финансови транзакции, клиентски проучвания и други. Могат да бъдат добавяне все повече и повече възли (nodes) - със съответните разходи за покупката и управлението им - но след една пределна точка усилията и разходите да се поддържа тази среда са много по-големи, отколкото стойността, която тя носи.

Като средство за обработка и значителна съществуваща инвестиция Hadoop няма да изчезне. Но еволюцията при анализа на данни и ограниченията за съхранението в случая налагат да се премине към обектно съхранение.

Обектното съхранение
От години обектното съхранение се приема за скалабилно и икономично решение за архивиране и за пазене на голямо количество данни, които рядко се използват.

Когато обаче неструктурираните данни заплашат да създадат сериозна тежест за бизнеса, включително да увеличат разходите за съхранение, то много организации виждат обектното съхранение като част от решението за развиващите се нужди на анализите.

По думите на експертите красотата на обектното съхранение са метаданните. Платформата за обкетно съхранение дава контекста, типа файл и всички други машинно генерирани характеристики плюс конкретните метаданни като име, тип политики и т.н.

Така че обектното съхранение пази данните по начин, който ги прави готови за машинно обучение, изкуствен интелект и анализи. Въпреки това този вид съхраняване на данните само по себе си не осигурява високопроизводителна среда.

Hadoop + обектно съхранение + VSP
Виртуалните платформи за съхранение (VSP) използват блоков сторидж, който може да гарантира достъп до данните, защита на информацията и бързина за милиони транзакции. В случая обаче решението не знае какви са данните.

Платформата за обектно съхранение, която стои пред VSP позволява, всъщност е елементът, който знае какви са данните. Поради начина, по който съхраняваа данните, това е добро решение за анализ на големи данни. От инфраструктурна гледна точка правилните VSP ще управляват всичко и ще подпомогнат както легаси системите, така и обектното съхранение.

Когато това се интегрира с Hadoop средата, то финансовите институции ще бъдат готови за следващото поколение анализи на данни.

X