Този сайт използва бисквитки (cookies). Ако желаете можете да научите повече тук. Разбрах

Новини Технологии и концепции
бр. 11, 2017

10 нови тенденции в анализа на данни и 5 , които вече отшумяват

от , 23 ноември 2017 0 315 прочитания,

Анализът на данни става все по-важна част от ИТ сферата. Възможностите на технологиите и техниките за анализиране на голям обем от информация се увеличават, като тук трябва да се споменат Big Data, машинното обучение, дълбочинното учене, науката за данните. Ако компаниите следят последните тенденции в изброените области, ще подобрят стратегиите си за анализ на данни. Това ще им позволи да задълбочат информацията си за потребителското поведение, да подобрят ефективността на използваните системи и да открият нови възможности за приходи.

Всички, които работят с информация, са засегнати от революцията в анализа - като започнем от бизнеса и стигнем до науката за данни. Ето и някои от основните тенденции, които имат потенциал за развитие:

10 нови тенденции в анализа на данни и 5 , които вече отшумяват


1.Самообслужващи се интелигентни бизнес анализи (BI)

С инструментите за самообслужващи се BI като Tableau, Qlik Sense, Power BI и Domo мениджърите могат да получат информацията, с която разполагат в графичен формат. В началото се налага помощ от ИТ отдела, както и когато се добавя източникът на данните. Но по-голямата част от работата – например, отстраняване на грешките в базата с данни и създаването на анализи може да бъде извършена от бизнес анализаторите, а самите анализи могат да се обновяват автоматично с последните данни по всяко време на отварянето им.

Мениджърите могат след това да разглеждат анализите в графичен вид и да открият въпросите, които да се коригират. При таблата или обяснителните текстове към резултатите от продажбите, може да се наложи намеса в анализа, за да се открият магазините, продавачите и продуктите, които имат слабо представяне или - да се посочат тенденциите чрез сравняване на представянето на един и същи магазин през различните години. Тази информация на свой ред подпомага взимането на решения за продажбите на продуктите, промоциите и дори за отварянето на нови магазини в необхванатите до този момент райони.

2.Мобилни контролни табла (Mobile dashboards)

В свят, където мениджърите рядко седят зад бюро, инструментите трябва да включват контролни табла, подходящи за мобилни устройства предоставящи полезна и навременна информация. Повечето инструменти при самообслужващите се BI вече имат такава опция, но не всички ключови бизнес показатели задължително преминават през инструментите на системата.

Например, производствените заводи имат система за контрол на качеството, която следи всички продуктови линии. Всички мениджъри в дадено предприятие трябва за броени минути да получават информация, ако някоя от линиите даде отклонение повече от допустимото. Един от най-лесните начини да се направи това е чрез приложение, което всяка минута подава запитвания към базата от данни за контрола на качеството, обновява и показва контролна диаграма и включва аларма, когато се засече отклонение в някоя от линиите.

3. Програмният език R

С методите на статистиката изследователите на данни (data scientists) имат няколко опции да анализират информацията. Един от най-удобните и убедителни начини е езикът с отворен код R, позволяващ създаване на висококачествени и възпроизводими анализи.

Програмният език R и неговите версии предоставят много статистически техники, възможност за манипулиране и плотинг на данни. Като цяло може да се каже, че ако съществува техника, то вероятно тя е приложена в R пакета. Езикът поддържа машинно обучение, но не е най-добрият избор за дълбочинни невронни мрежи, които изискват високопроизводителни изчислителни възможности.

Програмният език R е с отворен код и намира място в десетки търговски продукти, включително Microsoft Azure Machine Learning Studio and SQL Server 2016.

4. Дълбочинnи невронни мрежи

Сред най-ефективните алгоритми за дълбочинно учене са невронните мрежи, изградени от много слоеве (затова се наричат “дълбочинни”) редуващи се линейни и нелинейни процесори. Те използват мащабируеми алгоритми и огромни количества данни за обучение. Една дълбочинна невронна мрежа може да има между 10 и 20 скрити слоя, докато една традиционна невронна мрежа има само няколко.

Колкото повече пластове има в мрежата, толкова по-голям брой характеристики разпознава тя, но калкулирането й отнема повече време, което прави проверката по-трудна.

5. TensorFlow

TensorFlow е библиотека за машинно обучение с отворен код и невронна мрежа на Google, която поддържа повечето услуги на Google. Translate, Maps и всички приложения на търсачката за смартфони използват невронните мрежи на TensorFlow.

Изследователите на данни могат да разчитат TensorFlow, след като обучат структурата. TensorFlow притежава голяма гъвкавост, мобилност, свързва етапите на проучване и синтез, автоматично диференцира променливите и увеличава производителността като приоритизира графичните чипове пред CPU чиповете.

6. MXNet

MXNet (mix-net) е дълбочинна обучителна рамка, подобна на TensorFlow, но няма визуалното откриване на грешки в системата. За сметка на това предлага императивен език за тензорни изчисления, който липсва сTensorFlow. Платформата MXNet автоматично прави паралел между символни и императивни операции работния и графичния слой. Така символните низове се изпълняват с висока скорост и паметта остава ефективна.

Към момента MXNet поддържа модели за създаване и обучения в Python, R, Scala, Julia и C++; обучителните модели на MXNet могат също да се използват за прогнози в Matlab и JavaScript. Независимо какъв език стои в основата на даден модел, MXNet използва оптимизирания C++ и бекенд машина.

7. Microsoft Cognitive Toolkit 2.0

Microsoft Cognitive Toolkit 2.0, известен още като CNTK 2.0, е унифициран набор от инструменти за дълбочинно обучение, който описва невронните мрежи като серия от операции чрез зададена графика. Той прилича на TensorFlow и MXNet, макар че Microsoft твърди, че CNTK е по-бърз от TensorFlow особено при последователните мрежи. Има поддръжка на изводите, която е по-лесна за интегриране в приложения и притежава ефективни вградени четци на данни, които също така поддържат разпределено обучение.

8. Scikit-learn

Scikits е набор от инструменти за нуждите на науката, базирани на програмния език Python и прилежащата му библиотека SciPy. Scikit-learn е проект с отворен код, фокусиран върху машинното обучение, при което се избягва неконтролираното разширяване на проектите и прилагането на на неодобрени алгоритми. При него има доста добър подбор от непрекъснати алгоритмии: той използва Cython ( C компилатора на Python) за функциите, които трябва да се изпълнят бързо.

Сред областите, които Scikit-learn не покрива са дълбочинното и допълващото обучение, графичните модели и предвижданията на последователностите. Scikit-learn е разработен за Python, така че няма APIs за други езици. Алгоритмите работят, както се очаква. Специалистите подчертават, че е удоволствие да се работи с библиотеката, в която функциите са детайлно представени, а грешките са напълно премахнати.

9. Jupyter Notebooks

Jupyter Notebooks, първоначално наричан Ipython Notebook, е онлайн приложение с отворен код, което позволява създаване и споделяна на документи с жив код, уравнения, визуализации и обяснителен текст. Сред функционалностите му са изчистване на данни и трансформация, числена симулация, статистическо моделиране, машинно обучения и други.

Jupyter Notebooks се превърна в предпочитана среда за разработки, а името му е акроним на три от популярните езици за анализ на данни Julia, Python и R, но в момента има Jupyter kernels за около 80 езика.

10. Облачно съхранение и анализи на данни

Една от мантрите при ефективните анализи е “правете изчисленията, където се намират данните”. Ако не следвате или не можете да следвате това правило, то анализът вероятно ще бъде подготвен с голямо забавяне. Именно поради тази причина Microsoft наскоро добави поддръжката на R в SQL Server.

Докато количеството данни, генерирано от една компания се увеличава главоломно, капацитетът на центровете за данни може да се окаже недостатъчен и тогава на помощ идват облачните решения. След като данните са в облачното пространство, анализите също трябва да бъдат там. В крайна сметка повечето нови проекти ще се случат в облачното пространство, а старите вероятно ще ще бъдат премести също там. Компаниите пък ще преструктурират разходите си, като вместо инвестиционен разход, ще отчитат услугите като оперативен.


Наред с „горещите“ тенденции в анализа на бизнес данните, обаче има и такива, които започват да губят своята популярност. Ето някои:

1. Hadoop

Високопроизводителната разпределителни платформи за съхранение на данни Hadoop, някога изглеждаше като точният отговор за съхранение и обработка на голямото количество данни. Но сега шеговитият въпрос, който трябва да зададем към нея е: “Колко модула да поставим в системата, преди да стане невъзможна за поддържане?”

Проектът Apache Hadoop включва четири модула: Hadoop Common (общи функционалности), Hadoop Distributed File System (HDFS), Hadoop YARN (насрочване на задачите) и Hadoop MapReduce (паралелна обработка).

В допълнение или вместо това хората често използват един или повече от свързаните проекти: "Ambari (управление на клъстерите), Avro (сериализиране на данни), Cassandra (база данни с множество магии), Chukwa (събиране на данни) , HBase (разпределена база данни), Hive (склад за данни), Mahout (ML и извличане на данни), Spark (изчислителна машина), Tez (рамка за програмиране на потоци, предназначена да замени MapReduce) и др.

2. Интернет на нещата (IoT)

Интернет на нещата може би е най-рекламираният набор от технологии в историята. Същевременно сигурно е най-лошото нещо, което някога се е случвало на интернет сигурността.

IoT освен това е широко застъпен при умните къщи и градове, индустриалния интернет, преносимите устройства, земеделието, свързаните с интернет автомобили, дистанционното предоставяне на здравни услуги и умната търговия. Много от тези приложения биха имали смисъл, ако сигурността при използването им е гарантирана, но това все още е мираж.

Производителите често допускат и фундаментални грешни в проектирането: често смарт-устройствата работят, само ако са свързани с интернет и могат да достигнат до сървъра на производителя. Това се превръща в проблем, когато производителят преустанови поддръжката на продуктите. Още по-лошото е, че в бързината да свърже своите “неща” към интернет, допуска много грешки, които се използват от хакерите. Контролът над автомобилите може да се поема дистанционно, домашните рутери - да бъдат заразени и въвлечени в DDoS атаки, а работата на обществената енергийна система - да спре.

Специалистите предупреждават, че докато не бъде решен проблемът със сигурността, обещаните от IoT анализи на данни са повече риск, отколкото бонус.

3. Пакетен анализ (batch analysis)

Пакетният анализ е бил модерен през 70-те години на миналия век. През 2017 г. обаче няма добра причина компаниите да се примиряват с вчерашни данни.

В някои случаи една или повече стари системи (някои от които може да датират от 60-те години) могат само да извършват анализи или да архивират данните през нощта, когато те не се изполва по друг начин.

4. Caffe

Обещаващият проект за дълбочинно обучение Caffe, който първоначално имаше стабилна рамка за класифициране на изображения, изглежда вече заглъхва. Макар че има силни конволюционни мрежи за разпознаване на изображения, добра поддръжка за CUDA GPUs и добра преносимост, моделите често се нуждаят от допълнително голямо количество GPU памет, в софтуера от години има грешки, които не са поправени и документацията му е проблематична.

Към юли 2017 г. нерешените проблеми при него са повече от 500. Страничен наблюдател би казал, че проектът спира да се развива, докато дълбочинното обучение се пренасочва към TensorFlow, CNTK и MXNet.

5. Месечни BI доклади

Преди самообслужващите се BI да станат популярни, те бяха територия на ИТ специалистите. Мениджърите описват какво искат да видят, а бизнес анализаторите превръщат това в спецификации, а специалистите по анализа на данните създават доклади, за да изпълнят заданието. Докладите се подготвят ежемесечно, разпечатките на всички възможни доклади отиват в електронните пощи на мениджърите в началото на месеца, те се преглеждат, обсъждат на срещите и в крайна сметка се изпълняват или игнорират.

Понякога, за да вземат решения, мениджърите изискват нов доклад, който да отговори на повдигнатите въпроси от настоящия доклад. Целият цикъл започва отново и след един или два месеца нов доклад ще бъде добавен към ежемесечните разработки.

Компаниите, които искат да бъдат гъвкави, трябва да съкратят периода за адаптиране на промените в средата и пазара: времето между задаването на въпроса и получаването на отговора трябва да бъде измервано в секунди или минути, а не в седмици и месеци.   

КОМЕНТАРИ ОТ  

Полезни страници
    За нас | Аудитория | Реклама | Контакти | Общи условия |
    Действителни собственици на настоящото издание са Иво Георгиев Прокопиев и Теодор Иванов Захов