Този сайт използва бисквитки (cookies). Ако желаете можете да научите повече тук. Разбрах

Новини Виртуално пространство

9 мита за машинното обучение

Около машинното обучение има много митове, които водят до недоразумения и погрешни схващания

от , 22 март 2018 0 14092 прочитания,

Машинното обучение се превърна в изключително нашумяла технология, която се оказа толкова полезна в различни аспекти, че е възможно човек да остане с впечатление, че тя дава решение на всеки проблем и то във всяка ситуация. Подобно на други подобни инструменти обаче, машинното обучение е полезно предимно в определени области, особено когато става дума за проблеми, които винаги сте имали, но никога сте нямали ресурси да наемете достатъчно хора, за да се справите с тях, или такива, при които имате ясна цел за постигане, но не и инструментите да го направите.

Прочетете още: Могат ли да се валидират моделите за машинно обучение?

Като цяло, всяка организация вероятно ще се възползва от машинното обучение по един или друг начин, като се има предвид, че 42% от ръководните кадри, участвали в последното изследване на Accenture, са категорични, че очакват изкуственият интелект (AI) да задвижи всички иновации до 2021 г. При всички случаи обаче ще получите по-добри резултати, ако погледнете отвъд митовете, с които е обрасла тази технология, и придобиете по-ясна представа за какво можете да разчитате на машинното обучение и за какво не.

Мит 1 - Машинното обучение е изкуствен интелект

Машинното обучение и изкуственият интелект често се използват като синоними, но докато машинното обучение е технология, която успешно извървя пътя от изследователските лаборатории до реалния свят, изкуственият интелект е широко понятие, обхващащо области като компютърно зрение, роботика и обработка на естествен език, както и различни подходи, които не включват машинно обучение. Мислете за изкуствения интелект като за нещо, което прави машините по-умни. Имайте предвид, че до момента нито една обучена машина няма уменията да попадне в рамките на широко разпространените схващания, че роботите ще започнат да конкурират или дори да атакуват човечеството.

Затова бъдете внимателни и точни, когато използвате двата термина. Машинното обучение е свързано с модели за обучение и прогнозиране на резултати при анализ на големи масиви от данни. Резултатите може да изглеждат "интелигентни", но по същество става въпрос за прилагане на статистически инструменти при безпрецедентна скорост и мащаб.

Мит 2 - Всички данни са полезни

За процеса на машинно обучение се нуждаете от данни, но не всички данни са полезни. За да подготвите системата си, трябва да имате представителни данни, обхващащи моделите и резултатите, с които тя ще трябва да се справя. Нуждаете се от данни, които не са включени в ирелевантни модели (например снимки, които показват, че всички мъже се изправят, а всички жени сядат, или всички автомобили са в гараж, а всички велосипеди са кални), защото учебната машина, която създавате, ще отразява тези прекалено специфични модели и ще ги търси в данните, които използвате заедно с тях. Всички данни, които използвате за обучение, трябва да бъдат добре обозначени и да са етикетирани с функциите, които съответстват на въпросите, които ще зададете на системата за машинно обучение.

Мит 3 - Винаги се нуждаете от много данни

В последно време основните достижения в областта на разпознаването на изображения, машинното четене и езиковия превод се случиха благодарение на по-добрите инструменти и изчислителен хардуер, като графичните процесори например, които могат да обработват паралелно големи количества данни, включително ImageNet и Stanford Question Answering Dataset. Но благодарение на един трик, наречен трансферно обучение, невинаги се нуждаете от големи масиви от данни, за да получите добри резултати в определена област. Вместо това можете да покажете на системата как да се обучава с голям набор от данни, а след това тя да приложи тази способност към вашата много по-малка база данни. По този начин работят приложните програмни интерфейси (API) на Salesforce и Microsoft Azure – нуждаете се от едва 30-50 изображения, показващи какво искате да класифицирате, за да получите добри резултати.

Трансферното обучение ви позволява да персонализирате предварително обучена система в своя проблем със сравнително малко количество данни.

Мит 4 - Всеки може да изгради система за машинно обучение

Има много инструменти с отворен код, рамки за машинно обучение и безброй курсове, които ви показват как да ги използвате. Но машинното обучение все още е специализирана техника и трябва да знаете как да подготвите и да групирате данните за провеждане на обучение и тестове. Трябва да сте наясно и как да изберете най-добрия алгоритъм и какви евристчни методи да използвате с него, както и как да превърнете тази комбинация в надеждна система за производство. Необходимо е също така да наблюдавате работата на системата, за да сте сигурни, че резултатите остават адекватни с течение на времето. Когато пазарът ви се променя, за да може вашата платформа за машинно обучение да остане достатъчно добра, трябва да следите дали моделът ѝ продължава да отговаря на променящите се изисквания.

За да настроите правилно машината си за обучение, се изисква определен опит. Ако сте новобранец в тази сфера, можете да започнете с предварително обучени модели, на които да се облегнете, докато не придобиете достатъчно познания и експертиза за създаването на свои персонализирани системи.

Мит 5 - Всички модели са полезни

Хората с астма, с болки в гърдите или сърдечни заболявания, както и столетниците например имат много по-висок шанс да преживеят една пневмония, отколкото много хора биха очаквали. Така че, всъщност, една проста система за машинно обучение, предназначена да автоматизира приема в болницата, може спокойно да изпрати подобни пациенти вкъщи (система, базирана на правила и обучена върху едни и същи данни като невронната мрежа, направи точно това). За съжаление, причината за такива високи нива на оцеляване се крие във факта, че подбни пациенти винаги се приемат веднага, защото пневмонията е изключително опасна за тях.

Системата вижда този валиден, но грешно зададен модел в данните. По-голямата опасност обаче идва от там, че обучаващият може да не знае, че този грешен модел присъства там.

В други случаи, системата може да научи валиден модел (като например спорната система за лицево разпознаване, която точно определя сексуалната ориентация на базата на селфи). Тя обаче е реално неизползваема, защото не може да даде ясно и логично обяснение за решенията си. В общия случай подобни снимки изразяват социално послание, съдържащо се в знаци и пози, а не вродени биологични признаци.

Моделите от типа "черна кутия" са наистина ефективни, но няма как да разберете как са били обучавни и на каква база взимат решенията си. По-прозрачни и разбираеми алгоритми дават възможност за по-ясна представа какво е научил моделът, за да можете да прецените дали въобще има смисъл този проект да бъде разгръщан в бъдеще.

Мит 6 - Укрепващото обучение е готово за употреба

Почти всички системи за машинно обучение, използвани днес, са част от т.нар. контролирано обучение. В повечето случаи те са базирани на ясни етикетирани масиви от данни, в чиято подготовка са участвали хора. Подготовката на тези масиви и надзорът над процесите отнема време и усилия, което засилва интереса към неконтролираните форми, особено към укрепващото обучение (reinforcement learning), при което агентът се учи по системата “проба-грешка”, като взаимодейства с околната среда и получава награди за правилно поведение. Системата AlphaGo на DeepMind използваше укрепващото обучение заедно с контролирано такова, за да победи водещи играчи на Го, а системата на Libratus, създадена от екип в Carnegie Mellon, използваше този подход заедно с други две техники за изкуствен интелект, за да победи някои от най-добрите покер играчи в света. Общо взето различни изследователи експериментират с укрепващото обучение във всякакви сфери - от роботика до тестване на софтуер за сигурност.

Укрепващото обучение обаче е значително по-рядко срещано извън контролираните среди на лабораториите. Google използва DeepMind, за да пести енергия в своите центрове за данни, като научи системата да ги охлажда по-ефективно; Microsoft използва специфична, ограничена версия на укрепващото обучение, наречена “contextual bandits”, за да персонализира заглавията на новините за посетителите на MSN.com. Но общо взето то е все още неизползваемо за по-сериозни задачи.

Мит 7 - Машинното обучение е безпристрастно

Тъй като машинното обучение черпи знания от данните, които са му предоставени, то ще възпроизведе всички отклонения и пристрастия, които присъстват в масива от данни. Търсенето на снимки на главни изпълнителни директори например е вероятно да покаже такива на бели мъже, защото те преобладават на този пост. Но, освен това, се оказва също така, че машинното обучение може да засили пристрастието си.

Масивът от данни на COCO, който често се използва за обучение на системи за разпознаване на образи, има снимки на мъже и жени. Повечето жени обаче са показани в близост до кухненско оборудване, а по-голямата част от мъжете са показани с компютърни клавиатури, мишки, тенис ракети или сноуборд дъски. Ако обучавате система с базата данни на COCO, се оказва, че тя свързва мъжете с компютърния хардуер много по-силно, отколкото би трябвало на база статистическите модели от входните снимки.

Също така е доказано, че една система за машинно обучение може да добави пристрастия към друга. Ако например обучавате една подобна система с популярни рамки за представяне на думи като вектори, които показват взаимоотношенията между тях, те ще научат стереотипи като "отношението между мъж и жена е като това между компютърен програмист и домакиня или доктор към медицинска сестра и управител към рецепционист”. Ако пък използвате тази система заедно с таква за превод от финландски или турски език например, които имат неутрални по пол местоимения, към английски или български език, които имат местоимения като “той” и “тя”, системата автоматично ще сложи местоимението “той” пред лекар и “тя”, когато следва медицинска сестра.

Подобна пристрастност не е проблем в някои случаи, но определено се превръща в такъва, когато става дума за чувствителни области и може да доведе до отрицателна обратна връзка. Тя действа и в случаите, когато например се присъедините към Facebook-група срещу ваксините и системата ви предложи други групи, фокусирани върху различни конспиративни теории или вярването, че Земята е плоска.

Проблемите с пристрасността при машинното обучение трябва да се знаят, за да се намали тяхното влияние. Ако не можете да премахнете напълно пристрастията в набора от данни за обучение, използвайте техники като регулиране на асоциациите между двойките думи, за да намалите тяхното влияние върху модела.

Мит 8 - Машинното обучение се използва само за добро

Машинното обучение стои в основата на различни антивирусни инструменти, анализирайки поведението на иновативните методи за атака с цел да ги открива възможно най-бързо, щом бъдат стартирани. В същия момент обаче, хакерите използват машинно обучение, за да анализират по подобен начин защитните инструменти, както и да извършват мащабни фишинг атаки, като анализират големи количества публични данни или предишни фишинг кампании.

Мит 9 - Машинното обучение ще замести хората

Много хора обичайно защитават тезата, че изкуственият интелект ще отнеме работни места и със сигурност ще промени това, което правим и начина, по който го правим. Това е разбираемо, тъй като системите за машинно обучение подобряват ефективността и съответствието и намаляват разходите. В дългосрочен план тази технология ще създаде нови роли в бизнеса и ще обезсмисли някои съществуващи позиции. Но много от задачите, които машинното обучение автоматизира, просто не са били възможни за изпълнение в миналото заради сложността или мащаба си (няма как една компания да наеме достатъчно хора, които да следят всяка снимка, публикувана в социалните медии, за да разберат кога тя включва нейното лого например).

Машинното обучение вече започна да създава нови бизнес възможности - подобряване на клиентския опит с предсказуема поддръжка и предложения, базирани на анализ на големи масиви от данни, в подкрепа на служителите, взимащи решения. Както и при предишните поколения автоматизация, машинното обучение просто може да освободи служителите от рутинните дейности, за да използват своя опит и креативност в други посоки.

 

 

КОМЕНТАРИ ОТ  

Полезни страници
    За нас | Аудитория | Реклама | Контакти | Общи условия |
    Действителни собственици на настоящото издание са Иво Георгиев Прокопиев и Теодор Иванов Захов