Софтуер

Напразни надежди към Големите данни за преброяване на населението

CIO Media

Виргиния Стаматова 
На всеки 10 години правителствата по света правят национално преброяване. Последната подобна инициатива у нас беше през 2011 и включваше комбинация от електронно попълвани анкетни карти и преброители (около 46 000 души), които, въоръжени с въпросници, посещаваха домакинствата от врата на врата във всеки град и село. Цената, която българските данъкоплатци платиха, беше около 27.5 млн. лв. 

По принцип, макар и да е трудно видимо у нас, познаването на състава на населението е от решаващо значение за планирането на различни политики, да речем – заделяне на ресурси за грижите за възрастните хора или за образованието на младите. В някои страни това е основата и за разделяне на парламентарните места в избирателните райони. 

Исторически преброяването е свързано с развитието на съвременните национални държави, тъй като те свързват населението с определен регион, т.е. територия. Днес поради миграцията националните преброявания крият потенциална опасност от изключване на хората, които дългосрочно работят в дадената държава, но са от друга националност. Затова например Бюрото за преброяване на населението на САЩ планира да включи през 2020 въпрос за гражданството. Но социолозите отвъд океана се опасяват, че поради антимиграционна политика на Белия дом чужденците, живеещи на територията на Съединените щати, ще предпочетат да не посочват статута си. Това би могло да повлияе на техните интереси при определяне на финансирането и на представителството в Конгреса на щатите с по-голям брой имигранти. 

У нас пък предстоящото преброяване, може да доведе до по-високи данъци за собствениците на празни имоти - по последни данни незает е около 30% от жилищния фонд (1.2 млн. къщи и апартаменти). Логично, засегнатите ще се постараят да го избегнат. Притежателите на такива имоти са разнородна група - строителни предприемачи, които не са успели да продадат построените сгради; богати инвеститори в имоти, но и голям брой български граждани, които, подгонени от мизерията, напускат родното си място, за да търсят работа в големия град или зад граница. По данни на НСИ около 4000 души годишно напускат страната ни. 

Очевидно от особена важност е начинът, по който се извършват преброяването на населението, а нарастващото приложение на Големите данни може да помогне поне за изчистване на картината. ИТ браншът и академичните среди у нас редовно препоръчват използването на информационните масиви от технологичните корпорации като Facebook, телекомуникационни компании или приватизирани обществени услуги, за да се допълнят данните от преброяването. Facebook, за която се твърди, че следи движението на всеки потребител по света, би могла да подпомогне работата на статистическите агенции. Но достатъчно надеждни ли са данните й?

Преброяване чрез Facebook 

Методиките за преброяване на населението в ЕС, напоследък претърпяха промяна заради критиката, която идва от страна на бизнеса, технократите и европейските политици. През 2021 г. предстои ново паралелно преброяване на населението в ЕС, което вероятно отново ще е комбинирано – онлайн и чрез преброители. За да бъдат препоръчани нови подходи, беше създаден проектът ARITHMUS (финансиран за времето 2014 - 2019), който изучава преброителните практики на националните статистики на страните членки и ги съпоставя. Методиките се преосмислят в светлината на цифровите технологии (смартфони, интернет платформи) и новите форми на данни (правителствени регистри, интернет данни), като се търси връзката им с политическите въпроси, свързани с интеграцията и управлението на Европа. Критиките на участниците в проекта към традиционното преброяване са свързани с това, че е скъпо, извършва се на 10 години, а резултатите от него се публикуват със закъснение и разбивката на населението е стара. Изцяло електронното преброяване, което се въвежда по внушение на европейските институции – през сайта на националните статистически институти - крие рискове, свързани с информационната сигурност, и данните лесно могат да бъдат хакнати. 

Потенциалът и недостатъците на Големите данни

Използването на Големите данни звучи примамливо и модерно, но с уговорката, че все още не знаем как точно работят алгоритмите, т.е. методиката, зад резултатите. Медийният скандал във Великобритания от миналата година илюстрира проблема: Facebook беше критикувана от рекламодатели, че отчита с около 2 млн. души повече аудитория на възраст между 18 и 25 години от преброяването. В отговор на тези твърдения от социалната мрежа заявиха пред „Гардиън“, че методите им, частично базирани на кликванията върху рекламите, „не са предназначени да съответстват на оценките на населението или преброяването". От една страна, възможно е Facebook да завишава броя на аудиторията, за да продаде по-лесно рекламните позиции, но от друга – може да се окаже, че методиките за преброяване не отчитат точния брой на хората на дадена територия. 

Каквато и да е истината, има проблеми с точността на Големите данни, извлечени от социалните медии. За разлика от информацията от проучванията, състояща се от отговори на предварително зададени въпроси, данните на социалните медии се получават чрез използването на приложения и платформи. Те може да имат различна метрика. 

Допълнителни проблеми идват оттам, че Големите данни съдържат повече "шум" (двоен клик, да речем) и представляват само част от населението (има хора, които по различни причини не ползват социални медии). Проучванията "от врата до врата" обаче също не покриват конкретни групи, така че е добре да се вземе предвид отклонението в отговорите, препоръчват от ARITHMUS. 

В близко бъдеще повечето национални статистики не предвиждат включването на Големи данни при преброявания, пишат в свой доклад участниците в проекта. Но много от тях като статистиката на Холандия, Британската служба за национална статистика и Статистиката на Естония експериментират. Пример за това е събирането на данни за местоположението на мобилните телефони, за да се установи "дневното население" на определени географски райони. 

Невидимото събиране на данни

Допълнителните, нелични данни могат да бъдат полезни: информацията за дневния поток от хора на дадено място е важна за градските власти, управлението на трафика, услугите и т.н., защото показва къде хората прекарват времето си. Тук са включени на само жителите, но и посетителите, мобилните работници и туристите. Броят на населението, основаващ се на данни, произведени от технологични компании, телекомуникационни оператори и обществени услуги, може да даде възможност да се преосмислят основните дефиниции за състава населението, считат от ARITHMUS. 

От друга страна, те предупреждават, че трябва да бъдем предпазливи, защото Големите данни, с които експериментират статистиките и демографските институти на някои европейски страни, нямат ключовите характеристики на преброяването. Старомодните въпросници позволяват на хората и гражданските организации да договарят демографски категории, например добавянето на категория за майчин испански език в преброяването в САЩ през 1980. Въпросниците позволяват на хората чрез преброяването да преговарят за начина, по който са категоризирани - като откажат да отбележат например някои от наличните опции или да предложат нови. 

А ако въпросниците предполагат обратна връзка, големите данни нямат такива възможности. 

В основната си част, те се събират и обработват невидимо. Изследователите, използващи предварително категоризираните данни във Facebook за оценка броя на мигрантите, са на мнение, че в много малка степен компаниите, събиращи данните, обясняват използваните методи и категории. Тъй като такова изследване често се фокусира върху мигранти и други "труднодостъпни" групи, резултатите могат да увеличат контрола и изключването на обществено уязвимите. Получените изводи дават ограничени възможности на тези групи да преговарят за статута си. 

Така че преброяването не може да изчезне в резултат на конкуренцията на Facebook или други платформи. Но е важно да помним, че нарастващото използване на Големи данни от статистическите агенции и други организации може да повлияе върху начина, по който хората биват категоризирани и управлявани. За да поддържаме методите за преброяване на населението, които насърчават участие на гражданите, трябва е да има прозрачност по отношение на събирането на данните, както и отворени процедури за категоризация. Това са не само правни и технически въпроси, но и възможности за ангажиране на хората като участници, имащи правото да се самоопределят като население.


X