У дома Бизнес Данни лакове, обяснено

Данни лакове, обяснено

Видео: Настя и сборник весёлых историй (Септември 2024)

Видео: Настя и сборник весёлых историй (Септември 2024)
Anonim

Революцията на големите данни предефинира начина на работа на предприятията; данните са в основата на всичко. Не само инструментите с отворен код като Apache Hadoop и Spark направиха огромни количества данни по-лесни за събиране, обработка и съхраняване в реално време, но бизнес интелигентността (BI) и инструментите за визуализация на данни започнаха да ни помагат да надраскаме повърхността на анализа и преобразуване на тези данни за информиране на основните бизнес решения.

Въпреки че, независимо от развитието на технологията Big Data и BI, ние все още се занимаваме с толкова големи обеми от непрекъснато събиране на данни, че намирането на правилните точки за анализ все още се чувства като гмуркане за игли в непрекъснат сено. Решението? Препроектирайте сеното.

Въведете лакове с данни, нов тип облачна базирана архитектура на предприятието, която структурира данните по-мащабируем начин, който улеснява експериментирането; го прави по-отворен за проучване и манипулиране, а не затворен в твърди схеми и силози. Nasry Angel, изследовател по архитектура на Enterprise в Forrester Research, обясни защо предприятията използват архитектурата на данните от езерото.

"Звучи клише, но когато мислите за ефективна съвременна среда за данни, това е много по-експериментално", каза Ангел. „Трябва да можете да научите бързо и да се проваляте бързо. В миналото управлението на данни, особено в склад, беше всичко за качеството, до десетичната запетая; уверете се, че всичко е напълно точно и вярно. Нарича се гонене на единичен версия на истината.След това генериране на перфектен пиксел отчет и взривяване на 5000 потребители.

"В днешно време това е по-научен процес. Влизате с хипотеза за данните, които искате да тествате и искате да можете да играете с данните, да смесвате и да съвпадате, да изпробвате различни неща, преди да отидете и да продуцирате нещо."

Какво е в езерото с данни?

Езерото с данни е хранилище за съхранение. Макар че, за разлика от хранилище на данни или "март на данни", Ангел обясни, че лайкове за данни се разпределят в множество възли, а не във фиксираната, структурирана среда на хранилище на данни, разчитайки на схеми (виж инфографиката по-долу).

„Езерото с данни ви позволява да прилагате схема, когато пишете данните срещу склад на данни, който изисква да направите схема на четене. Така че, по същество, складът на данни изисква да моделирате данните, преди да разберете контекста му, което не Наистина няма смисъл - каза Ангел.

Източник: JustOne Database, Inc. (Кликнете върху графиката по-горе, за да видите пълния изглед.)

"Обикновено в склад имате ИТ специалисти, които измислят това, което според тях са най-добрите модели данни и те не са евентуалните потребители на данните. Можете бързо да видите как това затруднява производителността и бизнес стойността", добави той, "В крайна сметка вие и бизнес потребителите трябва да бъдете тези, които взимат решения относно структурата на данните и в езерото с данни първо можете да проучите и разберете какво има, а след това да измислите схема, която да го организира най-добре."

Лейковете за данни обикновено са изградени на Hadoop, а корпоративните Hadoop дистрибуции като Hortonworks и MapR предлагат архитектура с данни от езерото. Фирмите могат също така да изграждат езера с данни, като използват облаци на инфраструктурата като услуга (IaaS), включително Amazon Web Services (AWS) и Microsoft Azure. Elastic Compute Cloud (EC2) на Amazon поддържа езера с данни, докато Microsoft има специална платформа Azure Data Lake за съхранение и анализ на данни в реално време. Ангел каза, че емисиите от данни достигат до момента в пространството на Big Data, където предприятията могат да започнат да инвестират в тях с разумна увереност.

"Няколко години назад Хадооп беше изцяло ярост. Сега стигаме до момент, в който Хадооп е комодитизиран", каза Ангел. „Въпросът не е дали Hadoop, а кога и какво ще правите с него. Какви типове приложения ще изграждате на върха на Hadoop, след като сте получили данните на общо място като езеро с данни? На този етап става въпрос за използването на данните за разработване на приложения, за да се отговори на вашите специфични бизнес нужди."

Изграждане на върха на резервоар за данни

Най-вълнуващата част за Big Data е цялата възможност, която тя отключва. След като настроите езеро с данни, в което да играете и да експериментирате с различни комбинации от данни и бизнес резултати, можете да започнете наслояване на иновативни техники за анализ отгоре.

Алгоритмите за машинно обучение (ML) вече стават част от тъканта на облачната инфраструктура и изследователите непрекъснато усъвършенстват техники за дълбоко обучение и невронни мрежи, за да обучават машини и системи за данни, за да разпознават сложни модели. Прогнозната анализа се включва във все повече и повече инструменти за данни и корпоративни платформи, които се използват за всичко - от прогнозно оценяване и автоматизирана сегментация за управление на взаимоотношенията с клиенти (CRM) до идентифициране на тенденциите на финансовите пазари и превантивно улавяне на механични повреди в машините.

Всичко това се случва отгоре на каквото и хранилище на данни да се захранва и мащабира според нуждите му. Ейнджъл говори за някои случаи на употреба в реалния свят, в които е видял, че езерата с данни променят начина на функциониране на организациите.

„Работих с издателска компания, която има портфолио от различни списания - те имат издание за адвокати, друго за счетоводители, друго за консултанти и т.н. - и всяка публикация имаше свой склад за данни. Ефективно всяка публикация имаше свой собствен силоз - обясни Ангел.

"И така, извадихме всички данни от склад и ги поставихме в езеро с данни. Езерото с данни им позволи да видят през силози. Те бяха в състояние да изследват данните и да открият данни, и разбрахме, че във всички тези различни публикации, клиенти от всяко списание се интересуваха от киберсигурността. Читателската аудитория за киберсигурността беше силна във всички тези различни роли. И така, какво направиха те? Те направиха киберсигурността тема на годишната им конференция."

Друг пример, за който Ангел говори, е електронната търговия. Друг клиент, онлайн търговец на изкуства, изхвърляше тона информация в езерото с данни и го използваше не само като хранилище, но и като платно от сортове, за да събере бизнес информация. Търговецът донесе данни за транзакции (поръчки, фактури, плащания и др.), Clickstream данни (последователност на кликвания и страници на всеки посетител на уебсайта) и данни от склада на данни на търговците на дребно, всички в езерото, и ги използва в концерт за борба с количката. изоставяне и преобразувания.

"Искате да надградите над езеро с данни и да го използвате за формулиране на сложни бизнес прозрения", каза Ангел. „Търговецът на изкуства успя да разгледа данните за кликвания на клиент и да съпостави кликванията с потребителските профили, след това използва транзакционните данни, за да види какво е купувал клиентът в миналото и да използва тези прозрения, за да стартира много конкретни имейл кампании. в кошницата им, търговецът на дребно може да проследи два часа по-късно и да каже: „Видяхме, че проверявате този Пикасо; ето линка, ако искате да го разгледате отново“.

Лейковете за данни са универсално приложими във всички видове случаи на бизнес използване. Но за главен технически директор (CTO) или главен служител по сигурността на информацията (CISO), който обмисля да премине към архитектурата, Angel подчерта, че складовете на данни все още не са остарели, нито с какъвто и да е участък. За повечето корпоративни организации, независимо дали използвате доставчик на облак или персонализирана Hadoop дистрибуция, предприятията все още се нуждаят от двете.

Лейковете за данни ви дават достъп до несравнима информация, като премахвате ограниченията за съответствие на данните на определена схема и идват с много по-ниска обща цена на собственост предвид използването на евтини, гъвкави съхранение в облака, като AWS за мащабиране нагоре и надолу - докато само заплащане за мощността на обработка, която реално използвате. Изпълнението на склад за данни е по-скъпо и, следователно, прави ИТ специалистите по-избирателни за това какви данни влизат и излизат. Но за най-важните данни за предприятието това не е лошо.

„Складът с данни има предимства по отношение на сигурността и е много лесен инструмент за контрол на управлението на данните“, каза Ангел. "Така че все още искате да запазите най-чувствителната си информация в склада, критичните за мисията неща. Но когато става въпрос за нови бизнес възможности и откриване на скрити прозрения, искате да използвате езерото за данни."

Данни лакове, обяснено