У дома Бизнес Основни основни данни: как да се изгради план за управление на данните

Основни основни данни: как да се изгради план за управление на данните

Видео: Dame Tu cosita ñ (Септември 2024)

Видео: Dame Tu cosita ñ (Септември 2024)
Anonim

Писахме много за ролята на данните в съвременния бизнес. От стартиращи и малки до средни предприятия (SMBs) до големи предприятия, погледът на данните и анализът са по-достъпни за бизнеса от всякакви размери от всякога. Това отчасти се дължи на нарастването на бизнес разузнаването за самообслужване (BI) и инструментите за визуализация на данни.

Въпреки че, преди да можете да използвате BI инструменти или да стартирате прогнозна анализа върху набор от данни, има множество фактори, които да се отклонят. Започва с просто разбиране какво е Big Data, какво не е (намек: не е кристална топка) и как да управлявате съхранение на данни, организация, разрешения и сигурност в архитектурата на вашите корпоративни данни. От тук идва управлението на данните. Процесите, чрез които осигурявате управление в предприятието, се различават в зависимост от това с кого говорите. Но в основата си управлението на данните е свързано с доверие и отчетност на данните, омъжено с най-добрите практики за сигурност на данните.

Разговарях с Hortonworks и MapR, двама от най-големите предприятия Hadoop на пазара. Скот Гнау, главен технологичен директор в Hortonworks, и Джак Норис, старши вицепрезидент по данни и приложения в MapR, обясниха какво означава управление на данните за техните организации. Те обсъдиха как да се справят със сложното предизвикателство за осигуряване на управление на данните в сложните архитектури на данни и организационните йерархии на голямо предприятие.

Какво точно е Управление на данните и защо ни е необходимо?

Управлението означава да се гарантира, че данните на предприятието са оторизирани, организирани и разрешени в база данни с възможно най-малко грешки, като същевременно се поддържа както поверителност, така и сигурност. Не е лесно да постигнете баланс, особено когато реалността къде и как се съхраняват и обработват данни е постоянно в поток. Норис на MapR обясни защо предприятията трябва да гледат на управлението на данните от по-високо ниво и да се съсредоточат върху по-големия тръбопровод за данни в момента.

"Когато започнете да мащабирате разнообразието и скоростта на Големите данни, с които се занимаваме, трябва да имате управление на данните, но то е в този по-широк контекст. Какви са данните, кой има достъп до тях и как сте управление на родословието на тези данни във времето? " - каза Норис. „От гледна точка на управлението на данните можете да имате различни етапи на данните, които съществуват в системата, която може да бъде направена моментално, така че да можете да се върнете във всеки момент от тръбопровода. Става въпрос за изграждането на одитност и контрол на достъпа в платформата за данни, която да направите сигурно откриване и анализиране на данни са прозрачни, независимо дали сте бизнес мениджър, който гледа набори от финансови данни или учен, който работи със сурови данни нагоре по течението."

Източник: Rimes Кликнете върху изображението за пълен изглед.

Hortonworks 'Gnau участва в подобна точка. Независимо дали имате работа със архив на данни или архитектура на езерото за данни, управлението на данните е за балансиране на противоположни сили. Става въпрос за неограничен достъп до данни, за да стимулирате иновациите и да получите прозрения, подробни разрешения и поверителност за едновременна защита на тези данни от край до край.

"Сравнете и сравнете стария свят на традиционното управление в пространството с данни; беше малко по-лесно", каза Гнау. „Данните, използвани за да бъдат добре дефинирани от ролята или ролята на работа. В новия свят получавате най-голяма полза, когато учените от данни имат достъп до възможно най-много данни и намират, че щастливият носител е много важен.

„Това създава съвсем нова парадигма в това как трябва да подходите към управлението“, добави Гнау. „В този нов свят считам теми за управление и сигурност, които трябва да бъдат обхванати заедно. Много компании все още се борят да преминат през това, за да позволят на своите учени с данни да бъдат ефективни при намирането на тези нови случаи на употреба, като в същото време, разбиране как да се справяме със сигурността, неприкосновеността на личния живот, управлението - всички неща, които са важни от гледна точка на долния ред, а също и от гледна точка на репутацията на компанията."

Как се предвижда планът за управление на данните за предприятията да обхваща и задоволява всички онези противоположни сили? Като се справяте с всяко изискване методично, една стъпка по едно.

Как да изградим план за управление на данните

Hortonworks, MapR и Cloudera са трите най-големи независими играчи в пространството на Hadoop. Компаниите имат свои сфери на влияние, що се отнася до управлението на данните. MapR пусна редица бележки по темата и изгради управление на данните в своята конвергирана платформа за данни, докато Hortonworks има собствено решение за сигурност и управление на данните и съоснова инициативата за управление на данните (DGI) през 2015 г. Това доведе до отваряне -източник Apache Atlas проект, който предоставя отворена рамка за управление на данни за Hadoop.

Но когато става въпрос за това как всеки доставчик изработва цялостно управление на данните и стратегии за сигурност, Гнау и Норис говориха по подобен начин. По-долу са комбинираните стъпки, които Hortonworks и MapR препоръчват на бизнеса да се имат предвид при изграждането на план за управление на данните.

Големият: Гранулиран достъп и разрешаване на данни

И двете компании са съгласни, че не можете да имате ефективно управление на данните без задълбочен контрол. MapR постига това предимно чрез изрази за контрол на достъпа (ACE). Както обясни Норис, ACE използват групиране и булева логика за контрол на гъвкавия достъп до данни и упълномощаването, с базирани на ролите разрешения и настройки за видимост.

Той каза, че мисли за това като модел на Gartner. На оста Y в долния край са строго управление и ниска гъвкавост, а на оста X в горния край са по-висока гъвкавост и по-малко управление.

"На ниско ниво защитавате чувствителни данни, като ги обмазвате. Отгоре имате конфиденциални договори за учени по данни и BI анализатори", каза Норис. „Склонни сме да правим това с възможности за маскиране и различни изгледи, при които заключвате сурови данни в долната част, колкото е възможно повече и постепенно осигурявате повече достъп, докато в горния край не предоставите на администраторите по-голяма видимост. Но как да дадете достъп до точните хора?

„Ако днес погледнете списък за контрол на достъпа, той ще каже нещо като„ всеки от инженерите може да има достъп до това “, добави Норис. "Но ако искате няколко избрани директори на проект в рамките на ИТ да имат достъп или всички, с изключение на човек, трябва да създадете специална група. Това е твърде сложен и объркан начин да гледате на достъпа."

Това е мястото, където се предоставят права за достъп на различни нива и групи, според Норис. „Комбинирахме ACE с различни начини, до които можете да получите достъп до данни - чрез файлове, таблици, потоци и т.н. - и внедрявахме изгледи без отделни копия на данните. Така че предоставяме изгледи за едни и същи необработени данни и изгледите може да има различни нива на достъп. Това ви осигурява по-директна сигурност, която е по-директна."

Hortonworks обработва гранулиран достъп по подобен начин. Интегрирайки Apache Atlas за управление и Apache Ranger, Gnau заяви, че компанията обработва разрешения на ниво предприятие чрез един стъклен прозорец. Ключовото, според него, е възможността контекстуално да се предостави достъп до базата данни и до конкретни маркери на метаданни чрез използване на базирани на тагове политики.

„След като някой е в базата данни, става въпрос за насочването им към данните, до които трябва да имат подходящ достъп“, каза Гнау. „Политиките за сигурност на Рейнджър на ниво обект, фини и навсякъде по средата могат да се справят с това. Включването на тази сигурност в управлението става там, където нещата стават наистина интересни.

„За да мащабите в големи организации, трябва да интегрирате тези роли с управление и маркиране на метаданни“, добави Гнау. "Ако влизам от Сингапур, може би има различни правила, базирани на местните закони за поверителност или корпоративна стратегия. След като една компания дефинира, зададе и разбере тези правила от цялостна перспектива отгоре надолу, можете да разделите достъпа въз основа на определени правила, докато изпълнявате всичко в основната платформа."

Източник: IBM Big Data & Analytics Hub. Кликнете върху изображението за пълен изглед.

2. Периметрова сигурност, защита на данните и интегрирана проверка на автентичността

Управлението не става без сигурност на крайната точка. Гнау каза, че е важно да се изгради добър периметър и защитна стена около данните, които се интегрират със съществуващите системи и стандарти за удостоверяване. Норис се съгласи, че що се отнася до удостоверяването, е важно предприятията да се синхронизират с изпитани системи.

„Под удостоверяване става въпрос за това как се интегрирате с LDAP, Active Directory и услуги на директории на трети страни“, каза Норис. "Ние също така поддържаме потребителско име и пароли на Kerberos. Важното е да не създавате цяла отделна инфраструктура, а е как да се интегрирате със съществуващите структури и системи за използване като Kerberos."

3. Шифроване на данни и токенизация

Следващата стъпка след осигуряването на вашия периметър и удостоверяването на целия подробен достъп до данни, който предоставяте: Уверете се, че файловете и личната информация (PII) са криптирани и токенизирани от край до край чрез вашия тръбопровод за данни. Гнау обсъди как Hortonworks защитава данните за PII.

"След като преминете през периметъра и имате достъп до системата, възможността да защитите PII данни е изключително важно", каза Гнау. „Трябва да шифровате и токенизирате тези данни, така че, независимо кой има достъп до тях, те могат да изпълняват необходимите анализи, без да излагат никоя от тези PII данни по линията.“

Що се отнася до това как сигурно имате достъп до криптирани данни както в движение, така и в покой, Norris на MapR обясни, че е важно да имате предвид и случаи на използване като резервно копие и възстановяване след бедствия (DR). Той обсъди концепцията на MapR, наречена логически томове, която може да прилага политики за управление към нарастващ клъстер от файлове и директории.

„На най-ниското ниво MapR е проектирал репликация на WAN за DR и последователни снимки във всички данни, които могат да бъдат настроени на различни честоти по директория или обем“, каза Норис. "Това е по-широко от просто управление на данни. Можете да имате физически клъстер с директории и тогава концепцията за логически том е наистина интересна единица за управление и начин да групирате нещата, докато контролирате защитата на данните и честотата. Това е още една стрелка в данните на администратора на ИТ колчан за управление."

4. Постоянен одит и анализи

Разглеждайки по-широката картина на управлението, Hortonworks и MapR заявиха, че стратегията не работи без одит. Това ниво на изменчивост и отчетност във всяка стъпка на процеса е това, което позволява на ИТ всъщност да „управляват“ данните, а не просто да определят политики и да контролират достъпа и да се надяват на най-доброто. Също така предприятията могат да поддържат актуалните си стратегии в среда, в която как виждаме данните и технологиите, които използваме за управление и анализ, се променят всеки ден.

„Последната част от съвременната стратегия за управление е регистрирането и проследяването“, каза Гнау. „В началото сме на Big Data и IoT и е изключително важно да можем да проследяваме достъпа и да разпознаваме модели в данните, така че, тъй като стратегията трябва да бъде актуализирана, ние изпреварваме кривата.“

Норис каза, че одитът и анализът могат да бъдат толкова прости, колкото проследяването на файлове с JavaScript Object Notation (JSON). Не всяка част от данните ще си струва да проследявате и анализирате, но вашият бизнес никога няма да разбере кои - докато не идентифицирате промяната на играта или се случи криза и не трябва да пуснете одитна пътека.

„Всеки лог файл на JSON се отваря за анализ и имаме Apache Drill, за да запитваме JSON файлове със схемите, така че не е ръчна ИТ стъпка за настройване на анализ на метаданни“, каза Норис. „Когато включите всички събития за достъп до данни и всяко административно действие, е възможен широк спектър от анализи.“

5. Единна архитектура на данни

В крайна сметка технологичният служител или ИТ администраторът, който ръководи стратегията за управление на данните на предприятието, трябва да помисли за спецификата на подробния достъп, автентификацията, сигурността, криптирането и одита. Но технологичният служител или ИТ администраторът не бива да спира; по-скоро този човек също трябва да помисли как всеки от тези компоненти се вписва в своята по-голяма архитектура на данни. Той или тя трябва да помисли и за това как тази инфраструктура трябва да бъде мащабируема и сигурна - от събиране и съхранение на данни до BI, анализи и услуги на трети страни. Гнау каза, че управлението на данните е толкова за преосмисляне на стратегия и изпълнение, колкото и за самата технология.

" Той надхвърля едно стъкло или колекция от правила за сигурност", каза Гнау. "Това е една архитектура, в която създавате тези роли и те синхронизират цялата платформа и всички инструменти, които въвеждате в нея. Красотата на надеждно управляваната инфраструктура е бързината, с която се създават нови методи. На всяко ниво на платформата или дори в в хибридна облачна среда, имате единна отправна точка, за да разберете как сте внедрили правилата си. Всички данни преминават през този слой на сигурност и управление."

Основни основни данни: как да се изгради план за управление на данните