У дома Напредничаво мислене Големи данни: предизвикателна „трилиона долара възможност“

Големи данни: предизвикателна „трилиона долара възможност“

Видео: Настя и сборник весёлых историй (Ноември 2024)

Видео: Настя и сборник весёлых историй (Ноември 2024)
Anonim

Едно нещо, което ме впечатли на вчерашната среща на върха по Bloomberg Enterprise Technology, беше фокусът върху работата с данните по нови начини - с други думи, справяне с онова, което често се нарича „големи данни“.

Някои от разговорите се занимаваха със стойността на големите данни и дали това наистина беше „трилионна възможност“, докато други се занимаваха със специфичните предизвикателства, пред които отделните организации и индустрията като цяло се сблъскват при по-широкото използване на тези нови техники.

Джерард Франсис, глобален ръководител на Bloomberg Enterprise Solutions, Bloomberg LP започна деня, като внуши, че най-важното нещо, което компаниите могат да направят, е да "извлекат печалба от стойността на данните, като ги използват", и се съсредоточат върху достъпа, качеството и потока на данни в рамките на организация. В следващите панели много се говореше за нови инструменти, които се занимават с данни, както и конкретни проблеми при съхраняването, управлението и намирането на хората, които да се справят с данните.

В общ панел за тенденциите в предприятията Дуайт Мериман, председател и съосновател на MongoDB, заяви, че слоят данни на приложението проследява "най-голямото прекъсване и промяна, наблюдавани от 25 години насам". Той каза, че компаниите използват релационни бази данни от 25 години или повече, което прави най-старата технология в стека. Но сега се случват неща, базирани на файлове за съхранение, като Hadoop и нови технологии на бази данни, често групирани като „NoSQL“. Той подчерта, че Big Data не е за "големи", а за формата на данните, видовете данни и движението към справяне с данни в реално време.

Главният информационен директор на Google Бенджамин Фрид се съгласи, че повечето предприятия нямат проблеми с „големи данни“. Много от наборите от данни - с неща като HR данни и финансови данни - не са толкова големи, каза той. Важното е гъвкавостта, от която се нуждаете, за да се справите правилно с данните.

Какво е големи данни все пак?

Гари Блум на MarkLogic, Марк Брегман на Нойстар, Марк Палмър на Streambase и Випул Награт от Bloomberg

Тази концепция - тази гъвкавост е толкова важна, колкото и размерът на данните - беше отеклена в друг панел по-късно през деня. Там участниците се съгласиха, че компаниите се занимават с приложения с големи данни от дълго време, но мащабът се промени наскоро. Например Марк Ф. Брегман, старши вицепрезидент и главен технологичен директор на Neustar, отбеляза, че някои компании сега "съхраняват всичко" с надеждата, че това ще се окаже ценно.

„Големият е по-добре дефиниран като сложност“, според Гари Блум, изпълнителен директор и президент на MarkLogic. Той отбеляза, че много от така наречените „големи данни“ приложения включват много различни видове данни, но не и вида на обема, който обикновено чувате в приложения за „големи данни“.

Той посочи пример за въздушен трафик, който комбинира данни за времето, данни за летището, геопространствени данни, данни за полети, данни за резервации на авиокомпании и социални данни. Той отбеляза, че работата с хетерогенни данни наистина е трудно да се направи с традиционните релационни бази данни, като ехо от по-ранните коментари от Merriman на MongoDB, че това е "първата генерационна промяна в базата данни за 25 години", откакто преминахме от мейнфрейм към ерата на релационните бази данни.

Той отбеляза, че много хора говорят за данни в социалните медии, но наистина трябва да се комбинират с други данни, за да има наистина нещо, върху което можете да извлечете печалба. Комбинирането на тези данни е „истинската стойност“.

Разбира се, някои приложения включват много информация, като Брегман казва, че хетерогенността е само един фактор. Той цитира данни на DNS, които лесно могат да генерират 8TB информация на ден и необходимостта да се съхраняват такива неща в Hadoop. Брегман и другите отбелязват, че когато става въпрос за "капитализиране на данни", истинската стойност не е в суровите данни, а вместо това е в анализа, когато стане нещо, което можете да използвате. Останалите на панела се съгласиха.

Изпълнителният директор на Streambase Марк Палмър заяви, че в много приложения е важно комбинирането на големи количества данни с поточна анализа; и говори за допълнителната стойност, която би могла да бъде създадена чрез комбиниране на традиционните анализи в реално време.

Но той се съгласи, че сложността на данните е проблем. Той цитира как Vivek Ranadivé, който управлява Tibco (който сега е собственик на Streambase), закупи отчасти баскетболен отбор, за да разбере как технологията може да подобри опита на фена. Той отново говори за „смесване на различни видове данни“, като се започне от поток в Twitter, но също така се използват и други видове данни.

Блум отбеляза, че всичко зависи от приложението, казвайки, че „латентността е в очите на гледащия“. Някои приложения трябва да анализират данните на телта, преди дори да ударят базата данни, докато други не.

Брегман повдигна въпроса, че вместо да е трудно да се движат изчислителни ресурси, сега е много по-трудно да се движат данните. Той отбеляза, че за много приложения „заключването“ е местоположението на данните. След като съхраните данните си в публичен облак, е много трудно да ги преместите. В резултат на това, според него, много организации искат да съхраняват огромни количества данни на собствените си места, след което да могат да се преместят при различни доставчици за изчислителната функционалност. Заемайки термин от Bloom на MarkLogic, той говори за това как организациите може да се нуждаят от „център за данни, ориентиран към данни“ като място, където съхранявате огромни количества данни.

Големите данни „Възможност за трилиона долара ли са?“

Портър Биб от партньорите на MediaTech Capital, рязане на дуг на Cloudera, Gaurav Dhillon на Snaplogic и Джейсън Кели от Bloomberg Link

Друг панел обсъди възможностите и предизвикателствата, донесени от големите данни, като отрази коментар от Портър Биб, управляващ партньор в MediaTech Capital Partners. Биб каза, че всъщност има повече от трилион долара ползи за корпорациите, използващи новите техники. Към днешна дата, каза той, ние "дори не сме започнали да използваме потенциала, който тази технология предлага."

Биб говори за това как е важно организациите да приведат стратегията си за данни в съответствие с бизнес стратегията и се притесни, че повечето корпоративни и правителствени системи са несъпоставени.

В тази първа сесия Скот Вайс от Andreessen Horowitz каза, че "Hadoop е като криогенно съхранение", така че модераторът Джейсън Кели от Bloomberg Link попита главния архитект на Cloudera Дъг Кътънинг, който на първо място е един от създателите на Hadoop. че.

Отрязването на Hadoop позволява на хората да работят с повече данни. Той каза, че организациите изтеглят данни от лентата, вместо това ги правят онлайн и полезни. Клиентите преминават от работа с 90 дни данни към пет или 10 години данни в „активен архив“.

В този панел отново се появиха редица специфични въпроси за справяне с всички тези данни. Изпълнителният директор на Snaplogic Gaurav Dhillon говори за "гравитацията на данните", казвайки, че няма смисъл да се вземат данни, които са локални в Hadoop, и да ги премести в облака. Но в същото време, ако има данни в облака, като например анализ на клик-поток, няма смисъл да местите това локално. В резултат на това той каза, че вижда много малко „трансгранични възможности“ при преместването на данните.

Cutting каза, че не вярва, че наистина има недостиг на данни учени. Вместо това той каза, че има много хора, които разбират математиката и бизнеса, но просто нямат инструментите. Можете да научите основите на инструментите и какво правят в рамките на няколко седмици, каза той, но разбирането на бизнеса ви отнема години. И все пак има много хора, които разбират това.

Dhillon също отрази притесненията относно законодателството, което се отнася до това каква информация може да се съхранява къде. Той каза, че някои вертикални пазари изискват информация да се съхранява на място, но се притеснява от неща, като изисквания да не се преместват данни от страната на произход. Голяма част от това е свръх реакция към неща като разкритията на Snowden и нарушения на данните, каза той, като отбелязва, че "бързането с законодателство никога не е добро".

Запитан дали се притеснява, че нарушенията на Snowden и Target карат клиентите да се страхуват от данни, Cutting отговори, че се притеснява, че толкова много хора се притесняват. Много хора се плашат от технологиите, каза той и провалът на индустрията е да направи клиентите удобни с идеята, че техните данни не се използват. „Не е нужно да сте страховити“, каза той.

В края имаше много дискусии относно оценките, като Биб предположи, че скорошната инвестиция на Intel в Cloudera е "голяма работа", тъй като тя потвърждава какво прави компанията. Той каза, че други големи компании като Oracle, IBM, Microsoft и Amazon се движат около компании за аналитична прогнозна дейност. "Златният прилив едва започва."

Dhillon каза, че оценките отразяват това, което водопроводните компании носят на пазара на големи данни. Той каза, че е щастлив да види, че такива момчета с "лопата и лопата" получават добри оценки, но каза, че има малко страх, че оценките ще изпреварят пазара.

Биб каза, че смята, че големите данни могат да бъдат преекспонирани в медиите, но той е неекспониран в "c-пакета" (което означава главни изпълнителни директори, финансови директори и други висши мениджъри.) Той каза, че има "огромен икономически потенциал, който все още предстои да бъде открит.."

Големи данни: предизвикателна „трилиона долара възможност“