У дома Бизнес Ай бази данни: какви са те и защо вашият бизнес трябва да се интересува

Ай бази данни: какви са те и защо вашият бизнес трябва да се интересува

2024

Съдържание:

Какво представляват AI бази данни?
Как работи AI база данни
Hype или реалност?

Видео: Маша и Медведь (Masha and The Bear) - Подкидыш (23 Серия) (Ноември 2024)

Данните и бизнес разузнаването (BI) са две страни на една и съща монета. Напредъкът в съхранението, обработката и анализа са демократизирали данните до степен, в която не е необходимо да сте професионалист на база данни или учен с данни, за да работите с масивни набори от данни и да получавате прозрения. Все още има крива на обучение, но BI и самообслужването и инструментите за визуализиране на данни предефинират начина, по който предприятията използват всички данни, които събират, в приложими анализи. Въпреки това, има разлика между BI или компания за бази данни, която хокира разширена аналитика, и база данни за изкуствен интелект (AI), която е изградена по предназначение за обучение за машинно обучение (ML) и модели за задълбочено обучение.

ML алгоритмите са вплетени в тъканта на голяма част от съвременния софтуер. Потребителските преживявания се смесват с AI чрез виртуални асистенти, а в бизнес софтуера има примери като Salesforce Einstein, които действат като интелигентен слой под цялото портфолио за управление на взаимоотношенията с клиенти (CRM) на компанията. Технологичните гиганти, включително Google и Microsoft, тласкат нашето интелигентно бъдеще още повече, не само с проучвания, но и чрез пренаписване на начина, по който техните технологии работят от самото начало с AI.

Едно от предизвикателствата при моделите за обучение на машини и задълбочено обучение е чистият обем на данни и мощността на обработка, необходими за обучението на невронна мрежа, например за разпознаване на сложни модели в области като класификация на изображения или обработка на естествен език (NLP). Следователно, базите данни на AI започват да се появяват на пазара като начин за оптимизиране на процеса на обучение и обучение на AI за бизнеса. Разговаряхме с ускорен от GPU доставчик на релационни бази данни Kinetica, който изгради своя собствена база данни AI, и резидентният експерт по BI и база данни на PCMag Пам Бейкър, за да демистифицира какво е AI база данни и как тя работи в сравнение с традиционните бази данни. По-важното е, че помолихме за тяхната помощ за подреждане чрез разговор и маркетингови говори, за да определим дали тази нововъзникваща технология има реална бизнес стойност.

Какво представляват AI бази данни?

Бързо променящата се природа на AI пространството може да затрудни създаването на терминология. Често чувате термини като ML, задълбочено обучение и AI, които се използват взаимозаменяемо, когато всъщност те все още разработват техники под по-големия чадър на AI. Като такъв, Бейкър каза, че има две изключително различни дефиниции за това, какво представлява база данни с AI, в зависимост от това с кого говорите: една практична, а другата по-пиеса в небето.

"В индустрията има някакъв хлабав консенсус, че AI базата данни ще бъде тази, която би работила изцяло от естествени езикови заявки. Потребителският интерфейс би бил такъв, че не би трябвало да разчитате на думи за търсене и ключови фрази, за да намерите информация, от която се нуждаете, което позволява на потребителя да извиква набори от данни с NLP “, каза Бейкър. "Бихте могли да направите много ограничен аргумент, че IBM Watson може да поставя естествени езикови заявки към системата, но трябва да сте свързани с данните и сами да изберете данните. Така че, точно сега, това определение е разтягане."

По-практичната дефиниция и предметът на този обяснител е по същество използването на целенасочена база данни за ускоряване на обучението по ML модели. Редица технологични компании вече разработват специализирани AI чипове, за да облекчат голямото натоварване на процесора в нови хардуерни продукти, тъй като доставчиците внедряват повече AI-базирани функции, които изискват значителна изчислителна мощност. От страна на данните, използването на AI база данни може да ви помогне по-добре да се справите с обема, скоростта и сложните предизвикателства за управление и управление на данните, свързани с обучението на ML и модели на задълбочено обучение, за да спестите време и да оптимизирате ресурсите.

Кредитна снимка: Тод Джакит от Futurism.com. Кликнете, за да разгънете пълната инфографика

"В момента има много усилия за ускоряване на обучението на ML чрез няколко различни тактики", обясни Бейкър. „Единият е да се отдели инфраструктурата от изследователите на AI, които правят кодирането, така че автоматизираните функции да обработват инфраструктурата и да обучават модела на ML. Така че, вместо да отделите нещо като три месеца, може да гледате 30 дни или 30 минути."

Kinetica разбива тази идея в интегрирана платформа за бази данни, оптимизирана за ML и задълбочено обучение. AI базата данни съчетава съхранение на данни, усъвършенстван анализ и визуализации в база данни в паметта. Мате Раджал, вицепрезидент и главен софтуерен инженер от групата за напреднали технологии на Kinetica, обясни, че AI база данни трябва да може едновременно да поема, изследва, анализира и визуализира бързо движещи се сложни данни в рамките на милисекунди. Целта е да се намалят разходите, да се генерират нови приходи и да се интегрират ML модели, така че предприятията да могат да вземат по-ефективни решения, ориентирани към данни.

„AI база данни е подмножество от обща база данни“, каза Радал. "В момента AI базите данни са много популярни. Но много решения използват разпределени компоненти. Spark, MapReduce и HDFS винаги се въртят напред-назад, а не в паметта. Те нямат сливане на фактори като нашата база данни, които е създаден от основата с плътно интегрирани процесори и графични процесори на една платформа. Ползата от високо ниво за нас е по-бързото осигуряване и по-нисък хардуерен отпечатък от обучението на базата на модели, с бърз обрат и анализи, интегрирани в една и съща платформа."

Как работи AI база данни

На практика има редица примери за бази данни на AI. Microsoft Batch AI предлага облачна базирана инфраструктура за обучение за дълбоко обучение и ML модели, работещи на графични процесори на Microsoft Azure. Компанията също има своя продукт Azure Data Lake, за да улесни бизнеса и учените по данни да обработват и анализират данни в разпределена архитектура.

Друг пример е AutoML подходът на Google, който основно преработва начина, по който се обучават ML модели. Google AutoML автоматизира дизайна на ML модела, за да генерира нови архитектури на невронни мрежи въз основа на конкретни набори от данни, след което тества и итератира тези хиляди пъти, за да кодира по-добри системи. Всъщност ИИ на Google вече могат да създават по-добри модели от човешките изследователи.

„Вижте Google AutoML: ML пишете ML код, за да не се нуждаете дори от хора“, каза Бейкър. "Това ви дава представа каква изключителна разлика има в това, което правят доставчиците. Някои се опитват да предадат напреднали анализи като ML - и не е. А други правят ML на толкова напреднало ниво, което е извън това, което повечето предприятията могат да разберат в момента."

Тогава има Кинетика. Базираният в Сан Франциско стартъп, който събра 63 млн. Долара финансиране за рисков капитал (VC), осигурява високоефективна SQL база данни, оптимизирана за бързо приемане на данни и анализи. Kinetica е това, което Radalj описва като разпределена база данни и изчислителна платформа за масивна паралелна обработка (MPP), в която всеки възел разполага с локално разположени данни в паметта, процесора и GPU.

Това, което прави базата данни на AI различна от традиционната база данни, обясни Radalj, се свежда до три основни елемента:

Ускорено приемане на данни,
Съвместност на данните в паметта (паралелна обработка през възлите на базата данни) и
Обща платформа за учени за данни, софтуерни инженери и администратори на бази данни, които да повтарят и тестват модели по-бързо и да прилагат резултатите директно към аналитиката.

За всички експерти, които не са базирани данни и обучаващи модели на ИИ, които четат това, Радал разгради всеки от тези три основни елемента и обясни как базата данни на AI се свързва с осезаема бизнес стойност. Наличността на данни и приемането на данни са от ключово значение, тъй като способността да обработват поточни данни в реално време позволява на предприятията да предприемат бързи действия по отношение на AI, базирани на AI.

„Имаме клиент на дребно, който иска да проследява продажните цени по магазини на всеки пет минути“, каза Радал. „Искахме да използваме AI, за да прогнозираме въз основа на последните няколко часа исторически данни дали те трябва да попълнят инвентара и да оптимизират този процес. Но за да се извърши машинно запълваното попълване на инвентара, е необходимо да се поддържат 600-1200 заявки в секунда. Ние е SQL база данни и AI база данни, за да можем да поемаме данни с тази скорост. Срещата с тази бизнес мисия доведе до приложение, което доведе до повече ROI."

Бейкър се съгласи, че ML изисква огромно количество данни, така че поглъщането му бързо би било много важно за AI база данни. Вторият фактор, концепцията за „съвместност на данните в паметта“, изисква малко повече обяснение. Базата данни в паметта съхранява данни в основната памет, а не в отделно дисково съхранение. Това прави така, че да обработва заявките по-бързо, особено в аналитичните и BI бази данни. От съвместната локализация Радал обясни, че Kinetica не разделя CPU и GPU изчислителни възли спрямо възли за съхранение.

В резултат AI базата данни поддържа паралелна обработка - която имитира способността на човешкия мозък да обработва множество стимули - като същевременно остава разпределена в мащабируема инфраструктура на база данни. Това предотвратява по-големия хардуерен отпечатък, в резултат на това, което Radalj нарече "доставка на данни" или необходимостта да се изпращат данни напред и назад между различни компоненти на базата данни.

„Някои решения използват оркестратор като IBM Symphony, за да планират работата в различни компоненти, докато Kinetica подчертава функцията на доставката срещу локализирани ресурси, с разширена оптимизация, за да се сведе до минимум изпращане на данни“, каза Радал. „Тази съвместна локализация се поддава на превъзходна производителност и производителност, особено за силно едновременни тежки заявки при големи масиви от данни.“

По отношение на реалния хардуер на базата данни, Kinetica си партнира с Nvidia, която има разширяваща се гама от AI GPU и проучва възможностите с Intel. Радал каза също, че компанията следи за нововъзникващия хардуер на AI и базирана в облака инфраструктура, като Tensor Processing Units (TPU) на Google.

И накрая, има идеята за унифициран модел на обучение. AI база данни е ефективна само ако тези ползи от по-бързото поглъщане и обработка служат на по-големи, ориентирани към бизнеса цели за ML и усилия за задълбочено обучение. Раджал посочва AI базата данни на Kinetica като „моделна платформа за тръбопроводи“, която извършва хостинг на модели, базирани на данни.

Всичко това се поддава на по-бързо тестване и итерация, за да се разработят по-точни ML модели. По този въпрос, Бейкър каза, че сътрудничеството по унифициран начин може да помогне на всички инженери и изследователи, работещи за обучението на ML или модел на задълбочено обучение, да се итератират по-бързо чрез комбиниране на това, което работи, за разлика от непрекъснатото преоткриване на всички стъпки в процеса на обучение. Радал каза, че целта е да се създаде работен поток, при който по-бързото поглъщане, поточно предаване и запитване на партиди да генерират резултати от модели, които могат незабавно да бъдат приложени към BI.

„Учените за данни, софтуерните инженери и администраторите на бази данни имат единна платформа, където работата може да бъде ясно очертана върху самата наука за данни, писането на софтуерни програми и SQL моделите данни и заявките“, каза Радал. „Хората работят по-чисто заедно в тези различни домейни, когато това е обща платформа. Целта по-често, отколкото не, да се използва ML и задълбочено обучение е, че искате да използвате резултатите от това - коефициентите и променливите - във връзка с анализа и използвайте изхода за неща като точкуване или да предскажете нещо полезно."

Hype или реалност?

Стойността на долния ред на базата данни на AI, поне по начина, по който Kinetica го определя, е в оптимизирането на изчислителни и бази данни. Това от своя страна ви позволява да създавате по-добри модели за МЛ и задълбочено обучение, да ги обучавате по-бързо и по-ефективно и да поддържате преходна линия за това как този ИИ ще бъде приложен към вашия бизнес.

Радал даде пример за управление на автопарка или транспортна компания. В този случай база данни на AI може да обработва масивни потоци информация в реално време от автопарк. След това чрез моделиране на геопространствените данни и комбинирането им с анализа, базата данни може динамично да пренасочва камиони и да оптимизира маршрутите.

„По-лесно е бързо да се осигурят, прототипи и тестват. Думата„ моделиране “се съдържа в AI, но всичко е за преминаване през различни подходи - колкото повече данни, толкова по-добре - да ги пускате отново и отново, тествайки, сравнявайки и идвайки с най-добрите модели “, каза Радал. "Невронните мрежи са получили живот, защото има повече данни от всякога. И ние се учим да можем да изчисляваме чрез него."

В крайна сметка базата данни за база данни и платформата на тръбопровода на Kinetica са само един подход в пространство, което може да означава много различни неща в зависимост от това, кого питате. Бейкър каза, че предизвикателството за купувача на пазар, който все още се развива и експериментално, е да разберем какво точно прави доставчикът на AI база данни.

"Като бизнес концепция, задълбочено обучение, ML и всичко това е солидна концепция. Това, което разработваме, са технологични проблеми, които са разрешими, дори ако още не сме ги решили", каза Бейкър. „Това не означава, че това е зряло пространство, защото определено не е. Бих казал„ купувачите, пазете се “, защото нещо, което може да бъде направено от ML, може и да не е. Това може да е просто разширена анализа на градински сорт.“

Що се отнася до това дали AI базите данни са всички свръх в момента или дали те представляват важна тенденция за това къде отива бизнесът, Бейкър каза, че това е малко и от двете. Тя каза, че Big Data, като маркетингов термин, вече не е в полза. Бейкър каза, че сега има някакво пазарно обвързване между напреднали, базирани на данни анализи и истински ML и алгоритми за задълбочено обучение. Независимо дали говорите за база данни за моделиране на ML или за осъзнатите от поп културата самосъзнателни ИИ, всичко започва и завършва с данни.

"Данните ще се използват в бизнеса, докато времето свърши; това е просто важно за бизнеса", каза Бейкър. „Когато говорите от гледна точка на научната фантастика, AI е самоосъзнат разум. Тогава започвате да говорите за особености и роботи, които превземат света. Дали това ще се случи или не, не знам. Ще напусна това на Стивън Хокинг."