Видео: ПРИШЛА МАСЛЕНИЦА К ЖЕЛЕЙНОМУ МЕДВЕДЮ ВАЛЕРЕ (Ноември 2024)
В това издание на Fast Forward разговарях с Hicham Oudghiri, изпълнителен директор и съосновател на Enigma, компания, която е специализирана в събирането и осмислянето на големи масиви от данни. Enigma е оперативна компания за управление на данни и разузнавателна информация за частни клиенти, но тя е може би най-известна за Enigma Public - колекция от набори за търсене, достъпни за обществено достъпа, които включват всичко - от заплатите на служителите в офиса на Белия дом до проверките на ресторантите в Ню Йорк. Говорихме за силата на големите данни, границите на поверителността на потребителите и бъдещето на нашия свят, управляван от данни.
Защо не ми обясниш малко какво означава да бъдеш компания с отворени данни днес?
Абсолютно. Започнахме просто да събираме огромно количество публични данни навсякъде, където бихме могли да ги намерим, като мисията наистина беше да се опитаме да свържем много различни факти за света. Разбрахме, че в процеса на нарушаване на достъпа до тези основни данни, този модел се отразява за собствените данни на хората, за схемите за отчитане на публично-частните данни, както в регулаторната среда. Наистина, това, което донесохме, беше тази представа за отворени данни като оперативен модел навсякъде, където отидохме.
Нашето сладко място днес е да култивираме това огромно хранилище от активи на публични данни и да го приведем в действителни проблемни среди, често зад защитната стена за предприятията. Въпреки че събираме и разпространяваме огромно количество данни, открихме, че следващата крачка напред в действителност за интерпретирането на тези данни и свързването им с частни данни наистина помага да се мащабира въздействието на някои от проблемите, които искахме да разрешим.
Хората чуват за отворени набори от данни, публични масиви данни, частни набори от данни. За какви видове набори говорим тук?
Говорим за източници, официални данни, неща, които правителствените агенции биха публикували, неща, които международните агенции биха публикували, всичко, което е различно, от регистри за корпоративна регистрация и оценка на собствеността до визи H-1B или превоз на товарни контейнери. Определено не говоря за неща като данните на LinkedIn, които наскоро бяха голяма тема на дебати по въпроса дали това е или не публичен набор от данни. Наскоро имаше това дело с много спорове.
Всички данни за времето, които събираме, идват от официални източници или GPS като технология.
Така че вземате всички тези публични набори от данни и след това можете да ги обедините с частни набори от данни, които една компания ще ви даде конкретно и наистина виждате как да комбинирате двата?
Да, много често. Помислете за случай на канонична употреба, в който се опитвате да направите нещо като да разберете дали една компания е дори истинска. Ако е малка фирма, вземете, да речем, ресторант или малък бизнес. Много често видът профил, който биха имали върху тях, е изключително тънък. Но ако трябва да погледнете неща като техните лицензи за алкохол или дори инспекции по труда или проверки на здравните досиета, получавате много по-подробна представа кои са те.
Често това помага на тези компании да удостоверят, че те дори са истински за получаване на достъп до кредит, за застраховане, подобни неща. Преминавайки от „Ето вашето приложение за 18 страници“ и много досаден процес чрез седем различни набора за съответствие, към нещо, което може да се случи онлайн по автоматизиран начин и по-малко достоен за риска начин.
Така че вместо просто да ги напишете в Google, за да видите дали имат уебсайт и дали са истински, можете ли всички тези други набори от данни да валидират дори за основни неща?
Абсолютно.
Преди да продължим на живо, говорихме за Ozark , така че вашето любимо шоу, моето ново любимо шоу и идеята да използвам тези набори от данни за съответствие и за финансово отчитане и дори за издирване на пране на пари.
Да. На първо място, едно от най-добрите шоута там. Огромен щепсел към Netflix, се превърна в първокласно холивудско студио.
Платили са го. Те са си купили пътя към този пазар.
Със сигурност имат. Но шоуто е за този герой на Джейсън Бейтман, който се оказва като пране на пари на този наркокартел. Уловката е, че той спасява живота си, като казва, че ще отиде при Озарците и ще намери нови канали, чрез които да мие пари. Той започва да купува тези спални предприятия и след това преминава през различни разходи.
Проблемът с прането на пари е огромен теоретичен проблем, тъй като, честно казано, разглеждате модели на дейност сред различни търговци или потребители на финансови услуги, както и връзките между тях. Така че ще имате като регистриран агент, очевидно някой като Джейсън Бейтман, който обикаля и прави това за няколко фирми. Той купува частно при тях и започва да получава името си на най-различни форми и ще забележите този модел на дейност. Това е нещо, срещу което банките трябва да се борят, очевидно, защото това е в ущърб на системата и те са на куката за това.
Престъпността премина също толкова дигитално и децентрализирано, колкото музиката. Това е много по-голям проблем. Няма едно голямо семейство на мафиоти, за което правителството може да дебне от месеци и да им накара Капоне. Това е пълна гонитба на много фронтове. Ние сме помогнали и работим за осигуряване на обществени данни, за да се справим с този проблем, но също така довеждаме и нашата технология, която използвахме, за да обединим всички тези публични данни, за да се справим с този проблем, само защото банките имат много технологичен подем към да обединят своите собствени набори от данни в мощни, контекстуални улики за тези следователи, които имат към персонала.
Имам чувството, че сме в момента, в който имаме всички тези публични данни, създадени от правителствените агенции. Имаме всички тези набори от лични данни. Всяка компания има множество набори от данни и много различни формати, често в рамките на една и съща компания. И все пак, няма много стандартизация и принуждаването им да работят заедно всъщност е голямо предизвикателство.
Това е огромно предизвикателство и вероятно една от най-големите тези, които имаме в Enigma, е голяма разлика. Един от моите инвеститори го нарече по този начин - има свят, в който данните се инструментират в битове и има свят, където той е инструментален в атоми. Технологичните компании, Google, Facebook, Amazon, всички те свършиха невероятна работа, като взеха данните, които получават от вашата дейност, сърфирайки в мрежата и създавайки тези нови услуги като търсене и по-добро изживяване в електронната търговия. Но тези данни всички съществуват. Цифрово е местно. Просто те слушам в мрежата. Мрежата е протокол и тези протоколи са създадени да говорят един друг.
Но когато разполагате с тези данни, които са инструментални в атоми или в реалния свят, като някой да влезе в банка в Озарките и да поиска малък заем, това изглежда по-различно, отколкото някой друг да влезе в друг банков клон или в товарен контейнер идва кораб, който иска името на компанията, която извършва доставката. Всички тези данни са създадени - или не са проектирани - да говорят помежду си, така че има огромен проблем при свързването на тези данни заедно. Мисля, че на тези по-малко, чисто технологични индустрии ще отнеме повече време, за да извлекат ползите от това, което сте виждали в технологиите, с големи данни. Но когато го направят, мисля, че това ще промени много начина, по който живеем ежедневно по доста въздействащ начин.
Също така разбирам, че когато има финансов мотив да се съчетаят тези набори от данни и да се създадат тези прозрения, предприятията намират начин да го платят и намират начин да го направят. Компаниите с кредитни карти са едни от първите компании, които успяха да идентифицират модели и да установят измами. Чувствам, че публичният сектор изостава доста по отношение на създаването на прозрения от тези количества данни. Това справедлива оценка ли е?
Частният сектор винаги е имал предимство в технологиите за опериране. Финансовият стимул е огромен, а също и стила на работа на по-малка единица. Американското правителство е фактически една от най-големите организации в света и постигането на нещо наистина е проблем на хората. Уверете се, че стимулите са изравнени, като се уверите, че хората поемат правилния риск.
Но видяхме правителството да прави някои много иновативни неща. Сътрудничихме си с Град Ню Орлиънс, мисля, че беше като преди две години, за да им помогнем основно да предскажат къде са хазяите на бедрата, най-вече да инсталират детектори за дим в тези домове. Пост-Катрина, имахте това огромно количество лайф. Доста хазяин се разминаваше с това да остави хора с лоши условия. Честно казано, детекторите за дим вършат просто страхотна работа за предотвратяване на смърт от пожар. Вместо да изпращате пожарникар в случаен дом, какво ще стане, ако използвате фактори като демография и на колко години е била сградата и последния път, когато е имало определен вид инсталация на някаква инфраструктура като телекомуникационна инфраструктура?
Използвате всички тези факти и получавате ударна скорост на вратите, които чукате, това е значително по-високо. Видяхме много от този вид парична топка за неща от местната власт да играят доста силно. Очевидно е, че в разузнавателната общност е имало огромно количество данни, както можете да си представите. Откриваме, че има джобове на иновациите. Въпреки това отново става въпрос за това как го оперирате.
Имате всички тези точки от данни, но след това трябва да ги попитате по подходящ начин, потърсете моделите. Почти трябва да търсите корелациите и това е цяла поредица от въпроси и отговори. Той установява връзка с данните, които, мисля, че тепърва започваме да разбираме как става това.
Да. Започваме да разберем как работи от гледна точка на уменията. И това е като смяна на ума по отношение на статистическото мислене, а не статистическото мислене. Има тази поговорка: „Всички модели са грешни, но някои са полезни“ - така че наистина става въпрос дали можете без данните, без алгоритмите да контекстуализирате малко параметрите на вашето статистическо мислене. Може да не получа това право, както в случая с пожара, може да не получим това право, но можем да увеличим шансовете си да го оправим или може да намалим рисковата ни площ или това, което трябва да търсим. Придаването на това отношение към проблема, това е набор от умения номер едно, когато става дума за способност да се мисли статистически. Някои хора са заключени в „Е, единственият начин, по който можем да сме сигурни, е ако имаме X, Y и Z.“
Ще ви дам случай в частен пример. Много често в банките, поради исторически измами и съответствие, начинът, по който те ще проверят дали някой е истински, преди да издаде кредитна карта, се уверява, че телефонният им номер и адресът им съвпадат с каквото имат на заявлението. Не всички компании сега използват реални телефонни телефонни станции. Не всички компании използват основния си адрес като този, който действително работят. Има някакви остарели реалности от хора, които работят в WeWork сега и хора, използващи глас през IP. Удобно е да идентифицираме хората чрез тяхното социално присъствие или чрез някои от наборите от данни, които въвеждаме в Enigma, които предоставят тези допълнителни доказателствени точки. Ако погледнете и стартирате исторически статистическите данни, за да видите дали вероятността тя да е реална е голяма, срещу гаранцията, че ще получите от тези алтернативни средства предварително.
Мисля, че и това е интересно, че предположението, че всички модели ще бъдат грешни, или до голяма степен грешни или грешни по-малко, но това е добре, защото все пак може да ви помогне да вземете добри решения. Това умение ли е, че вършим добра работа, като обучаваме децата си и къде биха могли да получат това обучение? Искам да кажа, че не би било задължително в математиката. Не би било в социалните изследвания. Откъде те получават тази чувствителност?
Статистиката често е подкласирана, като математическото образование като цяло, но го виждате и на други места. Виждате как изскача дори във вашата ESPN емисия тези дни. Хората са много по-удобни, когато прогнозите са част от живота им. Честно казано, обичам тези черни лебедови моменти, в които всичко това лети в лицето ни. Вземете последните избори. Вие спечелихте Хилари и имахте най-добрите световни учени по данни в някои от най-добрите институции, които я наричат грешна.
Да спечелите, но да спечелите не беше 70% вероятност да спечелите, защото това все още означава, че Доналд Тръмп печели от всеки три пъти. И познай какво? Това беше един от тези три пъти.
Абсолютно. И тогава е образованието, което виждаме, че тези модели правят хората по-удобни. В класните стаи смятам, че един от най-големите проблеми, които имаме, е само приложеното обучение. Сякаш нямам идея защо не преподават лични финанси в класната стая. Искам да кажа, че бях идиот с парите си на 18 години и ефекта върху дълга и всичко това. Все още се удивлявам, че те не правят това, така че имам чувството, че се движим в свят, в който образованието ще получава все повече за приложните неща и по-малко за теоретичните неща. Но тогава се притеснявам, ако загубим някои части от културното обучение. Всичко е компромис.
Ще отида още по-надолу по този път и ще говоря за изкуствения интелект.
Изкуствен интелект, изключително трансформационна технология. Струва ми се, че има роля на изкуствения интелект, който ни помага да осмислим този свят на прекомерност на данни и да намерим тези модели за нас. Оптимист ли сте за това, че AI ни помага да осмислим това или това ще бъде нещо напълно отделно от останалата част от нашия човешки опит?
Не. Искам да кажа, че съм оптимист в смисъл, че съм оптимист по отношение на човечеството като цяло. Чувствам се, че това е нещо, което се случва на хора, което се случва на хората в определен период от време. Едно от нещата, които ми харесват най-много при обещанието за изкуствен интелект, е, че всъщност това ще помогне на технологията да изчезне, защото в момента акцентът е върху технологиите и данните, които са толкова налични. Но в действителност работата с данните е много интензивна. Има причина да го наричат извличане на данни, когато търсите неща в набор от данни. Много е гадно. Наборите от данни не са чисти. Това е някакъв грубият смисъл.
Това, което ми харесва при AI е, че той създава тези контури за обратна връзка от наблюдавания опит. Въпреки че събирате всички тези данни от всички тези места, всъщност не знаете как ще се съберат, така че да започнете да изучавате резултатите. Машинното обучение ни помага наистина да сме малко по-ориентирани към резултатите в това как да стигнем до статистическото мислене. Мисля, че това ще ни помогне да премахнем част от гнусността на тази работа и да бъдем малко по-ориентирани към резултатите в това как да подходим към нея. Сега определено ще е страшно по отношение на въздействието върху автоматизацията в някои области, където, честно казано, мисля, че AI трябва да бъде оставен на мира, като да замени жури. Ще получим ли някога това емоционално качество на интелигентността? Не знам.
И ще трябва да изберете и да кажете, че искате това емоционално качество в съдебните заседатели, а не чистата вероятност този човек да е виновен или да не е виновен?
Да. За мен, основното човечество, мисля, че е супер важно. Честно казано, просто като съм в бизнеса и виждам колко е човешкото докосване е важно дори да убедим хората да започнат да мислят статистически, аз съм оптимист, че няма да загубим това с появата на AI в мащаб.
Докоснахме се малко до това дали LinkedIn е публичен набор от данни. Много хора, те сякаш чувстват, че живеят в този свят, където всичко за тях е достъпно онлайн, от моделите на покупки до възрастта им до медицинската им история. Това прави хората неудобно. Това кара хората да се притесняват, че правителството има твърде много информация. Аз лично съм по-притеснен, че частните компании имат твърде много информация и са далеч по-малко регулирани.
Да.
Имаме ли нужда от закони за защита на личната ни информация? Трябва ли личната информация да се третира отделно от вашите държавни записи?
Абсолютно. Имаме много малка защита по отношение на законите, които уреждат начина, по който предоставяме данните си. Помислете за това в определени професии. В медицинската професия е в заключване. Но по някаква причина не е задължително да се блокира в други индустрии. Причината беше, че тогава не можехте много да направите с личните си данни. Днес те имат наистина добро усещане как да ви накарат да преобразите или вероятността да сте някъде. За всички намерения и цели, това всъщност е най-полезно за нас, според мен.
Но в същото време, нашите данни все още заслужават това количество святост в начина на работа. Европа излиза с много силни закони. Излиза закон, наречен GDPR. Той ще бъде въведен през 2018 г. и той носи всичко от това да се увери, че компаниите следят родословието на личните си данни, кой го има, как е даден достъп до него в рамките на компанията, право да бъдат забравени мерки. Когато кажете „Изтриване на моите данни“, действително ли ги изтривате или ги съхранявате за някаква друга информация? Така че винаги има обмен между потребителите и услугите, за които работят. Много от тези услуги са безплатни и ние ги обичаме, нали?
Бих раздала част от себе си за достъп до YouTube, нали? Просто съм много щастлив от това.
И вероятно имате.
И вероятно имам. Но това не означава, че онази част, която подарявам, не трябва да се поставя в безопасна кутия и че знам, че тази кутия е под бункер и всички онези хубави неща.
Също така идеята за изтичане на данни, която в цифровия свят днес е сравнително нова концепция. Имаше известна неизвестност. Ако нещо се е случило преди 30 години, би било трудно да се намерят записи и да се получи профил от тогава. Но там днес децата, които са били онлайн през целия си живот, и това, което са правили и публикували, когато са били на 13, ще бъде там, когато са на 63 години.
Да.
Нямаме правна инфраструктура, която да се справи с това по някакъв смислен начин.
Не, не го правим и това е космат район. Това е космат район в трудовото законодателство. Това е космат район за запознанства, нали?
Ако погледнете нечий Фейсбук профил - мисля, че културата ще се адаптира към това, към нечие онлайн присъствие да бъде публично достояние. Но е почти театрален. Сякаш вашето публично присъствие не е истинското вие. Какъв беше този филм за Джим Кери? Всички си слагаме маска, метафорично казано. Така че мисля, че вашето онлайн присъствие ще прилича повече на тази галерия или на това произведение на изкуството, което ви описва и тогава вие сте истинските вие. Но все още правите изстрел на тяло или нещо подобно… Това, не искате да бъдете публично достояние. Има истински въпрос дали хората, които са достатъчно млади, имат способността да решават дали е интелигентно да пускат това онлайн или не. Страшно е, със сигурност.
Говорейки за пускане на глупави неща онлайн, нека поговорим за администрацията на Тръмп. Чувал съм на множество фронтове… Явно работиш с много публични набори от данни. Трябва да отидете и да поискате разрешение, за да получите тази информация много пъти или да разберете как да я погълнете. По-лесно ли е сега? Как се промени достъпът до публични набори от данни, откакто администрацията на Тръмп встъпи в длъжност?
Да. Първото ми предупреждение, когато говоря за тези неща, е голяма разлика между администрацията на Тръмп и правителството на САЩ. Правителството на САЩ далеч не е една от по-прозрачните институции, които съм срещал в света. Ние сме диво прозрачни по отношение на нашите връстници по отношение на количеството данни, които излагаме, за колко финансираме този вид неща, така че предопределение номер едно.
Що се отнася до Тръмп, искам да кажа, че ми беше много ясно, че всички трябва да бъдат много тревожни от позицията на тази администрация с прозрачност и споделяне на информация. На първо място, има много ясни неща като свалянето на списъка на посетителите в Белия дом, което беше практика, която Обама въведе и мисля, че една от най-централните счетоводни системи на правителството. Има данни от EPA, има данни за климата и като цяло дори се водят дебати за това, дали някои данни от преброяването са засегнати от това. Трябва да запомните, това не са малки начинания. Мисля, че преброяването в САЩ е над 4 милиарда долара инвестиция всеки път, когато се случи, с нещо над 300 000 доброволци.
Някои от тези неща ще видим тяхното въздействие след четири години, само като се имат предвид циклите на финансиране как се случва. Въпреки че тази администрация със сигурност не е приятелска, мисля, че гръбнакът на прозрачността в тази страна е достатъчно силен. Странно е, че идва и от ляво, и от дясно. Достатъчно силен, за да се увери, че това движение към отвореност на информацията е тук, за да остане.
И в тези набори от данни има много езда.
Да. Така решаваме къде да поставим болниците. Така решаваме как да маршрутираме линейките. Така решаваме точно толкова много от базовите услуги, като управлението на отпадъците разчита на подобни неща.
Кажете на хората, които гледат публичния набор данни Enigma, който съм посещавал многократно… супер, супер готино. Какво трябва да очакват хората, когато отидат там? Какво могат да излязат от него?
Един от нашите ангажименти е непрекъснато да бъдем честни по отношение на тази мисия да събираме всички данни, но да ги връщаме колкото можем повече на хората. Напълно безплатно се използва за нетърговски цели, журналистически цели. Искаме да сме сигурни, че всички имат достъп до тези данни. Не е нужно дори да влизате или да ни предоставяте каквато и да е информация, за да продължите напред и да получите достъп до нея. Когато основахме компанията, имаше голяма предпоставка за достъп.
Тъй като научихме много повече през годините, достъпът и дизайна на интерфейса, търсенето и надеждността бяха много важни. Другата е била курацията и това е огромният фокус на Enigma Public, който рестартирахме това лято, беше тази представа, че хората трябва да знаят как се използват тези данни. Хората трябва да знаят не само най-добрите практики за това как да работят с данни, но кои набори от данни са подходящи за какво. Какво ново, какво вълнуващо? Мисля, че подобно образование е нещо, от което сме много развълнувани да бъдем част и нещо, от което се надяваме хората да получат второто, което кацнат на сайта.
Определено си струва да проверите. Мисля, че отново предприятията виждат тези данни и те знаят, че могат да изграждат бизнес на всичко отгоре. Мисля, че за журналистите и за гражданите има много повече образование, което се изисква.
Абсолютно, много повече образование и, да се надяваме, цял слой услуги отгоре му доставят неща на хора като мен и вас, когато не се подвизаваме, така да се каже.
Нека ви задам въпросите, които задавам на всеки, който идва в шоуто. Коя технологична тенденция ви засяга най-много? Има ли нещо, което да те поддържа през нощта?
Тенденцията, която ме вълнува най-много или нещото, което според мен на хоризонта е, че трябва да внимаваме най-много, това е понятието за биологично програмиране, така че степента, в която ставаме много по-добри в програмното създаване на направления от биологичен живот организми. Това има огромно въздействие за добро, но също така има огромно въздействие за способността за създаване на дребномащабно, основно злоупотреба чрез това нещо. Където и да се срещат технологиите и биологията, винаги съм малко загрижен за това как се работи. Това е като следващата вълна за мен, след ядрената, наистина е способността ни да правим неща като програмно последователни неща в малка мащабна лаборатория и да ги разпространяваме.
Предизвикателството е, че дори ако приемаме закони тук в Съединените щати, това не означава, че някой не може да направи същото изследване в Китай или в Русия.
Абсолютно - и дори от гледна точка на безопасността, нали? Така че ние наистина започваме да разполагаме със средствата за всеки да си направи сам програма за биологична война. Така че за мен това е нещото, което ме вълнува най-много. Но флипсайдът включва неща като персонализирана медицина, фактът, че наистина можете да разберете тялото ми, почти можете да създадете тази биологична версия на софтуерна програма, предназначена да лекува всяка болест, която имам. Колкото и да съм загрижен, аз също се вълнувам от това.
Мисля, че недостатъкът ще е, че имаме нужда от някаква етична структура, за да внесем тези нови технологии. Направихме го с ядрени оръжия и ядрена енергия, но едва го направихме там и мисля, че ще трябва да разработим нещо подобен. В личен план има ли технология, която използвате всеки ден, която просто преобрази живота ви, от която сте изумени?
Това е някак странно, но просто FaceTime. Или видео чат. Имам някои членове на семейството в чужбина и пътувам много за работа. Разликата между телефонен разговор и видео чат просто небрежно по телефона, наистина ме накара да почувствам цялото обещание, че интернет е свързал всички. Да бъде в състояние, за въпрос от 15 секунди. Аз съм от Мароко, така че виждам някой по целия свят и казвам: "Хей, какво правиш?" като видях как изглежда времето в тяхната среда и как са облечени и поведението им, това наистина промени начина, по който се чувствам свързан с хората около мен, и ме накара да се почувствам като всички ние живеем в това голямо село малко повече, и аз като това чувство.
Има и нещо интересно, че гледах как бумът на видеоконферентната връзка се увеличава. Щеше да е следващото нещо. Никой вече няма да се обажда по телефона. Видеоконференциите никога не са отнели, но видео чат, по-личен, коренно различен и не в работна среда, нещо почти по-небрежно от телефонно обаждане. Като това може да бъде моментално нещо.
Имам 3-годишна дъщеря и тя напълно я закача. Тя провежда видео чатове, преди да се обади. Тя не знае какво е телефонно обаждане. Слагате телефон за високоговорители и я молите да разговаря с някого и тя изобщо не се интересува. Слагате я пред дядо си в FaceTime и тя може да бъде там 20 минути.
Това ще й бъде толкова странно, колкото онези въртящи се телефони, които децата днес не знаят как да използват. Hicham, как хората могат да те следват онлайн, да разберат какво правиш и да бъдеш в крак с Enigma?
Отидете на enigma.com. Вижте Enigma Public със сигурност, това е public.enigma.com. Вижте нашия уебсайт. Имаме доста активен акаунт в Twitter, все още няма Instagram за нас.
Никога не казвай никога.
Никога не казвай никога. Но-
Бихте могли да направите страхотни неща с инфографика.
Да, това е вярно. Ние наистина сме огромни почитатели на данните. Имаме тази готина част от нашия сайт, labs.enigma.com, където са всички наши експерименти и някои от нашите про bono проекти като този, който споменах с Ню Орлиънс, така че бих проверил и това.
Много яко. Много благодаря, че дойде.
Страхотен. Благодаря ти много, че ме имаш.