Съдържание:
- 1. Не забравяйте логистиката
- 2. Имайте предвид вашите данни
- 3. Алгоритмите не са магически куршуми
- 4. Използвайте разнообразен набор от инструменти
- 5. Експериментирайте с хибридно обучение
- 6. Евтино не означава лошо
- 7. Не го наричайте AI
Видео: Настя и сборник весёлых историй (Ноември 2024)
Първата част от нашето Ръководство за машинно обучение (ML) разказа как концепцията за чадър на ML е много по-нюансирана в бизнес среда. Най-ефективните стратегии разглеждат МЛ в практически смисъл, като използват както сложни дълбоки познания, така и по-малко интензивни техники за "евтино обучение", за да оптимизират процесите в предприятието и да получат осезаеми идеи за бизнес разузнаване (BI).
Целта на внедряването на ML в рамките на вашите бизнес приложения е да подобрите дъното си или да натиснете конкурентното предимство на вашата компания. Но в по-голямата схема на вашата организация, да използвате максимално време и ресурси, които инвестирате в този процес, далеч надхвърля алгоритмите. ИТ лицата, вземащи решения във вашия бизнес, трябва да се уверят, че всичко, което е свързано с въздействието на вашия ML - от данните и логистиката до начина, по който взаимодействате с потребителите - работи съвместно, за да постигнете максимална ефективност.
Тед Данинг, доктор на науките, е главният архитект на приложения в MapR, корпоративна софтуерна компания, предлагаща различни дистрибуционни данни за големи данни и инструменти за управление на данни. Дънинг също е съавтор на две книги за това, което той нарича „Практическо машинно обучение“ и разработи ML технологии за редица компании през годините, включително системата за откриване на измами ID Analytics (закупена от LifeLock) и софтуера Musicmatch Jukebox, която по-късно става Yahoo Music. В момента той работи и като вицепрезидент по инкубацията на софтуерната фондация Apache.
Дънинг наблюдава как пространството на ML се развива през десетилетия и научава много за това какво работи и какво не в практическа бизнес среда. По-долу Dunning представя седем най-добри практики, които трябва да следвате при разработването на бизнес решения, вкоренени в ML.
1. Не забравяйте логистиката
Успешният ML не е само в избора на подходящ инструмент или алгоритъм. Дънинг каза, че също трябва да разберете какъв подход е подходящ и да го проектирате за конкретната ситуация, в която се обръщате. Например, Данинг говори за ML в онлайн маркетингова кампания, за разлика от далеч по-сложните сценарии като алгоритми, ръководещи автономна кола. Разходването на ресурсите ви за подобряване на алгоритъма на алтернативите си струва труда за автомобила, но в маркетинговия сценарий ще видите далеч по-добра възвръщаемост от оптимизиране на цялата логистика около него.
"Често за бизнеса именно логистиката, а не обучението ви дава стойност. Това е частта, за която трябва да харчите времето и ресурсите си", каза Дънинг. „Адаптирането на алгоритъма би ви донесло малко подобрение. Но приспособяването на тези данни, графичния интерфейс и начина, по който слушате и взаимодействате с вашите потребители, може лесно да ви осигури 100-процентно подобрение. Прекарването на време за настройване на алгоритъма струва малка част, тъй като много за бизнеса, тъй като слуша вашите потребители."
За да илюстрира тази точка, Дънинг обясни как веднъж е изградил модел за идентифициране на измама с приложения (отваряне на фалшиви акаунти с откраднати идентичности) в клиентската база данни на компанията. Моделът, който той изгради, получи страхотни резултати, но Дънинг забеляза, че той претегля пола на кандидата много силно.
Оказа се, че логистиката е изключена. Начинът на работа на процеса на кандидатстване, заявителят попълни пола си едва след като вече е станал клиент и е преминал редица скринингови стъпки за филтриране на измамниците. Така че, използвайки полето за пол, моделът на ML изневерява на логистиката на целия процес на измама. Това няма нищо общо с алгоритъма и всичко свързано с това как компанията получава своите данни на първо място.
2. Имайте предвид вашите данни
Дънингът е пълен с закачливи късметчета на мъдростта. След като започна с „това е логистиката, а не обучението“, той каза, че другата половина на тази идея е „това са данните, а не алгоритмите“. Голяма част от гарантирането, че вашите ML алгоритми предоставят ценна информация, е да се уверите, че ги храните правилните данни. Дънинг каза, че ако не получавате резултата, за който търсите, по-често, отколкото не, защото не използвате правилните данни.
"Хората се навиват и се свързват его с конкретни алгоритми, но в наши дни, поради инструментите там, всеки и майка им могат и предлагат всевъзможни нови алгоритми", казва Дънинг. „Данните са далеч по-важни и ще ви помогнат много повече, отколкото безкрайно настройване на вашите алгоритми. Ако работите по труден проблем като разпознаване на реч или компютърно зрение, това е едно. Но това е поле, управлявано от данни. В по-голямата част от сценариите ще се възползвате много повече от това да коригирате какви данни получавате и да промените въпроса."
Това направи Dunning в средата на 2000-те, когато изгради двигател за видео препоръки във фирма, наречена Veoh Networks. Екипът работеше за идентифициране на двойки видеоклипове, генерирани от потребители, които хората са кликнали върху повече от очакваното, но алгоритъмът не работи. Мислеха по отношение на музиката, където потребителите познават любимите си изпълнители и песни по име. Така те промениха въпроса, като ощипаха потребителския интерфейс, без да докосват самия алгоритъм.
"В генерираните от потребители видеоклипове никой не знае, че изпълнителите и много видеоклипове наистина са имали спам заглавия, за да получат повече гледни точки. Колоезденето по настройка на алгоритъм никога не би ни дало добри резултати", казва Дънинг. „Това, което направихме, променихме потребителския интерфейс, за да излъчваме сигнал за маяк на всеки 10 секунди. Установихме, че ако използваме маяк вместо кликвания за необработените данни на препоръчителя, имаме страхотни резултати. Лифтът за тази промяна беше няколко сто процента подобрение на ангажираността поради препоръки, без алгоритмични промени."
3. Алгоритмите не са магически куршуми
Реализациите на ML процъфтяват при непрекъснат опит и грешки. Без значение колко добри са вашите алгоритми, ако системата ви взаимодейства с хората, тогава тя ще трябва да бъде коригирана във времето. Дънинг подчерта, че предприятията трябва непрекъснато да измерват общата ефективност на тяхното прилагане и да идентифицират промените и променливите, които го правят по-добър и го влошават. Това може да звучи като платост, но Дънинг каза, въпреки колко очевидно звучи, много малко хора правят това или го правят добре.
"Много хора искат да разгърнат система или да предприемат някакви действия и искат техният алгоритъм да работи перфектно завинаги", каза Дънинг. "Никой алгоритъм няма да бъде вълшебен куршум. Никой дизайн на потребителски интерфейс няма да се задържа завинаги. Никой метод за събиране на данни никога няма да бъде заменен. Всичко това може и ще се случи. Бизнесът трябва да внимателно измерва, оценява и преоценява как системата работи."
4. Използвайте разнообразен набор от инструменти
На разположение са десетки ML инструменти, много от които можете да използвате безплатно. Имате популярни библиотеки с рамки с отворен код като Caffe, H20, Shogun, TensorFlow и Torch и ML библиотеки в редица проекти на Apache Software Foundation (ASF), включително Mahout, Singa и Spark. След това има опции, базирани на абонамент, включително Amazon Machine Learning, BigML и Microsoft Azure Machine Learning Studio. Microsoft има и безплатен когнитивен инструментариум.
Налични са безброй ресурси. Дънинг е говорил с много фирми, специалисти по данни и практикуващи МЛ и винаги ги пита колко различни рамки и инструменти използват. Средно според Дънинг казва, че използват минимум 5-7 инструмента и често далеч повече.
"Не можете да станете залепени за един инструмент. Ще трябва да използвате няколко и като такъв, по-добре да изградите системата си по начин, който е агностичен", каза Дънинг. „Всеки, който се опита да ви убеди, че този инструмент е единственият, от когото някога ще се нуждаете, ви продава стока.
„Може да се случи нещо следващата седмица, което да разстрои количката с ябълки и при скоростта на иновациите, която виждаме, това ще продължи да се случва поне още пет до 10 години“, продължи Дънинг. „Погледнете евтин пример за обучение, където може би отново използвате съществуващ класификатор на изображения, за да анализирате снимки в каталог. Това е задълбочено обучение с включено компютърно зрение. Но има инструменти, които са опаковали всичко това. Трябва ви за да измервате, оценявате и колебаете между различните инструменти и вашата инфраструктура трябва да бъде приветлива за това."
5. Експериментирайте с хибридно обучение
Дънинг каза, че можете също да смесите евтино и задълбочено обучение заедно в нещо хибридно. Например, ако вземете съществуващ модел на компютърно зрение и реконструирате най-горните няколко слоя, в които се взема решение, тогава можете да изберете кооперация на съществуваща рамка за изцяло нов случай на използване. Дънинг посочи състезание по Kaggle, в което състезателите направиха точно това; те взеха набор от данни и написаха нов алгоритъм отгоре, за да помогнат на компютъра да различи котките от кучетата.
"Разграничаването на котки и кучета е много фино нещо за алгоритъма на ML. Помислете за логиката: котките имат остри уши, но така правят и немските овчарки. Кучетата нямат петна, с изключение на далматинците и т.н. Това може да бъде доста трудно да се разпознае само по себе си - каза Дънинг. „Човекът, който спечели, разработи система, която направи това с 99-процентова точност. Но бях по-впечатлен от човека, който дойде на трето място. Вместо да изгради от нулата, той взе съществуваща програма за разпознаване на изображения от друга задача, свали най-горния слой и сложи там прост класификатор. Той даде някои примери и скоро беше 98 процента точен при разграничаване на котки от кучета. Целият процес отне на човека три часа."
6. Евтино не означава лошо
Въпреки явната конотация, Дънинг каза, че евтиното обучение не означава лошо обучение. Времето, което отделяте за реализация на ML, не корелира пряко с неговата бизнес стойност. По-важното качество, каза той, е да се гарантира, че процесът е повтарящ се и надежден. Ако бизнесът е в състояние да постигне това, без да инвестира ненужно количество ресурси, тогава това е още по-добре.
"Евтиното не означава лошо. Ако работи, работи. Ако е евтино и работи, това е велико. Но усилията, които влагате в изграждането му, не определят стойността. Това е грешка в сумата на разходите", каза Дънинг, "Това, което определя стойността, е как подобрява бизнеса. Ако подобрява печалбата или намалява разходите или подобрява конкурентната ви ситуация. Това е ефектът, а не усилията."
7. Не го наричайте AI
Дънинг подчерта, че когато говорят за тези техники, предприятията трябва да използват точната терминология: ML, компютърно зрение или задълбочено обучение. Всичко това има тенденция да попада под чадър термин "изкуствен интелект", но за Дънинг определението за AI е просто "неща, които все още не работят."
„Най-доброто определение, което съм чувал за AI, е, че все още не можем да обясним нещата. Нещата, които не сме разбрали“, каза Дънинг. "Всеки път, когато получим нещо за работа, хората казват" О, това не е AI, това е само софтуер. Това е просто двигател за правила. Това е просто логическа регресия. " Преди да измислим нещо, ние го наричаме AI. След това винаги го наричаме нещо друго. В много отношения AI е по-добре използван като дума за следващата граница, а в AI винаги ще има следваща граница. AI е накъде отиваме, а не докъдето вече сме стигнали."