У дома Напредничаво мислене Защо машинното обучение е бъдещето

Защо машинното обучение е бъдещето

2024

Съдържание:

Състезание за машинно обучение

Видео: ÐÑÐµÐ¼Ñ Ð¸ Ð¡ÑÐµÐºÐ»Ð¾ Ð¢Ð°Ðº Ð²ÑÐ¿Ð°Ð»Ð° ÐÐ°ÑÑÐ° HD VKlipe Net (Ноември 2024)

На тази месец SC16 Supercomputing конференция се откроиха две тенденции. Първият е появата на най-новия Xeon Phi (Knights Landing) на Intel и най-новия Tesla на Nvidia (базиран на Pascal P100) в списъка на Top500 на най-бързите компютри в света; и двете системи кацнаха в топ 20. Втората е голям акцент върху това как производителите на чипове и системи вземат концепции от съвременните системи за машинно обучение и ги прилагат към суперкомпютрите.

При текущата редакция на списъка Top500, който се актуализира два пъти годишно, върхът на класацията все още е здраво в ръцете на компютъра Sunway TaihuLight от Китайския национален център за компютърни компютри в Уси и компютъра Tianhe-2 от китайския национален суперкомпютър Център в Гуанджоу, както беше от изложението ISC16 в юни. Никой друг компютър не е близък по обща производителност, с трето и четвърто класираните системи - все още суперкомпютърът Titan в Oak Ridge и системата Sequoia в Лорънс Ливърмор - и двата доставят около половината от производителността на Tianhe-2.

Първият от тях се базира на уникален китайски процесор, 1.45GHz SW26010, който използва 64-битово RISC ядро. Това има ненадминати 10 649 600 ядра, осигуряващи 125.4 петафлопа с теоретична пикова пропускателна способност и 93 петафлопа с максимално измерени показатели на бенчмарка на Linpack, използвайки 15, 4 мегавата мощност. Трябва да се отбележи, че докато тази машина оглавява класациите в производителността на Linpack с огромен запас, тя не се справя толкова добре в други тестове. Съществуват и други показатели, като сравнителният показател за висока производителност (HPCG), при който машините са склонни да виждат само 1 до 10 процента от своите теоретични пикови показатели и където най-горната система - в този случай машината Riken K - все още осигурява по-малко от 1 петафлоп.

Но тестовете на Linpack са стандарт за разговори за високоефективни изчисления (HPC) и какво се използва за създаване на списъка Top500. Използвайки тестовете на Linpack, машината №2, Tianhe-2, беше №1 в класацията за последните няколко години и използва Xeon E5 и по-стари Xeon Phi (Knights Corner) ускорители. Това предлага 54, 9 петафлопа с теоретични пикови показатели и референтни показатели при 33, 8 петафлопа в Линпак. Много наблюдатели смятат, че забрана за износ на по-новите версии на Xeon Phi (Knights Landing) накара китайците да създадат собствен процесор на суперкомпютър.

Knights Landing, официално Xeon Phi 7250, изигра голяма роля в новите системи в списъка, като започнете от суперкомпютъра Cori в Националната лаборатория на Лоурънс Беркли, който се класира на пето място, с пикова производителност от 27, 8 петафлопа и измерена производителност от 14 петафлопа, Това е система Cray XC40, използваща връзката Овен. Имайте предвид, че Knights Landing може да действа като основен процесор, като 68 ядра на процесор доставят 3 пикови терафлопа. (Intel изброява друга версия на чипа със 72 ядра при 3, 46 терафлопа с пикова теоретична производителност с двойна прецизност в ценовата си листа, но никоя от машините в списъка не използва тази версия, може би защото е по-скъпа и използва повече енергия.)

По-рано Xeon Phis можеше да работи само като ускорители в системи, които се контролираха от традиционните процесори Xeon. На шесто място се класира Oakforest-PACS системата на Съвместния център за високотехнологичен високотехнологичен компютър в Япония, като получи 24.9 пикови петафлопа. Това е изградено от Fujitsu, използвайки Knights Landing и взаимовръзката Omni-Path на Intel. Рицарското кацане се използва и в системата № 12 (компютърът Маркони в италианската CINECA, построен от Lenovo и използващ Omni-Path) и системата № 33 (Камфора 2 в японския университет в Киото, построен от Крей и използващ Овен свързване).

Nvidia също беше добре представена в новия списък. Системата № 8, Piz Daint в Швейцарския национален суперкомпютърен център, беше надстроена до Cray XC50 с Xeons и Nvidia Tesla P100, и сега предлага малко под 16 петафлопа с теоретични пикови показатели и 9.8 петафлопа от производителността на Linpack - голям ъпгрейд от 7.8 petaflops с върхови показатели и 6.3 petaflops от производителността на Linpack в по-ранната му итерация, базирана на Cray XC30 с Nvidia K20x ускорители.

Другата базирана на P100 система в списъка беше собствената DGX Saturn V на Nvidia, базирана на собствените системи на DGX-1 на компанията и взаимовръзка Infiniband, която влезе в № 28 в списъка. Имайте предвид, че Nvidia вече продава както процесорите, така и устройството DGX-1, което включва софтуер и осем Tesla P100. Системата DGX Saturn V, която Nvidia използва за вътрешни изследвания на AI, отбелязва близо 4.9 пикови петафлопа и 3.3 петафлопа на Linpack. Но това, което Nvidia изтъква е, че използва само 350 киловата мощност, което го прави много по-енергийно ефективен. В резултат на това тази система оглавява списъка на Green500 на най-енергийно ефективните системи. Nvidia посочва, че това е значително по-малко енергия от базираната на Xeon Phi базирана система Camphor 2, която има подобна ефективност (близо 5.5 пика на петафлопс и 3.1 петифлоп на Linpack).

Интересно сравнение е, че Nvidia показва по-добра енергийна ефективност на графичните процесори, а Intel представя по-познат модел на програмиране. Сигурен съм, че ще видим повече конкуренция през идните години, тъй като различните архитектури се състезават, за да видят коя от тях ще бъде първата, която ще достигне до „екзасбукъл изчисли“ или дали китайският подход за отглеждане на дома ще стигне там. Понастоящем проектът за изчислителни изчисления на Министерството на енергетиката на САЩ очаква първите машини за екскаскали да бъдат инсталирани през 2022 г. и да стартират на следващата година.

Интересно ми е да отбележа, че въпреки акцента върху многоядрени ускорители като решенията на Nvidia Tesla и Intel Xeon Phi, само 96 системи използват такива ускорители (включително тези, които използват Xeon Phi самостоятелно); за разлика от 104 системи преди година. Intel продължава да бъде най-големият доставчик на чипове с чиповете си в 462 от най-добрите 500 системи, следвани от процесорите на IBM Power в 22. Hewlett-Packard Enterprise създаде 140 системи (включително тези, изградени от Silicon Graphics, които HPE придоби), Lenovo 92 и Cray 56.

Състезание за машинно обучение

Имаше редица съобщения в или около шоуто, повечето от които се занимаваха с някаква форма на изкуствен интелект или машинно обучение. Nvidia обяви партньорство с IBM за нов инструментариум за дълбоко обучение, наречен IBM PowerAI, който управлява сървърите на IBM Power, използвайки NVLink взаимосвързаност на Nvidia.

AMD, който е бил впоследствие както в HPC, така и в машинното обучение, работи за промяна на това. В тази област компанията се съсредоточи върху собствените си Radeon графични процесори, избута своите сървърни процесори FirePro S9300 x2 и обяви партньорство с Google Cloud Platform, за да може да се използва през облака. Но AMD не е инвестирала толкова много в софтуер за програмиране на графични процесори, тъй като набляга на OpenCL върху по-защитения подход на Nvidia. На изложението AMD представи нова версия на своята Radeon Open Compute Platform (ROCm) и обяви планове за подкрепа на своите графични процесори в разнородни изчислителни сценарии с множество процесори, включително предстоящите си „Zen“ x86 процесори, ARM архитектури, започващи с Cavium's ThunderX и IBM Power 8 процесори.

На изложението Intel говори за нова версия на настоящия си чип Xeon E5v4 (Broadwell), настроен за натоварвания с плаваща запетая и как следващата версия, базирана на платформата Skylake, трябва да излезе през следващата година. Но в по-късно събитие през тази седмица, Intel направи поредица от анонси, предназначени да позиционират своите чипове в пространството за изкуствен интелект или машинно обучение. (Ето това е ExtremeTech.) Голяма част от това има значение за високоефективните изчисления, но най-вече е отделно. Като начало, в допълнение към стандартните процесори Xeon, компанията също така промотира FPGAs за извършване на голяма част от заразените в невронните мрежи. Това е една от основните причини компанията наскоро закупи Altera и такива FPGA сега се използват от компании като Microsoft.

Но акцентът върху AI миналата седмица се справи с някои по-нови чипове. Първо, има Xeon Phi, където Intel посочи, че настоящата версия на Knights Landing ще бъде допълнена през следващата година с нова версия, наречена Knights Mill, насочена към пазара на „дълбокото обучение“. Обявено в IDF, това е друга 14nm версия, но с поддръжка на изчисления с полуточност, които често се използват при обучение на невронни мрежи. Всъщност едно от големите предимства на настоящите Nvidia чипове в дълбокото обучение е тяхната подкрепа за изчисления с полуточност и 8-битови цели числа, които Nvidia често наричат дълбокото обучение "тера-опс". Intel заяви, че Knights Mill ще постигне до четири пъти по-голяма ефективност от Knights Landing за задълбочено обучение. (Този чип все още е планиран да бъде последван по-късно от 10 nm версия, наречена Knights Hill, вероятно насочена повече към традиционния високоефективен пазар на компютри.)

Най-интересният за следващата година е дизайнът на Nervana, който Intel наскоро придоби, който използва масив от обработващи клъстери, проектирани да правят прости математически операции, свързани с памет с висока честотна лента (HBM). Първо в това семейство ще бъде Lake Crest, който е проектиран преди Intel да купи компанията и произведена по 28nm TSMC процес. Благодарение на тестовите версии през първата половина на следващата година, Intel заявява, че ще осигури по-сурова изчислителна производителност от графичния процесор. Това в крайна сметка ще бъде последвано от Knights Crest, който по някакъв начин внедрява технологията на Nervana заедно с Xeon, като детайлите все още не са обявени.

„Очакваме технологиите на Nervana да доведат до пробивен 100-кратно увеличение на производителността през следващите три години за обучение на сложни невронни мрежи, което позволява на учените с данни да решават по-бързо най-големите си предизвикателства пред AI“, написа изпълнителният директор на Intel Браян Крзанич.

Наскоро Intel също обяви планове за придобиване на Movidius, което прави чипове, базирани на DSP, особено подходящи за интегриране на компютърно зрение - отново за вземане на решения въз основа на предварително обучени модели.

Това е сложна и развиваща се история - със сигурност не е толкова проста, колкото Nvidia настоява за своите GPU навсякъде. Но това, което става ясно, е колко бързо започва машинното обучение и многото различни начини, по които компаниите планират да се справят с проблема, от графичните процесори като тези от Nvidia и AMD, до много основни x86 процесори като Xeon Phi, до FPGA, към специализирани продукти за обучение като Nervana и TrueNorth на IBM, за персонализиране на DSP-подобни зараждащи двигатели като Tensor Processing Units на Google. Ще бъде много интересно да се види дали пазарът има място за всички тези подходи.