У дома Напредничаво мислене Google облак tpus част от тенденцията към ai-специфични процесори

Google облак tpus част от тенденцията към ai-специфични процесори

Видео: Anthos in a minute (Ноември 2024)

Видео: Anthos in a minute (Ноември 2024)
Anonim

През последните няколко седмици имаше редица важни представяния на нови изчислителни платформи, създадени специално за работа в дълбоки невронни мрежи за машинно обучение, включително новите „облачни TPU“ на Google и новия Volta дизайн на Nvidia.

За мен това е най-интересната тенденция в компютърната архитектура - дори повече от AMD и сега Intel представя 16-ядрени и 18-ядрени процесори. Разбира се, има и други алтернативни подходи, но Nvidia и Google заслужено получават много внимание за своите уникални подходи.

В Google I / O видях как въвежда „облачен TPU“ (за единица за обработка на тензор, което показва, че е оптимизиран за рамката за машинно обучение на TensorFlow на Google). Предишното поколение TPU, представено на миналогодишното изложение, е ASIC, предназначен предимно за заравяне - провеждане на операции за машинно обучение - но новата версия е предназначена за заравяне и обучение на такива алгоритми.

В неотдавнашна книга Google даде повече подробности за оригиналния TPU, който описа, че съдържа матрица от 256-на-256 единици с много натрупване (MAC) (общо 65 536) с максимална производителност от 92 тераоп (трилион операции на 1 секунда). Той получава инструкциите си от хост процесор през PCIe Gen 3 шина. Google заяви, че това е 28nm умира, което е по-малко от половината от размера на 22-nm процесор Intel Haswell Xeon, и че той превъзхожда този процесор и 28nm процесора K80 на Nvidia.

Новата версия, наречена TPU 2.0 или облачен TPU (вижда се по-горе), всъщност съдържа четири процесора на дъската и Google заяви, че всеки съвет е в състояние да достигне 180 терафлопа (180 трилиона операции с плаваща запетая в секунда). Също толкова важно е, че платките са проектирани да работят заедно, използвайки персонализирана високоскоростна мрежа, така че те действат като суперкомпютри за компютърно обучение, което Google нарича „TPU шушулка“.

Този TPU шушулка съдържа 64 второ поколение TPU и осигурява до 11.5 петафлопа за ускоряване на обучението на един голям модел машинно обучение. По време на конференцията Фей Фей Ли, който ръководи изследванията на AI на Google, каза, че докато един от мащабните модели за обучение за превод отнема цял ден за обучение на 32 от най-добрите налични в търговската мрежа графични процесори, той вече може да се обучава на същата точност в следобед, използвайки една осма от TPU шушулка. Това е голям скок.

Разберете, че това не са малки системи - Pod изглежда, че е с размерите на четири нормални компютърни стелажа.

И всеки от отделните процесори изглежда има много големи радиатори, което означава, че платките не могат да бъдат подредени твърде плътно. Google все още не е дал много подробности какво се е променило в тази версия на процесорите или междусистемната връзка, но вероятно това също се базира на 8-битови MAC.

Седмицата преди това Nvidia представи най-новото си влизане в тази категория, масивен чип, известен като Telsa V100 Volta, който определи като първия процесор с тази нова Volta архитектура, предназначен за графични процесори от висок клас.

Nvidia заяви, че новият чип е способен на 120 TensorFlow терафлопа (или 15 32-битови TFLOPS или 7.5 64-битови такива). Използва нова архитектура, включваща 80 поточни мултипроцесора (SMs), всеки от които включва осем нови "тензорни ядра" и е масив 4x4x4, способен да изпълнява 64 FMA (Fused Multiply-Add) операции на часовник. Nvidia заяви, че ще предложи чипа в своите работни станции DGX-1V с 8 V100 платки през третото тримесечие, следвайки по-ранния DGX-1 на фирмата, който използва по-ранната P100 архитектура.

Компанията заяви, че тази кутия с 149 000 долара трябва да осигури 960 терафлопа за тренировъчни постижения, използвайки 3200 вата. По-късно, първото казано, ще изпрати лична станция DGX с четири V100s, а през четвъртото тримесечие каза, че големите доставчици на сървъри ще доставят V100 сървъри.

Този чип е първият обявен за използване на 12nm процесор на TSMC и той ще бъде огромен чип с 21, 1 милиарда транзистора на 815 квадратни милиметра. Nvidia цитира Microsoft и Amazon като ранни клиенти за чипа.

Имайте предвид, че има големи разлики между тези подходи. Google TPU са наистина персонализирани чипове, предназначени за приложения на TensorFlow, докато Nvidia V100 е малко по-общ чип, способен на различни видове математика за други приложения.

Междувременно, другите големи доставчици на облак търсят алтернативи, като Microsoft използва и двата графични процесора за обучение и програмируеми полеви масиви (FPGA) за пренасяне и предлага и двете на клиентите. Вече Amazon Web Services правят както GPU, така и FPGA екземплярите достъпни за разработчиците. И Intel настоява за FPGA и множество други техники. Междувременно редица нови стартиращи компании работят по алтернативни подходи.

В известен смисъл това е най-драстичната промяна, която видяхме в работните станции и сървърните процесори от години, поне откакто разработчиците за първи път започнаха да използват „GPU compute“ преди няколко години. Ще бъде очарователно да видим как се развива това.

Google облак tpus част от тенденцията към ai-специфични процесори