У дома Напредничаво мислене Горещи чипове: машинното обучение заема централно място

Горещи чипове: машинното обучение заема централно място

2024

Видео: Мультики про машинки новые серии 2017 - Кто сильнее! Лучшие мультфильмы для детей /#мультик игра (Ноември 2024)

Видео: Мультики про машинки новые серии 2017 - Кто сильнее! Лучшие мультфильмы для детей /#мультик игра (Ноември 2024)

Най-горещата тема в компютрите днес е машинното обучение и това със сигурност се вижда от хардуерната страна. През последните седмици чухме много за нови чипове, предназначени за задълбочено обучение, от Tesla P100 и Drive PX 2 до Nvidia Tensor Processing Units до Xeon Phi на Intel. Така че не е изненадващо, че на конференцията с Hot Chips миналата седмица се чухме от редица различни компании с някои много различни подходи за проектиране, пригодени за машинно обучение и обработка на зрението.

Може би най-голямата новина беше разкриването на Nvidia на повече подробности за чипа Parker, използван в неговия модул Drive PX 2 за самостоятелно управление на автомобили и насочен към задълбочено обучение на автономните машини. Този чип използва две персонализирани ARM-съвместими Denver CPU ядра, четири ядра ARM Cortex-A57 и 256 от това, което Nvidia нарича Паскал CUDA (графика) ядра.

Nvidia каза, че това е първият му чип, проектиран и оценен за автомобилна употреба, със специални характеристики за устойчивост и говори за по-бързата си скорост и памет, отбелязвайки, че ядрото на Денвър осигурява значително подобрение на производителността на ват. Сред новите функции са хардуерната виртуализация с до 8 VMS, за да се даде възможност за интегриране на функции на автомобила, които традиционно се правят на отделни компютри. Като цяло компанията заяви, че моделът Drive PX 2 може да има два от тези чипове на Parker и два отделни графични процесора, с обща производителност от 8 терафлопа (двойна прецизност) или 24 операции за дълбоко обучение (8-битова или полуточна.) Компанията включва показатели, сравнявайки ги благоприятно с текущата мобилна обработка, използвайки SpecInt_2000, сравнително стар показател. Но представянето изглежда впечатляващо и наскоро Volvo заяви, че ще го използва за тестване на автономни превозни средства от следващата година.

Разбира се, има и много други подходи.

Китайският стартиращ DeePhi обсъди платформа, базирана на FPGA за невронни мрежи, с две различни архитектури в зависимост от вида на мрежата. Aristotel е проектиран за сравнително малки конволюционни невронни мрежи и базиран на Xilinx Zynq 7000, докато Descartes е предназначен за по-големи повтарящи се невронни мрежи, използващи дългосрочна краткосрочна памет (RNN-LSTM), базирана на Kintex Ultrascale FPGA. DeePhi твърди, че компилаторът и архитектурата му съкращават времето за разработка в сравнение с повечето приложения на FPGA и също така, че използването на FPGA може да осигури по-добра производителност от Tegra K1 и K40 решенията на Nvidia.

Друг подход е използването на процесор за цифров сигнал или DSP, който обикновено изпълнява специфична функция или миниатюрен набор от функции много бързо, като използва много малко енергия. Често те се вграждат в други, по-сложни чипове, за да се ускорят определени функции, като обработка на зрението. Редица компании, включително Movidius, CEVA и Cadence, споделяха своите решения в Hot Chips.

Movidius показваше своето базирано на DSP решение, известно като зрително устройство за виждане Myriad 2, и го показваше в дрона DJI Phantom 4. Той също така показа как Myriad 2 превъзхожда графичните процесори и дълбоката невронна мрежа GoogLeNet, използвани в конкурса ImageNet 2014.

CEVA промотира своя CEVA-XM4 Vision DSP, специално настроен за обработка на зрението и насочен към автомобилния пазар, заедно със своята платформа CEVA Deep Neural Network 2, за която каза, че може да вземе всичко, написано за рамките на Caffe или TensorFlow и да я оптимизира да работи на DSP. Новият процесор трябва да бъде в SoCs догодина.

Междувременно Cadence, която прави процесорите за виждане на семейството на Tensilica (които могат да бъдат вградени в други продукти), обсъди най-новата си версия - Vision P6, която добави нови функции като векторна поддръжка с плаваща запетая и други функции за конволюционни невронни мрежи, Първите продукти трябва да излязат скоро.

Microsoft говори за подробностите на хардуера за своите слушалки HoloLens, казвайки, че използва 14nm Intel Atom Cherry Trail процесор, работещ под Windows 10, и персонализиран сензорен център за холографска обработка (HPU 1.0), произведен от TSMC при 28 nm процес. Това включва 24 ядра DSP на Tensilica.

Бях особено привлечен от един от слайдовете на Cadence, който показа разликите в пропускателната способност и ефективността на графичните процесори, FPGAs и различни видове DSP по отношение на операции с многократно добавяне, един от ключовите градивни елементи за невронните мрежи. Макар че очевидно се самообслужва (както и всички презентации на доставчици), той посочи как различните техники се различават по отношение на скоростта и ефективността (производителност на ват), да не говорим за разходите и лекотата на програмиране. Тук има много решения за различни подходи и ще бъде интересно да видим как това се разклаща през следващите няколко години.