Съдържание:
- Как дълбокото обучение генерира човешки гласове
- Пресъздаване на гласа на безгласен човек
- Балансиране на отрицателните приложения на AI синтезаторите
Видео: Маша и Медведь (Masha and The Bear) - Подкидыш (23 Серия) (Ноември 2024)
През 2017 г. Амиотрофичната латерална склероза (ALS), опустошително неврологично разстройство, ограби Пат Куин, основателят на известния Challe Challenge Challenge, за способността му да говори.
Благодарение на напредъка в машинното и дълбокото обучение алгоритмите за изкуствен интелект станаха много добри в имитирането на хора. Но докато много видни развития в космоса са били отрицателни, имитационната сила на AI беше сила на положителна промяна за Куин.
„Повечето хора, живеещи с ALS (известна също като болест на моторните неврони), в крайна сметка са парализирани и не могат да общуват с нищо друго освен с изкуствени„ компютърни “гласове, “ казва Оскар Вестердал, съосновател на Project Revoice, инициатива, която има за цел да помогне на пациенти с ALS като Quinn, За да пресъздаде гласа на Куин, Project Revoice си сътрудничи с Lyrebird, една от шепа компании, които използват AI за клониране на глас на човек - група, която включва също Google WaveNet и Voicery, стартиран с Y Combinator старт, който използва AI за създаване на синтезирани записи на глас,
Как дълбокото обучение генерира човешки гласове
Зад тези приложения стоят алгоритми за дълбоко обучение, популярен клон на AI, който преглежда големи набори данни за прозрения и модели, които не могат да бъдат заснети с традиционен, базиран на правила софтуер. Когато тренирате дълбоко учещ синтезатор на глас с достатъчно записи на глас, той създава цифров модел, който представя гласа на човека и може да генерира нови гласови проби.
Преди появата на AI-захранвана технология за синтез на глас, пациентите с ALS трябваше да използват общи цифрови гласове, които не са били техните собствени. Други технологии биха могли да съчетаят предварително записани изречения с гласа на пациента, но резултатите бяха твърде изкуствени и изискваха десетки часове запис на глас, за да бъдат минимално използвани.
Приложенията за задълбочено обучение от друга страна изискват много по-малко данни и дават по-добри резултати. „Това, което Lyrebird може да постигне само с няколко часа аудио е забележително - дава на хората пълен цифров гласов клон, така че те могат да кажат каквото искат“, казва Westerdal.
Пресъздаване на гласа на безгласен човек
Една от границите на приложенията за задълбочено обучение е зависимостта им от висококачествени проби от данни за обучение на техните невронни мрежи. Проблемът с пациентите с ALS е, че след като загубят гласа си, записването на гласови проби е невъзможно. За щастие, Куин имаше часове записани бележки и интервюта.
„Най-голямото предизвикателство беше качеството. Тази технология е напълно зависима от наличието на последователни, висококачествени записи, които също следват точен сценарий - така че трябваше да работим със звуково студио, за да„ ръчно ремастерираме “и препишем всеки ред диалог, който бихме могли да намерим на Пат - казва Вестердал.
„Малко се уплашихме, че няма да можем да осигурим страхотно качество, за да създадем гласа на Пат“, казва Хосе Сотело, съосновател на Lyrebird. "Тъй като не успяхме да получим чисти записи, крайното качество на изкуствения глас не е перфектно. Смятаме, че можем да свършим много по-добра работа с чисти записи."
Резултатите все още звучат малко неестествено и синтетично. Но за Куин, който използваше общ глас за общуване, разликата беше драматична. "След като чух гласа си чрез тази нова технология, аз бях взривен! За да разберат пациентите, че могат да имат собствен глас, след като ALS го отнеме, това ще промени начина, по който хората живеят с ALS", казва той.
Куин препоръчва на пациентите с ALS да записват гласа си, преди да е станало твърде късно. "След като чуя отново собствения си глас, имам нужда от пациенти с АЛС, за да знаят, че записът на гласа им е невероятно важен", казва той.
Балансиране на отрицателните приложения на AI синтезаторите
По-рано тази година FakeApp, AI-захранвано приложение за смяна на лица, предизвика атака на фалшиви порнографски видеоклипове с участието на известни личности и политици. Има опасения, че приложения като FakeApp и Lyrebird ще въведат нова ера на фалшиви новини, измами и фалшификации.
Страницата по етика на уебсайта на Lyrebird по-рано призна, че технологията може „потенциално да има опасни последици като заблуждаване на дипломати, измама и по-общо всеки друг проблем, причинен от кражба на самоличността на някой друг“.
За да постигнем точката, уебсайтът на компанията разполага с няколко синтезирани записа, създадени с гласовете на Доналд Тръмп и Барак Обама.
@realDonaldTrump https://t.co/N6DRPdEGPT pic.twitter.com/G30DvmQNdk
- Lyrebird AI (@LyrebirdAi) 4 септември 2017 г.
Историята на Куин може да помогне да хвърли светлина върху положителните страни на индустрията, която се обърна към потенциално страховитите и неетични приложения на своите приложения. „Важно е хората да осъзнаят ярката страна на тази технология“, напомня Сотело на Lyrebird.
Освен медицински приложения, AI синтезаторите могат да служат и за други продуктивни цели. Voicery предоставя на марките персонализирани цифровизирани гласове, задвижвани от AI алгоритми. Google също експериментира с WaveNet, за да предостави по-естествено изживяване на потребителите на своите устройства с Google Assistant. Други области, в които технологията е полезна, включват автоматизиране на аудиокниги или улесняване на дублирането на глас във филми.
Без съмнение ще възникнат етични и правни пречки и дебатите ще продължат. Но за Куин, AI е сила за добро. "Не искам да звуча като компютър", казва той. "Искам да звуча като мен."