У дома Напредничаво мислене Интелигентни асистенти: какво идва след siri?

Интелигентни асистенти: какво идва след siri?

2024

Видео: 🏃💨 Subway Surfers - Official Launch Trailer (Ноември 2024)

Интелигентните асистенти - Siri, Google Now, Cortana и други подобни - преминаха от любопитства и салтови трикове само преди няколко години до основни инструменти, които много хора използват в ежедневието си. Миналата седмица се отказах от конференцията за интелигентни асистенти в Ню Йорк, представена от Opus Research, и бях впечатлен от напредъка, който софтуерът постига в различни индустрии, включително напредъка на финансовите, застрахователните и медицинските компании в изграждането на конкретни агенти,

Основателят на Opus Research Дан Милър обясни, че много от основните технологии, като разпознаване на реч, съществуват повече от 20 години. Въпреки че наскоро той наблюдава някои големи подобрения, а не революция, той каза, че „сме на еволюционен път“, с много продукти на континуум с различни възможности. Той отбеляза, че има стотици бизнес интелигентни асистенти, които могат да се използват за обикновен текстови разговор на обикновен английски език с помощта на фиксиран набор от данни и за неща като навигиране в уебсайт или често задавани въпроси. В другия край на спектъра вероятно има само няколко десетки „динамични, чувство за човешко чувство“, които са по-разговорни и в контекста.

Милър посочи приложения, които печелят награди на конференцията. Джули на Amtrak стартира като агент за интерактивни телефонни услуги с гласов отговор преди години, но сега се превърна в агент, който работи на уебсайта, за да насочва пътуващите през Amtrak.com, базиран на агент от Next IT. Telefonica Mexico има агент на име Нико, който има аватар, а също така осигурява поддръжка чрез Twitter и Facebook, базирани на платформата на AgentBot. ING Холандия има Inge, приложение, което ви позволява да проверявате баланса на банковата си сметка или да превеждате пари чрез глас, използвайки гласова биометрична технология от Nuance, за да удостоверите самоличността си.

Почетните споменавания включват приложения за здравеопазване, като приложение, което ви помага да изберете план за здравеопазване. Други приложения, за които чух по време на изложението, включват Pizza Domino, което има приложение, наречено Dom, което ви позволява да използвате глас за поръчка на пица; и BMW, който има виртуален агент като част от ръката си за автоматично финансиране на Up2drive.

Брет Беранек на Nuance говори за това как напредъкът в невронните мрежи за обучение е подобрил неща като разбиране на естествен език, както и разпознаване на глас и как това се обединява, за да даде възможност за много повече интерес в тази област. Помощникът на Нина от Nuance беше ранен пример и оттогава тя нарасна до много специфични приложения, вариращи от интерактивни системи за гласов отговор на застрахователни компании до приложения за пазаруване. Всяко от тези приложения има различна индивидуалност, в зависимост от това какво се опитва да ви помогне.

Една голяма нова функция, която той обсъди, беше гласната биометрия, в която гласът ви замества парола. Той говори за това как компании като ING в Европа разработват агенти, които не само използват разпознаване на глас и обработка на естествен език, но и започват да използват глас, за да разпознаят обаждащия се. Той каза, че това е едновременно по-безопасно и по-естествено от традиционната парола.

Докато последните проучвания се притесняват, че звукозаписите могат да заблудят подобни системи, Nuance отбеляза, че днешната технология включва функции, насочени към избиране на аномалии от записания глас, и посочи други изследвания, които заемат различна гледна точка. Освен това, каза той, дизайнерите могат да използват различни нива на гласова биометрия за различни функции, като например просто разпознаване, за да проверят баланса на сметката или да ви помолят да повторите произволна последователност от думи за значителни парични преводи.

Гласната биометрия определено натрупва малко сцепление. На симпозиума на Gartner миналата седмица сесия за „готини случаи на клиенти“ във финансовите услуги включваше приложение на Citibank, което използва тази функция.

MyWave има асистент, наречен Frank, който е предназначен да бъде активиран от множество фирми, за да ви позволи да общувате с тях по-разговорен начин, а не всеки бизнес да развива свой собствен. Първите приложения включват банка в Нова Зеландия и приложение, наречено Saveawatt, предназначено да ви помогне да изберете вашия доставчик на електроенергия.

Изпълнителният директор Джералдин Макбрайд обясни, че компанията се опитва да създаде асистенти, които преодоляват пропастта между клиентите и сервизните приложения, с това, което тя нарича "взаимоотношения, управлявани от клиенти" или CMR, въртене на традиционните CRM приложения. Една голяма разлика, каза тя, е, че клиентът отговаря за всичките си данни, а не за бизнеса.

Друга сравнително нова компания, Expect Labs, разполага с продукт, наречен MindMeld, който работи като задръжка на редица компании, които искат да предложат гласов интерфейс, за да заменят традиционните интерфейси и да обработват въпроси и отговори. Това може да се използва за различни приложения, като например за гледане на телевизионни предавания, като просто се запита името и системата има заявка за няколко системи. (Fire TV на Amazon има някои от тези функции, но не е интегриран с вашата кабелна телевизия, докато един от инвеститорите в Expect Labs е кабелната компания Liberty Global.)

Изпълнителният директор Тим Тутъл обясни, че MindMeld е склонен да използва разпознаването на реч, която вече е налична в повечето устройства и вместо това се фокусира върху разбирането на естествения език и изграждането на графика на знания за наличната информация. Той каза, че фирмата се опитва да мащабира системата, за да включи повече информация от множество източници, и да разбие йерархиите на различни категории информация, които са част от повечето такива системи. Наистина разбирането на въпросите означава да можеш да разбереш намерението в различни категории, каза той.

Едно нещо, което чух от редица участници, беше статистика, която предполага, че около 10 процента от всички търсения в мрежата се извършват чрез разузнавателни агенти. (Пионерът на AI Андрю Нг каза, че това е вярно за гласовото търсене в Baidu миналата година и няколко души казаха, че това вече е вярно и в Google, но не съм чул потвърждение от първа ръка.)

В перспектива Милър на Opus Research каза, че има още много работа. Основната точност на системите има много място за усъвършенстване, особено при преминаване от това, което казвате, към това, което искате да направите в резултат на това. Той спомена разговор от изпълнителния директор на Xerox PARC Стивън Хувър по време на конференцията, който каза, че системите днес са до 90 процента точни при разбиране какво имаме предвид, но тези 10 процента все още са проблем, защото това е, което повечето хора помнят, когато се занимават с система. И Милър каза, че има място за по-добра персонализация, защото ако системата знае с кого говори, тя може да даде по-добри резултати. Например той отбеляза, че Facebook знае кой използва системата, защото сте влезли в системата; и каза, че безпроблемното правене на това с повече агенти ще стане по-важно.

Това със сигурност е завладяваща категория и очаквам, че всички ще прекарваме много повече време в разговори с нашите телефони и компютри и взаимодействие с агенти, които не са съвсем хора. Намирам това за една от най-интригуващите тенденции в изчислителната техника в наши дни.