Počet aplikácií a dôležitosť hlasových rozhraní rýchlo rastie

Obsah

veľká štvorka
Američania chcú nakupovať
Umývať, piecť, čistiť!
Starý koncept. Prišiel konečne jej čas?
technicky náročná otázka
Hlas? Grafické umenie? Alebo možno oboje?
Pozor na bezpečnosť!

Americká rodina v Portlande v štáte Oregon sa nedávno dozvedela, že Alexov hlasový asistent nahral ich súkromné rozhovory a poslal ich priateľovi. Majiteľka domu, ktorú médiá prezývali Danielle, novinárom povedala, že „toto zariadenie už nikdy nepripojí, pretože jej nemožno dôverovať“.

Alexa, ktorú poskytujú reproduktory Echo (1) a ďalšie zariadenia v desiatkach miliónov domácností v USA, začne nahrávať, keď začuje svoje meno alebo „volacie slovo“ vyslovené používateľom. To znamená, že aj keď je v televíznej reklame uvedené slovo „Alexa“, zariadenie môže začať nahrávať. Presne to sa stalo v tomto prípade, hovorí Amazon, distribútor hardvéru.

"Zvyšok konverzácie interpretoval hlasový asistent ako príkaz na odoslanie správy," uviedla spoločnosť vo vyhlásení. "V určitom okamihu sa Alexa nahlas spýtala: "Komu?" Pokračovanie rodinnej konverzácie o drevenej podlahe mal stroj vnímať ako položku v kontaktnom zozname zákazníka.“ Aspoň to si myslí Amazon. Preklad je teda zredukovaný na sériu nehôd.

Úzkosť však zostáva. Pretože z nejakého dôvodu v dome, kde sme sa stále cítili dobre, musíme vstúpiť do nejakého „hlasového režimu“, sledovať, čo hovoríme, čo vysiela televízor a samozrejme, čo tento nový reproduktor na hrudi šuplíky hovorí . nás.

však, Napriek technologickým nedokonalostiam a obavám o súkromie, s nárastom popularity zariadení, ako je Amazon Echo, si ľudia začínajú zvykať na myšlienku interakcie s počítačmi pomocou hlasu..

Ako poznamenal Werner Vogels, technický riaditeľ spoločnosti Amazon počas svojej relácie AWS re:Invent koncom roka 2017, technológia doteraz obmedzovala našu schopnosť komunikovať s počítačmi. Kľúčové slová zadávame do Google pomocou klávesnice, keďže je to stále najbežnejší a najjednoduchší spôsob zadávania informácií do stroja.

Povedal Vogels. -

veľká štvorka

Pri používaní vyhľadávača Google v telefóne sme si pravdepodobne už dávno všimli znak mikrofónu s výzvou na hovorenie. Toto Google teraz (2), ktoré možno použiť na diktovanie vyhľadávacieho dopytu, zadávanie správy hlasom atď. V posledných rokoch sa spoločnosti Google, Apple a Amazon výrazne zlepšili technológia rozpoznávania hlasu. Hlasoví asistenti ako Alexa, Siri a Google Assistant nielenže nahrávajú váš hlas, ale rozumejú aj tomu, čo im hovoríte, a odpovedajú na otázky.

Asistent Google je k dispozícii bezplatne pre všetkých používateľov systému Android. Aplikácia dokáže napríklad nastaviť budík, skontrolovať predpoveď počasia a skontrolovať trasu na Google mapách. Konverzačné rozšírenie stavov Asistenta Google Asistent Google () – virtuálna pomoc používateľovi zariadenia. Dostupná je najmä na mobilných zariadeniach a zariadeniach inteligentnej domácnosti. Na rozdiel od Google Now sa môže zúčastniť obojsmernej výmeny. Asistent debutoval v máji 2016 ako súčasť aplikácie Google na odosielanie správ Allo, ako aj v hlasovom reproduktore Google Home (3).

3. Domovská stránka Google

Systém IOS má aj vlastného virtuálneho asistenta, Siri, čo je program, ktorý je súčasťou operačných systémov Apple iOS, watchOS, tvOS homepod a macOS. Siri debutovala s iOS 5 a iPhone 4s v októbri 2011 na konferencii Let's Talk iPhone.

Softvér je založený na konverzačnom rozhraní: rozpoznáva prirodzenú reč používateľa (s iOS 11 je možné zadávať príkazy aj manuálne), odpovedá na otázky a plní úlohy. Vďaka zavedeniu strojového učenia časom asistent analyzuje osobné preferencie používateľovi poskytnúť relevantnejšie výsledky a odporúčania. Siri vyžaduje neustále internetové pripojenie – hlavnými zdrojmi informácií sú tu Bing a Wolfram Alpha. iOS 10 zaviedol podporu pre rozšírenia tretích strán.

Ďalší z veľkej štvorky Cortana. Ide o inteligentného osobného asistenta vytvoreného spoločnosťou Microsoft. Je podporovaný na platformách Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android a iOS. Cortana bola prvýkrát predstavená na konferencii Microsoft Build Developer Conference v apríli 2014 v San Franciscu. Názov programu pochádza z mena postavy z hernej série Halo. Cortana je k dispozícii v angličtine, taliančine, španielčine, francúzštine, nemčine, čínštine a japončine.

Používatelia už spomínaného programu Alexa musia zvážiť aj jazykové obmedzenia – digitálny asistent hovorí len anglicky, nemecky, francúzsky a japonsky.

Virtuálny asistent Amazon bol prvýkrát použitý v inteligentných reproduktoroch Amazon Echo a Amazon Echo Dot vyvinutých spoločnosťou Amazon Lab126. Umožňuje hlasovú interakciu, prehrávanie hudby, vytváranie zoznamu úloh, nastavenie budíka, streamovanie podcastov, prehrávanie audiokníh a informácie o počasí, premávke, športe a iných správach v reálnom čase, ako sú správy (4). Alexa dokáže ovládať viacero inteligentných zariadení na vytvorenie systému domácej automatizácie. Dá sa použiť aj na pohodlné nakupovanie v obchode Amazon.

4. Na čo používatelia používajú Echo (podľa výskumu)

Používatelia môžu vylepšiť zážitok zo služby Alexa inštaláciou „zručností“ (), dodatočných funkcií vyvinutých tretími stranami, ktoré sa v iných nastaveniach častejšie označujú ako aplikácie, ako sú napríklad počasie a zvukové programy. Väčšina zariadení Alexa vám umožňuje aktivovať virtuálneho asistenta pomocou hesla na prebudenie, ktoré sa nazýva .

Amazon dnes rozhodne dominuje na trhu inteligentných reproduktorov (5). Do prvej štvorky sa snaží dostať IBM, ktorá novú službu predstavila v marci 2018 Watsonov asistent, určený pre spoločnosti, ktoré chcú vytvárať vlastné systémy virtuálnych asistentov s hlasovým ovládaním. Aká je výhoda riešenia IBM? Podľa predstaviteľov spoločnosti v prvom rade na oveľa väčších možnostiach personalizácie a ochrany súkromia.

Po prvé, asistent Watson nie je značkový. Spoločnosti môžu na tejto platforme vytvárať vlastné riešenia a označovať ich vlastnou značkou.

Po druhé, môžu trénovať svoje asistenčné systémy pomocou vlastných súborov údajov, čo podľa IBM uľahčuje pridávanie funkcií a príkazov do tohto systému ako pri iných technológiách VUI (hlasové používateľské rozhranie).

Po tretie, Watson Assistant neposkytuje IBM informácie o aktivite používateľov – vývojári riešení na platforme si môžu cenné dáta nechať iba pre seba. Medzitým by si každý, kto vyrába zariadenia, napríklad s Alexou, mal uvedomiť, že jeho cenné dáta skončia na Amazone.

Watson Assistant má už niekoľko implementácií. Systém používala napríklad spoločnosť Harman, ktorá vytvorila hlasového asistenta pre koncepčný automobil Maserati (6). Na mníchovskom letisku asistent IBM poháňa robota Pepper, ktorý pomáha cestujúcim pohybovať sa. Tretím príkladom je spoločnosť Chameleon Technologies, kde sa hlasová technológia používa v merači inteligentnej domácnosti.

6. Watson Assistant v koncepčnom aute Maserati

Stojí za to dodať, že základná technológia tu tiež nie je nová. Watson Assistant zahŕňa funkcie šifrovania pre existujúce produkty IBM, Watson Conversation a Watson Virtual Agent, ako aj rozhrania API pre jazykovú analýzu a chat.

Amazon nie je len lídrom v oblasti inteligentných hlasových technológií, ale mení ich na priame podnikanie. Niektoré spoločnosti však experimentovali s integráciou Echo oveľa skôr. Sisense, spoločnosť v odvetví BI a analytiky, predstavila integráciu Echo v júli 2016. Startup Roxy sa zase rozhodol vytvoriť vlastný softvér a hardvér s hlasovým ovládaním pre pohostinský priemysel. Začiatkom tohto roka spoločnosť Synqq predstavila aplikáciu na písanie poznámok, ktorá využíva spracovanie hlasu a prirodzeného jazyka na pridávanie poznámok a záznamov v kalendári bez toho, aby ste ich museli písať na klávesnici.

Všetky tieto malé podniky majú vysoké ambície. Predovšetkým sa však dozvedeli, že nie každý používateľ chce svoje dáta preniesť do Amazonu, Googlu, Apple či Microsoftu, ktoré sú najdôležitejšími hráčmi pri budovaní platforiem hlasovej komunikácie.

Američania chcú nakupovať

V roku 2016 tvorilo hlasové vyhľadávanie 20 % všetkých mobilných vyhľadávaní Google. Ľudia, ktorí používajú túto technológiu na dennej báze, uvádzajú medzi jej najväčšie výhody jej pohodlie a multitasking. (napríklad možnosť používať vyhľadávač počas jazdy autom).

Analytici spoločnosti Visiongain odhadujú aktuálnu trhovú hodnotu inteligentných digitálnych asistentov na 1,138 miliardy dolárov.Takýchto mechanizmov je stále viac. Podľa Gartneru už do konca roka 2018 30 % našich interakcií s technológiou bude prostredníctvom rozhovorov s hlasovými systémami.

Britská výskumná spoločnosť IHS Markit odhaduje, že trh s digitálnymi asistentmi poháňanými AI dosiahne do konca tohto roka 4 miliardy zariadení a tento počet by sa mohol do roku 2020 zvýšiť na 7 miliárd.

Podľa správ eMarketer a VoiceLabs v roku 2017 aspoň raz za mesiac použilo hlasové ovládanie 35,6 milióna Američanov. V porovnaní s predchádzajúcim rokom to znamená nárast o takmer 130 %. Očakáva sa, že samotný trh digitálnych asistentov v roku 2018 vzrastie o 23 %. To znamená, že ich už budete používať. 60,5 milióna Američanov, čo prinesie konkrétne peniaze pre ich výrobcov. RBC Capital Markets odhaduje, že rozhranie Alexa prinesie Amazonu do roku 2020 príjmy až do výšky 10 miliárd dolárov.

Umývať, piecť, čistiť!

Hlasové rozhrania čoraz odvážnejšie vstupujú na trhy domácich spotrebičov a spotrebnej elektroniky. Bolo to vidieť už počas minuloročnej výstavy IFA 2017. Americká spoločnosť Neato Robotics predstavila napríklad robotický vysávač, ktorý sa pripája k jednej z viacerých platforiem pre inteligentnú domácnosť, vrátane systému Amazon Echo. Rozhovorom s inteligentným reproduktorom Echo môžete dať stroju pokyn, aby upratal celý váš dom v konkrétnych časoch dňa alebo noci.

Na výstave boli predvedené aj ďalšie produkty aktivované hlasom, od inteligentných televízorov predávaných pod značkou Toshiba tureckou spoločnosťou Vestel až po vyhrievané prikrývky nemeckej spoločnosti Beurer. Mnohé z týchto elektronických zariadení je možné aktivovať aj na diaľku pomocou smartfónov.

Podľa predstaviteľov Bosch je však priskoro povedať, ktorá z možností domáceho asistenta sa stane dominantnou. Nemecká technická skupina na veľtrhu IFA 2017 predstavila práčky (7), rúry na pečenie a kávovary, ktoré sa pripájajú k Echo. Bosch tiež chce, aby jeho zariadenia boli v budúcnosti kompatibilné s hlasovými platformami Google a Apple.

7. Práčka Bosch, ktorá sa pripája k Amazon Echo

Spoločnosti ako Fujitsu, Sony a Panasonic vyvíjajú svoje vlastné riešenia hlasových asistentov založené na AI. Sharp pridáva túto technológiu do pecí a malých robotov vstupujúcich na trh. Nippon Telegraph & Telephone najíma výrobcov hardvéru a hračiek, aby prispôsobili hlasom ovládaný systém umelej inteligencie.

Starý koncept. Prišiel konečne jej čas?

V skutočnosti koncept hlasového používateľského rozhrania (VUI) existuje už desaťročia. Každý, kto pred rokmi sledoval Star Trek alebo 2001: Vesmírnu odyseu, zrejme očakával, že okolo roku 2000 budeme všetci ovládať počítače hlasom. Tiež to neboli len spisovatelia sci-fi, ktorí videli potenciál tohto typu rozhrania. V roku 1986 sa výskumníci spoločnosti Nielsen opýtali IT profesionálov, čo by podľa nich bola najväčšia zmena v používateľských rozhraniach do roku 2000. Najčastejšie poukazovali na vývoj hlasových rozhraní.

Existujú dôvody dúfať v takéto riešenie. Verbálna komunikácia je predsa najprirodzenejší spôsob, ako si ľudia vedome vymieňať myšlienky, takže jej využitie na interakciu človek-stroj sa zatiaľ javí ako najlepšie riešenie.

Jedno z prvých VUI, tzv botník, bola vytvorená na začiatku 60. rokov spoločnosťou IBM. Bol to predchodca dnešných systémov rozpoznávania hlasu. Vývoj zariadení VUI bol však limitovaný limitmi výpočtového výkonu. Analýza a interpretácia ľudskej reči v reálnom čase si vyžaduje veľa úsilia a trvalo viac ako päťdesiat rokov, kým sme sa dostali do bodu, kedy to bolo skutočne možné.

Zariadenia s hlasovým rozhraním sa začali objavovať v masovej výrobe v polovici 90. rokov, no nezískali si obľubu. Prvý telefón s hlasovým ovládaním (vytáčaním) bol Philips Sparkvydaný v roku 1996. Toto inovatívne a ľahko použiteľné zariadenie však nebolo zbavené technologických obmedzení.

Na trh sa pravidelne dostávajú ďalšie telefóny vybavené hlasovým rozhraním (vytvorené spoločnosťami ako RIM, Samsung alebo Motorola), ktoré používateľom umožňujú vytáčať hlasom alebo posielať textové správy. Všetky si však vyžadovali zapamätať si konkrétne príkazy a vyslovovať ich vynútenou, umelou formou, prispôsobenou možnostiam vtedajších zariadení. To generovalo veľké množstvo chýb, ktoré následne viedli k nespokojnosti používateľov.

Teraz však vstupujeme do novej éry výpočtovej techniky, v ktorej pokroky v strojovom učení a rozvoj umelej inteligencie odomykajú potenciál konverzácie ako nového spôsobu interakcie s technológiou (8). Počet zariadení, ktoré podporujú hlasovú interakciu, sa stal dôležitým faktorom, ktorý mal veľký vplyv na vývoj VUI. Dnes už takmer 1/3 svetovej populácie vlastní smartfóny použiteľné na tento typ správania. Zdá sa, že väčšina používateľov je konečne pripravená prispôsobiť svoje hlasové rozhrania.

8. Novodobá história vývoja hlasového rozhrania

Kým sa však budeme môcť slobodne rozprávať s počítačom, ako to urobili hrdinovia Vesmírnej odysey, musíme prekonať množstvo problémov. Stroje stále nie sú veľmi dobré pri zvládaní jazykových nuancií. Okrem toho veľa ľudí sa stále cíti nepríjemne pri zadávaní hlasových príkazov vyhľadávaču.

Štatistiky ukazujú, že hlasoví asistenti sa využívajú predovšetkým doma alebo medzi blízkymi priateľmi. Nikto z opýtaných nepriznal používanie hlasového vyhľadávania na verejných miestach. Táto blokáda však s rozšírením tejto technológie pravdepodobne zmizne.

technicky náročná otázka

Problém, ktorému systémy (ASR) čelia, je extrahovanie užitočných údajov z rečového signálu a ich priradenie k určitému slovu, ktoré má pre človeka určitý význam. Produkované zvuky sú zakaždým iné.

Variabilita rečového signálu je jeho prirodzená vlastnosť, vďaka ktorej napríklad rozoznávame prízvuk alebo intonáciu. Každý prvok systému rozpoznávania reči má špecifickú úlohu. Na základe spracovaného signálu a jeho parametrov sa vytvorí akustický model, ktorý je spojený s jazykovým modelom. Systém rozpoznávania môže fungovať na základe malého alebo veľkého počtu vzorov, čo určuje veľkosť slovnej zásoby, s ktorou pracuje. Môžu byť malé slovníky v prípade systémov, ktoré rozpoznávajú jednotlivé slová alebo príkazy, ako aj veľké databázy obsahujúci ekvivalent jazykovej množiny a zohľadňujúci jazykový model (gramatiku).

Problémy, ktorým čelia predovšetkým hlasové rozhrania správne rozumieť reči, v ktorých sa často vynechávajú napríklad celé gramatické postupnosti, vyskytujú sa jazykové a fonetické chyby, chyby, vynechania, rečové vady, homonymá, neodôvodnené opakovania a pod.. Všetky tieto ACP systémy musia fungovať rýchlo a spoľahlivo. Aspoň také sú očakávania.

Zdrojom ťažkostí sú aj iné akustické signály ako rozpoznaná reč, ktoré vstupujú na vstup rozpoznávacieho systému, t.j. všetky druhy rušenie a šum. V najjednoduchšom prípade ich potrebujete odfiltrovať. Zdá sa, že táto úloha je rutinná a jednoduchá – veď rôzne signály sú filtrované a každý elektrotechnik vie, čo má v takejto situácii robiť. Ak má však výsledok rozpoznávania reči splniť naše očakávania, treba to robiť veľmi opatrne a opatrne.

V súčasnosti používané filtrovanie umožňuje odstrániť spolu s rečovým signálom aj vonkajší šum zachytený mikrofónom a vnútorné vlastnosti samotného rečového signálu, ktoré sťažujú jeho rozpoznanie. Oveľa zložitejší technický problém však nastáva, keď rušením analyzovaného rečového signálu je ... iný rečový signál, teda napríklad hlasné diskusie naokolo. Táto otázka je v literatúre známa ako tzv. To si už vyžaduje použitie zložitých metód, tzv. dekonvolúcia (rozlúštenie) signálu.

Problémy s rozpoznávaním reči tým nekončia. Stojí za to si uvedomiť, že reč nesie veľa rôznych typov informácií. Ľudský hlas naznačuje pohlavie, vek, rôzne povahy majiteľa či jeho zdravotný stav. Existuje rozsiahly odbor biomedicínskeho inžinierstva, ktorý sa zaoberá diagnostikou rôznych ochorení na základe charakteristických akustických javov nachádzajúcich sa v rečovom signáli.

Existujú aj aplikácie, kde je hlavným účelom akustickej analýzy rečového signálu identifikovať hovoriaceho alebo overiť, že je tým, za koho sa vydáva (hlas namiesto kľúča, hesla alebo PUK kódu). To môže byť dôležité najmä pre technológie inteligentných budov.

Prvým komponentom systému rozpoznávania reči je mikrofón. Signál zachytený mikrofónom však zvyčajne zostáva málo užitočný. Štúdie ukazujú, že tvar a priebeh zvukovej vlny sa značne líšia v závislosti od osoby, rýchlosti reči a čiastočne aj nálady účastníka rozhovoru – pričom v malej miere odrážajú samotný obsah hovorených príkazov.

Preto musí byť signál správne spracovaný. Moderná akustika, fonetika a informatika spolu poskytujú bohatú sadu nástrojov, ktoré možno použiť na spracovanie, analýzu, rozpoznanie a pochopenie rečového signálu. Dynamické spektrum signálu, tzv dynamické spektrogramy. Je pomerne ľahké ich získať a reč prezentovaná vo forme dynamického spektrogramu je pomerne ľahko rozpoznateľná pomocou techník podobných tým, ktoré sa používajú pri rozpoznávaní obrazu.

Jednoduché prvky reči (napríklad príkazy) možno rozpoznať jednoduchou podobnosťou celých spektrogramov. Napríklad hlasom aktivovaný slovník mobilného telefónu obsahuje len niekoľko desiatok až niekoľko stoviek slov a fráz, zvyčajne vopred naskladaných tak, aby sa dali ľahko a efektívne identifikovať. To je dostatočné na jednoduché úlohy ovládania, ale výrazne to obmedzuje celkovú aplikáciu. Systémy postavené podľa schémy spravidla podporujú iba konkrétnych reproduktorov, pre ktoré sú hlasy špeciálne trénované. Ak sa teda nájde niekto nový, kto bude chcieť systém ovládať hlasom, s najväčšou pravdepodobnosťou nebude prijatý.

Výsledkom tejto operácie je tzv 2-W spektrogram, teda dvojrozmerné spektrum. V tomto bloku je ďalšia aktivita, ktorá stojí za pozornosť - segmentácia. Vo všeobecnosti hovoríme o rozdelení súvislého rečového signálu na časti, ktoré možno rozpoznať oddelene. Až z týchto jednotlivých diagnóz sa robí rozpoznanie celku. Tento postup je potrebný, pretože nie je možné jedným ťahom identifikovať dlhý a zložitý prejav. O tom, ktoré segmenty v rečovom signáli rozlíšiť, už boli napísané celé zväzky, takže teraz nebudeme riešiť, či rozlišované segmenty majú byť fonémy (zvukové ekvivalenty), slabiky alebo možno alofóny.

Proces automatického rozpoznávania sa vždy vzťahuje na niektoré vlastnosti objektov. Pre rečový signál boli testované stovky sád rôznych parametrov rozdelené do rozpoznaných rámcov a mať vybrané funkciepričom tieto rámce sú prezentované v procese rozpoznávania, môžeme vykonať (pre každý rámec zvlášť) klasifikácia, t.j. priradenie identifikátora k rámu, ktorý ho bude v budúcnosti reprezentovať.

Ďalšia fáza zostavenie rámov do samostatných slov - najčastejšie na základe tzv. model implicitných Markovových modelov (HMM-). Potom prichádza montáž slov úplné vety.

Teraz sa môžeme na chvíľu vrátiť k systému Alexa. Jeho príklad ukazuje viacstupňový proces strojového „chápania“ človeka – presnejšie: ním daný príkaz alebo položená otázka.

Pochopenie slov, pochopenie významu a pochopenie zámeru používateľa sú úplne odlišné veci.

Ďalším krokom je preto práca modulu NLP (), ktorého úlohou je rozpoznávanie užívateľského zámeru, t.j. význam príkazu/otázky v kontexte, v ktorom bol vyslovený. Ak je zámer identifikovaný, potom priradenie takzvaných zručností a schopností, teda špecifická funkcia podporovaná inteligentným asistentom. V prípade otázky o počasí sa volajú zdroje údajov o počasí, ktoré zostáva spracovať do reči (TTS - mechanizmus). Výsledkom je, že používateľ počuje odpoveď na položenú otázku.

Hlas? Grafické umenie? Alebo možno oboje?

Väčšina známych moderných interakčných systémov je založená na sprostredkovateľovi tzv grafické užívateľské rozhranie (grafické rozhranie). Bohužiaľ, GUI nie je najzrejmejším spôsobom interakcie s digitálnym produktom. To si vyžaduje, aby sa používatelia najprv naučili používať rozhranie a zapamätali si tieto informácie pri každej ďalšej interakcii. V mnohých situáciách je hlas oveľa pohodlnejší, pretože s VUI môžete jednoducho komunikovať prostredníctvom hovoru do zariadenia. Rozhranie, ktoré nenúti používateľov zapamätať si a zapamätať si určité príkazy alebo metódy interakcie, spôsobuje menej problémov.

Rozšírenie VUI samozrejme neznamená opustenie tradičnejších rozhraní – skôr budú dostupné hybridné rozhrania, ktoré kombinujú viacero spôsobov interakcie.

Hlasové rozhranie nie je vhodné pre všetky úlohy v mobilnom kontexte. S ním zavoláme priateľovi, ktorý riadi auto, a dokonca mu pošleme SMS, ale kontrola najnovších prevodov môže byť príliš náročná - kvôli množstvu informácií prenášaných do systému () a generovaných systémom (systémom). Ako navrhuje Rachel Hinman vo svojej knihe Mobile Frontier, používanie VUI sa stáva najúčinnejším pri vykonávaní úloh, pri ktorých je množstvo vstupných a výstupných informácií malé.

Smartfón pripojený na internet je pohodlný, ale aj nepohodlný (9). Zakaždým, keď si chce používateľ niečo kúpiť alebo použiť novú službu, musí si stiahnuť inú aplikáciu a vytvoriť si nový účet. Vzniklo tu pole pre využitie a vývoj hlasových rozhraní. Namiesto toho, aby používatelia nútili inštalovať veľa rôznych aplikácií alebo vytvárať samostatné účty pre každú službu, odborníci tvrdia, že VUI presunie bremeno týchto ťažkopádnych úloh na hlasového asistenta poháňaného AI. Bude pre neho vhodné vykonávať namáhavé činnosti. Budeme mu len rozkazovať.

9. Hlasové rozhranie cez chytrý telefón

Dnes je na internet pripojených viac ako len telefón a počítač. K sieti sú pripojené aj inteligentné termostaty, svetlá, varné kanvice a mnohé ďalšie zariadenia s integrovaným internetom vecí (10). Všade okolo nás sú teda bezdrôtové zariadenia, ktoré napĺňajú náš život, no nie všetky prirodzene zapadajú do grafického používateľského rozhrania. Používanie VUI vám pomôže jednoducho ich integrovať do nášho prostredia.

10. Hlasové rozhranie s internetom vecí

Vytvorenie hlasového používateľského rozhrania sa čoskoro stane kľúčovou zručnosťou dizajnéra. Toto je skutočný problém – potreba implementácie hlasových systémov vás povzbudí, aby ste sa viac zamerali na proaktívny dizajn, teda snahu pochopiť prvotné zámery používateľa, predvídať jeho potreby a očakávania v každej fáze konverzácie.

Hlas je efektívny spôsob zadávania údajov – umožňuje používateľom rýchlo zadávať príkazy systému podľa ich vlastných podmienok. Na druhej strane obrazovka poskytuje efektívny spôsob zobrazenia informácií: umožňuje systémom zobraziť veľké množstvo informácií súčasne, čím sa znižuje zaťaženie pamäte používateľov. Je logické, že ich spojenie do jedného systému znie povzbudzujúco.

Inteligentné reproduktory ako Amazon Echo a Google Home vôbec neponúkajú vizuálny displej. Výrazne zlepšujú presnosť rozpoznávania hlasu na stredné vzdialenosti, umožňujú hands-free ovládanie, čo následne zvyšuje ich flexibilitu a efektivitu – sú žiaduce aj pre používateľov, ktorí už majú smartfóny s hlasovým ovládaním. Obrovským obmedzením je však chýbajúca obrazovka.

Na informovanie používateľov o možných príkazoch možno použiť iba pípnutia a čítanie výstupu nahlas sa stáva únavným, s výnimkou najzákladnejších úloh. Nastavenie časovača pomocou hlasového príkazu počas varenia je skvelé, ale nie je potrebné, aby ste sa pýtali, koľko času zostáva. Získanie pravidelnej predpovede počasia sa stáva skúškou pamäte pre používateľa, ktorý musí celý týždeň počúvať a absorbovať sériu faktov, namiesto toho, aby ich na prvý pohľad zbieral z obrazovky.

Dizajnéri už majú hybridné riešenie, Echo Show (11), ktorá k základnému inteligentnému reproduktoru Echo pridala obrazovku. To výrazne rozširuje funkčnosť zariadenia. Echo Show je však stále oveľa menej schopná vykonávať základné funkcie, ktoré sú už dávno dostupné na smartfónoch a tabletoch. Nemôže (zatiaľ) surfovať po webe, zobrazovať recenzie alebo napríklad zobrazovať obsah nákupného košíka Amazon.

Vizuálne zobrazenie je vo svojej podstate efektívnejším spôsobom, ako ľuďom poskytnúť množstvo informácií ako len zvuk. Navrhovanie s prioritou hlasu môže výrazne zlepšiť hlasovú interakciu, ale z dlhodobého hľadiska bude svojvoľné nepoužívanie vizuálneho menu kvôli interakcii ako boj s jednou rukou zviazanou za chrbtom. Vzhľadom na hroziacu zložitosť end-to-end inteligentných hlasových a zobrazovacích rozhraní by vývojári mali vážne zvážiť hybridný prístup k rozhraniam.

Zvýšenie efektívnosti a rýchlosti systémov generovania a rozpoznávania reči umožnilo ich využitie v takých aplikáciách a oblastiach, ako sú napr.

• vojenské (hlasové príkazy v lietadlách alebo vrtuľníkoch, napr. F16 VISTA),

• automatický prepis textu (reč na text),

• interaktívne informačné systémy (Prime Speech, hlasové portály),

• mobilné zariadenia (telefóny, smartfóny, tablety),

• robotika (Cleverbot - systémy ASR v kombinácii s umelou inteligenciou),

• automobilový priemysel (hands-free ovládanie komponentov auta, napr. Blue & Me),

• domáce aplikácie (systémy inteligentnej domácnosti).

Pozor na bezpečnosť!

Automobilový priemysel, domáce spotrebiče, systémy vykurovania/chladenia a domáce bezpečnostné systémy a množstvo domácich spotrebičov začínajú používať hlasové rozhrania, často založené na AI. V tejto fáze sa odosielajú údaje získané z miliónov konverzácií so strojmi výpočtové oblaky. Je jasné, že marketéri o ne majú záujem. A nielen oni.

Nedávna správa bezpečnostných expertov spoločnosti Symantec odporúča, aby používatelia hlasových príkazov neovládali bezpečnostné funkcie, ako sú zámky dverí, nieto ešte domáce bezpečnostné systémy. To isté platí pre ukladanie hesiel alebo dôverných informácií. Bezpečnosť umelej inteligencie a smart produktov ešte nie je dostatočne prebádaná.

Keď zariadenia v celej domácnosti počúvajú každé slovo, riziko hacknutia a zneužitia systému sa stáva mimoriadne dôležitým problémom. Ak útočník získa prístup k lokálnej sieti alebo jej priradeným e-mailovým adresám, nastavenia inteligentného zariadenia je možné zmeniť alebo obnoviť na výrobné nastavenia, čo povedie k strate cenných informácií a vymazaniu používateľskej histórie.

Inými slovami, bezpečnostní profesionáli sa obávajú, že hlasom riadená AI a VUI ešte nie sú dostatočne inteligentné, aby nás ochránili pred potenciálnymi hrozbami a držali jazyk za zubami, keď sa o niečo pýta cudzinec.