Lietojumprogrammu skaits un balss saskarņu nozīme strauji pieaug

saturs

lielais četrinieks
Amerikāņi vēlas pirkt
Mazgāt, cept, tīrīt!
Vecā koncepcija. Vai beidzot ir pienācis viņas laiks?
tehniski grūts jautājums
Balss? Grafika? Vai varbūt abi?
Uzmanies no drošības!

Kāda amerikāņu ģimene Portlendā, Oregonas štatā, nesen uzzināja, ka Aleksa balss asistents ierakstīja viņu privātās tērzēšanas sarunas un nosūtīja tās draugam. Mājas īpašniece, kuru mediji nodēvējuši par Danielu, žurnālistiem sacīja, ka viņa "nekad vairs nepievienos šo ierīci, jo viņai nevar uzticēties".

Alexa, ko nodrošina Echo skaļruņi (1) un citi sīkrīki desmitiem miljonu ASV māju, sāk ierakstīšanu, kad dzird savu vārdu vai izsaukuma vārdu, ko izrunā lietotājs. Tas nozīmē, ka pat tad, ja TV reklāmā ir minēts vārds "Alexa", ierīce var sākt ierakstīšanu. Tieši tā arī notika šajā gadījumā, saka aparatūras izplatītājs Amazon.

"Pārējo sarunas daļu balss asistents interpretēja kā komandu nosūtīt ziņojumu," teikts uzņēmuma paziņojumā. "Kādā brīdī Aleksa skaļi jautāja: "Kam?" Ģimenes sarunas turpinājumu par cietkoksnes grīdām mašīnai vajadzēja uztvert kā vienumu klienta kontaktu sarakstā. Vismaz tā domā Amazon. Tādējādi tulkojums tiek samazināts līdz negadījumu sērijai.

Tomēr nemiers paliek. Jo nez kāpēc mājā, kur vēl jutāmies mierīgi, jāieiet kaut kādā “balss režīmā”, jāskatās, ko sakām, ko raida TV un, protams, ko šis jaunais skaļrunis uz kumodes. saka . mums.

Neskatoties uz to, Neskatoties uz tehnoloģiju nepilnībām un bažām par privātumu, pieaugot tādu ierīču kā Amazon Echo popularitātei, cilvēki sāk pierast pie domas mijiedarboties ar datoriem, izmantojot savu balsi..

Kā Verners Vogelss, Amazon CTO, norādīja savā AWS re:Invent sesijā 2017. gada beigās, tehnoloģija līdz šim ir ierobežojusi mūsu spēju mijiedarboties ar datoriem. Mēs ierakstām atslēgvārdus Google, izmantojot tastatūru, jo tas joprojām ir visizplatītākais un vienkāršākais veids, kā ievadīt informāciju mašīnā.

Vogels teica. -

lielais četrinieks

Izmantojot Google meklētāju telefonā, mēs, iespējams, jau sen pamanījām mikrofona zīmi ar aicinājumu runāt. Šis Google tagad (2), kas var diktēt meklēšanas vaicājumu, ievadīt ziņojumu ar balsi utt. Pēdējos gados Google, Apple un Amazon ir ievērojami uzlabojušies balss atpazīšanas tehnoloģija. Balss palīgi, piemēram, Alexa, Siri un Google Assistant, ne tikai ieraksta jūsu balsi, bet arī saprot, ko jūs viņiem sakāt, un atbild uz jautājumiem.

Google tagad ir pieejams bez maksas visiem Android lietotājiem. Lietojumprogramma var, piemēram, iestatīt modinātāju, pārbaudīt laika prognozi un pārbaudīt maršrutu Google kartēs. Google tagad stāvokļu sarunvalodas paplašinājums Google palīgs () – virtuāla palīdzība iekārtas lietotājam. Tas ir pieejams galvenokārt mobilajās un viedās mājas ierīcēs. Atšķirībā no pakalpojuma Google tagad, tas var piedalīties divvirzienu apmaiņā. Asistents debitēja 2016. gada maijā kā daļa no Google ziņojumapmaiņas lietotnes Allo, kā arī Google Home balss skaļrunī (3).

3. Google sākumlapa

IOS sistēmai ir arī savs virtuālais palīgs, Siri, kas ir programma, kas iekļauta Apple operētājsistēmās iOS, watchOS, tvOS homepod un macOS. Siri debitēja ar iOS 5 un iPhone 4s 2011. gada oktobrī konferencē Let's Talk iPhone.

Programmatūras pamatā ir sarunvalodas saskarne: tā atpazīst lietotāja dabisko runu (ar iOS 11 ir iespējams arī manuāli ievadīt komandas), atbild uz jautājumiem un izpilda uzdevumus. Pateicoties mašīnmācības ieviešanai, laika gaitā palīgs analizē personīgās izvēles lietotājam, lai sniegtu atbilstošākus rezultātus un ieteikumus. Siri nepieciešams pastāvīgs interneta pieslēgums – galvenie informācijas avoti šeit ir Bing un Wolfram Alpha. iOS 10 ieviesa atbalstu trešo pušu paplašinājumiem.

Vēl viens no četriem lielajiem Cortana. Tas ir inteliģents personīgais asistents, ko radījis Microsoft. Tas tiek atbalstīts operētājsistēmās Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android un iOS platformās. Cortana pirmo reizi tika prezentēts Microsoft Build izstrādātāju konferencē 2014. gada aprīlī Sanfrancisko. Programmas nosaukums cēlies no Halo spēļu sērijas varoņa vārda. Cortana ir pieejama angļu, itāļu, spāņu, franču, vācu, ķīniešu un japāņu valodā.

Jau minētās programmas lietotāji Alexa viņiem jāņem vērā arī valodas ierobežojumi – digitālais palīgs runā tikai angļu, vācu, franču un japāņu valodā.

Amazon Virtual Assistant pirmo reizi tika izmantots Amazon Lab126 izstrādātajos viedajos skaļruņos Amazon Echo un Amazon Echo Dot. Tas nodrošina balss mijiedarbību, mūzikas atskaņošanu, uzdevumu saraksta izveidi, modinātāja iestatījumu, aplādes straumēšanu, audiogrāmatu atskaņošanu un reāllaika laikapstākļu, satiksmes, sporta un citu ziņu informāciju, piemēram, ziņas (4). Alexa var vadīt vairākas viedierīces, lai izveidotu mājas automatizācijas sistēmu. To var arī izmantot, lai ērti iepirktos Amazon veikalā.

4. Kāpēc lietotāji izmanto atbalsi (saskaņā ar pētījumu)

Lietotāji var uzlabot Alexa pieredzi, instalējot Alexa "prasmes" (), trešo pušu izstrādātas papildu funkcijas, kuras citos iestatījumos biežāk dēvē par tādām lietotnēm kā laikapstākļi un audio programmas. Lielākā daļa Alexa ierīču ļauj aktivizēt virtuālo palīgu ar modināšanas paroli, ko sauc par .

Amazon noteikti dominē viedo skaļruņu tirgū šodien (5). IBM, kas 2018. gada martā ieviesa jaunu pakalpojumu, cenšas iekļūt labāko četriniekā Vatsona palīgs, paredzēts uzņēmumiem, kuri vēlas izveidot savas virtuālo palīgu sistēmas ar balss vadību. Kādas ir IBM risinājuma priekšrocības? Kā norāda uzņēmuma pārstāvji, pirmkārt, par daudz lielākām personalizācijas un privātuma aizsardzības iespējām.

Pirmkārt, Watson Assistant nav zīmola. Uzņēmumi šajā platformā var izveidot savus risinājumus un marķēt tos ar savu zīmolu.

Otrkārt, viņi var apmācīt savas palīgsistēmas, izmantojot savas datu kopas, kas, pēc IBM domām, atvieglo funkciju un komandu pievienošanu šai sistēmai nekā citas VUI (balss lietotāja interfeisa) tehnoloģijas.

Treškārt, Watson Assistant nesniedz IBM informāciju par lietotāju aktivitātēm – risinājumu izstrādātāji platformā var tikai paturēt sev vērtīgus datus. Tikmēr ikvienam, kas veido ierīces, piemēram, ar Alexa, ir jāapzinās, ka viņu vērtīgie dati nonāks Amazon.

Watson Assistant jau ir vairākas ieviešanas. Sistēmu izmantoja, piemēram, Harman, kas izveidoja balss asistentu konceptauto Maserati (6). Minhenes lidostā IBM palīgs darbina Pepper robotu, lai palīdzētu pasažieriem pārvietoties. Trešais piemērs ir Chameleon Technologies, kur viedās mājas skaitītājā tiek izmantota balss tehnoloģija.

6. Watson Assistant Maserati konceptauto

Ir vērts piebilst, ka pamatā esošā tehnoloģija arī nav jauna. Watson Assistant ietver šifrēšanas iespējas esošajiem IBM produktiem, Watson Conversation un Watson Virtual Agent, kā arī API valodu analīzei un tērzēšanai.

Amazon ir ne tikai viedo balss tehnoloģiju līderis, bet arī pārvērš to par tiešu biznesu. Tomēr daži uzņēmumi ir eksperimentējuši ar Echo integrāciju daudz agrāk. Sisense, uzņēmums BI un analītikas nozarē, 2016. gada jūlijā ieviesa Echo integrāciju. Savukārt startup Roxy nolēma izveidot savu programmatūru un aparatūru ar balss vadību viesmīlības nozarei. Šī gada sākumā Synqq ieviesa piezīmju veikšanas lietotni, kas izmanto balss un dabiskās valodas apstrādi, lai pievienotu piezīmes un kalendāra ierakstus, neievadot tos uz tastatūras.

Visiem šiem mazajiem uzņēmumiem ir augstas ambīcijas. Tomēr visvairāk viņi uzzināja, ka ne katrs lietotājs vēlas pārsūtīt savus datus uz Amazon, Google, Apple vai Microsoft, kas ir svarīgākie spēlētāji balss sakaru platformu veidošanā.

Amerikāņi vēlas pirkt

2016. gadā meklēšana ar balsi veidoja 20% no visiem Google mobilajiem meklējumiem. Cilvēki, kas ikdienā izmanto šo tehnoloģiju, kā vienu no lielākajām priekšrocībām min tās ērtības un vairākuzdevumu veikšanu. (piemēram, iespēja izmantot meklētājprogrammu, vadot automašīnu).

Visiongain analītiķi lēš, ka viedo digitālo palīgu pašreizējā tirgus vērtība ir 1,138 miljardi USD. Šādu mehānismu kļūst arvien vairāk. Pēc Gartnera teiktā, jau līdz 2018. gada beigām 30% no mūsu mijiedarbības ar tehnoloģijām, izmantojot sarunas ar balss sistēmām.

Britu pētījumu firma IHS Markit lēš, ka ar mākslīgo intelektu darbināmo digitālo palīgu tirgus līdz šī gada beigām sasniegs 4 miljardus ierīču, un līdz 2020. gadam šis skaits varētu pieaugt līdz 7 miljardiem.

Saskaņā ar eMarketer un VoiceLabs ziņojumiem 2017. gadā 35,6 miljoni amerikāņu izmantoja balss vadību vismaz reizi mēnesī. Tas nozīmē pieaugumu par gandrīz 130% salīdzinājumā ar iepriekšējo gadu. Paredzams, ka digitālo palīgu tirgus vien pieaugs par 2018% 23. gadā. Tas nozīmē, ka jūs tos jau izmantosit. 60,5 miljoni amerikāņu, kas radīs konkrētu naudu to ražotājiem. RBC Capital Markets lēš, ka Alexa saskarne līdz 2020. gadam Amazon radīs līdz pat 10 miljardu dolāru ieņēmumus.

Mazgāt, cept, tīrīt!

Balss saskarnes arvien drosmīgāk ienāk sadzīves tehnikas un plaša patēriņa elektronikas tirgos. To varēja redzēt jau pagājušā gada izstādē IFA 2017. Amerikāņu kompānija Neato Robotics prezentēja, piemēram, robotu putekļu sūcēju, kas savienojas ar kādu no vairākām viedās mājas platformām, tostarp Amazon Echo sistēmu. Sarunājoties ar viedo skaļruni Echo, varat uzdot iekārtai tīrīt visu māju noteiktos dienas vai nakts laikos.

Izstādē tika demonstrēti citi ar balsi aktivizējami produkti, sākot no viedtelevizoriem, ko ar Toshiba zīmolu pārdod Turcijas uzņēmums Vestel, līdz apsildāmām segām, ko piedāvā Vācijas uzņēmums Beurer. Daudzas no šīm elektroniskajām ierīcēm var aktivizēt arī attālināti, izmantojot viedtālruņus.

Tomēr, pēc Bosch pārstāvju domām, šobrīd ir pāragri spriest, kura no mājas palīga iespējām kļūs par dominējošo. Izstādē IFA 2017 Vācijas tehniskā grupa demonstrēja veļas mazgājamās mašīnas (7), cepeškrāsnis un kafijas automātus, kas savieno ar Echo. Bosch arī vēlas, lai tās ierīces nākotnē būtu saderīgas ar Google un Apple balss platformām.

7. Bosch veļas mašīna, kas savienojas ar Amazon Echo

Uzņēmumi, piemēram, Fujitsu, Sony un Panasonic, izstrādā savus balss palīgu risinājumus, kuru pamatā ir mākslīgais intelekts. Sharp pievieno šo tehnoloģiju krāsnīm un maziem robotiem, kas ienāk tirgū. Nippon Telegraph & Telephone pieņem darbā aparatūras un rotaļlietu ražotājus, lai pielāgotu ar balsi vadāmu mākslīgā intelekta sistēmu.

Vecā koncepcija. Vai beidzot ir pienācis viņas laiks?

Faktiski balss lietotāja interfeisa (VUI) jēdziens pastāv jau vairākus gadu desmitus. Ikviens, kurš skatījās Star Trek vai 2001: A Space Odyssey pirms gadiem, iespējams, gaidīja, ka ap 2000. gadu mēs visi vadīsim datorus ar savām balsīm. Turklāt šāda veida saskarnes potenciālu saskatīja ne tikai zinātniskās fantastikas rakstnieki. 1986. gadā Nielsen pētnieki IT profesionāļiem jautāja, kādas, viņuprāt, būtu lielākās izmaiņas lietotāju saskarnēs līdz 2000. gadam. Viņi visbiežāk norādīja uz balss saskarņu attīstību.

Ir pamats cerēt uz šādu risinājumu. Galu galā verbālā komunikācija cilvēkiem ir dabiskākais veids, kā apzināti apmainīties ar domām, tāpēc tās izmantošana cilvēka un mašīnas mijiedarbībai šķiet līdz šim labākais risinājums.

Viens no pirmajiem VUI, saukts kurpju kaste60. gadu sākumā izveidoja IBM. Tas bija mūsdienu balss atpazīšanas sistēmu priekštecis. Tomēr VUI ierīču attīstību ierobežoja skaitļošanas jaudas robežas. Cilvēka runas parsēšana un interpretācija reāllaikā prasa daudz pūļu, un bija vajadzīgi vairāk nekā piecdesmit gadi, lai nonāktu līdz vietai, kur tas faktiski kļuva iespējams.

Ierīces ar balss interfeisu sāka parādīties masveida ražošanā 90. gadu vidū, taču tās neieguva popularitāti. Pirmais telefons ar balss vadību (zvanīšanu) bija Philips Sparkizlaists 1996. gadā. Tomēr šī novatoriskā un ērti lietojamā ierīce nebija brīva no tehnoloģiskiem ierobežojumiem.

Tirgū regulāri nonāk citi tālruņi, kas aprīkoti ar balss interfeisa formām (ko radījuši tādi uzņēmumi kā RIM, Samsung vai Motorola), ļaujot lietotājiem sastādīt numuru ar balsi vai sūtīt īsziņas. Tie visi gan prasīja konkrētu komandu iegaumēšanu un izrunāšanu piespiedu, mākslīgā formā, kas pielāgota tā laika ierīču iespējām. Tas radīja lielu skaitu kļūdu, kas savukārt izraisīja lietotāju neapmierinātību.

Tomēr tagad mēs ieejam jaunā skaitļošanas laikmetā, kurā mašīnmācības un mākslīgā intelekta sasniegumi atraisa sarunas kā jaunu veidu mijiedarbības ar tehnoloģijām potenciālu (8). Ierīču skaits, kas atbalsta balss mijiedarbību, ir kļuvis par svarīgu faktoru, kam ir bijusi liela ietekme uz VUI attīstību. Mūsdienās gandrīz 1/3 pasaules iedzīvotāju jau pieder viedtālruņiem, kurus var izmantot šāda veida uzvedībai. Šķiet, ka lielākā daļa lietotāju beidzot ir gatavi pielāgot savas balss saskarnes.

8. Balss saskarnes attīstības mūsdienu vēsture

Tomēr, lai mēs varētu brīvi runāt ar datoru, kā to darīja A Space Odyssey varoņi, mums ir jāpārvar vairākas problēmas. Mašīnas joprojām ne pārāk labi spēj tikt galā ar valodas niansēm. Turklāt daudzi cilvēki joprojām jūtas neērti, dodot meklētājprogrammai balss komandas.

Statistika liecina, ka balss palīgus galvenokārt izmanto mājās vai tuvu draugu lokā. Neviens no aptaujātajiem neatzina, ka būtu izmantojis meklēšanu ar balsi publiskās vietās. Tomēr šī blokāde, visticamāk, izzudīs līdz ar šīs tehnoloģijas izplatību.

tehniski grūts jautājums

Problēma, ar ko saskaras sistēmas (ASR), ir noderīgu datu iegūšana no runas signāla un to saistīšana ar noteiktu vārdu, kam ir noteikta nozīme personai. Radītās skaņas katru reizi ir atšķirīgas.

Runas signāla mainīgums ir tā dabiskā īpašība, pateicoties kurai mēs, piemēram, atpazīstam akcentu vai intonāciju. Katram runas atpazīšanas sistēmas elementam ir noteikts uzdevums. Pamatojoties uz apstrādāto signālu un tā parametriem, tiek izveidots akustiskais modelis, kas tiek saistīts ar valodas modeli. Atpazīšanas sistēma var darboties, pamatojoties uz nelielu vai lielu skaitu modeļu, kas nosaka vārdu krājuma lielumu, ar kuru tā darbojas. Tās var būt mazās vārdnīcas sistēmām, kas atpazīst atsevišķus vārdus vai komandas, kā arī lielas datu bāzes satur valodas kopas ekvivalentu un ņemot vērā valodas modeli (gramatiku).

Problēmas, ar kurām vispirms saskaras balss saskarnes pareizi saprast runu, kurā, piemēram, bieži tiek izlaistas veselas gramatiskās secības, rodas valodas un fonētiskas kļūdas, kļūdas, izlaidumi, runas defekti, homonīmi, nepamatoti atkārtojumi utt.. Visām šīm ĀKK sistēmām jādarbojas ātri un droši. Vismaz tādas ir cerības.

Grūtību avots ir arī akustiskie signāli, kas nav atpazītā runa, kas nonāk atpazīšanas sistēmas ievadā, t.i. visu veidu traucējumi un troksnis. Vienkāršākajā gadījumā jums tie ir nepieciešami izfiltrēt. Šis uzdevums šķiet ikdienišķs un viegls – galu galā dažādi signāli tiek filtrēti un katrs elektronikas inženieris zina, kā rīkoties šādā situācijā. Tomēr tas ir jādara ļoti uzmanīgi un uzmanīgi, ja runas atpazīšanas rezultāts atbilst mūsu cerībām.

Pašlaik izmantotā filtrēšana ļauj kopā ar runas signālu noņemt ārējos trokšņus, ko uztver mikrofons, un paša runas signāla iekšējās īpašības, kas apgrūtina tā atpazīšanu. Tomēr daudz sarežģītāka tehniska problēma rodas, ja analizējamā runas signāla traucējumi ir ... cits runas signāls, tas ir, piemēram, skaļas diskusijas apkārt. Šis jautājums literatūrā ir pazīstams kā tā sauktais . Tas jau prasa izmantot sarežģītas metodes, t.s. dekonvolucija (atšķetināt) signālu.

Ar runas atpazīšanu saistītās problēmas ar to nebeidzas. Ir vērts saprast, ka runa nes daudz dažādu informācijas veidu. Cilvēka balss norāda uz īpašnieka dzimumu, vecumu, dažādiem raksturiem vai viņa veselības stāvokli. Ir plaša biomedicīnas inženierijas nodaļa, kas nodarbojas ar dažādu slimību diagnostiku, pamatojoties uz runas signālā sastopamajām raksturīgajām akustiskajām parādībām.

Ir arī lietojumprogrammas, kurās runas signāla akustiskās analīzes galvenais mērķis ir identificēt runātāju vai pārbaudīt, vai viņš ir tas, par ko viņš uzdodas (balss, nevis atslēga, parole vai PUK kods). Tas var būt svarīgi, jo īpaši viedajām ēku tehnoloģijām.

Runas atpazīšanas sistēmas pirmā sastāvdaļa ir mikrofons. Tomēr mikrofona uztvertais signāls parasti paliek maz noderīgs. Pētījumi liecina, ka skaņas viļņa forma un gaita ļoti atšķiras atkarībā no cilvēka, runas ātruma un daļēji arī sarunu biedra noskaņojuma – savukārt nelielā mērā tie atspoguļo pašu izrunāto komandu saturu.

Tāpēc signāls ir pareizi jāapstrādā. Mūsdienu akustika, fonētika un datorzinātne kopā nodrošina bagātīgu rīku komplektu, ko var izmantot, lai apstrādātu, analizētu, atpazītu un saprastu runas signālu. Signāla dinamiskais spektrs, t.s dinamiskās spektrogrammas. Tās ir diezgan viegli iegūt, un runu, kas attēlota dinamiskas spektrogrammas veidā, ir samērā viegli atpazīt, izmantojot metodes, kas ir līdzīgas tām, kuras izmanto attēlu atpazīšanā.

Vienkāršus runas elementus (piemēram, komandas) var atpazīt pēc veselu spektrogrammu vienkāršas līdzības. Piemēram, mobilā tālruņa ar balsi aktivizējama vārdnīca satur tikai dažus desmitus līdz dažus simtus vārdu un frāžu, kas parasti ir iepriekš sakrautas, lai tās varētu viegli un efektīvi identificēt. Tas ir pietiekami vienkāršiem kontroles uzdevumiem, taču tas ievērojami ierobežo vispārējo pielietojumu. Sistēmas, kas izveidotas saskaņā ar shēmu, parasti atbalsta tikai konkrētus skaļruņus, kuriem balsis ir īpaši apmācītas. Tātad, ja ir kāds jauns, kurš vēlas izmantot savu balsi, lai kontrolētu sistēmu, viņš, visticamāk, netiks pieņemts.

Šīs operācijas rezultāts tiek saukts spektrogramma 2-W, tas ir, divdimensiju spektrs. Šajā blokā ir vēl viena aktivitāte, kurai ir vērts pievērst uzmanību - segmentācija. Vispārīgi runājot, mēs runājam par nepārtraukta runas signāla sadalīšanu daļās, kuras var atpazīt atsevišķi. Tikai no šīm individuālajām diagnozēm tiek atpazīts veselums. Šī procedūra ir nepieciešama, jo nav iespējams vienā piegājienā noteikt garu un sarežģītu runu. Par to, kurus segmentus atšķirt runas signālā, jau ir rakstīti veseli sējumi, tāpēc mēs tagad neizlemsim, vai atšķirtajiem segmentiem jābūt fonēmām (skaņas ekvivalentiem), zilbēm vai varbūt alofoniem.

Automātiskās atpazīšanas process vienmēr attiecas uz dažām objektu iezīmēm. Runas signālam ir pārbaudīti simtiem dažādu parametru kopu.Runas signālam ir sadalīts atpazītos rāmjos un kam atlasītās funkcijaskurā šie kadri tiek parādīti atpazīšanas procesā, mēs varam veikt (katram kadram atsevišķi) klasifikācija, t.i. piešķirot kadram identifikatoru, kas to attēlos nākotnē.

Nākamais posms rāmju salikšana atsevišķos vārdos - visbiežāk balstās uz t.s. implicīto Markova modeļu modelis (HMM-). Tad nāk vārdu montāža pilni teikumi.

Tagad uz brīdi varam atgriezties pie Alexa sistēmas. Viņa piemērs parāda daudzpakāpju cilvēka mašīnas "izpratnes" procesu – precīzāk: viņa doto komandu vai uzdoto jautājumu.

Vārdu izpratne, nozīmes izpratne un lietotāja nodomu izpratne ir pilnīgi atšķirīgas lietas.

Tāpēc nākamais solis ir darbs ar NLP moduli (), kura uzdevums ir lietotāja nodomu atpazīšana, t.i. pavēles/jautājuma nozīme kontekstā, kurā tas tika izteikts. Ja nolūks ir identificēts, tad tā saukto prasmju un iemaņu piešķiršana, t.i., īpašā funkcija, ko atbalsta viedais palīgs. Jautājuma par laikapstākļiem gadījumā tiek izsaukti laikapstākļu datu avoti, kas vēl ir jāpārstrādā runā (TTS - mehānisms). Rezultātā lietotājs dzird atbildi uz uzdoto jautājumu.

Balss? Grafika? Vai varbūt abi?

Lielākā daļa zināmo mūsdienu mijiedarbības sistēmu ir balstītas uz starpnieku, ko sauc grafiskais lietotāja interfeiss (grafiskais interfeiss). Diemžēl GUI nav acīmredzamākais veids, kā mijiedarboties ar digitālo produktu. Tas nozīmē, ka lietotājiem vispirms jāiemācās izmantot saskarni un jāatceras šī informācija katrā nākamajā mijiedarbībā. Daudzās situācijās balss ir daudz ērtāka, jo jūs varat mijiedarboties ar VUI, vienkārši runājot ar ierīci. Saskarne, kas neliek lietotājiem iegaumēt un iegaumēt noteiktas komandas vai mijiedarbības metodes, rada mazāk problēmu.

Protams, VUI paplašināšana nenozīmē atteikšanos no tradicionālākām saskarnēm – drīzāk būs pieejamas hibrīda saskarnes, kas apvienos vairākus mijiedarbības veidus.

Balss saskarne nav piemērota visiem uzdevumiem mobilajā kontekstā. Ar to mēs piezvanīsim draugam, kurš brauc ar automašīnu, un pat nosūtīsim viņam SMS, taču pēdējo pārskaitījumu pārbaude var būt pārāk sarežģīta - sistēmai pārsūtītās () un sistēmas (sistēmas) ģenerētās informācijas apjoma dēļ. Kā savā grāmatā Mobile Frontier iesaka Reičela Hinmane, VUI izmantošana kļūst visefektīvākā, veicot uzdevumus, kuros ievades un izvades informācijas apjoms ir mazs.

Viedtālrunis, kas savienots ar internetu, ir ērts, bet arī neērts (9). Katru reizi, kad lietotājs vēlas kaut ko iegādāties vai izmantot jaunu pakalpojumu, viņam ir jālejupielādē cita lietotne un jāizveido jauns konts. Šeit ir izveidots balss saskarņu izmantošanas un izstrādes lauks. Tā vietā, lai piespiestu lietotājus instalēt daudzas dažādas lietotnes vai izveidot atsevišķus kontus katram pakalpojumam, eksperti saka, ka VUI pārliks šo apgrūtinošo uzdevumu slogu uz AI darbināmu balss palīgu. Viņam būs ērti veikt smagas darbības. Mēs viņam dosim tikai pavēles.

9. Balss interfeiss, izmantojot viedtālruni

Mūsdienās internetam ir pievienots ne tikai tālrunis un dators. Tīklam ir pievienoti arī viedie termostati, gaismas, tējkannas un daudzas citas ar IoT integrētas ierīces (10). Tādējādi mums visapkārt ir bezvadu ierīces, kas piepilda mūsu dzīvi, taču ne visas no tām dabiski iekļaujas grafiskajā lietotāja saskarnē. Izmantojot VUI, varēsiet tos viegli integrēt mūsu vidē.

10. Balss saskarne ar lietu internetu

Balss lietotāja interfeisa izveide drīz kļūs par galveno dizainera prasmi. Tā ir reāla problēma – nepieciešamība ieviest balss sistēmas mudinās vairāk pievērsties proaktīvajam dizainam, tas ir, cenšoties izprast lietotāja sākotnējos nodomus, paredzot viņa vajadzības un gaidas katrā sarunas posmā.

Balss ir efektīvs datu ievadīšanas veids — tas ļauj lietotājiem ātri izdot komandas sistēmai atbilstoši saviem noteikumiem. No otras puses, ekrāns nodrošina efektīvu informācijas attēlošanas veidu: tas ļauj sistēmām vienlaikus parādīt lielu informācijas daudzumu, samazinot lietotāja atmiņas slodzi. Loģiski, ka to apvienošana vienā sistēmā izklausās iepriecinoši.

Viedie skaļruņi, piemēram, Amazon Echo un Google Home, vispār nepiedāvā vizuālu displeju. Ievērojami uzlabojot balss atpazīšanas precizitāti mērenos attālumos, tie ļauj darboties brīvroku režīmā, kas savukārt palielina to elastību un efektivitāti – tie ir vēlami pat lietotājiem, kuriem jau ir viedtālruņi ar balss vadību. Tomēr ekrāna trūkums ir milzīgs ierobežojums.

Lai informētu lietotājus par iespējamām komandām, var izmantot tikai pīkstienus, un izvades skaļuma nolasīšana kļūst apnicīga, izņemot visvienkāršākos uzdevumus. Taimera iestatīšana ar balss komandu gatavošanas laikā ir lieliski, taču nav nepieciešams jautāt, cik daudz laika ir atlicis. Regulāras laikapstākļu prognozes iegūšana kļūst par atmiņas pārbaudi lietotājam, kuram visas nedēļas garumā ir jāuzklausa un jāapgūst virkne faktu, nevis uzreiz jāatlasa tie no ekrāna.

Dizaineri to jau ir izdarījuši hibrīds risinājums, Echo Show (11), kas pievienoja displeja ekrānu pamata viedajam Echo skaļrunim. Tas ievērojami paplašina aprīkojuma funkcionalitāti. Tomēr Echo Show joprojām ir daudz mazāk spējīgs veikt pamatfunkcijas, kas jau sen ir pieejamas viedtālruņos un planšetdatoros. Tas (vēl) nevar sērfot tīmeklī, rādīt pārskatus vai, piemēram, Amazon iepirkumu groza saturu.

Vizuāls displejs pēc būtības ir efektīvāks veids, kā nodrošināt cilvēkiem daudz informācijas, nevis tikai skaņu. Projektēšana ar balss prioritāti var ievērojami uzlabot mijiedarbību ar balsi, taču ilgtermiņā patvaļīga vizuālās izvēlnes neizmantošana mijiedarbības labad būs kā cīņa ar vienu aiz muguras sasietu roku. Tā kā visaptverošās viedās balss un displeja saskarnes ir ļoti sarežģītas, izstrādātājiem ir nopietni jāapsver hibrīda pieeja saskarnēm.

Runas ģenerēšanas un atpazīšanas sistēmu efektivitātes un ātruma palielināšana ir devusi iespēju tās izmantot tādās lietojumprogrammās un jomās kā, piemēram:

• militārie (balss komandas lidmašīnās vai helikopteros, piemēram, F16 VISTA),

• automātiska teksta transkripcija (runa tekstā),

• interaktīvās informācijas sistēmas (Prime Speech, balss portāli),

• mobilās ierīces (tālruņi, viedtālruņi, planšetdatori),

• robotika (Cleverbot — ASR sistēmas apvienojumā ar mākslīgo intelektu),

• automobiļu rūpniecība (automobiļu sastāvdaļu, piemēram, Blue & Me, brīvroku vadība),

• mājas lietojumprogrammas (viedās mājas sistēmas).

Uzmanies no drošības!

Automobiļi, sadzīves tehnika, apkures/dzesēšanas un mājas drošības sistēmas, kā arī daudzas sadzīves tehnikas sāk izmantot balss saskarnes, kas bieži vien ir balstītas uz AI. Šajā posmā dati, kas iegūti no miljoniem sarunu ar mašīnām, tiek nosūtīti uz skaitļošanas mākoņi. Skaidrs, ka tirgotāji par tiem interesējas. Un ne tikai viņi.

Nesenajā Symantec drošības ekspertu ziņojumā ieteikts balss komandu lietotājiem nekontrolēt drošības līdzekļus, piemēram, durvju slēdzenes, nemaz nerunājot par mājas drošības sistēmām. Tas pats attiecas uz paroļu vai konfidenciālas informācijas glabāšanu. Mākslīgā intelekta un viedo produktu drošība vēl nav pietiekami pētīta.

Kad ierīces visā mājā klausās katru vārdu, sistēmas uzlaušanas un ļaunprātīgas izmantošanas risks kļūst par ārkārtīgi svarīgu problēmu. Ja uzbrucējs iegūst piekļuvi lokālajam tīklam vai ar to saistītajām e-pasta adresēm, viedierīces iestatījumus var mainīt vai atiestatīt uz rūpnīcas iestatījumiem, kā rezultātā tiek zaudēta vērtīga informācija un tiek dzēsta lietotāju vēsture.

Citiem vārdiem sakot, drošības speciālisti baidās, ka balss un VUI vadītais mākslīgais intelekts vēl nav pietiekami gudrs, lai pasargātu mūs no iespējamiem draudiem un turētu muti ciet, kad svešinieks kaut ko jautā.