no a se bavili o kódování že jo pokud se nemýlím

a když ste skončili a se na ten na tom slajdu že

se probrali to a tak pro chování se

a teďka vlastně a no tady nazývá jenom jeden slajd _e o to se nebavili

že

jo takže fajn a nazývá jenom říct _e jaké jsou varianty toho vektoru a kvantování

jo my když vlastně máme a _e třeba nějaké N dimenzionální data

a chceme _m pro ty dát _e vlastně najít ty naše nějaké centroidy

vektory na které budeme kvantovat data ležící blízko ni

tak _e to může být docela neefektivní z hlediska

počtu jich operaci jo

takže ní buď můžeme třeba ten velký vektor rozdělit na tři části a ty tři

části zakódovat zvláště tomate napsaná v tom bodě jedna

vzbuď _e nebo z vymyslet jako kdyby nějakou mřížku

nějakém

a transformován prostoru jo ale ta _e ta mřížka potulný vlastně nám vyjde

jakém sem jako nějakým tom prostoru

bude mít

jednu strukturu o tom v našem původně prostoru druhou strukturu ale v podstatě díme kde

se ty bude nacházej

jo takže potom když vlastně bude na porovnávat

_e jednotlivé vektory jak blízko leží nějakých nějakým centroidu _m tak v podstatě nemusím napočítat

pro každý vektor Á pro každý kontroly zvlášť jo

_e ten náhodný codebook to vlastně funguje tak že mi když máme

strašně moc data potom ty data se chovají jaku náhodná dat jo potom ty zvuky

nejsou tak dobře třeba vidět a když vybereme ty a

centroidem šum nemůže říkat sestrojeny ale ten ty kvantová vektory kvantování

tak potom v podstatě úplně jedno jaké zvolíme jo

a další úvod toho je když my vlastně děláme to rozdělování prostoru

pomoc algoritmu L P G

tak a jestli si pamatujete my sme měli

nějaké třeba dva zvuky dát

jo a potom na inicializujeme

jeden ten zdroj jo podíváme se a

vlastně jak sou u _e jak jsou rozmístěna ve kterých prostoru

a potom ten centrum _e vzhledem k nějakému určitým největším směrům chtěl datech me rozdělíme

na dvě části

jo a potom začneme posouvat jeden směrem sem a druhým směrem

tam jo když takové zvuku máme více a máme už je z těch centroidu tak

my uděláme

jako kdyby ty a centroidy když rozdělujeme

tak uděláme takovej stromeček

jo stromeček všichni znáte

a už potom a míříme když vlastně tady už budeme dělat další rozdělování tak my

víme že pro tady tydlety data

jenom uděláme počet _e tady tydlety data vlastně služ oni na odpovídá jako kdy B

a A

rodičů těch dalších centroidy jo takže tam už nemůžeme zase nemusíme nic spočítáte a

uděláme míň operaci

no a kdy sme zakódování vlastně udělali tu kvantování a dost kvalitní tak

i uděláme kvantování na dvou úrovně všeho budeme kvantovací tu chybu kterou potom přičtem a

silné

máte k tomu nějaké otázky

je to jasné fajn

tak teďka se budeme vlastně bavit o do další časy

budeme se teďka bavit o tom

jak se top

kódování

používá práci

jste se zatím bavili a obchodování z hlediska

a operace pokud se nemýlím jo takže vy ste

vlastně a

do těch koeficientů nějak zakódování

impulsní odezvu Ú artikulačního traktu

jo

ale moc ste se nebavili o tom já budete přenášet anebo co budete dělat a

z buzením že jo

užijte jak sada

vlastně spočítat

základní no perioda základního tou může jo takže buď můžete

přenést na druhou stranu jenom toto číslo a potom nějaký ten dějin a vygenerovat toho

sekvence impulsů mění ta sekvence impulsů bude

prostě taková nějaká eska

ale vy víte že

_e my když mluvíme tak me skoro nikdy negenerujeme tak pěknou sekvence impulsů lené že

prostě profesionální zpěváci jo

ale většinou tam je teda vždycky tam je Í nějaký šum jo

takže by teoreticky to mělo vypadat mě a prostě

takhle jo

když tam přidáme šum tak bude to vlastně hezčí

jako kdyby

no a dneska se bude mám pálit

trochu tatí o tom

jak může má efektivně zakódovat takovej signál jo totiž na jedné straně rozdělíme řeč

nabuzení a odezvu a potom na druhé straně budeme dělat v podstatě sem té

vy ste se už setkání s dlouhodobým prediktorem jestli se nemýlím že jo ušité se

o tom na nějaké přednášky snad

na nějaké přednášce s nadvlády ten krátkodobě prediktor funguje tak že mi když chceme určit

tady tenhleten vzoreček nepoužijeme většinou deset

předchozí vzor

jo

my vtom hledáme nějaké krátkodobé závislosti

tečkami ten dlouhodobý prediktor budem a aplikovat na nářečí ale budeme aplikovat nabuzení jo

budeme se snažit vlastně

odhadnout

tenhleten vzoreček

toho tomto

jo odpovídá je sou vzorku vzdálenost

vlastně zpožděno ho o jeden lock

jo

_e

když mít teďká postavíme ten

dlouhodobý prediktor

a budeme

tenleten signál

a _e

s tím šuman teda to co mi generuje mahler dle hlasy zklamán

tak mí se budeme snažit ho s ilustrovat tímhletím signálem co si myslíte že poleze

na výstup i teďka se snažíme odfiltrovat dlouhodobou závislost a ta dlouhodobé závislost osum zrovna

tady tydlety impulzy

jo to je

to je závislost mezi vzorky vzdálené my o jeden nula

takže když

budeme todleto filtrovat zase nám na výstup chvíle za nějak a šíp váš osetí chyba

druhého řádu protože je love té analýze a se otec a my sme tady tenhleten

signál považováni za chybový signál jo

pamatujete se to

jak to fungovalo my sme se snažili posta je takový filtr

kterýmu když dáme na vstup nějakou řeč

tak potom dělené něco takovýho

jo

na tenhleten signál mi zase budeme aplikovat dlouhodobý prediktor

který se bude zná je dbali

dlouhodobě závislosti

takže to bude běžících papíry cizího ten jo co to znamená N V licenční zde

zruš

třeba tušíte

ročně jakých filtr se možná může nazývat P říci

tak to co leze

to co daná výstupy by mělo být něco bílé o to že jo

a my sme z řekne že to bude nějaké šum jo to bude chyba nějaký

šum a bude to bílý šum bílý šum je takový šum který má

rovnoměrné spektrum

jo když se podíváte na jeho spektrum tak by to mělo vypadat takhle nějak

všechny frekvence sou zastoupené

vlastně _e

stejně

jo

potom se bude nabalit chvilku o analýze syntézou

to znamená že a me

na tu

a pak řeší routerů budeme se snažit

dát s nějaký signál který by měl vypadat jako

sekvence impulsů jo a jestli výsledná řeči je hezká tak

sme to našli

jo takže budeme se snažit vlastně

syntetizovat řeč

a pokud se nám podaří najít

nějaký takový

hezky signál tak

to je ono

perceptuální C filtr

_e možná ste se už setkat setkali třeba v grafice nebo

eště možná někde _e maskováním

jo nebo měli se nějaký multimédia asi že jo předmětu už měli

teďka máte _e nebavili se tam třeba o maskování

jo to maskování může být vizuálně anebo jako že

toto slyším v podstatě když

hraje něco

na nějaké určité frekvence hlasitě jo tak ono potomstvo toku jim a bude když bysme

třeba měli

teďka se namalujeme nějaké spektrum

a tady bude L hrát

na nějaké určité frekvence velmi hlasy ty

zvuk

jo

ani když tam přidáme

eště něco takovýho tak mi to prostě neuslyšíme

tam existuje nějaký vzoreček já nevím co

a ono to vypadá vlastně takže ste tom trojúhelníčku potom

jo všechno co je menší než ten trojúhelník tak to prostě neslyším

takhle třeba funguje i ta M P trojka že jo prostě my se snažíme tam

zakódovat my se snažíme zachovat jenom tu informaci kterou my je dokážeme třeba jo když

to neslyšíme tak nemám

cenu to přenášet

to some money budeme dělat

vlastně s chybou

jo

když se podíváme na spektrum

řeči

tak tam si pamatuje tam máme takové

ty kopečky že o ty formanty

jo

a když my vlastně teďka tam taky namalujeme spektrum nějaké té chyby

třeba

pak byla to červené class takto naše že by to bude ten bílý šum

jo tak

a prosím vás zkuste měřit co umí uslyšíme co nám bude vadit a to nám

vadit nebude

když pro takové konkrétní

_e rámeček

řeči

i portály má krátkodobý prediktor dlouhodobý prediktor a dostaneme nějakou chybu co že ta červená

čára

jo tak byste měli být schopni teďka

vtom vidět že ta práva čas

todleto tu chybu mitaf podstatě neuslyším

jo

ale tady nám začne vadit na těch vysoký frekvence protože

_e je amplituda vlastně

na tady těhletěch frekvence chytřejší jo

ta ono

potom se podíváme na nějaké konkrétní a

konkrétním úplné

filtry anebo enkou nejspíš

podíváme se na schemas osumnáct jsem to pochopit

mínus todleto sme si

sme si řekli

todleto sme si řekli tady _e taky ale zkusme to za pakovat opakovat todleto je

vlastně naše řeč

jo todleto je naše řeč a ten _e

a u pece todleto je rámeček řeči a auta C vlastně

se snaží odstranit tady tyhlety vzorky jo

to víte a potom vlastně se budeme snažit odstraníte tady todleto necháme v podstatě jenom

tady tenhleten

šum to ztracen šestnácti řekli

a teďka schéma

ano našeho inkou druhá nebo ten náš postup už bude vypadat zase pak takle známý

dvě krabičky vždycky _e Z a potom bude následovat od vezena až potom budeme dělat

kvantování chyby

no

a kvantování

_e zatím jenom tady

zůstaneme

poďme se podívat na a na adresu

syntézou

takže jak to jak to funguje byste mění chápat tady tam net tady todleto schéma

s matkou my máme nějakou

jo měla na tady nějakou řeč

jo

potom todleto bude ten náš perceptuální filtr to na to se zatím nebudeme se zaměřovala

my budeme se podívat sem

kdyby rené nějak _e nějak nějaké to buzení a pokusíme se vygenerovat zase řeč jo

pokud

ta chyba

je malá tak to je ono jo co sme chtěli

takže mě když třeba tady

podíváme se tady bude na nic

třeba

sto možnosti jo X nějak těch možnosti tak podstatě tedy ten cyklus musela zopakovat

oni krát jo i brát to nejlepší co

a buď to nejlepší co tam je a nebo to co nám prostě vyhovuje zatím

měl založit záleží na

nějaké to objektivní funkci

fajn _e co se má moc nelíbí je zrovna tady tenhleten perceptuální filtr

jo který bude jaksi maskovat tu naši sít naše naší chybu

a mít ten filtr budeme chtít nejspíš

prostě přesunout sem

_e nějak ho zkombinovat jisté tímhletím filt říkám potom jo abysme ten filtr vlastně nepoužívá

je sto krát tak vlastně tady se použije jedno no a tady těch prostě stokrát

ale už tam bude zakomponovány toho áčka takže

takže to je po vodě

_e takže vlastně co my budeme chtít já s tím perceptuálním filtrem když se podíváme

na tu z řeči zase tady máme řeči a šípu

jeho řeči to modré

až chyba vlastně ta zelená

takže nám vy vůbec nevadilo teoretický kdyby ta chyba prostí vypadá ale třeba

kdyby zopakovat úvěr

té řeči

jo kdybysme měli takovou chybu tak

tak to je prostě lepšího no

jo

tohleto je zatím ten náš perceptuální filtr tři k

co když

vypadá jako

inverzní filtr které řeči

jo teda ne inverzní filtr ale prostě má to

spektrum které inverzní spektru řeči

ani tečkách vlastně budeme chtít a B a _e

spektrum té naší chybí

vypadalo tadle

akorát aby to mělo menší amplitudy

jo

aby to prostě _m nebylo přesně

úplně po spektrum řeči

nikam perceptuální si okřik tečka nadefinujeme

nijak takle

kde vpodstatě zdůvodníme tomu káma

_e dost

jako teda nedost nízké ale prostě nižší jedničku

což znamená že vlastně

kuli toho áčka o ní se jako kdyby

stáhnou

tak si pamatujete ty jednocyklová jednotkovou kružnici a souvisí utrum

jo

jak se to počítá tak

mně to mám na obrázku mistrům za chvilku

_e za chvilku řečeno řekne moc o tom co to je takže v podstatě tadleta

mstil tři k nám zatím abysme věděli

bude definovat

něco co vypadá

co bude nic spektrum velmi podobné spektrum řeči abysme doklady velmi hezky udělat to maskování

tak _e

jo takže tady vlastně máme jenom znázorněna toto sem napsal i na tom předchozím slajdu

zase máme a

to ve V Z hezky tady a tady ta zelené čára zase nám říká svoje

a nám udává frekvenční charakteristiku toho filtru o jedna děleno

A Z _e děleno

gama

a zatímco ještě tady můžu vám říct o osuš

tady máme to jednotkovou kružnici

jo mně když se podíváme na půli toho filtru jedna děleno A Z

tak to sou tady tydlety co jsou blízko

že ta kružnice

a potom když ještě vynásobíme zetko tou dámou tak ono vlastně se nám posune

posune do středu to znamená že vlastně ty kopečky

potom u té frekvenční charakteristiky vlastně nebo tak vysoká

_e pamatujete si

jak vlastně jak když máte takovou kružnici

přibližně nakreslit

a frekvenční charakteristiku filtru

když tak

takže vám tady todleto nic neříká fajn to je velmi jednoduché jo vlastně ta frekvence

je určena

pohybem po tady tadleta kružnice že jo takže se namalujeme

tady todleto

teďka pro nějakou určitou frekvenci tady budeme chtít spočítat hodnotu

jo takže budeme hezky po tady té kružnice najdeme to vod ono to tady

jo potom se spočítáme

vzdálenosti kempu

že

jo

prostě je spočítáme

přečteme si je

no a potom záznam a jedničku a tím

bysme měli

to asi podělit ale když je to menší než

ne vlastně gilotin tím my sme to měli podělit jo

takže potom tady najdeme nějakou hodnotu no a pokračujeme dále a vlastně takovým způsobem

_e _m bude nám vlastně dělit o jedničku sumu vzdálenosti po otci nějaké určité frekvence

kdyby jsme měli tam eště nuly tak potom těma nohama ještě musíme to vynásobit jo

víte to

dobře

no a proč teda vlastně

když pro _e ty

modré křížky

teda který odpovídá je tomu filtru jedna dělo na _e Z ni když máme ty

kopce takhle nejsou Q

proč pro ten filtr druhý mě máme ty kopce nižší vlastně

jo proč když vlastně pole jestli tomu rozumíte jo tomu postupu velkých chtěli

proč když ty póly posuneme vlastně a

když k té nule

tomu středu kružnice dat proč potom ty kopečky

vlastně spádům

pochopili se co sem říkal X to počítá jo

protože ta vzdálenost přece jen prostě sezdáni čili

fajn to

je teďka vám vůbec nemůžu říct pro oč

ale toto byste se měli zeptat docent řádky a spíš ale

vlastně to kódování buzení me dělám F kráči schránce námětu vůbec nedělám takže

takže proto za nejím a ono se to dělá s kratších rámcích jo

takže _e běžně cvičný používáme rámce

dvacet milisekund seš odpovídá sto šedesáti vzorku pinů pro těch osum tisíc hertz

jo tak to buzení budeme i dělat vlastně s kratších rámci

jak tomu teda moc nerozumím protože i pro mě osobně je to takový trošku divný

protože vy když se

bavili o

odhadu ten

a základní frekvence nějaké

tak tam se říkalo že je třeba

když někdo má

nízkou frekvence ji měl zejména muži

tak vlastně

on ten vás může někdy V těch sto šedesát vzorku že

pamatujete se to

takže i když se nějak nadefinovány že

ty frekvence sou tak nějak úvod padesáti a čtyři tak her jo což znamená že

potom ten svátky a asi takto šedesát a šel nevím kolik

lace

dvacet vzorků pro o tady tudletu konkrétní vzorkovací frekvence že jo

a teďka my budeme chtít

no jasně ono to a se to kódování bod _e těch krátkých ale to ten

odhad se celistvý děláme tím dlouhý a nechci vás má stále rodiče se zeptejte potom

pán sent černocký

nejsou nezeptá při jsem neviděl

a teďka tadle bude vypadat

ten kodér

jo

jak vidíte

tady bude a na nic

stup tady bude řeč

jo

a tady potom polezou nějaké typu asistenti fiktivní chceme počítat ten ty procesy něco si

myslíte že by to mohlo být když co nám vleze vlastně

když to nahráváme jo může přes telefon uděláme nějaký ten tři procesy tak to je

velmi jednoduché to jenom nerozdělíme ten signál na rámce

jo to abyste věděli

teďka prosím vás si nepleťte takové věci jak u _e ze a jedno děleno a

se

jo

protože tady

tady a my děláme analýzu

což znamená dní po stáním _e

filtry inverzní tlumů auta tečou to že jo abys mají jenom

si už

byli jistě že ten filtr funguje dobře abysme dokázali spočítat kouřit centy filtru správně

jo

takže uděláme analýzu uděláme filtrování

fajn

tady vlastně dostaneme ty _e

a vůbec M

pozice entit

_e deme dalo

co bysme mohli dostat vlastně tady

prosím vás jako výstup

tohoto filtru

když to je inverzní filtr tomu L T C filtru a pece filtr hledá koeficienty

proto řeče

takže tady by měl vylézt nějaký ten chybový signál že jo

a ten chybový signál prosím vás tady setrvávali o dvou chybových se k nám jo

takže tenleten chybový signál je co

jak bude vypadat

tak jsem zatímco udělání krátkodobou analýzu odstranili jsme krátkodobé závislosti jo takže nám zbyly dlouhodobé

no takže tadyto vylezem

něco jako tohle že

jo

fajn no a teďka na to budeme

chtít aplikovat

ten dlouhodobý prediktor

jo

takže my vlastně najdeme parametry toho filtru což by mohlo být to

za prvé potřeba vědět co je ten vlak a za druhé nějaký koeficient který bude

násobit

vlastně zpožděny vzorek že

no a uděláme zase filtraci začátku analýzu potom filtraci

a tady vlastně by nám mění alou šíle jestli se nemýlím

nějaký ten

bílý šum

fajn

tady jí bysme měli mít kvantová celý chybový signál

a tady bysme mění dostat

asi

lock

si myslím

fajn _e je to jasné teďka

dobře

tak co tady máme tady jenom jednu scene tu K kódování buzení

a to tak že vlastně a _e míse zakódujeme první vzoreček

a potom jenom uděláme tu adaptivním pulzní kódovou modulaci jestli se nemýlím takhle se tomu

říká že

_e pamatujete si co bylo princip zapnete adaptivní pulsní podle modulaci

tam jestli se nemýlím se pudu jo síly přímo

že jo

já tam se kódovala vlastně chyba

nějaká

jo vy se zakóduje tak první vzorek a potom jenom ne to byla reziduálního

že se

v tom

ne si myslím že to by mohlo být

ono

no a dekodéru užší vypadá zase jednoduše o něco

že v podstatě vezmeme to nám přišlo a sto všeho vygenerujeme

řeč

jo to je

to je docela jasné ta žil uděláme filtry který sou

inverzní

těm který jsme aplikování F částí N code jo

ten postprocessingu tady by mohlo být

zaprvé

spojování jednotlivě chrám jsou

a za druhé eště jel může by tam nějaké vyhlazení jo protože

přece jen nějaký rozdíl mezi dvěma _e rámci bude

a když tam nebylo nějaké takovéto trhání nebo vloupání k tomu říkat

tak _e

tak se to prostě když mládí

no něco takovýho si myslím že sme push

užší viděli

akorát s jedním rozdílem tak dívám že

_e

jak sadismem úměrný

nějaké

kódování

která _e

toho buzení a ale teďka nebudem ani

zase

nějaký

koutků k ale _m

ale to jsme se už všechno asi

řeknu

jako dat nechápu proč to mám

nadvakrát

_e

co nás bude teďka zajímat my vlastně a když _e ten perceptuální filtr

mýho přehodíme sem _e taky sem

tak potom se to bude zapisovat

trošku jinak místo toho áčka teďka máma a hvězdička

a teďka už to nebude a po něm

přesně _e

ten a o pece jak sme sáního zvykli že ten si pamatuje vlastně jenom předchozích

deset vzorků

jo

ale tendleten filtr bude mít

delší impulsní ode

ani se budeme chtít podívat na nějaké

vzorečky

trošičku je to takové _m

zmatené kromě aspoň

my se to budeme snažit oddělit

my se budeme

teďka snažit vlastně tu impulsní odezvu hatí rozdělit na dvě části

která odpovídá a k tomu

čeho my počítáme současný vzorek

a něco co se tam objevilo dětí tomu perceptuální filtrů

poněvadž starší ba by měla být vlastně teďka

nějaká bývá tak _e

tadleta část se dá spočítat

jenom jednou

a potom budeme pracovat

nadále uvažovat jenom tuhletu část

a co eště tady

já se obávám sionistům asi neřeknu

protože

jsem to nikdy samo nedělá

a já si myslím že já nejspíše radši poprosím pana docenta černockého aby vám to

vysvětlil

když tak on

jo že se to poznamenám

ale slovní teďka můžeme dělá smí teďka se ještě radši podíváme na

rozpoznávání řeči

jo

sestav ponesete že

no sem

takže po rozpoznávání řeči jste se bavili teďká jenom takhle hodně omezeně těch nějakých příkladech

něco mám pan docent černocký řekl zmínil se

a teďka budeme se chtít podívat na jednom etudu

ten _e se v podstatě nepoužívá jo protože _e mít teďka používáme metody které jsou

komplexnější jo ale je to velmi dobrý základ o pochopit abyste si uvědomili vlastně ste

své hladině

_e jak byste to dělají sami jo abyste se

pro pěti vlastně

jo cítili sem to do té úlohy

takže jel

úplně na té první přednášce jste si říkali že

rozpoznávání řeči se může

rozdělit na tři nějakého

úlohy

jo

za prvé se můžou rozpoznávat izolovaná slova že

to je prostě třeba _e animistů dřevo a tak dále jo prostě slovo máme pauzu

slovo ptal na

potom a se můžou rozpoznávat

u jedné slova

kde ní máme

jako kdyby omezeny nějaký slovník ale ty slova můžou být za sebou třeba

nějaké

číslice číslovky

čísla

jo

prostě řeknete jedna dva tři když třeba

se snažit no se snažit _e zadá to číslo tím hlasem jeho do telefonu tak

to je ono

to první toho sou vlastně ty s marchal se s některé jo a nebo prostě

třeba nějakých počítačových hrách se to může obdivovat já nevím jestli to se objevuje a

nebo je to jenom

X Y imaginární a

záležitost

a potom nejtěžší co se může

udělá tak to je rozpoznávání řeči spojené řeči s velkým slovníkem

jo

teďka ni můžeme si říct že a ta řeč bude odpovídat nějaké určitě určité doméně

třeba já nevím to asi to asi je zveřejněn _e že tady tydlety přednášky si

myslím že s ním můžete vyhledávacího na internetu

nějaký ten přednáškový

vyhledávač takže tam vlastně se použije třeba slovník který je hodně omezený jo

a tady tyhle ten přednáška se trošku

bavíme o matematice je něco o řeči furt dokola to tam

jo nebavíme se odpojíte C nebo

nebo něco takovýho

a nebo vlastně ten slovník může být

jako kdyby neomezený úplně

jo

_e pan docent černocký vám už asi říkal jak takový rozpoznávač ten největší nejsložitější jak

moc dobře funguje si se to pamatujete

jak moc dobře

to dokáže tu řeč skutečně rozpozná tak aby sme měli třeba

a řekneme

prostě podslovo je

správné úplně anebo úplně nesprávné když to budeme klasifikovat takhle

tak každé páté slovo teoreticky by bylo špatně

jo

task takže prosím děláme myslím

_e proč je to tak složité pamatujete si na nějaké faktory který to

prostě _e

který nám nedokážou

vlastně nedovolí

to rozpozná dobře proč to co je co je tady tak špatně děláme to prostě

máme třeba programy který dělají chybí anebo tam

problém je na jedné straně někde co si myslíte co je špatně proč to rozpoznávání

řeči nefunguje tak dobře

jenom co vás napadá

tak zaprvé každý můžeme jinak že

za druhé tam může být nějaký šum

jo

takže musíte vždycky prostě když se vás někdo zapsána něco takovýho musite hned prostě aspoň

něco vymyslet

a když to chce tady řešit tak musíte vědět co řešit

jo

takže vlastně nejvíc nám bude pádit

ta variabilita jo že mě i vlastně když

jednoho člověka konkrétního poprosím a aby nahrál stejné slovo desetkrát a pokaždé to řekne jinak

trochu ale jinak

jo

a když my budeme třeba ani

_e v databázi vhodně mluvčích

každé pohlaví potom já nevím

každý jako různé a přízvuky jiná řeči a tak dále a potom přijde někdo kdo

má třeba vadu řeči tak zase to nedokážu moc dobře

rozpoznat jo

a navíc _e

třeba když se podíváte na tu výslovnost čistě výslovnost tak

máte třeba spisovnou češtinu a prostě jak samově tady jak se mu je prázdné a

tak dále a tak dál jo

a někdy třeba odvažte angličtině tak

ta brick ambici na nebo ten snad mladých lidí prostě

tak to slovo změní že prostě bude zní potom jako něco úplně jiného co existuje

ale není to ono jo

a tak dál

to schéma tady by mohlo vypadat nějak taková

samozřejmě ono to je ono komplikovanější jo

není to jenom není jenom tak jednoduše ale míse teďka zaměříme jenom na tohle

takže sám a support

takže _e vezmeme nějakou řeč

jo

teďka si asi myslíš kdy sme měli nadefinovat nějaký nejjednodušší unk u teďka budeme chtít

třeba rok po rozpoznává

_e jestli slovo které sme na dostali v nějaké nahrávce odpovídá tomu slovo které je

snaha se kterou když mám jo máme dvě nahrávky

a chceme zjistit zdali chtěl dvou nahrávka máme stejné slovo a nebo ne

jo

vezmeme ta slovo každé z nich každou nahrávku ve zná rozsekán rámečky

a potom budeme chtít se podívat

jak voni sou si akustický podobný

jo

mohli bysme samozřejmě udělat nějaké to spektrum a podívat se jak to vypadá ve spektru

ale ta bude to dělat nebudeme

a budeme dělat jenom zatím tohleto

to dekódování tady to je prosím vás pozor něco úplně jiného než to o čem

sme se bavili vpřípadě

_e kódování pro telefony třeba jo

tady to je něco jiného

protože to slovo vlastně nemůže mám buď rizik celé

jo třeba ahoj může mezi celé slovo

ani nebo

namodelovat když bude na používat nějaké modely a nebo můžeme do slovo rozsekat

na úsilí na takzvané ty slabiky

jo

a nebo třeba i na nějaké konkrétní fonémy

kde se s panem

to je von _e

honem není písmeno

jo ale jaký je tam rozdíl mezi písmenama foném

řekli sme no to je to vypíšeme že

a má to prostě nějaký název

a tak ale foném to je

podstatě nejmenší čase řeči

která mění význam jo to je ten zvuk

jo třeba všichni častokrát

písmenko a foném oni se odpovídá já sem vám když jeho francouzští je taktu škube

jo

no to se nepleťte

takže my můžeme buď třeba to slovo rozdělit na nějaké ty slabiky a pro každou

sladit natrénovat zvláštní model

jo a to dekódování to je potom jako kdyby sled chování

jo

toho dohromady

podle toho co je tam pravděpodobné takže my nerozpoznáme celé slovo ale části toho slova

potom to tak nějak ještě na letíme dohromady

ale to se používá když máme prostě velký slovník jo máme hodně slov a tak

dál to jedno slovo se to bude po už

teďka a se zaparkovat vlastně

to _e se dělá jako parametrizace teďka máme rámečky řeči

a budeme chtít

dát parametrizace tak co to je to zaprvé

vy vlastně a ste řeči chceme

dostát jenom to co my potřebujeme

jo protože vidíte že řeči je velmi redundantní proč

pamatujete se to

co

noc protože tam není jenom to co my vlastně chce mezi

ale je to jak to chce mezi Q šunky to mají úplně

zvrhle rizika jedno ale myslím si že

_e

prostě _e o nějaká ta nálada a tak dále a tak dále že

když nám někdo řekne

ne ale myslím že jo tak

bůhvíco

no a

potom a nejvíce používá ne parametry to sou ty

buď L P cca anebo M S C

pamatujete si jak se to dělá nebo mám vám to trošku zopakovat co byly ty

M S C třeba

a na to jestli se to

no vlastně to sou V se s tím cat kterém že

my sme

se _m o co se tam snažíme

vlastněni těch M S C se necháme třináct prvních

jo třináct nebo dvacet většinou

tak se to

buď třináct a nebo dvacet

jo někdo používá třeba patnáct ale to je takový že

prostě třeba když nějaká laboratoř používá třináct tak budou používat třináct

až třeba zapadlé zkusit dvacet a pro _m říct že dvacet je lepší

jo na některých úloha prostě je lepší používat oněch na některých projektech o je lepší

používat

jiné číslo protože

tom modelování tě zda

a obecně tu rozpoznávání tam _e

se používá _e úplně různé metody a ty metody se potom soustředí

na I

jinou informaci která je v podstatě včer dáte jo takže proto

_e máme řiť

dívejte se

máme prostě nějakou tu řeč jo

děláme s toho spektrum

to spektrum bude vypadat takle

proč to spektrum vypadá takhle protože tady ní máme

in pózy a máme

jakou _e impulsní odezvu ta impulsní odezvu rezonanční frekvence nástupce jo

tým pouze to co dělá dělali naši hlasivky

_e

takže to je ono

tady je operace fondů C

že

pamatujete se to jo

to je svá

čase

to je čas

když se budeme podívám do frekvence

tak _e to co odpovědná tomuhle

tak to bude ta naše obálka my říkáme to

jo

ta on

_e kopečky to sou ty naše formanty

jo

a potom tají chle kterých lomnice se složka tu a je _e

to jsou harmonické základní frekvence jo my když uděláme teďka

sekvenčně analýzu těch impulzů tak bysme teoreticky

někdy to stát s něco jako

tohle

jo

ani ty a když poněvadž děláme tady

konvoluci která mi to nedělá no slída ano

takže je ve spektru umí uděláme násobení

tohohle a té modré čaj tady

jo

a potom dostaneme to černé to je vlastně spektrum řeči

ní teďka co budeme chtít udělat

tak to ji a _e _m

dosah toho jenom tu obal

a teoreticky buďto můžeme prostě tíhla nic nějak

jo

udělat třeba

já nevím

_e

jako interpolace nebo něco ale nebude to vůbec ono

jo takže takhle to nemůže udělat

my to uděláme

i teďka vezmeme a _e druhou mocninu toho černého

jo

o tom vezmeme logaritmus to

proč pro děláme tam

proč tam aplikovaná logaritmus

protože je

když tohle je spektrum impulzu

a tohle je spektrum potom

impulsní odezvy jo tak mi je násobíme

jo

a když na to celé

aplikujeme logaritmus tak to je prostě třeba

blok C bude vlastně

log _e tu

blok

ve že jo to si pamatujete

jo takže vlastně aplikujeme _e

ten logaritmus a inverzní

fourierovu transformaci

jo a tím pádem i potom dostaneme

se bude takle čára

a tady něco jako

tohle malé koeficientíky ni řekneme že prvních třicet

to sou nízké frekvence vtom spektrum jo takže my teďka vlastně

tenleten obrázek

nám říká jaké sou frekvence ve spektru

ale jako ne ve spektru jako že tady

jo a ve spektru prostě co obsahuje tak černé čára

jo

ta modrá ona vlastně odpovědná těm prvním při třetí a osy centrum centrální

a ten zbytek to už budou potom tužky mělo být todleto jo

že právě proto mi ve nám to ní třináct nebo dvacet abysme

zakódování jenom to obal

fajn

_e ty M S C co tam prostě je to M S chcete tom melfrekvenční

to je

toho že je lidi slyší na

že jo

lidi mají lepší rozlišení pro nízké frekvence

jo a to samé že

lidi mají lepší rozlišení pro _e

jo pro nízké frekvence

dobře

_e

že tam se asi po ještě taková ta banka trojúhelníkových intrech nepamatujete dobře fajn

super

_m

no a ty L T C to si pamatujete že vlastně tam se to kepstrum

dělalo s toho L pece a nesolí rovky jo

dobře

co je tohle

to vlastně jak vypadají parametry jenom

je sice není _m

která barva odpovídá vlastně světla a nebo

jo ta světlá to je jako že hodně

vysoká amplituda apod máme nejspíš nízká amplituda jeho rozdělíme neřeš to rámečku

a ukážeme si některé parametry takhle

_e

ty čekám

budeme

budeme

se chtít zaměřit na dvě metody dneska budeme dělat o měření vzdálenosti

a příště tím snad budete dělat statistická modelování jo tome dolování jeho mnoho těžší mise

dneska zaměříme jenom na to ptal na tu zdálo

_e takže ono to bude vypadat

intel

nějak takhle

dívejte se

my máme třeba

nějaké tří a _e

třídy

jo

prostě třída jedna

přidat je přidat či no a přijde testovat se vektor

a samozřejmě ten by měl patřit třídě která je

nám blíž jo samozřejmě ono to práce není úplně takhle protože

tam sou nějaké ty variability stejně

těch parametr která je potom

když odstraníme tak můžeme zjistit že vlastně tenleten vektor opatři se

jo ale o tom se budete balit cache

až někdy jindy

je tam obrázek vám jasný

jo vlastnění máme teďka momentálně z nějakého rámce

dvě čísla

jo parametrů takto parametrů prostě dvou dimenzi

to je jedna dimenze toho parametru to je prostě druhá dimenze tou parametrů jo

a to je prostor naščítat

fajn

to bylo jednoduché měření vzdálenosti

a teďka o tady tomletom se bude ta bavit

eště někdy jindy

představte si že mít teďka zase máme tří _e třídy

jo

ale ty třídy nejsou určené jenom jedním bodem nějakým centrem

ten bod bude někde tady na kopečka

jo

ale tam je ještě je nějaká pravděpodobnost kolem tu o

že data

tam patři

jo

_e když se podíváte ty kopečky oni se překrývá oni jsou nekonečně široké jo tadle

prostě se pláty úplně všude

ale tady máte namalováno je

namalován jenom

prostě ten kopeček terry víš jo právě proto je to tak hezky spojujete ale vidíte

že tady sou nějaké

_e hranice tam jo

ale přece jen ono zandá pokračuje jenže prostě tady vidíte trochu

jo

teďka

vlastně jen

my se budeme dívat

a tu červenou tečkou náš testovat se vektor

_e

jak moc vysoko on se vlastně nachází protože to je ta pravděpodobnost jo jak moc

vysoko to vlastně nám určuje to teda to není pravděpodobnost ale to nám určuje pravděpodobnost

ono se to může stát že třeba cache já namaluju

něco o to je

to sou dvoudimenzionálně gaussovky prosím vás i když prostě jděte přijde

jo parametry těch gaussovek vlastně s tou

někde tady

jo

_e to jak je to vysokou otouš spojené pravděpodobnost prosím neplést to je dvoudimenzionální kauzu

jedné dimenze to by mohlo vypadat prostě

takhle že máme jednu

a máme druhou

jo

přijde nám testovat se vektor někde prostě

todleto

je čára na které sou parametry jo parametry nejsou někde tady teďka vůbec

parametry máme

tady takže nám přijde nějaký

dá to

jo

ani spočítám M

pravděpodobnost prvním gaussovky

a pravděpodobnost druhá gaussovky

ani hraje tady druhá

dobře

to jenom abyste

abyste se to zopakování když tak

teďka to my máme tady sou naší data

jo

a jestli já jsem jiným tak ono to vypadá

že _e

každé s těch nahrávek nemáme úplně stejné slova

takže vidíte

zaprvé

tam jsou trochu jinak frekvence jo pár vlastně se mění

trochu jo

a za druhé oni ono tohle různě natažené

tak i když třeba se nám podaří nějak velmi hezky

spočítat parametry třeba ty M S C

tak mi dokáže to a dostaneme

různý počet rámců

a teďka budeme dělat od _e té dvojice ze

které

nám

pomůže

najít

jako kdyby cestu

jak sou sekyra _e rámce vlastně jak jaksi odpovídají

jo

prostě rozsekáme to na rámečky

takhle nějak mi že

no a teďka vlastnění vidíme že to co je tady ono si to patří

tady taky

jo a tady tenhleten druhý ste první bude patřit asi třetí

za druhé

jo a todleto se budeme chtít teďka mnou či

_mhm

tady zase máme nějaký moc hezký obrázek

a ten obrázek _e

je to no to není nic jiného nejš

tady

ste tady tenhleten

dimenze jí

my máme

_e

vektory třeba ve který parametrů s nějaké referenční nahrávky jo

a tady máme testovat si

a teďka každý s každým porovnáváme jak jsou si podobné

jo

takže ní vidíme že vlastně ta podobnost bude někde

na tý _e diagonále

trochu

a toto co to jako znamená V teďka vlastně když budeme počítat a ty podobnosti

jednotlivých rámců svou nahrávek

jdeme tatí a _e chtít počítat

nějakou pravděpodobnost

to že a _e

odpovídají obě stejnému slovo nějakém

jo

takže to je to jo ono

o tomhletom se bude ta baryt až nějaké ty další přednášce

co vám akorát můžu říct že ty skrytém hákuje modelujícím epos model

ono to je velmi podobné konečném automatu jeho takže ji když

je to úplně to sám akorát to má jednu věc navíc jo

takže když se to třeba moc nepamatujete tak zkuste se to za pokud opakovat i

konečné automaty jaký vám to příště ulehčilo práva

co se tady děje ní budeme chtít

postavit nějaký ten model jo a todleto se vo skutečnosti teďka už děla

jo

ni vezmeme prostě jel

nějaký unk o

vezmeme nějaké slovo

a budeme chtít to slovo namodelovat

jo

i tady vidíte

v nějakém

kroužky

to soustavy samozřejmě to si pamatujete

jo prostě todle to sou všechno stáli tohleto je konečný stav i když prostě o

těch konečné automaty asi pamatuje takže to sou

dva proužky jo

aneb dva kroužky nemáme

na nic a oni vlastně tady tyhlety první a ten poslední stav oni sou jako

kdy B redundantní

jenom aby se ty modely hezky spojování jo aby měli začátek a konec

ale jinak oni ty stavy jsou prostě ptá zóně nic nedělaj

to nás zajímá nás zajímají ty áčka

to budou nějaké přechodové pravděpodobnosti

jo

představte si že jasný teďka máme nějaké slovo

máme matic i

parametrů

jo

a my budeme chtít a D tenleten model který má čtyři aktivně stavy adieu _m

jako kdyby generoval tohleto slovo

jo s nějakou určitou pravděpodobnost

on se musel natrénovat tak a D prostě

nějakému tomu stavů

odpovídání nějaké konkrétní

vektory a samozřejmě prostě jako sekvence to musí fungovat

jo řekneme

ježíš

řekneme že prostě

takhle

takle a tak dále jo

ty přechodové pravděpodobnosti pozor prosím vás

oni jsou trošku takové po zákeřnym protože a

tady je to jasné tady bude prostě jednička

jo když začínáme víme do prvního stavu fajn super

potom sme tom prvním stavu a postupně jako kdyby načítáme jednotlivém textury

říkáme

s jakou pravděpodobností jo to sou vlastně ty

myslím toho věřící to já nevím jak se řekne česky

takovou pravděpodobností

a ten konkrétní vektor odpovídá tomu stavu

jo

a fronty áčka vlastně nám říká ji že mi když přičteme další vektor

tak

tohleto pravděpodobností musem a zůstat tady

a nebojím zase dál

jo

a ono se tom

ono se to takle musím naučili a když to už bude umět tak mi tomu

záznam _e zase nějaké jiné slovo

jo a ono ten model dvě na měl otestovat

ono to určitě projde

jo ono to určitě projde až do konce

tam se to dostane libovolné slovo

jenže potom nijak sem ne němeček spočítáte

pravděpodobnost že to je ono jo to je to slovo které patří k tomu a

to model

ale o tom budete se bavit hodně dlouho a je to moc zajímá

tady eště pár slov

o dekódování jeho tam sme viděli na začátku

nějakou tu krabičku je se nám říkala že

když máme ty izolovaná slova což mi dneska předpokládáme

tak to je velmi jednoduché jo protože to slovo prostě buď je nebo není

ale u toho _e

a vy se S R to že

tu rozpoznání spojitý slov s velkým slovníkem

je to o něco složitější protože

tam nás zajímá tak zvany lan klíč model já nevím jestli se třeba něco takovýho

už slyšeli řešený nebo neslyšeli todle

_e to je to je velmi jednoduchá záležitost protože každý jazyk má

nějakou

určitou strukturu že jo _e

když i třeba _e řeknete ahoj tak je velmi pravděpodobné že byl řeknete jak se

máš třeba

jo

v češtině

jo

takže

on nám určuje že jo jaká je pravděpodobnost

když řeknu nějaké konkrétní slovo

že řeknu

další nějaké konkrétní svou

jo

jako kdyby takový strom

takže dívejte se když teďka rozpoznáme

jedno slovo

slovo číslo jedna jo

a potom toto míříme prostě devadesát procent že to je ono jo hezký prostě jsme

si jisti

potom další slovo a toto mi rozpoznáme třeba nějakou větu teď

jo nějak ocelově to budeme chtít rozpoznávat

potom nám přijde slovo dvě

pravděpodobností prostě čtyřicet pět toho modelu zájmem nám to vyleze jo

a přijde slovo

při s pravděpodobností padesát pět procent

jo

to eště nám nedává vůbec

_e právo říct že todle jako na té druhé pozici musela mít slovo tři

my se teďka musím podívat do vám which modelem

musíme se podívat s jakou pravděpodobností v tomletom konkrétním jazyků

jo

zatím slovem

teda jo před tímhle tím slovem prostě je tohleto jo

a s jakou pravděpodobností před tímhletím slova mně tohleto taky

a může prostě říct že tady máme devadesát procent a nemáme zde no a co

máme dělat

tak třeba můžeme vybrat tohle

potom tam výslovnostní slovník eště máme

a tu je třeba zejména velmi důležité pro angličtinu protože jak mi píšeme a jasný

sumujeme něco je zase něco jiného jo

my rozpoznáme ty fonémy ale potom tomu sem ještě před

a na najít prostě když von pracovat s angličtinou tam mluví každý úplně jiná že

protože tam

obou hodně lidí mluví anglicky a vždycky tam častokrát je tam nějaký přízvuk

a von ten člověk může vyslovit něco

prostě ne tak jak by měl jeho třeba mít samý jo a tak dále takže

_e

potom jsem a ještě zase na

spoléhat na nějaké pravděpodobnosti s jakou pravděpodobností lontu vůbec místo

a tam budete mít ještě hodně různé z těch algoritmu to bude to bude fakta

vo ale nejde toto jedno není to moc jednoduché zábavné

no a omezení prohledávacího prostoru to je to co sem vám říkala push

že a

my se prostě

nám se třeba něco rozpozná jo

ale ono to něco třeba vůbec není moc pravděpodobné že L s tomletom const kontextu

by mohlo být

takže mi to zavedeme jako jo budeme vyhledávat vlastně

a nějakého konkrétního subsections

teďka když budeme chtít rozpozná ty izolována slova

za prvé ono to může být tak nahráme že to je izolován jo

a za druhé prostě když to tak není máme větu a chceme toho vystřihnout slova

je

jo

nás nezajímá sto jaké jsou bylo před tím i teďka nebudeme se zaměřovat na rozpoznání

tetelení je ty a na nějaký konkrétní slova

jo takže nepotřebu normálního neboť modální takovýho

ty slovani střihne má a toušice jak se dělá prostě detekce řečové aktivity

on je častokrát založeny na energii jo to je nejjednodušší když máme prostě vysokou energií

T řeč když nízká energie to je šum

jo ticho jo

samozřejmě a _e tom a svoje háčky protože třeba takové

o náznaky prostě jako šum třeba je jo může prostě

ten detektor nemuset fungovat úplně

plně nejlíp ale jenom

jan tak abyste věděli anodou právě se používá je podstatně složitější

tak máme další obrázek takže ve slovníku máme

měl

slov

přijde nějaká řečany chceme prostě rozpoznat

která těhletěch slov bílá vyslovena

jo

to je ono

takže

teďka už _e

kde mám

D M na to více méně

todleto sme si zase už říkali

že M

my budeme chtít

rozpoznat vlastně

slova která obsahují víc než jenom jeden takt or parametrů takže

todleto konkrétně ní použít

nemůžeme

protože a _e

a vlastně vybrán používat

něco skoro úplně to samé ale tady se to říká že

vlastně abyste nebyli moc zmatení že

tenhleten vzoreček je jenom pro jeden konkrétní nějakým takto

jo

kde vlastně typ _e

to sou dimenze toho vektoru

jo

že těch slov máme

nějak

a tady

vybereme

vlastně ten vektor jeden parametru

proč máme dva

máme jenom konkrétní tak rád

a na jeden konkrétní vektor

jo a druhý konkrétní vektor vidí prostě celé slovo

dílo reprezentován _e vektorem tak bysme porovnání vlastně

jaksi

a jsou si podobné

ty vektory jednotlivé menze napočítali jedno číslo jo

to je

to znáte to je ta euklidova vzdálenost

ne

nás

dobře

teďka ale náš u té

porovnávat

matice

tedy sekvence vektor jo

dostaneme u té reference vlastně nějakou sekvence kde

to R má ale jedna a šerm ale

jak velká

jsou vektory

a tady mít taky máme prostě vektory jo je sekvence vektor má

a teďka budeme chtít udělat

alanine nějaký

a tak dále jak to bude vypadat tak první nechceš bude match vlastním první a

poslední a tím posledním ale co to je uprostřed tak mi to moc nedím

samozřejmě nemůže já seskakovat to nefunguje jo

_e

takže tím je omezené nějak prostor toho

hledání ale pořád to je to co

složité

no

takže kdy nějak mně to udělat nemůžeme to sme souši říkali

navíc tady třeba máte příklad kde se udělala ta chyba a

detekce řeči jo že tendleten šum vidíte a uměl docela vysokou amplitudu takže prostě

se to k té řeči nějak připojeno ale přitom to je prostě šum nějaký jo

vůbec to není žádné řeč

ale nic takovou nahrávku máme

a musíme s ní pracovat proč ni musela pracovat proč tudletu nahrávku není hodíme

si myslíte došlo furt tak řešena ten šum a tak dál

proč tu nahrávku nemůžeme vyhodit

že by takových nahrávek mám na hodně a děláme prostě to automaticky já nemůžeme poslechnout

o nevím sto tisíc

třeba hodin řeči jo

proto

proto vlastně

my se snažíme mít co nejvíc vždycky dat

jo čili s těmi vždycky

ale ty data se snažíme nějak zpracovat

ale však máme nějaké takový chybně a musíme nějak potom ty metody vždycky

na to naučit aby se s tím nějak

_e

aby se s tím nějak uspořádány fajn dobře

a konečně myslím dostává do té metody které se nepoužívá

_e tadleta dynamické borcení času a to je nějaké _e jakýsi vyměním dynamické programování a

hned se podíváme jak to vypadá

jo takže i teďka už sme se to řekli hodněkrát teďka tneska

ale

máme tady _e

vždycky

je dán

vektor

jo

parametrů

takže vlastně ta jednička dvojka toto sou čísla rámců jo to nejsou jenom jednotky jako

můžou být o jednotlivé čísla ale my pracujeme s vektory takže sto nepleťte

a tady máme sekvence taktu která odpovídá ten naše testovat se nahrávka ani budeme chtít

se podívat

jestli je _e

za prvé i budeme chtít

najít i nějakou cestu

jo jak vlastně ty rámce jsou si podobné a za druhé spočítat nějakou pravděpodobnost

že to je ten náš že to je to naše slovo

jo

takže když se podíváme že vždycky budeme začínat

někdy a někde jedničce

jo

vždycky prostě první odpovědná prvnímu

jo když předpokládáme že předtím nic neni a poslední bude odpovídat tak je posledním

tady vidíme že jo druhý odpojena dlužím u třetího tlumena druhýmu a tak dále a

tak dále

jak to budem a počítat to bude mám počítat velmi

velmi jednoduše jako pod a teďka nevím proč

tam vlastně je popis nějaký úplně

úplně jasný

nevím

takže _e jak to budeme dělat ní vezmeme

zase

jak to reference vezmeme vektor Á

_e testovat se nahrávky podíváme se

jestli jsou blízko jo spočítám a to vzdálenost taky tady potom todle

to o nějaká

jo to je nějaká ještě další váhová ty

funkce

ale k té se dostane na ty po

do of kliky většinou končíte tuto přesná

ve tři čtvrtě jo

_e

takže tak teďka bude takhle že odpovídá to takhle budeme chtít spočítat

nějak a ty naše vzdálenosti přičemž

tohleto budeme se snažit těch pokud možno nějak

minimalizovat zaprvé my si musíme nadefinovat nějaké ty stahovat si

_e nějakou tuba hlupáci funkci a eště nějaký krok a nebo spíš _e

něco jako

nějakou třeba

cestu k a kterou my může mají johny třeba můžeme se podívat

že samozřejmě je nejpravděpodobnější že když začínáme někde tady

jo a končíme tady

obzvlášť když sou ty nahrávky prostě veršů a

tady na délky tak ta cesta by měla být někde na té diagonále jo

takže právě proto my musíme ještě nadefinovat

váhy kroků

jo kam pudem a

to a dneska díky

a ten algoritmus

bude velmi

docela jednoduchý by řekla

jo to motorku

trochu z názvy

počáteční koncové body se nadefinujeme a potom nějaké lokální souvislosti

jo potom i se nadefinujeme jak moc můžeme jít nahoru jak moc můžeme jdou strany

to je

to je jednoduché no a jak jsem říkala přeskakovat taky se nesmí takže každý vektor

musíme použít aspoň

jednou

a ale ten vektor se může _e opakovat jo jak může se opakovat nette ste

cestě o referenční nahrávky je taky se může opakovat i

u té

testovací

_e jasné

jo a nějak a _e máme srazí omezení podle nějaký konkrétní vzorečku to je

co všechno záleží na nějaké ty aplikace nebo konkrétním slov

neživý si nadefinujeme nějaké čáry a potom ty čáry nám

řeknou že jo někde tady vtom žlutým

i ta cesta mohla být

a co to znamená to znamená že ní vlastně budeme teďka dělat skutečně za dynamické

programování jo ji nebudeme porovnávat každý s každým

ale budeme

porovnává tím ty _e

pravděpodobné podstatě se jo bude mají vyhledávat

jak se ta cesta někde tady prostě mu ta

ty váhové funkce můžou být zase

mně koně kádrů Ú

ono sou to většinou určuje tak že ví třeba budete chtít najít zavazovat nějakou aplikaci

budete mít _e trénovací data a nějaké evaluační data jo

na implementujete potom _e tohoto zkuste té různé váhy

a proto to funguje lépe tak to použijete protože ní většinou taky předpokládáme že ty

evaluační data

té ty nějaké verifikační data

oni a _e

sou

nějak tak podobné tomu našem to bude se potom

_e testovat jo čím to budete provozovat

takže tady máme ty testy co to znamená to asi chápete že

že vy vlastně když

ne

u toho bodu

ono to je trošičku jako kdyby naopa

že deme sem nahoru tak dáme prostě dvojku váha bude dvě jo že bude splněny

takhle to tomu ten stejně od konce říct že

když jsme tady

tak sem sme přišli s největší pravděpodobností odsud

jo

a potom na základě tady těhletěch v a on se ten algoritmus jaksi

se přizpůsobí

samozřejmě když vidíte že máme tady nějaké váží je hodí jednička dvojka dokonce tady dole

máme i nulu

to znamená že vlastně

_e

sem dole jako kdyby nemůžeme přejít jo že ten konkrétní

nějaký _e vektor se může použít fakt

jenom jedno jo nemůže se jako první zůstat na jedné

na jedné poloze

a musíme která když máme nějaké ty váží definovat i normalizační faktorizace

no a ten normalizační faktor de co na denotační faktor

tu to bude suma všech použitých na zase

jo to je docela

logické

ono to jiná a zase takovém

takové trochu

nebezpečné používat

ten normalizační faktor

jako a váhy

odpovědná jestli té cestě protože oni když

já sem vám říkala zaprvé potřebujeme najít cestu a na druhé musíme odhadnout nějakou tu

pravděpodobnost potom spočítat jo

podle cestě

takže mě když dostaneme nějakou referenční teda ne refe nějak otestovat se nahrávku a máme

ve referenční a chceme zjistit

které z nich

vlastně ten vektor patří jo ten vstupní ten testovacími

tak potom tomto normalizační faktor bude zase

jiný

ale to tady ne vládí

ono to budem paní

zadám té cestě jo takže sem řekla bobo

potom zase tady máte říkám _e nějaké tabulky

tabulky s omezením

co když

se mě nechce moc

nějaký dva

protože sme se to řekne push

dnes tak

a já bych se chtěla dostat píchni K

někam asi

jsem

teďka nás bude zajímat jasný vytvoří má tu referenční

nějaký referenční a nějakou referenční sekvenci

E vektoru

takže vypuč můžeme použít jedno nějaká konkrétní smlouvalo že jo

jo logické když tam _e

když máme jenom jedno slovo tak nic nemůže na použít když my máme kdy a

nahrávek odpovídá je se ten mu slovu

tak buď můžeme použít každé zvlášť že jo

jo a potom třeba udělat

průměrně jak jejich pravděpodobností a nebo

vlastně jenom tohle

a nebo může má _e vytvořit nějaký průměrný

vzor

zase když použijeme ta to jedině jarní průměrování tak to je docela P po že

no protože jedna bude dlouhá druhá prostě družinou bude

krátký a tak dále

a nebo můžeme _e

zase udělat

dynamické

průměrování a to zase může na použít

a toho dete V na to

jo nějak prostě je řekněme

dohromady a tu bude naše

reference

no a titulky já nevím jestli ste už měli

já si myslím že nespíš učte todleto s taky ste měli že jo i když

jste se bavili třeba o tom vektory _m kvantování tak

učte zvuky akože zvuková ní ten princip už _e mě asi tak nějak povědomý že

jo

jo

ono to vlastně

a to zvuková nic zase může být

třeba užitečné je

s takových případech když máte pro nějakou třídu třeba

máte a _e

omezený počet dát jo vy třeba můžete si představit že máte

X tři každé přidá má hodně dat a potom máte třeba nějakou tři doktorama

málo dat

jo takže ta třída které je reprezentována malým počtem dát ona je

nejvíc náchylná k těm chybám nebo nějakým špatným rozpoznáváním protože

no tam je málo dát a vlastně když budete dělat to shlukování tak teoretický můžete

použitá ta která patří jiné třídě

jo

můžete prostě a vlastně to jako kdyby na syntetizovat

teda samozřejmě když

ono to je to podobné

tak se si myslím že to by mohlo být asi tak

všechno sme strany akorát

jo to asi všechno máte nějaké otázky

fajn tak jak sme se že už je známo že teda skončit jo

tím