no a se bavili o kódování že jo pokud se nemýlím
a když ste skončili a se na ten na tom slajdu že
se probrali to a tak pro chování se
a teďka vlastně a no tady nazývá jenom jeden slajd _e o to se nebavili
že
jo takže fajn a nazývá jenom říct _e jaké jsou varianty toho vektoru a kvantování
jo my když vlastně máme a _e třeba nějaké N dimenzionální data
a chceme _m pro ty dát _e vlastně najít ty naše nějaké centroidy
vektory na které budeme kvantovat data ležící blízko ni
tak _e to může být docela neefektivní z hlediska
počtu jich operaci jo
takže ní buď můžeme třeba ten velký vektor rozdělit na tři části a ty tři
části zakódovat zvláště tomate napsaná v tom bodě jedna
vzbuď _e nebo z vymyslet jako kdyby nějakou mřížku
nějakém
a transformován prostoru jo ale ta _e ta mřížka potulný vlastně nám vyjde
jakém sem jako nějakým tom prostoru
bude mít
jednu strukturu o tom v našem původně prostoru druhou strukturu ale v podstatě díme kde
se ty bude nacházej
jo takže potom když vlastně bude na porovnávat
_e jednotlivé vektory jak blízko leží nějakých nějakým centroidu _m tak v podstatě nemusím napočítat
pro každý vektor Á pro každý kontroly zvlášť jo
_e ten náhodný codebook to vlastně funguje tak že mi když máme
strašně moc data potom ty data se chovají jaku náhodná dat jo potom ty zvuky
už
nejsou tak dobře třeba vidět a když vybereme ty a
centroidem šum nemůže říkat sestrojeny ale ten ty kvantová vektory kvantování
tak potom v podstatě úplně jedno jaké zvolíme jo
a další úvod toho je když my vlastně děláme to rozdělování prostoru
pomoc algoritmu L P G
tak a jestli si pamatujete my sme měli
nějaké třeba dva zvuky dát
jo a potom na inicializujeme
jeden ten zdroj jo podíváme se a
vlastně jak sou u _e jak jsou rozmístěna ve kterých prostoru
a potom ten centrum _e vzhledem k nějakému určitým největším směrům chtěl datech me rozdělíme
na dvě části
jo a potom začneme posouvat jeden směrem sem a druhým směrem
tam jo když takové zvuku máme více a máme už je z těch centroidu tak
my uděláme
jako kdyby ty a centroidy když rozdělujeme
tak uděláme takovej stromeček
jo stromeček všichni znáte
a už potom a míříme když vlastně tady už budeme dělat další rozdělování tak my
víme že pro tady tydlety data
jenom uděláme počet _e tady tydlety data vlastně služ oni na odpovídá jako kdy B
a A
rodičů těch dalších centroidy jo takže tam už nemůžeme zase nemusíme nic spočítáte a
uděláme míň operaci
no a kdy sme zakódování vlastně udělali tu kvantování a dost kvalitní tak
i uděláme kvantování na dvou úrovně všeho budeme kvantovací tu chybu kterou potom přičtem a
silné
máte k tomu nějaké otázky
je to jasné fajn
tak teďka se budeme vlastně bavit o do další časy
budeme se teďka bavit o tom
jak se top
kódování
používá práci
jste se zatím bavili a obchodování z hlediska
a operace pokud se nemýlím jo takže vy ste
vlastně a
do těch koeficientů nějak zakódování
impulsní odezvu Ú artikulačního traktu
jo
ale moc ste se nebavili o tom já budete přenášet anebo co budete dělat a
z buzením že jo
užijte jak sada
vlastně spočítat
základní no perioda základního tou může jo takže buď můžete
přenést na druhou stranu jenom toto číslo a potom nějaký ten dějin a vygenerovat toho
sekvence impulsů mění ta sekvence impulsů bude
prostě taková nějaká eska
ale vy víte že
_e my když mluvíme tak me skoro nikdy negenerujeme tak pěknou sekvence impulsů lené že
prostě profesionální zpěváci jo
ale většinou tam je teda vždycky tam je Í nějaký šum jo
takže by teoreticky to mělo vypadat mě a prostě
takhle jo
když tam přidáme šum tak bude to vlastně hezčí
jako kdyby
no a dneska se bude mám pálit
trochu tatí o tom
jak může má efektivně zakódovat takovej signál jo totiž na jedné straně rozdělíme řeč
nabuzení a odezvu a potom na druhé straně budeme dělat v podstatě sem té
vy ste se už setkání s dlouhodobým prediktorem jestli se nemýlím že jo ušité se
o tom na nějaké přednášky snad
na nějaké přednášce s nadvlády ten krátkodobě prediktor funguje tak že mi když chceme určit
tady tenhleten vzoreček nepoužijeme většinou deset
předchozí vzor
jo
my vtom hledáme nějaké krátkodobé závislosti
tečkami ten dlouhodobý prediktor budem a aplikovat na nářečí ale budeme aplikovat nabuzení jo
budeme se snažit vlastně
odhadnout
tenhleten vzoreček
toho tomto
jo odpovídá je sou vzorku vzdálenost
vlastně zpožděno ho o jeden lock
jo
_e
když mít teďká postavíme ten
dlouhodobý prediktor
a budeme
tenleten signál
a _e
s tím šuman teda to co mi generuje mahler dle hlasy zklamán
tak mí se budeme snažit ho s ilustrovat tímhletím signálem co si myslíte že poleze
na výstup i teďka se snažíme odfiltrovat dlouhodobou závislost a ta dlouhodobé závislost osum zrovna
tady tydlety impulzy
jo to je
to je závislost mezi vzorky vzdálené my o jeden nula
takže když
budeme todleto filtrovat zase nám na výstup chvíle za nějak a šíp váš osetí chyba
druhého řádu protože je love té analýze a se otec a my sme tady tenhleten
signál považováni za chybový signál jo
pamatujete se to
jak to fungovalo my sme se snažili posta je takový filtr
kterýmu když dáme na vstup nějakou řeč
tak potom dělené něco takovýho
jo
na tenhleten signál mi zase budeme aplikovat dlouhodobý prediktor
který se bude zná je dbali
dlouhodobě závislosti
takže to bude běžících papíry cizího ten jo co to znamená N V licenční zde
zruš
třeba tušíte
ročně jakých filtr se možná může nazývat P říci
tak to co leze
to co daná výstupy by mělo být něco bílé o to že jo
a my sme z řekne že to bude nějaké šum jo to bude chyba nějaký
šum a bude to bílý šum bílý šum je takový šum který má
rovnoměrné spektrum
jo když se podíváte na jeho spektrum tak by to mělo vypadat takhle nějak
všechny frekvence sou zastoupené
vlastně _e
stejně
jo
potom se bude nabalit chvilku o analýze syntézou
to znamená že a me
na tu
a pak řeší routerů budeme se snažit
dát s nějaký signál který by měl vypadat jako
sekvence impulsů jo a jestli výsledná řeči je hezká tak
sme to našli
jo takže budeme se snažit vlastně
syntetizovat řeč
a pokud se nám podaří najít
nějaký takový
hezky signál tak
to je ono
perceptuální C filtr
_e možná ste se už setkat setkali třeba v grafice nebo
eště možná někde _e maskováním
jo nebo měli se nějaký multimédia asi že jo předmětu už měli
teďka máte _e nebavili se tam třeba o maskování
jo to maskování může být vizuálně anebo jako že
toto slyším v podstatě když
hraje něco
na nějaké určité frekvence hlasitě jo tak ono potomstvo toku jim a bude když bysme
třeba měli
teďka se namalujeme nějaké spektrum
a tady bude L hrát
na nějaké určité frekvence velmi hlasy ty
zvuk
jo
ani když tam přidáme
eště něco takovýho tak mi to prostě neuslyšíme
tam existuje nějaký vzoreček já nevím co
a ono to vypadá vlastně takže ste tom trojúhelníčku potom
jo všechno co je menší než ten trojúhelník tak to prostě neslyším
takhle třeba funguje i ta M P trojka že jo prostě my se snažíme tam
zakódovat my se snažíme zachovat jenom tu informaci kterou my je dokážeme třeba jo když
to neslyšíme tak nemám
cenu to přenášet
to some money budeme dělat
vlastně s chybou
jo
když se podíváme na spektrum
řeči
tak tam si pamatuje tam máme takové
ty kopečky že o ty formanty
jo
a když my vlastně teďka tam taky namalujeme spektrum nějaké té chyby
třeba
pak byla to červené class takto naše že by to bude ten bílý šum
jo tak
a prosím vás zkuste měřit co umí uslyšíme co nám bude vadit a to nám
vadit nebude
když pro takové konkrétní
_e rámeček
řeči
i portály má krátkodobý prediktor dlouhodobý prediktor a dostaneme nějakou chybu co že ta červená
čára
jo tak byste měli být schopni teďka
vtom vidět že ta práva čas
todleto tu chybu mitaf podstatě neuslyším
jo
ale tady nám začne vadit na těch vysoký frekvence protože
_e je amplituda vlastně
na tady těhletěch frekvence chytřejší jo
ta ono
potom se podíváme na nějaké konkrétní a
konkrétním úplné
filtry anebo enkou nejspíš
podíváme se na schemas osumnáct jsem to pochopit
mínus todleto sme si
sme si řekli
todleto sme si řekli tady _e taky ale zkusme to za pakovat opakovat todleto je
vlastně naše řeč
jo todleto je naše řeč a ten _e
a u pece todleto je rámeček řeči a auta C vlastně
se snaží odstranit tady tyhlety vzorky jo
to víte a potom vlastně se budeme snažit odstraníte tady todleto necháme v podstatě jenom
tady tenhleten
šum to ztracen šestnácti řekli
a teďka schéma
ano našeho inkou druhá nebo ten náš postup už bude vypadat zase pak takle známý
dvě krabičky vždycky _e Z a potom bude následovat od vezena až potom budeme dělat
kvantování chyby
no
a kvantování
_e zatím jenom tady
zůstaneme
poďme se podívat na a na adresu
syntézou
takže jak to jak to funguje byste mění chápat tady tam net tady todleto schéma
s matkou my máme nějakou
jo měla na tady nějakou řeč
jo
potom todleto bude ten náš perceptuální filtr to na to se zatím nebudeme se zaměřovala
my budeme se podívat sem
kdyby rené nějak _e nějak nějaké to buzení a pokusíme se vygenerovat zase řeč jo
pokud
ta chyba
je malá tak to je ono jo co sme chtěli
takže mě když třeba tady
podíváme se tady bude na nic
třeba
sto možnosti jo X nějak těch možnosti tak podstatě tedy ten cyklus musela zopakovat
oni krát jo i brát to nejlepší co
a buď to nejlepší co tam je a nebo to co nám prostě vyhovuje zatím
měl založit záleží na
nějaké to objektivní funkci
fajn _e co se má moc nelíbí je zrovna tady tenhleten perceptuální filtr
jo který bude jaksi maskovat tu naši sít naše naší chybu
a mít ten filtr budeme chtít nejspíš
prostě přesunout sem
_e nějak ho zkombinovat jisté tímhletím filt říkám potom jo abysme ten filtr vlastně nepoužívá
je sto krát tak vlastně tady se použije jedno no a tady těch prostě stokrát
ale už tam bude zakomponovány toho áčka takže
takže to je po vodě
_e takže vlastně co my budeme chtít já s tím perceptuálním filtrem když se podíváme
na tu z řeči zase tady máme řeči a šípu
jeho řeči to modré
až chyba vlastně ta zelená
takže nám vy vůbec nevadilo teoretický kdyby ta chyba prostí vypadá ale třeba
kdyby zopakovat úvěr
té řeči
jo kdybysme měli takovou chybu tak
tak to je prostě lepšího no
jo
tohleto je zatím ten náš perceptuální filtr tři k
co když
vypadá jako
inverzní filtr které řeči
jo teda ne inverzní filtr ale prostě má to
spektrum které inverzní spektru řeči
ani tečkách vlastně budeme chtít a B a _e
spektrum té naší chybí
vypadalo tadle
akorát aby to mělo menší amplitudy
jo
aby to prostě _m nebylo přesně
úplně po spektrum řeči
nikam perceptuální si okřik tečka nadefinujeme
nijak takle
kde vpodstatě zdůvodníme tomu káma
_e dost
jako teda nedost nízké ale prostě nižší jedničku
což znamená že vlastně
kuli toho áčka o ní se jako kdyby
stáhnou
tak si pamatujete ty jednocyklová jednotkovou kružnici a souvisí utrum
jo
jak se to počítá tak
mně to mám na obrázku mistrům za chvilku
_e za chvilku řečeno řekne moc o tom co to je takže v podstatě tadleta
mstil tři k nám zatím abysme věděli
bude definovat
něco co vypadá
co bude nic spektrum velmi podobné spektrum řeči abysme doklady velmi hezky udělat to maskování
tak _e
jo takže tady vlastně máme jenom znázorněna toto sem napsal i na tom předchozím slajdu
zase máme a
to ve V Z hezky tady a tady ta zelené čára zase nám říká svoje
a nám udává frekvenční charakteristiku toho filtru o jedna děleno
A Z _e děleno
gama
a zatímco ještě tady můžu vám říct o osuš
tady máme to jednotkovou kružnici
jo mně když se podíváme na půli toho filtru jedna děleno A Z
tak to sou tady tydlety co jsou blízko
že ta kružnice
a potom když ještě vynásobíme zetko tou dámou tak ono vlastně se nám posune
posune do středu to znamená že vlastně ty kopečky
potom u té frekvenční charakteristiky vlastně nebo tak vysoká
_e pamatujete si
jak vlastně jak když máte takovou kružnici
přibližně nakreslit
a frekvenční charakteristiku filtru
když tak
takže vám tady todleto nic neříká fajn to je velmi jednoduché jo vlastně ta frekvence
je určena
pohybem po tady tadleta kružnice že jo takže se namalujeme
tady todleto
teďka pro nějakou určitou frekvenci tady budeme chtít spočítat hodnotu
jo takže budeme hezky po tady té kružnice najdeme to vod ono to tady
jo potom se spočítáme
vzdálenosti kempu
že
jo
prostě je spočítáme
přečteme si je
no a potom záznam a jedničku a tím
bysme měli
to asi podělit ale když je to menší než
ne vlastně gilotin tím my sme to měli podělit jo
takže potom tady najdeme nějakou hodnotu no a pokračujeme dále a vlastně takovým způsobem
_e _m bude nám vlastně dělit o jedničku sumu vzdálenosti po otci nějaké určité frekvence
kdyby jsme měli tam eště nuly tak potom těma nohama ještě musíme to vynásobit jo
víte to
dobře
no a proč teda vlastně
když pro _e ty
modré křížky
teda který odpovídá je tomu filtru jedna dělo na _e Z ni když máme ty
kopce takhle nejsou Q
proč pro ten filtr druhý mě máme ty kopce nižší vlastně
jo proč když vlastně pole jestli tomu rozumíte jo tomu postupu velkých chtěli
proč když ty póly posuneme vlastně a
když k té nule
tomu středu kružnice dat proč potom ty kopečky
vlastně spádům
pochopili se co sem říkal X to počítá jo
protože ta vzdálenost přece jen prostě sezdáni čili
fajn to
je teďka vám vůbec nemůžu říct pro oč
ale toto byste se měli zeptat docent řádky a spíš ale
vlastně to kódování buzení me dělám F kráči schránce námětu vůbec nedělám takže
takže proto za nejím a ono se to dělá s kratších rámcích jo
takže _e běžně cvičný používáme rámce
dvacet milisekund seš odpovídá sto šedesáti vzorku pinů pro těch osum tisíc hertz
jo tak to buzení budeme i dělat vlastně s kratších rámci
jak tomu teda moc nerozumím protože i pro mě osobně je to takový trošku divný
protože vy když se
bavili o
odhadu ten
a základní frekvence nějaké
tak tam se říkalo že je třeba
když někdo má
nízkou frekvence ji měl zejména muži
tak vlastně
on ten vás může někdy V těch sto šedesát vzorku že
pamatujete se to
takže i když se nějak nadefinovány že
ty frekvence sou tak nějak úvod padesáti a čtyři tak her jo což znamená že
potom ten svátky a asi takto šedesát a šel nevím kolik
lace
dvacet vzorků pro o tady tudletu konkrétní vzorkovací frekvence že jo
a teďka my budeme chtít
no jasně ono to a se to kódování bod _e těch krátkých ale to ten
odhad se celistvý děláme tím dlouhý a nechci vás má stále rodiče se zeptejte potom
pán sent černocký
nejsou nezeptá při jsem neviděl
a teďka tadle bude vypadat
ten kodér
jo
jak vidíte
tady bude a na nic
stup tady bude řeč
jo
a tady potom polezou nějaké typu asistenti fiktivní chceme počítat ten ty procesy něco si
myslíte že by to mohlo být když co nám vleze vlastně
když to nahráváme jo může přes telefon uděláme nějaký ten tři procesy tak to je
velmi jednoduché to jenom nerozdělíme ten signál na rámce
jo to abyste věděli
teďka prosím vás si nepleťte takové věci jak u _e ze a jedno děleno a
se
jo
protože tady
tady a my děláme analýzu
což znamená dní po stáním _e
filtry inverzní tlumů auta tečou to že jo abys mají jenom
si už
byli jistě že ten filtr funguje dobře abysme dokázali spočítat kouřit centy filtru správně
jo
takže uděláme analýzu uděláme filtrování
fajn
tady vlastně dostaneme ty _e
a vůbec M
pozice entit
_e deme dalo
co bysme mohli dostat vlastně tady
prosím vás jako výstup
tohoto filtru
když to je inverzní filtr tomu L T C filtru a pece filtr hledá koeficienty
proto řeče
takže tady by měl vylézt nějaký ten chybový signál že jo
a ten chybový signál prosím vás tady setrvávali o dvou chybových se k nám jo
takže tenleten chybový signál je co
jak bude vypadat
tak jsem zatímco udělání krátkodobou analýzu odstranili jsme krátkodobé závislosti jo takže nám zbyly dlouhodobé
no takže tadyto vylezem
něco jako tohle že
jo
fajn no a teďka na to budeme
chtít aplikovat
ten dlouhodobý prediktor
jo
takže my vlastně najdeme parametry toho filtru což by mohlo být to
za prvé potřeba vědět co je ten vlak a za druhé nějaký koeficient který bude
násobit
vlastně zpožděny vzorek že
no a uděláme zase filtraci začátku analýzu potom filtraci
a tady vlastně by nám mění alou šíle jestli se nemýlím
nějaký ten
bílý šum
fajn
tady jí bysme měli mít kvantová celý chybový signál
a tady bysme mění dostat
asi
lock
si myslím
fajn _e je to jasné teďka
dobře
tak co tady máme tady jenom jednu scene tu K kódování buzení
a to tak že vlastně a _e míse zakódujeme první vzoreček
a potom jenom uděláme tu adaptivním pulzní kódovou modulaci jestli se nemýlím takhle se tomu
říká že
_e pamatujete si co bylo princip zapnete adaptivní pulsní podle modulaci
tam jestli se nemýlím se pudu jo síly přímo
že jo
já tam se kódovala vlastně chyba
nějaká
jo vy se zakóduje tak první vzorek a potom jenom ne to byla reziduálního
že se
v tom
ne si myslím že to by mohlo být
ono
no a dekodéru užší vypadá zase jednoduše o něco
že v podstatě vezmeme to nám přišlo a sto všeho vygenerujeme
řeč
jo to je
to je docela jasné ta žil uděláme filtry který sou
inverzní
těm který jsme aplikování F částí N code jo
ten postprocessingu tady by mohlo být
zaprvé
spojování jednotlivě chrám jsou
a za druhé eště jel může by tam nějaké vyhlazení jo protože
přece jen nějaký rozdíl mezi dvěma _e rámci bude
a když tam nebylo nějaké takovéto trhání nebo vloupání k tomu říkat
tak _e
tak se to prostě když mládí
no něco takovýho si myslím že sme push
užší viděli
akorát s jedním rozdílem tak dívám že
_e
jak sadismem úměrný
nějaké
kódování
která _e
toho buzení a ale teďka nebudem ani
zase
nějaký
koutků k ale _m
ale to jsme se už všechno asi
řeknu
jako dat nechápu proč to mám
nadvakrát
_e
co nás bude teďka zajímat my vlastně a když _e ten perceptuální filtr
mýho přehodíme sem _e taky sem
tak potom se to bude zapisovat
trošku jinak místo toho áčka teďka máma a hvězdička
a teďka už to nebude a po něm
přesně _e
ten a o pece jak sme sáního zvykli že ten si pamatuje vlastně jenom předchozích
deset vzorků
jo
ale tendleten filtr bude mít
delší impulsní ode
ani se budeme chtít podívat na nějaké
vzorečky
trošičku je to takové _m
zmatené kromě aspoň
my se to budeme snažit oddělit
my se budeme
teďka snažit vlastně tu impulsní odezvu hatí rozdělit na dvě části
která odpovídá a k tomu
čeho my počítáme současný vzorek
a něco co se tam objevilo dětí tomu perceptuální filtrů
poněvadž starší ba by měla být vlastně teďka
nějaká bývá tak _e
tadleta část se dá spočítat
jenom jednou
a potom budeme pracovat
nadále uvažovat jenom tuhletu část
a co eště tady
já se obávám sionistům asi neřeknu
protože
jsem to nikdy samo nedělá
a já si myslím že já nejspíše radši poprosím pana docenta černockého aby vám to
vysvětlil
když tak on
jo že se to poznamenám
ale slovní teďka můžeme dělá smí teďka se ještě radši podíváme na
rozpoznávání řeči
jo
sestav ponesete že
no sem
takže po rozpoznávání řeči jste se bavili teďká jenom takhle hodně omezeně těch nějakých příkladech
něco mám pan docent černocký řekl zmínil se
a teďka budeme se chtít podívat na jednom etudu
ten _e se v podstatě nepoužívá jo protože _e mít teďka používáme metody které jsou
komplexnější jo ale je to velmi dobrý základ o pochopit abyste si uvědomili vlastně ste
své hladině
_e jak byste to dělají sami jo abyste se
pro pěti vlastně
jo cítili sem to do té úlohy
takže jel
úplně na té první přednášce jste si říkali že
rozpoznávání řeči se může
rozdělit na tři nějakého
úlohy
jo
za prvé se můžou rozpoznávat izolovaná slova že
to je prostě třeba _e animistů dřevo a tak dále jo prostě slovo máme pauzu
slovo ptal na
potom a se můžou rozpoznávat
u jedné slova
kde ní máme
jako kdyby omezeny nějaký slovník ale ty slova můžou být za sebou třeba
nějaké
číslice číslovky
čísla
jo
prostě řeknete jedna dva tři když třeba
se snažit no se snažit _e zadá to číslo tím hlasem jeho do telefonu tak
to je ono
to první toho sou vlastně ty s marchal se s některé jo a nebo prostě
třeba nějakých počítačových hrách se to může obdivovat já nevím jestli to se objevuje a
nebo je to jenom
X Y imaginární a
záležitost
a potom nejtěžší co se může
udělá tak to je rozpoznávání řeči spojené řeči s velkým slovníkem
jo
teďka ni můžeme si říct že a ta řeč bude odpovídat nějaké určitě určité doméně
třeba já nevím to asi to asi je zveřejněn _e že tady tydlety přednášky si
myslím že s ním můžete vyhledávacího na internetu
nějaký ten přednáškový
vyhledávač takže tam vlastně se použije třeba slovník který je hodně omezený jo
a tady tyhle ten přednáška se trošku
bavíme o matematice je něco o řeči furt dokola to tam
jo nebavíme se odpojíte C nebo
nebo něco takovýho
a nebo vlastně ten slovník může být
jako kdyby neomezený úplně
jo
_e pan docent černocký vám už asi říkal jak takový rozpoznávač ten největší nejsložitější jak
moc dobře funguje si se to pamatujete
jak moc dobře
to dokáže tu řeč skutečně rozpozná tak aby sme měli třeba
a řekneme
prostě podslovo je
správné úplně anebo úplně nesprávné když to budeme klasifikovat takhle
tak každé páté slovo teoreticky by bylo špatně
jo
task takže prosím děláme myslím
_e proč je to tak složité pamatujete si na nějaké faktory který to
prostě _e
který nám nedokážou
vlastně nedovolí
to rozpozná dobře proč to co je co je tady tak špatně děláme to prostě
máme třeba programy který dělají chybí anebo tam
problém je na jedné straně někde co si myslíte co je špatně proč to rozpoznávání
řeči nefunguje tak dobře
jenom co vás napadá
tak zaprvé každý můžeme jinak že
za druhé tam může být nějaký šum
jo
takže musíte vždycky prostě když se vás někdo zapsána něco takovýho musite hned prostě aspoň
něco vymyslet
a když to chce tady řešit tak musíte vědět co řešit
jo
takže vlastně nejvíc nám bude pádit
ta variabilita jo že mě i vlastně když
jednoho člověka konkrétního poprosím a aby nahrál stejné slovo desetkrát a pokaždé to řekne jinak
trochu ale jinak
jo
a když my budeme třeba ani
_e v databázi vhodně mluvčích
každé pohlaví potom já nevím
každý jako různé a přízvuky jiná řeči a tak dále a potom přijde někdo kdo
má třeba vadu řeči tak zase to nedokážu moc dobře
rozpoznat jo
a navíc _e
třeba když se podíváte na tu výslovnost čistě výslovnost tak
máte třeba spisovnou češtinu a prostě jak samově tady jak se mu je prázdné a
tak dále a tak dál jo
a někdy třeba odvažte angličtině tak
ta brick ambici na nebo ten snad mladých lidí prostě
tak to slovo změní že prostě bude zní potom jako něco úplně jiného co existuje
ale není to ono jo
a tak dál
to schéma tady by mohlo vypadat nějak taková
samozřejmě ono to je ono komplikovanější jo
není to jenom není jenom tak jednoduše ale míse teďka zaměříme jenom na tohle
takže sám a support
takže _e vezmeme nějakou řeč
jo
teďka si asi myslíš kdy sme měli nadefinovat nějaký nejjednodušší unk u teďka budeme chtít
třeba rok po rozpoznává
_e jestli slovo které sme na dostali v nějaké nahrávce odpovídá tomu slovo které je
snaha se kterou když mám jo máme dvě nahrávky
a chceme zjistit zdali chtěl dvou nahrávka máme stejné slovo a nebo ne
jo
vezmeme ta slovo každé z nich každou nahrávku ve zná rozsekán rámečky
a potom budeme chtít se podívat
jak voni sou si akustický podobný
jo
mohli bysme samozřejmě udělat nějaké to spektrum a podívat se jak to vypadá ve spektru
ale ta bude to dělat nebudeme
a budeme dělat jenom zatím tohleto
to dekódování tady to je prosím vás pozor něco úplně jiného než to o čem
sme se bavili vpřípadě
_e kódování pro telefony třeba jo
tady to je něco jiného
protože to slovo vlastně nemůže mám buď rizik celé
jo třeba ahoj může mezi celé slovo
ani nebo
namodelovat když bude na používat nějaké modely a nebo můžeme do slovo rozsekat
na úsilí na takzvané ty slabiky
jo
a nebo třeba i na nějaké konkrétní fonémy
kde se s panem
to je von _e
honem není písmeno
jo ale jaký je tam rozdíl mezi písmenama foném
řekli sme no to je to vypíšeme že
a má to prostě nějaký název
a tak ale foném to je
podstatě nejmenší čase řeči
která mění význam jo to je ten zvuk
jo třeba všichni častokrát
písmenko a foném oni se odpovídá já sem vám když jeho francouzští je taktu škube
jo
no to se nepleťte
takže my můžeme buď třeba to slovo rozdělit na nějaké ty slabiky a pro každou
sladit natrénovat zvláštní model
jo a to dekódování to je potom jako kdyby sled chování
jo
toho dohromady
podle toho co je tam pravděpodobné takže my nerozpoznáme celé slovo ale části toho slova
potom to tak nějak ještě na letíme dohromady
ale to se používá když máme prostě velký slovník jo máme hodně slov a tak
dál to jedno slovo se to bude po už
teďka a se zaparkovat vlastně
to _e se dělá jako parametrizace teďka máme rámečky řeči
a budeme chtít
dát parametrizace tak co to je to zaprvé
vy vlastně a ste řeči chceme
dostát jenom to co my potřebujeme
jo protože vidíte že řeči je velmi redundantní proč
pamatujete se to
co
noc protože tam není jenom to co my vlastně chce mezi
ale je to jak to chce mezi Q šunky to mají úplně
zvrhle rizika jedno ale myslím si že
_e
prostě _e o nějaká ta nálada a tak dále a tak dále že
když nám někdo řekne
ne ale myslím že jo tak
bůhvíco
no a
potom a nejvíce používá ne parametry to sou ty
buď L P cca anebo M S C
pamatujete si jak se to dělá nebo mám vám to trošku zopakovat co byly ty
M S C třeba
a na to jestli se to
no vlastně to sou V se s tím cat kterém že
my sme
se _m o co se tam snažíme
vlastněni těch M S C se necháme třináct prvních
jo třináct nebo dvacet většinou
tak se to
buď třináct a nebo dvacet
jo někdo používá třeba patnáct ale to je takový že
prostě třeba když nějaká laboratoř používá třináct tak budou používat třináct
až třeba zapadlé zkusit dvacet a pro _m říct že dvacet je lepší
jo na některých úloha prostě je lepší používat oněch na některých projektech o je lepší
používat
jiné číslo protože
tom modelování tě zda
a obecně tu rozpoznávání tam _e
se používá _e úplně různé metody a ty metody se potom soustředí
na I
jinou informaci která je v podstatě včer dáte jo takže proto
_e máme řiť
dívejte se
máme prostě nějakou tu řeč jo
děláme s toho spektrum
to spektrum bude vypadat takle
proč to spektrum vypadá takhle protože tady ní máme
in pózy a máme
jakou _e impulsní odezvu ta impulsní odezvu rezonanční frekvence nástupce jo
tým pouze to co dělá dělali naši hlasivky
_e
takže to je ono
tady je operace fondů C
že
pamatujete se to jo
to je svá
čase
to je čas
když se budeme podívám do frekvence
tak _e to co odpovědná tomuhle
tak to bude ta naše obálka my říkáme to
jo
ta on
_e kopečky to sou ty naše formanty
jo
a potom tají chle kterých lomnice se složka tu a je _e
to jsou harmonické základní frekvence jo my když uděláme teďka
sekvenčně analýzu těch impulzů tak bysme teoreticky
někdy to stát s něco jako
tohle
jo
ani ty a když poněvadž děláme tady
konvoluci která mi to nedělá no slída ano
takže je ve spektru umí uděláme násobení
tohohle a té modré čaj tady
jo
a potom dostaneme to černé to je vlastně spektrum řeči
ní teďka co budeme chtít udělat
tak to ji a _e _m
dosah toho jenom tu obal
a teoreticky buďto můžeme prostě tíhla nic nějak
jo
udělat třeba
já nevím
_e
jako interpolace nebo něco ale nebude to vůbec ono
jo takže takhle to nemůže udělat
my to uděláme
i teďka vezmeme a _e druhou mocninu toho černého
jo
o tom vezmeme logaritmus to
proč pro děláme tam
proč tam aplikovaná logaritmus
protože je
když tohle je spektrum impulzu
a tohle je spektrum potom
impulsní odezvy jo tak mi je násobíme
jo
a když na to celé
aplikujeme logaritmus tak to je prostě třeba
blok C bude vlastně
log _e tu
blok
ve že jo to si pamatujete
jo takže vlastně aplikujeme _e
ten logaritmus a inverzní
fourierovu transformaci
jo a tím pádem i potom dostaneme
se bude takle čára
a tady něco jako
tohle malé koeficientíky ni řekneme že prvních třicet
to sou nízké frekvence vtom spektrum jo takže my teďka vlastně
tenleten obrázek
nám říká jaké sou frekvence ve spektru
ale jako ne ve spektru jako že tady
jo a ve spektru prostě co obsahuje tak černé čára
jo
ta modrá ona vlastně odpovědná těm prvním při třetí a osy centrum centrální
a ten zbytek to už budou potom tužky mělo být todleto jo
že právě proto mi ve nám to ní třináct nebo dvacet abysme
zakódování jenom to obal
fajn
_e ty M S C co tam prostě je to M S chcete tom melfrekvenční
to je
toho že je lidi slyší na
že jo
lidi mají lepší rozlišení pro nízké frekvence
jo a to samé že
lidi mají lepší rozlišení pro _e
jo pro nízké frekvence
dobře
_e
že tam se asi po ještě taková ta banka trojúhelníkových intrech nepamatujete dobře fajn
super
_m
no a ty L T C to si pamatujete že vlastně tam se to kepstrum
dělalo s toho L pece a nesolí rovky jo
dobře
co je tohle
to vlastně jak vypadají parametry jenom
je sice není _m
která barva odpovídá vlastně světla a nebo
jo ta světlá to je jako že hodně
vysoká amplituda apod máme nejspíš nízká amplituda jeho rozdělíme neřeš to rámečku
a ukážeme si některé parametry takhle
_e
ty čekám
budeme
budeme
se chtít zaměřit na dvě metody dneska budeme dělat o měření vzdálenosti
a příště tím snad budete dělat statistická modelování jo tome dolování jeho mnoho těžší mise
dneska zaměříme jenom na to ptal na tu zdálo
_e takže ono to bude vypadat
intel
nějak takhle
dívejte se
my máme třeba
nějaké tří a _e
třídy
jo
prostě třída jedna
přidat je přidat či no a přijde testovat se vektor
a samozřejmě ten by měl patřit třídě která je
nám blíž jo samozřejmě ono to práce není úplně takhle protože
tam sou nějaké ty variability stejně
těch parametr která je potom
když odstraníme tak můžeme zjistit že vlastně tenleten vektor opatři se
jo ale o tom se budete balit cache
až někdy jindy
je tam obrázek vám jasný
jo vlastnění máme teďka momentálně z nějakého rámce
dvě čísla
jo parametrů takto parametrů prostě dvou dimenzi
to je jedna dimenze toho parametru to je prostě druhá dimenze tou parametrů jo
a to je prostor naščítat
fajn
to bylo jednoduché měření vzdálenosti
a teďka o tady tomletom se bude ta bavit
eště někdy jindy
představte si že mít teďka zase máme tří _e třídy
jo
ale ty třídy nejsou určené jenom jedním bodem nějakým centrem
ten bod bude někde tady na kopečka
jo
ale tam je ještě je nějaká pravděpodobnost kolem tu o
že data
tam patři
jo
_e když se podíváte ty kopečky oni se překrývá oni jsou nekonečně široké jo tadle
prostě se pláty úplně všude
ale tady máte namalováno je
namalován jenom
prostě ten kopeček terry víš jo právě proto je to tak hezky spojujete ale vidíte
že tady sou nějaké
_e hranice tam jo
ale přece jen ono zandá pokračuje jenže prostě tady vidíte trochu
jo
teďka
vlastně jen
my se budeme dívat
a tu červenou tečkou náš testovat se vektor
_e
jak moc vysoko on se vlastně nachází protože to je ta pravděpodobnost jo jak moc
vysoko to vlastně nám určuje to teda to není pravděpodobnost ale to nám určuje pravděpodobnost
ono se to může stát že třeba cache já namaluju
něco o to je
to sou dvoudimenzionálně gaussovky prosím vás i když prostě jděte přijde
jo parametry těch gaussovek vlastně s tou
někde tady
jo
_e to jak je to vysokou otouš spojené pravděpodobnost prosím neplést to je dvoudimenzionální kauzu
jedné dimenze to by mohlo vypadat prostě
takhle že máme jednu
a máme druhou
jo
přijde nám testovat se vektor někde prostě
todleto
je čára na které sou parametry jo parametry nejsou někde tady teďka vůbec
parametry máme
tady takže nám přijde nějaký
dá to
jo
ani spočítám M
pravděpodobnost prvním gaussovky
a pravděpodobnost druhá gaussovky
ani hraje tady druhá
dobře
to jenom abyste
abyste se to zopakování když tak
teďka to my máme tady sou naší data
jo
a jestli já jsem jiným tak ono to vypadá
že _e
každé s těch nahrávek nemáme úplně stejné slova
takže vidíte
zaprvé
tam jsou trochu jinak frekvence jo pár vlastně se mění
trochu jo
a za druhé oni ono tohle různě natažené
tak i když třeba se nám podaří nějak velmi hezky
spočítat parametry třeba ty M S C
tak mi dokáže to a dostaneme
různý počet rámců
a teďka budeme dělat od _e té dvojice ze
které
nám
pomůže
najít
jako kdyby cestu
jak sou sekyra _e rámce vlastně jak jaksi odpovídají
jo
prostě rozsekáme to na rámečky
takhle nějak mi že
no a teďka vlastnění vidíme že to co je tady ono si to patří
tady taky
jo a tady tenhleten druhý ste první bude patřit asi třetí
za druhé
jo a todleto se budeme chtít teďka mnou či
_mhm
tady zase máme nějaký moc hezký obrázek
a ten obrázek _e
je to no to není nic jiného nejš
tady
ste tady tenhleten
dimenze jí
my máme
_e
vektory třeba ve který parametrů s nějaké referenční nahrávky jo
a tady máme testovat si
a teďka každý s každým porovnáváme jak jsou si podobné
jo
takže ní vidíme že vlastně ta podobnost bude někde
na tý _e diagonále
trochu
a toto co to jako znamená V teďka vlastně když budeme počítat a ty podobnosti
jednotlivých rámců svou nahrávek
jdeme tatí a _e chtít počítat
nějakou pravděpodobnost
to že a _e
odpovídají obě stejnému slovo nějakém
jo
takže to je to jo ono
o tomhletom se bude ta baryt až nějaké ty další přednášce
co vám akorát můžu říct že ty skrytém hákuje modelujícím epos model
ono to je velmi podobné konečném automatu jeho takže ji když
je to úplně to sám akorát to má jednu věc navíc jo
takže když se to třeba moc nepamatujete tak zkuste se to za pokud opakovat i
konečné automaty jaký vám to příště ulehčilo práva
co se tady děje ní budeme chtít
postavit nějaký ten model jo a todleto se vo skutečnosti teďka už děla
jo
ni vezmeme prostě jel
nějaký unk o
vezmeme nějaké slovo
a budeme chtít to slovo namodelovat
jo
i tady vidíte
v nějakém
kroužky
to soustavy samozřejmě to si pamatujete
jo prostě todle to sou všechno stáli tohleto je konečný stav i když prostě o
těch konečné automaty asi pamatuje takže to sou
dva proužky jo
aneb dva kroužky nemáme
na nic a oni vlastně tady tyhlety první a ten poslední stav oni sou jako
kdy B redundantní
jenom aby se ty modely hezky spojování jo aby měli začátek a konec
ale jinak oni ty stavy jsou prostě ptá zóně nic nedělaj
to nás zajímá nás zajímají ty áčka
to budou nějaké přechodové pravděpodobnosti
jo
představte si že jasný teďka máme nějaké slovo
máme matic i
parametrů
jo
a my budeme chtít a D tenleten model který má čtyři aktivně stavy adieu _m
jako kdyby generoval tohleto slovo
jo s nějakou určitou pravděpodobnost
on se musel natrénovat tak a D prostě
nějakému tomu stavů
odpovídání nějaké konkrétní
vektory a samozřejmě prostě jako sekvence to musí fungovat
jo řekneme
ježíš
řekneme že prostě
takhle
takle a tak dále jo
ty přechodové pravděpodobnosti pozor prosím vás
oni jsou trošku takové po zákeřnym protože a
tady je to jasné tady bude prostě jednička
jo když začínáme víme do prvního stavu fajn super
potom sme tom prvním stavu a postupně jako kdyby načítáme jednotlivém textury
říkáme
s jakou pravděpodobností jo to sou vlastně ty
myslím toho věřící to já nevím jak se řekne česky
takovou pravděpodobností
a ten konkrétní vektor odpovídá tomu stavu
jo
a fronty áčka vlastně nám říká ji že mi když přičteme další vektor
tak
tohleto pravděpodobností musem a zůstat tady
a nebojím zase dál
jo
a ono se tom
ono se to takle musím naučili a když to už bude umět tak mi tomu
záznam _e zase nějaké jiné slovo
jo a ono ten model dvě na měl otestovat
ono to určitě projde
jo ono to určitě projde až do konce
tam se to dostane libovolné slovo
jenže potom nijak sem ne němeček spočítáte
pravděpodobnost že to je ono jo to je to slovo které patří k tomu a
to model
ale o tom budete se bavit hodně dlouho a je to moc zajímá
tady eště pár slov
o dekódování jeho tam sme viděli na začátku
nějakou tu krabičku je se nám říkala že
když máme ty izolovaná slova což mi dneska předpokládáme
tak to je velmi jednoduché jo protože to slovo prostě buď je nebo není
ale u toho _e
a vy se S R to že
tu rozpoznání spojitý slov s velkým slovníkem
je to o něco složitější protože
tam nás zajímá tak zvany lan klíč model já nevím jestli se třeba něco takovýho
už slyšeli řešený nebo neslyšeli todle
_e to je to je velmi jednoduchá záležitost protože každý jazyk má
nějakou
určitou strukturu že jo _e
když i třeba _e řeknete ahoj tak je velmi pravděpodobné že byl řeknete jak se
máš třeba
jo
v češtině
jo
takže
on nám určuje že jo jaká je pravděpodobnost
když řeknu nějaké konkrétní slovo
že řeknu
další nějaké konkrétní svou
jo
jako kdyby takový strom
takže dívejte se když teďka rozpoznáme
jedno slovo
slovo číslo jedna jo
a potom toto míříme prostě devadesát procent že to je ono jo hezký prostě jsme
si jisti
potom další slovo a toto mi rozpoznáme třeba nějakou větu teď
jo nějak ocelově to budeme chtít rozpoznávat
potom nám přijde slovo dvě
pravděpodobností prostě čtyřicet pět toho modelu zájmem nám to vyleze jo
a přijde slovo
při s pravděpodobností padesát pět procent
jo
to eště nám nedává vůbec
_e právo říct že todle jako na té druhé pozici musela mít slovo tři
my se teďka musím podívat do vám which modelem
musíme se podívat s jakou pravděpodobností v tomletom konkrétním jazyků
jo
zatím slovem
teda jo před tímhle tím slovem prostě je tohleto jo
a s jakou pravděpodobností před tímhletím slova mně tohleto taky
a může prostě říct že tady máme devadesát procent a nemáme zde no a co
máme dělat
tak třeba můžeme vybrat tohle
potom tam výslovnostní slovník eště máme
a tu je třeba zejména velmi důležité pro angličtinu protože jak mi píšeme a jasný
sumujeme něco je zase něco jiného jo
my rozpoznáme ty fonémy ale potom tomu sem ještě před
a na najít prostě když von pracovat s angličtinou tam mluví každý úplně jiná že
protože tam
obou hodně lidí mluví anglicky a vždycky tam častokrát je tam nějaký přízvuk
a von ten člověk může vyslovit něco
prostě ne tak jak by měl jeho třeba mít samý jo a tak dále takže
_e
potom jsem a ještě zase na
spoléhat na nějaké pravděpodobnosti s jakou pravděpodobností lontu vůbec místo
a tam budete mít ještě hodně různé z těch algoritmu to bude to bude fakta
vo ale nejde toto jedno není to moc jednoduché zábavné
no a omezení prohledávacího prostoru to je to co sem vám říkala push
že a
my se prostě
nám se třeba něco rozpozná jo
ale ono to něco třeba vůbec není moc pravděpodobné že L s tomletom const kontextu
by mohlo být
takže mi to zavedeme jako jo budeme vyhledávat vlastně
a nějakého konkrétního subsections
teďka když budeme chtít rozpozná ty izolována slova
za prvé ono to může být tak nahráme že to je izolován jo
a za druhé prostě když to tak není máme větu a chceme toho vystřihnout slova
je
jo
nás nezajímá sto jaké jsou bylo před tím i teďka nebudeme se zaměřovat na rozpoznání
tetelení je ty a na nějaký konkrétní slova
jo takže nepotřebu normálního neboť modální takovýho
ty slovani střihne má a toušice jak se dělá prostě detekce řečové aktivity
on je častokrát založeny na energii jo to je nejjednodušší když máme prostě vysokou energií
T řeč když nízká energie to je šum
jo ticho jo
samozřejmě a _e tom a svoje háčky protože třeba takové
o náznaky prostě jako šum třeba je jo může prostě
ten detektor nemuset fungovat úplně
plně nejlíp ale jenom
jan tak abyste věděli anodou právě se používá je podstatně složitější
tak máme další obrázek takže ve slovníku máme
měl
slov
přijde nějaká řečany chceme prostě rozpoznat
která těhletěch slov bílá vyslovena
jo
to je ono
takže
teďka už _e
kde mám
D M na to více méně
todleto sme si zase už říkali
že M
my budeme chtít
rozpoznat vlastně
slova která obsahují víc než jenom jeden takt or parametrů takže
todleto konkrétně ní použít
nemůžeme
protože a _e
a vlastně vybrán používat
něco skoro úplně to samé ale tady se to říká že
vlastně abyste nebyli moc zmatení že
tenhleten vzoreček je jenom pro jeden konkrétní nějakým takto
jo
kde vlastně typ _e
to sou dimenze toho vektoru
jo
že těch slov máme
nějak
a tady
vybereme
vlastně ten vektor jeden parametru
proč máme dva
máme jenom konkrétní tak rád
a na jeden konkrétní vektor
jo a druhý konkrétní vektor vidí prostě celé slovo
dílo reprezentován _e vektorem tak bysme porovnání vlastně
jaksi
a jsou si podobné
ty vektory jednotlivé menze napočítali jedno číslo jo
to je
to znáte to je ta euklidova vzdálenost
ne
nás
dobře
teďka ale náš u té
porovnávat
matice
tedy sekvence vektor jo
dostaneme u té reference vlastně nějakou sekvence kde
to R má ale jedna a šerm ale
jak velká
jsou vektory
a tady mít taky máme prostě vektory jo je sekvence vektor má
a teďka budeme chtít udělat
alanine nějaký
a tak dále jak to bude vypadat tak první nechceš bude match vlastním první a
poslední a tím posledním ale co to je uprostřed tak mi to moc nedím
samozřejmě nemůže já seskakovat to nefunguje jo
_e
takže tím je omezené nějak prostor toho
hledání ale pořád to je to co
složité
no
takže kdy nějak mně to udělat nemůžeme to sme souši říkali
navíc tady třeba máte příklad kde se udělala ta chyba a
detekce řeči jo že tendleten šum vidíte a uměl docela vysokou amplitudu takže prostě
se to k té řeči nějak připojeno ale přitom to je prostě šum nějaký jo
vůbec to není žádné řeč
ale nic takovou nahrávku máme
a musíme s ní pracovat proč ni musela pracovat proč tudletu nahrávku není hodíme
si myslíte došlo furt tak řešena ten šum a tak dál
proč tu nahrávku nemůžeme vyhodit
že by takových nahrávek mám na hodně a děláme prostě to automaticky já nemůžeme poslechnout
o nevím sto tisíc
třeba hodin řeči jo
proto
proto vlastně
my se snažíme mít co nejvíc vždycky dat
jo čili s těmi vždycky
ale ty data se snažíme nějak zpracovat
ale však máme nějaké takový chybně a musíme nějak potom ty metody vždycky
na to naučit aby se s tím nějak
_e
aby se s tím nějak uspořádány fajn dobře
a konečně myslím dostává do té metody které se nepoužívá
_e tadleta dynamické borcení času a to je nějaké _e jakýsi vyměním dynamické programování a
hned se podíváme jak to vypadá
jo takže i teďka už sme se to řekli hodněkrát teďka tneska
ale
máme tady _e
vždycky
je dán
vektor
jo
parametrů
takže vlastně ta jednička dvojka toto sou čísla rámců jo to nejsou jenom jednotky jako
můžou být o jednotlivé čísla ale my pracujeme s vektory takže sto nepleťte
a tady máme sekvence taktu která odpovídá ten naše testovat se nahrávka ani budeme chtít
se podívat
jestli je _e
za prvé i budeme chtít
najít i nějakou cestu
jo jak vlastně ty rámce jsou si podobné a za druhé spočítat nějakou pravděpodobnost
že to je ten náš že to je to naše slovo
jo
takže když se podíváme že vždycky budeme začínat
někdy a někde jedničce
jo
vždycky prostě první odpovědná prvnímu
jo když předpokládáme že předtím nic neni a poslední bude odpovídat tak je posledním
tady vidíme že jo druhý odpojena dlužím u třetího tlumena druhýmu a tak dále a
tak dále
jak to budem a počítat to bude mám počítat velmi
velmi jednoduše jako pod a teďka nevím proč
tam vlastně je popis nějaký úplně
úplně jasný
nevím
takže _e jak to budeme dělat ní vezmeme
zase
jak to reference vezmeme vektor Á
_e testovat se nahrávky podíváme se
jestli jsou blízko jo spočítám a to vzdálenost taky tady potom todle
to o nějaká
jo to je nějaká ještě další váhová ty
funkce
ale k té se dostane na ty po
do of kliky většinou končíte tuto přesná
ve tři čtvrtě jo
_e
takže tak teďka bude takhle že odpovídá to takhle budeme chtít spočítat
nějak a ty naše vzdálenosti přičemž
tohleto budeme se snažit těch pokud možno nějak
minimalizovat zaprvé my si musíme nadefinovat nějaké ty stahovat si
_e nějakou tuba hlupáci funkci a eště nějaký krok a nebo spíš _e
něco jako
nějakou třeba
cestu k a kterou my může mají johny třeba můžeme se podívat
že samozřejmě je nejpravděpodobnější že když začínáme někde tady
jo a končíme tady
obzvlášť když sou ty nahrávky prostě veršů a
tady na délky tak ta cesta by měla být někde na té diagonále jo
takže právě proto my musíme ještě nadefinovat
váhy kroků
jo kam pudem a
to a dneska díky
a ten algoritmus
bude velmi
docela jednoduchý by řekla
jo to motorku
trochu z názvy
počáteční koncové body se nadefinujeme a potom nějaké lokální souvislosti
jo potom i se nadefinujeme jak moc můžeme jít nahoru jak moc můžeme jdou strany
to je
to je jednoduché no a jak jsem říkala přeskakovat taky se nesmí takže každý vektor
musíme použít aspoň
jednou
a ale ten vektor se může _e opakovat jo jak může se opakovat nette ste
cestě o referenční nahrávky je taky se může opakovat i
u té
testovací
_e jasné
jo a nějak a _e máme srazí omezení podle nějaký konkrétní vzorečku to je
co všechno záleží na nějaké ty aplikace nebo konkrétním slov
neživý si nadefinujeme nějaké čáry a potom ty čáry nám
řeknou že jo někde tady vtom žlutým
i ta cesta mohla být
a co to znamená to znamená že ní vlastně budeme teďka dělat skutečně za dynamické
programování jo ji nebudeme porovnávat každý s každým
ale budeme
porovnává tím ty _e
pravděpodobné podstatě se jo bude mají vyhledávat
jak se ta cesta někde tady prostě mu ta
ty váhové funkce můžou být zase
mně koně kádrů Ú
ono sou to většinou určuje tak že ví třeba budete chtít najít zavazovat nějakou aplikaci
budete mít _e trénovací data a nějaké evaluační data jo
na implementujete potom _e tohoto zkuste té různé váhy
a proto to funguje lépe tak to použijete protože ní většinou taky předpokládáme že ty
evaluační data
té ty nějaké verifikační data
oni a _e
sou
nějak tak podobné tomu našem to bude se potom
_e testovat jo čím to budete provozovat
takže tady máme ty testy co to znamená to asi chápete že
že vy vlastně když
ne
u toho bodu
ono to je trošičku jako kdyby naopa
že deme sem nahoru tak dáme prostě dvojku váha bude dvě jo že bude splněny
takhle to tomu ten stejně od konce říct že
když jsme tady
tak sem sme přišli s největší pravděpodobností odsud
jo
a potom na základě tady těhletěch v a on se ten algoritmus jaksi
se přizpůsobí
samozřejmě když vidíte že máme tady nějaké váží je hodí jednička dvojka dokonce tady dole
máme i nulu
to znamená že vlastně
_e
sem dole jako kdyby nemůžeme přejít jo že ten konkrétní
nějaký _e vektor se může použít fakt
jenom jedno jo nemůže se jako první zůstat na jedné
na jedné poloze
a musíme která když máme nějaké ty váží definovat i normalizační faktorizace
no a ten normalizační faktor de co na denotační faktor
tu to bude suma všech použitých na zase
jo to je docela
logické
ono to jiná a zase takovém
takové trochu
nebezpečné používat
ten normalizační faktor
jako a váhy
odpovědná jestli té cestě protože oni když
já sem vám říkala zaprvé potřebujeme najít cestu a na druhé musíme odhadnout nějakou tu
pravděpodobnost potom spočítat jo
podle cestě
takže mě když dostaneme nějakou referenční teda ne refe nějak otestovat se nahrávku a máme
ve referenční a chceme zjistit
které z nich
vlastně ten vektor patří jo ten vstupní ten testovacími
tak potom tomto normalizační faktor bude zase
jiný
ale to tady ne vládí
ono to budem paní
zadám té cestě jo takže sem řekla bobo
potom zase tady máte říkám _e nějaké tabulky
tabulky s omezením
co když
se mě nechce moc
nějaký dva
protože sme se to řekne push
dnes tak
a já bych se chtěla dostat píchni K
někam asi
jsem
teďka nás bude zajímat jasný vytvoří má tu referenční
nějaký referenční a nějakou referenční sekvenci
E vektoru
takže vypuč můžeme použít jedno nějaká konkrétní smlouvalo že jo
jo logické když tam _e
když máme jenom jedno slovo tak nic nemůže na použít když my máme kdy a
nahrávek odpovídá je se ten mu slovu
tak buď můžeme použít každé zvlášť že jo
jo a potom třeba udělat
průměrně jak jejich pravděpodobností a nebo
vlastně jenom tohle
a nebo může má _e vytvořit nějaký průměrný
vzor
zase když použijeme ta to jedině jarní průměrování tak to je docela P po že
no protože jedna bude dlouhá druhá prostě družinou bude
krátký a tak dále
a nebo můžeme _e
zase udělat
dynamické
průměrování a to zase může na použít
a toho dete V na to
jo nějak prostě je řekněme
dohromady a tu bude naše
reference
no a titulky já nevím jestli ste už měli
já si myslím že nespíš učte todleto s taky ste měli že jo i když
jste se bavili třeba o tom vektory _m kvantování tak
učte zvuky akože zvuková ní ten princip už _e mě asi tak nějak povědomý že
jo
jo
ono to vlastně
a to zvuková nic zase může být
třeba užitečné je
s takových případech když máte pro nějakou třídu třeba
máte a _e
omezený počet dát jo vy třeba můžete si představit že máte
X tři každé přidá má hodně dat a potom máte třeba nějakou tři doktorama
málo dat
jo takže ta třída které je reprezentována malým počtem dát ona je
nejvíc náchylná k těm chybám nebo nějakým špatným rozpoznáváním protože
no tam je málo dát a vlastně když budete dělat to shlukování tak teoretický můžete
použitá ta která patří jiné třídě
jo
můžete prostě a vlastně to jako kdyby na syntetizovat
teda samozřejmě když
ono to je to podobné
tak se si myslím že to by mohlo být asi tak
všechno sme strany akorát
jo to asi všechno máte nějaké otázky
fajn tak jak sme se že už je známo že teda skončit jo
tím