vítejte
začne bezdězu zpomalili přesunem toto je přednáška odvrhne
mám pocit že říká R _e vaši kolegové klasika řeknete přesouvaly jsem úplně jiná možnost
to nakonec zacyklí takhle
ta
bez občas
jo
my
utíká
zda
ví
budeme dominika straně učitelem i na jihovýchod napřed řeše tak do a ten a krucinál
_e a ku
_e technika i
ale nevím
možná že by se podívat na nějaký
bude mít ten ale prosím vás
říká
vyšel takový
já jsem ráda
tak vystihnout tak
jo takže že
M
a _e ještě než se dáme do vlastně přednášky tak nějaké administrativním složky
_e natáčet prvního projektu
protože když _e skoro všechno co potřebujete tak víte a zbytek se tam dozvíte dneska
první prvek _e že vlastně rovina _e
určitě udělali anebo tento týden uděláte komplexní kodek od _e P T znamená určení parametru
_m filtru který modeluje naše hlasové ústrojí určení základního tónu
_e nějaké tak na kvantování parametrů a potom naopak
je mezi parametrů zase postavení toho filtru a nagenerování nějakého budícího signálu a daní řeči
dohromady
a jako one budu v rámci toho prvního projektu chtít abyste _e ten dekodér
napsali čemkoli jiném než matlabu takže si můžete vybrat měl jsem prostě různé
časově pá jednu se C plus C plus
víš art _e že možném skutečně nikdo nedokázal
_e možná šikanovat
_e bod je to je to všechno na webu popsané
vrutici krát budete mít pozici nějaký testovací signál referenční výstupem
takže po vás budu chtít prostě abyste si ten testovací signál skórovali neposlechli
_e já potom na to toho bodu pouštět nějaký svůj testovací signál pod ohodnotit kvalitu
výstupu jednak si budu dělat tak má logaritmickou spektrální vzdálenost zpracování možná trochu _e dozvíme
to je nějaké
jako v uvozovkách objektivní hodnocení kvality dekódované řeči podle toho si to sortu pár nejlepší
si poslechnu a ta úplně nejlepší dostane ještě frašku červeného vína
takže _e toho přesně zase dostáváte body máte nastane někdy na konci toho pdfka jako
de teda pustit produkuje poslouchat plnou tečna feťáky distribuci řeknu jinak linuxu
_e je k dispozici nějaká minimální dokumentace všech neformálně pořádku odevzdáte termínu toku toto je
širokej dostanete patnáct bodů když je něco s toho nebude oukej tak tady máte _e
napsány různé penalizace
a pokud všechno bude oukej eště budete mít nejlepší kvalitu výstupů tak trošku dobré víme
a i důležitá informace tento projekt jako na _e skupinka swot jednoho do tří studentů
zapisování normálně ve wisu udělám tam dneska večír nějaký takovýto zapisovat o podobně se hlásili
na laboratoře jo není tam žádný časový press a
odevzdání toho projektu musím ještě vymyslet
loni se vodevzdával
se to bylo na webu
_e
buněk někdy to dám na polovinu dubna
ještě přesně nevím tam
_e další administrativní informace půlsemestrální zkouška se mnou testovala na hory
nární prázdniny a vzhledem k tomu že sem hodil mu sjezdovka dvě až tři děti
tak pacem večer měl maximálně tak je to civilnosti aktivovali tak to znova se
nesrali složka ještě není opravena
tak _e začínáme přednášku
zase na zdroje pane kolego jedenáctka R tak se mi dejte
jihovýchodním směrem
ano
a
jo
zase dělat známe všichni na to samé a prostě odepři
si napsaný z dekodér _e něčem jiném matlabu
a pak si prostě dekodéru nějaký signál E
rovná vám
poslouchám
jo je samozřejmě na vás jako je vzít ovocného nového těchto to dodělali už mírou
že jo jako u textu není nejmenšího odporu
_e doufám že hosti výsledek jako dentista napíšu sem není to těžký prostě naučíte se
na tom pár věcí
který řeči _e
co
že se
zná jinde
jo Š poďme na kódování řeči
promiňte si že taková malá kalibrační vsuvka
tak to je to
video zamezte to znamená
jako kde to někdy psal a tak topasu objevovalo oku centimetrů vedle
takže potom co rovnou
takže černovic do blázince takže kódování řeči jedna
o čem to bude nějaké obecné povídání o dělení kodérů jak se vyhodnocuje kvalita kódování
objektivně subjektivně potom začneme s těma vlastníma bude doma
a přes _e to bude vo tak zvaným bejt von code i
předtištěné to hrozně krásně doslovně překládá jako kódování tvaru vlny
jo opravdu
_e dva a je to vlastně _e o tom že pracujete vzorek po vzorku aniž
by se brali nějak moc úvahu že máme _e že máme nějaké řečové ústrojí které
se skládá z buzení a modifikačního _e nebo z artikulačního traktu
o tom se podíváme na vokodéry kde už tady tohleto platí to znamená tam předpokládáte
že zpracováváte řeč která se dá nějak rozdělit
_e mrknem na vektorové kvantování že takovým základním kamenem
mnoha kodéru řeči ale i další
věcí
_m o _m mimochodem měli se někde no viděli se někde vektorové kvantování nebo klastrování
nebo z luku automatické shlukování
vrzali někde v nějakém kurzu
jo vy máte prostě jako mraky dat
nějaký vektoru v nějakém N rozměrném prostoru a také potřebujete _e rozdělit třeba do dvaceti
tříd automaticky
no něco takového
oba tyto viděli o tak
to tady eště jednou projedu
možná že by to bylo moc jako pomalu přičte a
by měla něco zajímavějšího o tom ještě přednáška kódování dva kde už beru trochu detailně
L kodéry nejsou dnešních mobile
takže možná že se X to je dvojice dneska
trochu dostaneme pokusilo sem taky sem
tak vosumnáct kódování de
ne no name bitů aby to přestalo co nejlépe sužovalo zřejmý když budete mít totálně
archivovány přenosový kanál tak aby to pořád krásný mluvilo aby to bylo co nejméně výpočetně
náročné
sem vám tuším říkal že
na napřed první přednášce že tady tato kritéria jsou _e
v rozporu
že třeba kdybyste chtěli opravdu jako co nejmenší počet bitů
úplně ideální _e kodér by byl ten
který by _e vlastně nahrál naprosto všechno se
toho daného člověka US narození
musí o indexoval a potom tak ještě kolik řeknete tak se to pravděpodobně někdy řekli
tak to jenom jako šáhl o té konvexní a poslalo to taky třeba čtyryceti bitový
index
tak to by bylo bezvadný akorát by to asi docela dlouho trvalo
takže by to
hodně spočívalo a kdybyste
ten index změnily o jeden jediný bit
a místo nějakého slova řeklo třeba nějakou sprosťárna tak _e prostě asi
i ta posloupností stránky nebyla
pokud _e na
takže
typicky prostě tak jako v jiných oborech lidské činnosti
jako chci dělat něco humanitárního ale stanovit hrozně málo peněz a nebo udělat nepříjemnou věcech
rovnicí nesouhlasím ale budu balíku prostě
to stejné vidíte tady požadavku na kódová
_e eště takhle druhá poznámka
když pojedete na nějakou konferenci tak _e ty kódovací sekce seznam jako popelky ani tam
jako nechodí moc lidí a jako všichni do u teda na to rozpoznávání protože to
je prostě jiná se _e velká věda
_e když se podíváte na _e komerci a na čísla kolik jednotlivé aplikace vydělávejte kdo
právě naopak uvědomte si že nějaký vokodérech
máte asi dnešních kapse a všichni ho denně používáte když to nějaký rozpoznávat řeči jako
tak někdy možná takovou vedra teda zásobu této někdy použili přednášky do com
si vlastně hráli výsledky rozpoznávače jo
dyž je to zatím taková hračka když to kodér rozvoji všichni to znamená firmy
jako půl com
_e
jako
tak se jmenuji
_e
naši
přátele
_e jak možná spoluvinu které dělají kodéry řeknu vám prostě vydělávaj úměrný masivní peníze
tak _e
poďme se teďka podívat na další větve standardizace
zatímco ve světě rozpoznávání řeči syntézy řeči forma ano jako celkem velká demokracie anarchie
vždy dělal jak se to se
tak kódování samozřejmě všechno musí standardizována protože
vás mobil nokia teda měl domluvy s tím samsung na druhé straně nebo
a _e tohleto pane od nepaměti který času existoval organizace se sejdete
kromě řekli krásný francouzský název
toho se vlastně rozděl organizaci tu _e T S
která dávala doporučení pro _e telefonování u pevných
linka
občas se některých těch doporučení _e používají
i třeba T C P telefony jako nějaký celkem kodéry docela masivně se do tohoto
druhý pánové vojáci takže třeba první standarty který vlastně byly vokodérech
pocházeli T americký vytipovat metody se
a tady máme evropě docela mocnou realizační organizaci která sme si
a to má vlastně protože com
u mobilních GSM telefon je vlastně francouzsky finále
tak _e tam _e vlastně sme sem portfoliu všechny možný normy na kódování mobilních sítí
pak máte ještě nějaký další inmarsat jsou takový ty satiry satelitní _e
telefony
pro lodě teroristy a další
_e ionizace a eště byste možná napočítali ve čtyry pět další organizací
tak _e
kde nějaké principiální dělení kodérů to první bude tak zvané tvaru vlny
jeden vzorek po vzorku
hraje to krásně ale je to za cenu velkého bitového toku
_e může se s tím zakódovat celkem cokoliv bude fungovat uspokojivě pro řeč pro _e
drogu jediná vlastně _e věc kterou tady o těch vy forma nebo o těch signálu
pro vy von kodéry budeme očekávat je
že jednotlivý vzorky na sobě aspoň trošku závisí
což platí pro všechny rozumí signály kromě bílýho sumu
a bílý šum jako
do toho takový přístroj budete
pouštět do s
tak za druhé sou vokodéry
které tvoří tady tím že si řeší a cache víme že se prostě nějaké jako
dá namodelovat pomocí _e pomocí _e
buzení pomocí artikulačního mustr
jo takže stejně tak tady nebo kodek najdete vlastně dva typy sítí bloky a to
bude probuzení a blok modifikace a tím se samozřejmě musí nějak updatovat parametry a musí
se nějak odhadovat a přenášet a C
zasahuje se přední cache nízkých rychlostí
spokojil jenom řeč zkuste si někdy jako přehrát přes mobil hudbu bude to sice přes
ale nebo řazení pěkné
_e to je _e hybridní přístupy
takhle vlastně se nazývají _e
ty kodéry který současně obraz nejvíc používáme protože ty vlastně kombinují _e to co bylo
v obchode takže třeba je tam úplně to samé zakódování artikulačního buzení jako _e vokodérech
tedy nějaký filtr jedna lomeno A Z
A modeluje naše artikulační ústrojí
ale _e je tam složitější modelování buzení
very zase přispívá jako přirozenosti hlasu a srozumitelnosti a to _e se nejčastěji i když
někoho bity kompaktně _e kóduje vzorek po vzorku že vlastně tady tyhlety dva dohromady
by vám dali hybridní kodéry a těleso hrozně důležitý protože to jsou všecky
že C je ten kodek
a pak sou takový _e
že experimentální vědecký fonetické vokodéry
_e pracují na tom principu že když se tlačit ten bitový tok ještě níž
tak už vám nestačí ani vzorky ani dáte asi they do nějakých dalších jednotek
kerý máte uloženy ve slovníku máte ty nějak _e popsaný jakými indexy takže tady budete
mít typicky kodéru rozpoznávač řeči
budou se přenášet jenom nějaký prostě pár bitový informace na druhé straně bude syntezátor
je to hrozně _e fajn jistý pan černocký vo tom sepsal vegetační práci mnoho let
no vole tomu na za
ale zatím žádný takový kodér neviděl _e standardizaci nový tím že se prostě jako zlevněné
_e
zlevněný přenosové rychlosti takže vono to už není moc není potřeba
tak _e
pro sme se podívat na dělení podle bitového toku
to sou zase taková
jo
klasická čísla ale když prostě někde tesla uvidíte
že nějaký kodér má I tak je to více mneš cesta kilobitů a bitů jo
nebo into kilobitů za sekundu
nic je musel úvod osmi do šestnácti lo vo dvě celé čtyř do osmi a
zelenou o tím
a mimochodem ten
plně první pokud _e sejdu normalizován právě americkou armádou
někdy uštvat sedmdesátých no osumdesátých letech
tak byl právě jako vlastně na spodní hranicí mouricu
ten standard deset patnáct
a ten pracoval na úterý čtyři
kilo byte
takže
ještě je potřeba se podívat na to co ta bitová rychlost vlastně znamená normálně klasický
_e
klasický sítích prostě
pevná linka nebo
no pro banka
_e
_e tady měl nějaké počítačové nebo telefonní sítě říkat tomu komutované spojení
když máte prostě bod a pevně
drátem propojeny
budem de
jo
jak je
_e obvykle se to ještě nějak říkal který ste si
_e zažili
no _e příště prostě tam kde máme zaručeno vytahuj o
tak si můžeme dovolit _e vlastně fixní bitový to
_e tam kde to nemáme to znamená máme _e máme paketové sítě
tak _e se spíš hraje na
na proměnnou bitovou rychlo
a _e občas vlastně víte že jsou kodérech třeba
a M R N ven má tyhle spektra velký
které si to _e bitovou rychlost sami V podle toho prostě k jaké
US jaké pásma kolik bitů mají k dispozici
_e ještě prosím vás jedna poznámka
_e ne když se tady budeme bavit vo nějakým kódování
tak to bude zásadně tak zvané source code i to znamená kolik bitů spotřebuju na
kódování řeči
a teďka a pak ještě tak druha druhá část které se říká channel coding
a tam vlastně přidáváte bity pomocí různých opravných kódů
abyste _e abyste jako
to řeč zabezpečili
proti _e proti výpadkům
na přenosové cestě
vono to jako čase hraje trošku
dohromady dezinformace protože pokud posíláte počítačový soubor nějaký tak tam záleží na každém bitu úplně
stejně to znamená tam musíte ten černookou name aplikovat naprosto bez rozdílu
se provede
tak to je trochu liberálnější a můžete si vlastně vybrat ty bity a který vám
V záleží
_mhm
_e zakódovat králově pomocí nějakých opravných kódů
a zasažena si ostatní se můžete vykašlat pokud nic dojde k chybě tak _e řetězci
sestřenku ztratíme kvality ale pořád bude srozumitelná
jo takže _m
stejně je všechno ztrátové a podobně ztrátovém mnou vlastně _e to kanálové kódová
tak _e
a _e existuje teprve dělení podle kvality
tak a standardní kvalita pevné telefonní linky
ze se říká nesme anebo to
znamená normální _e
normálně analogový nebo dneska už teda většině případů digitální
_e telefon a ten nevím se má tedy kvalitu C lepší to znamená nelze přirovnat
třeba rozhlasovém vysílání normálně sem rádiu
vy ste se říká brouska
tak to je _e poctím
takže
mobil _e možná sou někde tady mezi
záleží to na počtu chyb _e kanále tak to je prostě poctím také communication
to znamená rozumíte zachovává charakter mluvčího ale
řeč nezní _e nezní přirozeně
a to ještě více po tím
tak _e ze se říká syntetik
technická kvalita proteiny s někým mluvili pomocí takového toho
_e wall kyselky nebo ne z radiového pojítka
bavíte to _e
teď je to sou samozřejmě takto jako kategorie který by se mohli lidé a lada
to znamená docela důležité vyhodnocování kvality _e jednotlivých modelů
a ta ty metodiky vyhodnocování kvality jsou dvojí jedna firma objektivní
a jednak subjektivní
a jako je člověk prostě tady na této fakultě informatiky myslbek když máme
máme objektivní tak to je bezvadný nelze jako nám dá nějaké _e nějaké platné číslo
které hodnotícímu kodér dobrý nebo špatný
akorát že v tom kódování řeči je to právě naopak
tady vlastně objektivní měřítka kvality se dají
počítat je to jenom nějaké přiblížení _e tomu jak
_e člověk a když budete chtít nějaký mobil nějaký kodér prodat
tak pro vás bude nejdůležitější tady to subjektivní kritérium a se to prostě tak jak
se smísí lidí protože i vám to nakonec _e
dají nebo nedají peníze
že byste trochu detailně s tím objektivním a subjektivním hodnocením
_e když se podíváme objektivních metrik
tak úplně za nejjednodušší je poměr signál osum
vzpomínáte ještě chema
poměrem signálu co musíme někdy druháku _e
je stezku
na komín nevadí
máme
signál na vstupu
který vypadá takhle
zírala výstupu
který vypadá
takhle
mezi těmito dvěma signály samozřejmě rozdíl
když jedné rozdíl spočítáme
prostě spočteme _e signál který je v odečtením těch dvou
teď která nevím jestli to nezvládnu nakreslit na něco
něco takového podobně pěkného
a teď vlastně jasný že čím větší jeden chybový signál oproti tomu původnímu těmito horší
že jo
takže my si tady tohoto signálu spočítáme energii
ale to je tady ten _e
to je tady ten jmenovatel
to znamená na nějakém vzorku jedu _e spočítám
spočítám každý vzorek na druhou všecko sečtu mám energii to chybového signálu
a _e s toho původního signálu si spočítám taky energii čitatel
kdy normálně vezmu prostě hodnoty všech vzorků na druhou dáme do sumy to znamená tady
tohleto je energie dobra
to je dole bude energie špatná
jo to je to signál tu no je anglicky a tady tyhlety dvě energie podělím
a protože lidi jsou zvyklý na logaritmické měřítko takto pro táhnete _e protáhne terorismem základem
zase
vynásobíte desítkou máte signál _e poměr signálu k šumu
decibel
tak _e
tady je
zkuste říct jak ovčem bude mít tady ten
poměr signálu k šumu problém
připomínám se nám jde o to aby jsme poznali jestli nějaký kodér kóduje dobře obvodový
slovy
se
jako
tak když jeden signál
_e
bude míse
velmi půl hodiny
_e půl hodiny to bude úplně perfektně _e
horova
ale na dvě minuty to úplně vyhnout
nebude tam vůbec nic
tak to asi nebude moc fajn a _e tomhletom případě ale něco ty sumy vlastně
přehrání
zná půl hodiny ta _e ty budou nuly
a bude tam obrovská chyba tak se to prostě i průměru jestli
znamená problém toho poměru signál může jenže hodně globálních jako bere jeden se leží na
druhej souvisí dna
a nějak jako _e se nekouká na _e na chyby jednotlivých úsecích
_m problému vám za chvilku ukážu zkuste
se přemýšlet ještě bude jinej problém
co když třeba _e jeden z těch signálu o milisekundu posunu
když vám bude mluvit mobil a druhé mobil budem mluvit úplně stejně ale milisekundu osum
zavazovat
a nebude vadit vám bude úplně jedno co nikdo nepozná ale při počítání poměru signálu
k šumu
když si představíte že tady tenhleten druhý signál je takle posunutej
tak najednou byste se do počítali obrovské kiwi protože bude vo té odečítat záporný hodnoty
vodklad nechat rodnýho zákony
takže tam vlastně veliká citlivost na _e a časovým
časovým osum
to musí potom něco řeknu ty logaritmické
nechrání vzdálenosti
tak _e
tohleto je _e taková ukázka
poměru signálu k šumu
pro kódování slabiky a
_e
je to nalistovanou prosím vás není to vždycky
_e pomocí čtyř bitů
kdy vlastně tady demonstrujeme
to nepěkný globální chování
když se podíváme na _e řádku a
a na její dekódovanou variantu pomocí čtyř bitů jakýsi vidíte že to dekorovaná wavka je
zubatá ale jako zásadě
není žádnej problém a když to poslechnete to bude znít docela pěkně
na druhé straně pokud se podíváte na hlásku E
a pak se podíváte na to jak vypadá nekódovaně tak je zle protože
máte k dispozici možná jeden bit možná jeden a půl bitu
jo tady ti
i dva chudáci záporných duhovky
to znamená tam vidíte že to je jako skoro stoprocentní chyba
no a teďka když počítáte S N a
tak všechno tady toto se bere _e dohromady prostě s tohodle chybový o signálu se
spočítá suma jeho vzorků na druhou
tohodle užitečný a signál sekyr počítá suma
jo vzorků na druhou udělí se a toho
takže
není to moc dobrý
když _e bychom si spočítali
global globální poměr signálu k šumu
tak nám to na tom signálu za čtrnáct pro patnáct decibelu patnáct decibelu je výbornej
poměr signál osum prostě
čemu perfektně rozumně
_e tam slyšíte ale nějak vás neruší
tak _e ale ten problém řeší
tak zvanej segmentální poměr signálu k šumu nebo aspoň částečně řeší
já jsem tady ještě to mladistvým nadšením kdysi napsal jako obrovskou rovnici
která řekne každej ochromí
ale prosím vás
nejde vo nic jinýho než že máte
_e ten
originální signál
proto máme ten chybový signál
a na místo toho aby se ty sumy dělali globálně přes celý závit
tak si to prostě na začátku rozdělíme na nějaké úseky
remunu mistryně stejné parametry jako dá se o kterých jsme tady povídali jo třeba délku
já nevím dvacet nebo pět a dvacet milisekund
každýho toho úseku se spočítá samostatný poměr signálu k šumu
že to byl tady bude sonaru jedna
sem R dva a cedr a tede a tede
a teprve na konci až budou ty logaritmický tu poměry signálu k šumu spočítaný
tak se mi průměrového u
a já sem vám tady to demonstraci udělal
_e pro tu slabiku a
která je tomhle případě rozhozená na
na šest úseku vidíte že na začátku
na začátku kdy jako ten signál _e byl silný
tak dostáváme krásný hodnoty poměru signálu k šumu dvacet B devatenáct D umístěna
ale potom bysme na konci tak je to podstatně horší je tady dokonce dostáváme zápornej
poměr signálu com
co znamená zápornej poměrnou sumu
_e
no
je vhodné
jo
_e
čitatel tady dobrej signál je větší než nula _e
zavěšené jednička
algoritmu _e co leží ne sítích _e nula ano pak
jo ono mu to znamená tady ten poslední rámec byl úplně vedle a pokud tady
tyto s průměru je se dostane se _e čísílko devět celých šedesát šest
decibelu že teda podstatně horší ale je to reálnější hodnota
pomocí toho globálního S N a
tak _e tohle by prasek sem R
no a teď mně to _e se nám bude řešit _e
tu _e
co nám bude řešit _e vlastně ty časové
posuny
my bysme si mohli říct že _e
nebo _e eště dám pryč
jak byste udělali _e
dělali
_e míru
podobnosti mezi dvěma signály
která vymezila a sláva
na drobných víme řekněme komise
ne
a
jo
na _e
a
tu
jo
u zásobníku
_e
no
jo
zarovná
_e
po
a V
_e
je
_e
_e
jo
_e
ne
A
a bysme si udělali
_e
signálu
_e jeho spektrum
pomoci
to je
do gigový signálu
bychom si udělali
_e
toho
_e
sedum
ale teďka aby to nebylo citlivý na _e na právě ty časové posuvy
s tím spektrem se dělá
dobrý vás abyste se to by sme se dostali do to vlastně toho časového zarovnání
sekvencí mzdu násobili nebo komplexní exponenciálu
tak sme vlastně jako s tím spektrem trochu posouvaly nebo respektive zářily bysme na něho
časový posun těch to udělali jednoduše abysme se na to úplně vykašlali na ty
na ty časový posuvy
co ve spektru vlastně nese informaci vo
_e o poloze toho signálu čas
amplituda fáze
a jo jak se zbavit fáze
vytáhli C E
_e teda design střední hodnotu
tady taky vzali absolutní hodnotu a tady tyhle dvě sekce to může pohodě srovnávat a
a čase
s můžou být narovnali je
jak chtějí jo takže tady tohleto je podstatou
se _e
_e
_e logaritmické spektrální vzdálenosti
kdy vlastně zmrazena se možná šťastně pomocí integrálu vlastně v normovaných frekvencích integrujeme vod mínus
jedné poloviny do plus jedné poloviny
_e
nějakou funkci V F
absolutní hodnotě na druhou
a teďka tato S může být definovaná jako _e jako deset logaritmu
odhad spektrální hustoty výkonu toho původního signálu mínus odhad spektrální hustoty výkonu toho dekódovaným signál
no a teď prosím vás jenom aby mám tam doplnil tu důležitou
informaci
tady
_e
ta
spektrální hustota výkonu
se
je něco jako
jako
_e
výstup fourierovy transformace každý vzorek na druhou
děleno
_e děleno počtem vzorků
já pokud si ty počty vzorků sestavíte jsou algoritmech
prostě tady je
_e tady je něco děleno počtem vzorků a tady je taky něco děleno počtem vzorků
tak se na ně můžete vykašlat protože by se vám ty počty vzorku
navzájem _e nevře vynulovali
jenom prosím vás _e vypadá hrozně složitě ale když budete dělat se budete dělat projekt
tak _e
tak tam takovouhle funkci na výpočet logaritmické spektrální vzdálenosti máte
naimplementovanou
running kde tady
a to prosím vás nějakou inteligentní metodu jak teďka to otevřít textovým editoru
prosím
no
tady kopíruje news
jako pilot blox tehdy no
_e
tak prostě jako nemám
příkazu A nemám říkal obrázku jenom sem případně jak je windows commander takže zle
no
super
tak _e
inovaci
_hm
no
_e
jo vám si ukázat že výpočet _e logaritmické se krát vzdálenosti core není žádná _e
žádná složitá tragédie nemáte
jsou
jednoduchou
unk tyčku
_e tady to dokonce I dělením na rámce
takže _e vám ukázat vnitřek
_e
že bez vyberu si vždycky jeden rámec toho původního signálu
počítám s jeho
F téčko tady vidíte převod T toho access tečka na spektrální hustotu výkonu prostě vobyčejná
absolutní hodnota na druhou děleno _e děleno počtem vzorků a převede si to do logaritmického
vlastnil moc deset
jasně logaritmická spektrální se tedy
teďka tady to samý udělám i _e i
pro druhou
zase převodu logaritmické oblasti
teďka vlastně mám nachystanou _e
když to mám nachystaný tady tyhlety dva členy
_e
tech mám pocit že sem tam musel řešit nějaké _e
nějaké problémy s nekonečnými vzorky které vobčas
jo přes nastávají
tady
tohleto řádkem
_m prostě jako
když je něco špatně
ale _e zase něco potřebuju udělat tak je suma
tady těhletěch
rozdílu dvou spektrálním ste výkonu všecko na druhou
děleno dvě stě padesáti šesti a ten jako kdo pozorně se dívala poslouchal
se asi tuší ze ta suma
my bude implementovat právě
tenleten integrál
jo prostě normálně numericky spočítaná suma
není tam nic _e nic ani tvoříte
no a potom přes toho udělám
logaritmickou spektrální _e vzdálenost pro je ráme
a tady mám někde přidávání do jakéhosi akumulátoru abych to _e abych spočítal _e celý
řečový signál
a to je vše
takže _e
takhle krásně
počítám o rámcích
spektrální hustotu výkonu pro celý _e celý signál
také teď dobrý podívat na ta _e podruhé měření kvality a to sou to subjektivní
tohleto vyžaduje abyste měli bandu posluchačů
který samozřejmě musíte vytrénovat který musíte zaplatit
a oni vám potom budou posuzovat jak ty kodéry ní financí sluchátka budou to porovnávat
s nějakými jinými
_e zřejmě bude dobrý ještě jednotlivý vzorky mají nějakým způsobem randomizovaného
aby _e
si neřekli no tak já budu dycky dávat čárku tomu prvnímu a jako
tak dostanete
první kodér který bude nejlepší
a _e
ty metodiky jsou tři
první semene DIP
když se prostě měřil měří srozumitelnost pomocí nějakých _e párů podobných slov
který sem mé který se liší pouze v jednom jedno von enku zapsaný jít jo
to je speciální
tak dále
_e pomocí D M
se hodnotí komplexně kvalita
pomocí několika metod přiznám se že tady tu ne technologie D M pořádně neznám a
to je taková nejdůležitější technika se kterou se setkáte a když prostě budete mít nějaký
pode popsaný tak tam určitě budou dávat kvalitu na stupnici mu
tak je ze líný noty nýrsko
máte prostě do dvanácti do čtyryašedesátic
posluchačů
přes tím naše budou poslouchat tak je uzel skákali budujete signály aby věděli který známky
_e mají dál čemu
a potom i budete přehrávat vaše testovaný kodéry a oni to budou tomu rozdávat známky
ruské škole jo to znamená jednička
budete nejhorší a teďka bude
bude
tak _e teďka samozřejmě _e by ní techniky
jsou
ty
jako ty nejlepší no ale týmech chcete použít když dělat nějaký kodér ale když my
se vyvíjeli
a měli prostě padesát kodéru nebo padesát různých konfiguraci vyvinuli každej den tak vlastně nepříjemný
pořádný nedržel zavřenou skupinu čtyryašedesátin posluchačů a
_e jako platí zadávací mýdlo a tak dále
takže byste potřebovali nějaký je automatické techniky které
které tu subjektivní kvalitu aspoň trochu odhadnou
tak tady tyhlety kvalit techniky taky existují
jedná se věnuje je s cílem
_e de vo to
že tady tyto techniky vlastně
se tím
ne ty signály tečnou srovnávat
aplikují prostě nějaké perceptuální modely které modelují naše _e naše slyšení
jo a se nebudeme tady do detailů pokud chcete něco přečíst
tak je to v nějakém _e volně dostupné _m
registru a dostane se s tím míru kvality která nějak zhruba odpovídá tomu S
tohle další systém je stylem
teďka vlastně _e
u mého
mobilních sítí a P telefony a tak dále tak bylo potřeba se vyrovnat jednou věcí
a to sou výpadky paketů a to že prostě občas dostanete tu řeč _e
různě
vně po posouvanou oproti _e ostrostí _e
originálu
takže když se
podíváme vlastně tady sem
sem není žádnej blok který by dokázal pracovat třeba příplatkem kanálu a
a s výpadkem paketu a s tím že najednou prostě půl sekundy řeči není
_e tady tohle řešíte technika T S Q
která _e která tam přidává nějakou v identifikaci spatny intervalu a časový rovnání anglicky struska
enlightenment nebo
time vylíhla jmen
tedy vlastně nám jako na sebe narovná ty části řečí který si mají _e odpovídat
a na s tímhle na těmato čas na řeči
se potom použít _e se potom aplikuje ten
ten chybový model
tak _e
fajn nouzový sou
umožní částí
a teďka se poďme podívat do té první skupiny kodéru sborovny kodér warovými
waveform klade
tak tam úplně první technikám _e takový krásný turisti názorné pulzní kódová modulace
zná teďka si podstatu jako někam do šedesát X N takovýdle
kdy existoval amplitudová modulace vrstvám vlastně možná trochu nějaká fázová a teďka nějakých N šílenci
přišli s tím že se data budu jako audio data budou přenášet digitálně
_e museli dat nálepku S taky bude nějaká modulace
pulzní kódová zase že se nejedná o nic jinýho než na o vzorkování a kvantování
jo je tyhlety dvě etapy mají takový krásný historicky nám
tak o co de
vstupní analogový signál výstupní
_e digitální
když _e se
když se
kvantuje zase opáčko někdy z druháku
tak vám prostě
jako kdyby
přímku nebo úsečku s nějakými hodnotami
přijde tady vstupní signál N a ten _e prostě zaokrouhlen na nejvyšší kvantovací hladinu
_e
a
je reprezentován signálem S N
_e ze stříškou
tetě těch kvantovacích hladin
máme nějaký počestný z mého myslím že stezku
značí jako velkýho
a je docela inteligentní si dát tady tenhleten počet jako nějakou mocninou dvojky
protože pokud mám potom dispozici byl bitů
mám dvě na B tou takových _e kvantovacích hladin
tak a
když si _e spočítáme poměr signálu k šumu
který tady tyhle kvantovací který tady základní kvantování obsahuje
tak zase po nějakým odvození který sme který fires udělali zjistíme že to vlastně lineárně
závislý na _e na _e počtu bitů že tam taková magická šestka znamená pokuď si
dáte výsek přidat ještě decibelu _e poměru signálu k šumu
a pak je tam ještě nějaká konstant
jo to znamená pokud někde vidíme kvantování na
že se na ní se seznámil s že jo nezapomene že signálu
sumu krásný devadesát šest decibel
tak _e
tam který _e
budeme si to telefonu
znamená šestnáct bitů budu jistá na osum
to bude dělat
že se ta
A
a C
že
ano
sám
_e
jo
jo a
můžete mi na _e
bude to dobrý
_e S
nebo to sem
jo tady teďka udělám novou úsečku
tam budou chtít rozházet dvě stě padesát šest hladin
a vy mě zkuste říct
jak to udělat
takže se tam _e
kde si myslíte že se tady ten signál S N ten vstupní
bude nejvíce pohybovat
kdo uvidíme nejčastěji na té úsečce
pokud _e přesně tak jo když bysme syn nakreslili nějaké statistické rozložení
_e od napsal vstupního signálu tak to bude vypadat nějak takhle
takže kam vrhneme nejvyšší počet hladina tím že bitů
ok _e nuly jo přesně to znamená my uděláme tady velmi místě rose
_e mínus T hladiny a potom to budeme dejme chytrém postupně se dělat
a toto jestli potom proběhlo jisté záporné části tomu se nebudu umělecky
měl C teďka jako
zesilovat
_e tady tohoto je jedna
jedna motivace jo znamená řeč obsahuje mnoho malých vzorku z roku
to konces drát odsimulovat nějakým laplaceovým
rozložením se že něco prvku podobného _e gaussovce
tady ten si
_e
tady sem si to vyzkoušel pro
opravdické hodnoty vzorku na nějaké české větě
na úplně mně to
úplně mě to nevyšlo
nevím pořádně proč možná že
možná že sem tu černou červenou křivku ránu nějak
takže jedna věc je že skutečně
ty hodnoty vzorků jsou rozvrstveny více okolo nuly takže tam vadí
za druhé
_e že ucho má
neslyším binárně
ale jules verne
je _e
a
o javě
_e
_e
ucho slyší nějak takto
abyste někde tady
znamená u vám prostě ta _e tak kochá se úplně celá třese
a eště to
zvýšíte vinárně dvakrát
u škoda
jenom takový ve malý přírůstek _e ste hlasitosti co slyšíte
to znamená že _e
my raději budeme
rozmisťovat hodnoty lineárně tady na této se
eště nám potom projeví byl
jejich nelineární rozmístění
na se lineárního se
jo my mimochodem M tady tohle tyhlety hrátky z logaritmickou a z binárního sou
vidíme teďka u kódování a šest a v tomhle kurzu vidíme jednou vaše budeme bavit
vo nějakých parametrech rozpoznávání řeči _e tam mám pocit že už sem vám něco povídali
na té první přednášce
i slavné mel frekvenční cepstrální _e koeficienty této nebo na první nás sme měli někdy
předminule že
M S C jo tak tam se používá úplně stejná finta vlastně ho nakreslili jsme
si nějakou jiná se _e logaritmickou křivku tehdy to byla závislost _e
frekvence
_m
a dostali jsme jako modifikovanou frekvenci
tentokrát to nebudou žádný frekvence
ale bude to vlastně amplituda
a nějaká modifikovaná amplituda
tak _e
to znamená závěs toho je ten
že budu sítí
udělat logaritmický kvantování
a může to před realizovat takovýmhle schématem kdy vlastně budu mít vstupní signál na
a budu mít nějakou kompresní funkci
rámy bude produkovat nějaký prostě zkomprimovaný signál nelineárně _m
ten pro ženu
mlynářům vopichy
no
u
u
a
sám
jo
prostoru výsledek
na todleto jako teoreticky
teďka mě zkuste říct jak _e
nebo ne eště něco ne zkuste říct jestli vám K _e dva systémy které se
které se používají
v evropě se používá takzvané nejelo nebo
a _e
tak on
a _e ve státech minulo
annie bacha veličinu říkají míru
E s linku
_e které vlastně
tam je tam jenom nějaký drobný rozdíl jestli se logaritmu je celá závorka čitateli nebo
jenom kus závorky v čitateli
a když se podíváte na dvě křivky které odpovídají jelo a miloval takhle jsou skoro
stejné
jenom když uděláte zoom někde okolo nuly který těch nejmenších hodnot
je ta míru křivka trošku strmější
_e na její loje trošku plošina bych řek že
_e prostě klasický konkurenční boj mezi evropou ameriko projevuje
mealy jo
dalo nech
s litrech podobných jednotkách
mimochodem _e
v jiném posunutí
letního času
ve státech majoritní často šímův neděle
a vona cache někdy taky ne nebo zrna za dva takže teďka jestli třeba _e
domluvit nějaký telekonference kolegama ve státech úplně výborný
jako jsou oba dva na stejný čas explicitně zvykli pak že posun mezi českém a
jakým je takový a kalifornie makový a teďka to jinak
tak _e jenom prostě abyste věděli jak nám to zhruba pomáha
pokud _e uděláme na osmi bitech
tady takovýhle nelineární kvantování
a měli bychom tu kvalitu jako S N R na opravdický řečový signálech
tak _e
tak _e se dostaneme
někde na _e někde na dvanáct bitů
nebo na podobnou kvalitu jako měli D jako by
měl přenos na třináctý bitech vinárně
teď sem vlastním toho jsem se basilika
_e
se tady
ty komprese a expanze
dělají pokud potřebujete reálně kódovat
je
přichází signál to no
tady je normálně na šestnácti bitech vinárně a vy máte
logaritmický zakódovat na
na osum bitů
schválně
slyšíte se to dělá
kdo si myslí
že
se tam provádí taková komplexní funkce
a potom lineární kvantování
jo
do si myslí že se tam aplikuje ten vzorek
rád všichni takže se nedělám jednání shellech zranila
tak _e uvědomme si že _e
indexování pamětí
je mnohem levnější operace
počítání nějaký
v logaritmu
to znamená zase to skutečně dělá věku flintou
že nám přijde
informace na šestnácti byte
jo teďka tady někde znaménko
dva bity se toho rovnou odstřihnou
znaménko ze toho taky rozstřihne
a zůstane nám _e dvanáct bitů
takže se udělá normálně čtyřky rovná lookup table
jo
čtyřkolová tabulka
a těch _e dvanáct bliknu nám poslouží jako adresa tady téhleté tabulce
pak se toho prostě vezme hodnota přidá se k ní znaménko
a
máme se osum bitů který posíláme dál jo takže prostě jeden
_e nebo nějaký dvě bitový operace
a jeden pohled
do tabulky
a když pro score dáváme
máte máme těch osum bytí ku _e se znamínkem
tak to znamínko zase v odstřihneme této ještě jednodušší protože se podíváme do sto dvaceti
sedmi
_e
nebo sto dvaceti osmi
_e políčko ve tabulky
na indexem nám to hodnotu
přidáme znamínko a hotovo ven vyjíždí šestnáct bitů
já jenom když se budete dva za schématu nějakýho opravdický ho kodéru
a uvidíte tam nějaký hlavičkový soubor tečka _e a tam bude v jedné tabulce čtyry
tisíce devadesát šest čísel a ve druhé tabulce sto dvacet osum čísel
tak se není se ze prostě trans kódování mezi binární a _e z i binárním
a logaritmický
protože vy si mezi kodéru
potřebuje vzdělaná tak prověrka zahrádky _e
vlastně
logaritmické to nová
tak
to bylo ten úplný základ
tech _e
_m druhá taková technika
které se říkala T C N
adaptivní pulsní kódová modulace
_e jde vlastně o to že bychom se to chtěli dostat se do větší dynamiky
nebo mít lepší rozlišení ne šestimístnými pánvi díky
a zároveň bychom nechtěli
_e nechtěli prostě příliš zvětšovat
bitový to
to znamená
u ze a
S T M
bychom chtěli nějak dívat dynamickou co má jako
pro slabou řeč
rozhodně si nějaké malé byzantského rozsahu prosím nouze si rozhodně
_e za velkého dynamického rozsahu
ale i tady tohle když si dělat něco stojí jo takže _e tu informaci o
dynamice
musím nějakým způsobem přidat můžete tam přidat dvěma způsoby unk takzvaně C forme kdy řeknu
tady prostě kódu nějakou řeč
rozdělím si třeba na nějakém taky
a
tady dejme tomu jako přídavnou informaci
bych _e přenášel
maximální výchylku
kterou bych tak nepovalil do _e do dekodéru
a ten kodér by si potom nastavoval se kvantovací hladiny třeba o
plus do mínus
téhleté maximální výchylky
jo
takže takle byste to mohli udělat
pokud tu přídavnou informaci pošlete jako extra tak se to menuje takzvaně C format ale
samozřejmě vám to potom zabírá nějaké bity musíte tu informaci do dekodéru dostat
_e nebo
můžete udělat je jinak
můžeme počítat
tu _e informaci o dynamice
z minulých vzorku
jo můžeme to dělat tak že když _e
že mi to udělat tak že když prostě kvantujeme
tady takový signál
který má pořád velké hodnoty
jsme někde tady
tak prostě tu dynamiku nebudeme
mění protože dosahujeme pořád nějakých vysokých
vysokých hodnot
a pak najednou se dostanete tady do této oblasti
kdy vlastně _e tam budou pořád velmi malé hodnoty kvantovány
takže můžete na základě informace z minulých pár vzorků říct
ne nemá cenu abych tady používal pořád jenom jako _e dvě nebo tři hodnoty asi
prostě stanu dynamiku
a budu to _e a budu na tento interval používat všechny
všechny bity které má k dispozici
jo v tomhle případě se mluvilo takzvaném feedback
a _e ten dekodér vlastně si tu informaci o dynamice nebo ginu počítá úplně těch
samých vzorku které má k dispozici kodek
tak
to je taková technika která základní samostatní ve více
ale občas _e trestní setkáme jako komponentem nějakých složitějších kódovací schéma třeba že forejt _e
je sem
tedy _m
možná zjistíme se stínů promluvit
tak tam je to vlastně jako jedna technik
pro kódování buzení
takže todle a prosím
a nativních mít _e
tak teďka tady bude
další varianta sem _e to je dobře ten
když si uvědomíte sedělo s těmi
těch minulých vo technika
tak tam vlastně ty jednotlivé vzorky se opravdu zpracovávali naprosto samostatně
tohle běžných signálek který budete poslouchat neplatí tam prostě _e nebo nevlastní samozřejmě mě funguje
ale můžeme to udělat trošku chytřeji
protože _e
běžný signálech tohoto světa jsou mezi vzorky vždycky závislost
a ty závislostní můžeme namodelovat nějakým predikčním filtrem optimistou spoustu víte že jo
přednášku o
vo P se
který bude několika minulých vzorků
předpovídat hodnotu toho současného vzorku
a kódování vy si můžete i tak fajn
já nebudu posílat
to sou absolutní hodnotu nějakého vzorku a pošlu jenom
to chybu
kterou _e vlastně
reklamy něco předpověděl říkám opravdickou hodnot současně
u tak jakous poslu jenom tady ten kousíček
kterými chybí _e výrobě o dnešního
a tady to je podstata dete sem
se podívat jak se to
_e jak bychom to udělali technicky
měli bysme zase nějaký _e prediktor nebo odhadovat
které _e ze kterých by
neměl
_e neměl by vlastně pozici pro
nultej
nebo pro současný vzorek
a je vždy jenom vo
o jedna zpožděného vzorku a
poté zpožděného vzorku
tady ten filtr _e bez vám bude _e odhadovat ten současný vzorek
jo teďka se současný vzorek prostě
skutečně dostaneme přijde tam
mezitím skutečným současným a odhadnutým současným se udělá chyba
a jenom tady tahleta chyba se pošle dál do toho _e
přenosový rovná
tak _e jako pojem zavést _e
že
pokud ten vektor bude fungovat slušně
tak tady ten chybový signál bude mít _e podstatně menší hodnoty ještě marginální a budu
není
potřebovat nyní bitů
a _e jestli třeba podívat trošku detailněji
na to jak to funguje
když se potom budu chtít udělat dekodér
tak já vlastně budu mít ten chybový signál
který bude jako jediný přicházet do dekodéru
tady je ten chybový signál se bude přidávat odhadnuté mu
současnému vzorku
a s toho bude
ucházet
ten _e výstupní řečový signál
a samozřejmě jako jak teda dostaneme ten odhadnout Í no roztaveného takže se tady napíchneme
na výstupní řečový signál tady prostě bude _e
když i tady
toto schéma
prosklené rozkreslím _e definuje zpoždění vo jeden vzorek
o druhej vzorek a tak dále
a tak dále
a tady se prostě
pomocí filtru
prediktoru
budou normálně
_e normálně odhadovat
N _e ten současný vzorek
přídavky protože vlastně ta si korekce pro nás
počítá se výstup o to
tak
S je _e jakým _e tady tohoto schéma
je tím a tady toto schéma problém
prosím
se podívám jenom na schemátku
ho nette sem kodéru
a detekce
dekodéru
tam chybí jedna B správě
bych to udělal jenom takhle
_e
on nějak já
jo
že a je
_e napočítal
_e na hlavě a tak tomu
jako
_e jde o to že _e no _e nakreslil
tak _e
vlastně
tomto schemátku
pořád
musí vám
na stejný na stejné bitové šířce druhý signál
tady vo přijímám a vůbec vlastně sem jako nějak ne omezil bitový tok nic jsem
neudělal na umření bitové rychlosti
takže co já budu muset udělat je
úpravy
procesy k tomu
_e chybovému signálu nějaký další
řekněme kvantizéru řekněme tomu omezovač počtu bitů jak chcete
je prostě zařídí to sem _e ten kodér dělá to znamená omezené počet bitů oproti
originálu oproti té _e toto mně vlastně šlo
jo tady máme dejme tomu tenleten signál na osmi bitech
a já bych chtěl aby tady tento signál tady
_e valil na on čtyřech bitech
no a teďka mě
že mě řekněte když
toto schémátko takhle pěkně vyrobím
si tam někde nějaký
problém
a ten problém se prosím kde jste
dekodér
pro problém je
_e myslím že vím kam míříte problém je vtom že _e takovémto idealistickém schemátku které
jsem tady měl před tím
sem prostě ten _e signál
odhadoval přesně ze vstupní vzorku
jo
teďka sem tam neměl nikde žádnou ztrátu kvality
toho výstupu level naprosto přesně stejný signál jako se měl na vstupu
takže i tady tento signál ten odhadnout Í ten _e jedničkou N do úplně přesný
jako nejsem přesně stejně to nejsem
tom schématu kdy už začínám kvantovat
u že zlezl _e masíčko protože _e ty signály se kterými pracuju
tady
a tady
nejsou přesně stejné sem říkal že jako někde uprostřed budu chtít omezit informaci dejme tomu
s osmi bitů a čtyři
a
to že _e budu mít tady ten chybový signál trošku jiný
to by mě eště ani tak moc nebo nevadilo
ale já budu mít prosím vás tady tento signál který se nebude rovna
tomu vstupnímu
to znamená že ani odhadnutých signál
ani tady tendle
se nebude rovna tom odhadnuté mu
tedy se měl kodér a to už může být docela problém protože já vlastně pomocí
nějaké ještě jako trošku _e na kvantované a vznešené chyby
opravuji nějaký signál vo kterým si nejsem vůbec jistý že to je ten samý který
sem viděl kodér
tak
zkuste poradit
_e s tím
_m
možná že jo vyvazuju
složitý a sáhovi tomu bitů
zaměřte se tady na ten na tenhleten odhad na
ten je dělaný prostě _e ze vstupních
čistých perfektní vzor
přesně tak já tomu říkám odborný je v praxi
prostě _e
tady je potřeba to odpojit odstupu
a použít k odhadu
tohoto
_e signálu
to co dostanu dekodéru jo to znamená to co mi projede tady touhletou jako sekvencí
_e kvanty ze
kde kvanty ze tak tady odtud s tohoto vzorku musím vyrábět _e musím vyrábět ten
odhadovali signál to znamená jinými slovy zachycují stenografku musím říct ale klade
vestavěného do
ne myslím výsledek ode vestavěného do kodéru
a teprve výstupu
jo dekodéru
dělat jakýkoliv odhad abych si byl úplně jistý
že ten odhad bude stejný do ronerovi řekne tak představám tyto zahlazen obrázku ten
nazveme mnohem E jasnější jo
tak _e dívejte
_e vlastně
který schémátko kde sem vám říkal že sem ten _e sem ten odhadovat odpojil tady
o vstup
_e zatím prostě předpokládejme že tady je nějaký odhad jo zatím nebudeme povídat vo tom
jak se ten odhad vyrábí
a _m tady vstupní vzorek odhad
to je udělanej chybový signál jo teďka ten chybový signál protože no want jezerem
de kvantizéru M
jen tak mimochodem tady tento výstup _e vezmu a pošlu valil přenosový ho kanálu
a pořád sem ještě kodéru
když já vlastně toho chybovým signálu
si
poskládám
pátky
ten jako kdyby výstupní
signál
jo takže tady
po červený kolečko to je vlastně výstupní signál který uslyším na výstupu dekodéru ale a
ho kdy jako kdyby v uvozovkách slyším teďka u Š kodéru
a tohodle
ví úplně ale ty make výstupního signálu
při udělám teprve odhad
to současnýho vzorku jo takže ve výsledku děsnou na to si kdy tady prostě S
z _e ty vedou a eště stříškou
jedna znamená odhad a stříška znamená jako _e
dekodéru
jo a
toto je pro mě ona současnýho velkou a teprve ten zavedu tady do té odčítačky
abych z něho dostal chybový signál
tak a teďka prosím vás když se na toto schéma _e
podíváte
tak jak by se to dalo zjednoduší
a vám tady schválně forma žlutej
to je ten zmatek
_e to ale jako
je tam dvakrát že jo
že zdroje to stejný signál
a je to úplně stejný to znamená tomletom bodě
a v tomhle tom bodě
dostávám naprosto ty samý signál by bylo jednodušší prostě to ale udělat jenom jednou a
prostě tam rozvoj teda kterej vede sázet že jo
takže _e když tady toto operaci uděláte
tak vypadá takhle
co šije kodér trade běžně implementuje
ale já právě prosperující důvodu sít vopravdu
krok za krokem protože když se podíváte na ten dekodér tak prostě
já se přiznám jako _e se nevyznám konstantě že to prostě moc kompaktní
je to optimalizovány ale já tam nevidím ty jednotlivý operace když si uvědomíte exode krok
za krokem
tak se v tom dokážete vyznat a pak si tady tohoto silnou můžete překreslit
do toho tragickýho který se V F S M skutečně
takže tady tohle se _e opravdický jde potom a kodér
a _e taková kombinace tady tyhlety dvou metod je
_e norma
_e D S T M adaptivní diferenční pulsní kódová modulace
_e podle té staříč ke normy G sedum set dvacet jedna a nebo je potom
chtějí varianta která sme
je sedum set dvacet šest
za sedum set dvacet jednička má _e vlastně ze šedesáti čtyř
_e kilobitů nám to stahuje pouze na třicet dva
_e G sedum set dvacet šest
máte s ním čtyři bitový rychlosti
třicet dva dvacet čtyři
šestnáct a potom
eště nějakou nižší spirále musím nějak moc S moc nedá poslu
_e to _m a detektorem kodéru důležitý je
že tam máme vlastně _e z výčet _e do části
je diferenční
podobných schéma jak sme tady viděli na tom školním
příkladu to znamená kodér obsahuje kvantizéru i bych matice
tudy dál _e není tam jenom jeden filtr a jsou tam dva
detaily nebudu povídat a pak je tam ještě _e bylo
který vlastně nám _e řídí kvantizační krok _e na základě
základě současnýho a minulých
z roku
jo to znamená tady ta norma _e a detekce
pracuje tím systémem feedback
to znamená nepouští tam žádnou přídavnou informaci ale počítá cizinců počítá si nastavení toho kvantizačního
kroku
současnýho a z minulých vzor
mimochodem tady ty normy kde sem se dvacet jedna je sedm set dvacet šest
_e jsou vlastně ty který
nám přináší řeč po pevných linka
tak
to sou nějaký
k informace
suma odpověď
tak _e
teď sme hotoví sladováním tvaru vlny
poďme se podívat vokodérech
tak _e jsem povídal vlastně využívá informace o tom
že člověk budí
a potom
modifikuje
takže podobný schéma buzení filtr uvidíme
_e víme i zde pokud E
_e proč voko de
co myslíte to znamená slovo samozřejmě to jako de
sanitního bloku
něco takovýho boj code vlastně hlasu hlasový
to de jo
tak _e
my se podívat na obchode který je založený na minimálně si nyní modelu
na L P se
já a variace mám tady vlastním povídali o tom
že _e
řeč dokážeme namodelovat tak
co uděláme nějaký budící signál nějaký _e N
ten pošleme no
filtru jedna lomeno A Z
a s toho filtru papoušku jde něco
tady se podobnýho řeči
a eště by bylo dobrý fungujícímu signál jsem prostě přidat knoflík volume
_e který říká
jak to celý bude silný a
_m knoflík volume můžete dat buď na vstup toho predikčního filtru
nebo na výstup této je celkem jedno jedna se prostě o násobení konstant
jenom prosím vás uvědomte
a účtu taky ste dělali nebo budete dělat v laboratoři a budete z dělat na
projekt
že _e parametry
tady toho filtru se budu muset měnit
těch typických kodérech je to padesát krát za vteřinu jo na dvaceti milisekundový tam C
_e
jak to schéma takovýho vokodérů základního vypadá
mám prostě vstupní signál
musím z něho vydolovat pár informací
musím z něho vydolovat informace o tom jak budou vypadat koeficienty tady toho
dnešního _e filtru
o tom tady byla celá přednáška prostě _e počítat autokorelační koeficienty
pak se vyřeší nějaká soustava rovnic buď
buď hrubou silou a nebo pomocí nevyzná darina
_e jako
další produkt vám tady to počítání dá gain
další co potřebujete určit tak je _e také z něho
a potřebujete eště _e informaci o
periodě anebo kmitočtu základní tón
a ve stejné zdroje ty čtyři věci potřebujete
také nějakým způsobem můžete
za kvantovat jak to de udělat funkce
brzo dostaneme
předesílám se to bude pomocí vektorové kvantizace
tady tyhlety prostě projedou
přenosovým kanálem
na konci rozparsujete
a teď co s nimi dál
_e
to jestli se jedná o smělou řeč
vám bude ovládat takový krásný přepínač
a ten bude přepínat mezi _e generátorem periodických impulzu
todle bude případě znělý o buzení
a nebo generátorem šum
o tom
budeme mít gain
což bude tady ten
trojúhelník volume prostě násobení konstantou
a konečně _e koeficientama filtru a Í musíte nakrmit
ten _e
sníme syntetizační
filtr
a pokud všechno uděláte dobře tak na konci bude relativně srozumitelná řeč
tak _e
tady tohle implementuje ten známý
americký je vypláchnutí ten standard S xpath na
schválně
teďka nebudu dívat a zkuste se podívat kdy to bylo normovaná myslím mluví tak ke
konci sedmdesátých let
filtr potřebuje os na
se bitů za sekundu buzení přes N bitů za sekundu celkem nejsme na dvou celých
čtyřech
a _e hlavním problémem
je tohodle vo kodéru bylo modelování buzení
které vedlo k nepřirozené řeči
stejně se podíváte na schéma list nebo proč izolování není tak špatný vektoru
aby tam nulový na
_e
jak pro
_e
to display
jsou vlastně jaksi na jo
když _e
když _e
mluvíme a třeba _e F
ze téma mohlo fungovat doprava osum
použití do toho
vlastního
ale
vlastně obcích některé ty buzení
vaše _e
_e
to je poplachové dvě
_e rozhraní na S T
_e asi C když prvkových R T
stěhovat _e kdo pořád
jo odhaleno prostě takový server
okay počítačům
že
i marka mávnutí
pustíme vznikají turbulence
tohle jenou jinou ignoruje znamená na _e rovnou Y
jasně
osum
někde
_e prvku namítat
tady tohle právě jako seděla
a to docela sofistikovaně
i moderní
nebo moderní s v uvozovkách úterky v osmdesátých let
tím
_e
_e
kodérech pro mobilní telefon
tak je
poďme ještě de facto dostaneme si popovídat po technice _e real viděl se netradiční
_e
tady se nám vlastně jedná o to
že sem
úplně _e úplně zjednodušil modelování buzení jo řekl jsem bude tady jenom informace o znělosti
jenom informace o základním tónu
a ten budící signál který _e který uvidím někde tady
_e stě buď bude vypadat takhle
a nebo bude vypadat jako bílý šum
nic nevidím
může a tady taky z druhé strany může si říct no tak _e
počkej jako
když si dělal
tady to rotace analýzu
tak by se překonalo udělat to co sme si tady předváděli
přednášce vo _e o L pece to znamená vzít vstupní řeč
S N
pro hnací filtrem
_e ze jo
dostat _e
ten chybový signál E N
teďka tady tenhle vyslovil klidně třený
o toho dekodéru pro ženeš
_e filtrem jedna lomeno A Z
a tady na konci dostaneš úplně perfektní
úplně perfektní _e dekódovanou řeč
jo tak tady tohleto je možný akorát millikanem uspořil i ani bytí k protože potřebujeme
přednášet chybový signál potřebujeme přenášet parametry filtru a
navíc sme si ještě možná
nějaký bity přidali
takže toto nebylo kodér který by spořil bity ale přidával
nebylo dobrý
tak poďme se na to podívat ještě trochu užší trochu detailně
na _e na tenhleten R L
a
_e intel tady nemám
ne takto k tomu se dostaneme ještě dál
tak prakticky to co sem chtěl říct tady na ten na tom na tom skleníku
sem vám to vykládal jo prostě problém
že byl ten aby ty koeficienty filtru ani chybový signál nebyly nějak dál zpracovávány kvantovány
tak byste si přidali bit
takže teďka poďme si chvilku povídat o tom
jak se bude dál _e dál zpracovávat nebo kontrolu
vektorově
jo
_e protože
my vlastně
dostaneme i nějaký balík informace třeba deset koeficientů predikčního filtru
a teď samozřejmě jako bychom se na to mohli dívat jako po jednotlivých čísílka
ale tak bychom vždycky dostali jako sup optimální výsledek kdyby buď kvalita bylo horší ano
počet withdraw
znamená _e my si tady povíme něco o vektorovém
kvantování
jak to vektorové kvantování funguje opravdu mi říkejte pokud bych jako tomu natahoval
místo někde slyšeli máme tady prostě prostor nějakých dat
jo to budu ukazovat ve dvou dimenzích
no tady tohleto je parametry X jedna tohleto je parametr X dva
a teďka když ty _e jednotlivé dimenze konturu nezávisle
tak prostě _e a na každé dimenzi mám když k dispozici určitý počet bitů v
tomhle případě třeba dva
tak prostě tady si určím čtyři možný hodnoty
tady si určím taky čtyři možný hodnoty
a tetě
vlastně _e hodnoty
těch parametrů
nebo těch vektoru který jsem schopen pomocí těchto kombinací dostat
jsou prostě tady voznačený těma _e ty má černýma unk sítama
protože když mám takový nějaký zrůda
vypadá takhle tak vidíte že
prostě jsou tam hodnoty
to jsou tam úplně na houby
tedy prakticky nikdy
ty kvantování žádné hodnoty nepoužiju
takže to by bylo asi _e lepší
to udělat trošku inteligentními a říct vlastně nechat ty data
kasta data se
ať i _e aby si ty typické hodnoty
vymyslela sama
a pomocí tady tyhlety natrénovaných hodnot potom kvantovat
vidíte že když _e
jsem se o to pokusil
se mi ty takzvané kódové vektory
vhodili úplně jinak než na pravidelné mřížce _e čtyři krát čtyři a už se nám
jako pohledu zjistíte že ta data prostě vyskytujou _e
ví
takže tady todleto je
vy si tam vektorově kvantizace je to
že vlastně se nedívám nezávisle na dva nebo N různých komponentu toho vektoru
a že ten vektor beru jako jednu hodnotu která se zcela
_e nezávisle
ones je
tak _e poďme nějakou terminologii
když mám teda jako ten prostor parametrů
tak _e
tam mám nějaké regiony
které se budu věnovat voronoiovy
_e ty regiony jsou reprezentovány
musím předem v říkat ten zdroj
a každý ten _e region taky musí mít vlastní jednu výstupní hodnotu kterou potom při
dekódování S ano takový to server _e
hodně časovej ta výstupní hodnota
ten tak zvaný kódový vektor je právě položený ve prostředku toho region to znamená tom
jeho _e centroidu
tak je teďka
něco trénování
_e rim začínáme to matematikou takže si
_e řekneme vlastně co máme k dispozici
máme k dispozici
budu vám to že sou kreslit ve dvourozměrném prostoru
tohleto je složka X jedna s dneska X dva
a já mám k dispozici prostě mráz dat
každá tečka
reprezentuje jeden trénovací vektor
_e
mám k dispozici natrénovat
kódovou knihu
o velikosti o velikosti call
pro mě třeba to K budou čtyři
první věc je jak souborovou nainicializovat to jako je
celkem věda
za chvilku si potom popovídáme vít teďka předpokládejme že se mi to povinné nějak takhle
tady toto jsou čtyři kódové vektory
když sempra vizitka nainicializovat
a teď že _e
první fází
toho trénování
je vlastně za kvantovat nebo příznaky
jednotlivé trénovací vektory
nemyslím kódovými
na to jako zní hrozně jednoduše
protože bych prostě jako řekl no tak to je přece jasný nette nikoho udělám
takhle čáru takhle Č takhle čáru
tyto _e tyto všechny budou patřit sem si to budou patřit sem a tak dále
a tak dále
ale _e já bych teďka chtěl aby se mi řekli jak to jak to spočítat
kdybyste tohleto algoritmizovat
takže to člověk dokáže udělat prokazuje
_m no dobře ale tučně říkat jako highlevel se to je jasný jak rasterizačního _e
to tak D ale jak to bude probíhat
jo představte si že prostě jedu po jednotlivých datových vektor T
a teďka sem tady téhleté modré tečky
a vám říct
a se rozhodnout ke kterýmu kódovým o vektoru ta modrá tečka bude ta
přesně tak jo musím prostě spočítat vzdálenosti je všem čtyřem kódovým vektorům op
no
jo
vy první co nejmenší což by byla _e tady je houby vidět ale asi
asi tady tato
a řekl by
ano tady tato modrá tečka bude patřit tomuto
kódovém
vektoru jo to tady mám zapsaný taktu
takovou složitou funkcí jako že kvantovaná hodnota _e vektoru _e vektorový
bude
příslušný
kódový vektor pokud platí že vzdáleností k sou k tomuto kódovaném _e k tomuto vzorovému
vektoru je menší než vše vzdálenost X u ke všem ostatním torovi vektoru
teďka samozřejmě si tady můžeme půl hodiny a toto jako jakou vzdálenost _e použijeme
to bude ve dvě de ještě docela pochopitelný ze vlastně normálně vymazáno
pokusme v nějakém
více rozměrnějším prostoru
tak se pořád pohody používá euklidova vzdálenost
znamená bereme rozdíly jednotlivých složek vektoru na druhou
suma toho všeho strčíme no změny
tak
a když dokončíme vlastně tady tour odhazovací etapu nebo
kvantovací
tak
děláme co
jeden další krok
a tak se tady protože tak jak sem teďka jako namačkaný tady někde uprostřed
tak se nám to moc nelíbí že jo tady to prostě ta data moc _e
moc dobře nereprezentuje
takže já bych to asi chtěl jako intuitivně vidíme že i správný hodnoty byly někde
tady ne
ale ty správný hodnoty spočítat
průměrná poloha
průměrná šesti _e vstupní nebo trénovací vektory který padly tomu dalšímu _e organismu kódovým vektoru
eště předtím
můžu udělat jednu věc
když si tak pěkně _e za kvantová vám ty trénovací vektory
tak je docela dobrý si někam _e ukládat fitkitu optimální vzdáleno
a S a při čítací třeba nějaký v akumulátoru protože potom vlastně když tady toto
provedu pro všechny trénovací vektory
a podělím to jejich počtem tak dostanu jakousi
musí jako totální vzdálenost
nebo můžeme tomu taky říká kreslení
který vlastně způsobuje kvantování vektoru tou touhletou na novou generací
kódové _e zní
a můžu udělat tak je to že když ušel si myslím že ovšem sem hotovej
že _e se mi to vo té minulé generace moc nezlepšuje takto trénování prostě zastavím
a prohlásím ten výsledek za hotovej
jo
tady je dobrý prostě si pamatovat _e
pamatovat tu minerálu celkovou vzdálenost
teďka máme spočítanou novou vzdáleno
můžeme si vlastně spočítat relativní _e relativní zlepšení
a nastavíme si nějakej práh třeba pokud tady tohleto celý
je menší než
nula celá pět procent tedy binární moc Á nula mapě
tak sto
protože
protože už sem spokojenej jo to prostě jako dál
dále
no silnic
pokud ale nejsem spokojenej
pokud ještě tady
no tak mi nějaké zlepšení
tak prostě spočítáme nové polohy
trénovacích vektorů
a je to zase máme sme na
hrozně složitě napsaný jako
centroidy té buňky se Í ale vlastně se jedná o to že zprůměruji všecky _e
všecky trénovací vektory
který mi tam padly
a může se vrátíme začal
jo takže když _e to zkrátíme vykoupena rovnice
tak vektorový kvantování jo
mně
_e
ráno
ono
dále on
a za
A a odnese zima
jo
a nebo
_e
o
nula jedna
_e
vektorové kvanty
tak
co to u toho výkyvu je trošku problém
je _e je inicializace
první orvek
jo
_e
na _e
povede
ale
nemusí V
třeba
já mu
_e
u
vy sám _e přes korun
u
jo
kterého
u
udělat formu o
_e
a vy
no _e
a
_e jo
_e že se vám potom ta
o jedna nepříjemná v je
a to že jedno nějakýmu horový mu vektoru ne přiřadíte ani jeden vstupní vektor
jo
když tě tam jako vesele trénujeme
_e ve někde
je zkusím ukázat představte si
že _e že ten
že tady dáte
že máte jenom dva kódový vektor i tady dáte jeden
a tady já to druhej protože se nějak úplně o
minete
tady tenhleten kódový vektor stáhne sobě úplně všechny trénovací data
a na tento
a tento nezbyde nic
a v tomhle případě máte celkem problém protože _e vlastně nová hodnota toho logovacího toho
kódového vektoru
přepočítala
jako průměr těch _e trénovacích který k nim upadli
a tady najednou jako byste měli nulu
jedna lomeno nulou krát nula a jako
je to je to
_e dobře tak vám dám
fajn
jiný protipříklad představte si že tady
_e že máte tady tenhleten mrak trénovacích dat
a teďka tady jako si určíte raz dva tři čtyři trénovací vektory dáte sem
ne
ne tak respektive takle to sem prostice
jsem chtěl nějak
za nějak jinak
ne účtová
čtou mám
_e
dejme tomu že máte tři
budete mít tady
náhodou se vám podaří tady toto
při inicializaci
jo
potom máte pro celou velkou šanci že tady ten prostřední
vám stane všechny data a tady tuto zůstane s jedním vektorem a tady tohle taky
řením vektorem
takže jako sice
o tyto dva budou korektně natrénovaný ale _e celej balík dalších důležitých dat budete mít
kvantovaný jenom jedním jediným vektorky
no tohlencto vám echoed
teď toto se opravdu školní příklady ve dvě D ale když se v nějakém deseti
rozměrném prostoru tak se vám tady tohle
naprosto krásně může stát jo takže prostě se _e toto prvotní
roztleskávání všech vektorů je docela
vy
proto se právě dělat nejsou jako posuvný štípání
_e korektní říká sem taky _e ví kdy vlastně řekneme ne
my to uděláme postupně
první zaprvé vezmeme jenom jeden kódový vektor
na trénuje
ten se nám samozřejmě dva ne
do centroidu všechna
ottawě za chviličku
ten
rozřežeme a někam posuneme
natrhneme korun knihu o velikosti dvě
potom vezmeme tady tyhlety kódový vektory
rozřežeme se trénujeme paretovy opraveno prosím vás ta první kódovacího se nám samozřejmě
tak přímo doprostřed
tady sem
tady sem _e
posunulo
nebo rozřezal kousíček musíme posunulo
před trénoval
zase každej rozřezal kousíček pro C posunu pře trénoval
čtyři někde nakonec mám krásnou kódu knihu o velikosti osum
tak _e
si myslím že se tady někde mám popsáno
matematicky nemám to zkusme vymyslet
jak byste realizovali
rozřezání a posunutí nějakého kódového
_e
jo takže by se to že by se to posunuli k tomu trénovat nejvyššímu trénovacího
vektoru jo
ano
to mě napadlo ze
_e samotný ta koncový uzel se používá
tak když vlastně máme nějaký kódový vektor nějaký Y T
tak pokud chceme rozřezat na dva
tak _e tak se používá Y T
plus nějaký delta
samozřejmě
a to druhý bude
mínus delta znamená jako kdybyste ty vektory
od sebe odtáhli
do
_e opačný směru _e tom prostoru ale myslím že ta technika jako prostě vymyslel že
bych jako to přeřadil dvěma nejnižším vektoru že by
ty fungoval
teďka kterého těch jak _e kdybyste byste určili ten směr
kam se mají různou
historicky pro
_e
gradientu
nejvyšším své pravděpodobně tam kde ste
dvěma
nemáte ten původní
kódové je to
F teďka u té _e ani nemám vyzkoušený ale _e máte dvě možnosti buď si
tu deltu nějak prostě
vymyslet jo jako tato
nula celá nula jedna
nula jedna a tak dále _e všech
směru a mínus nula celá nula jedna N
no akčního
a pokud se čili na to jít trošku chytřeji
tak víte _e jak jakým směrem
nebo videotechnikou zjistit
kde máte vlastně směr největší proměnnosti nebo variability dat
určitého
C R T
jestli pro komponent
ten
jako docela fajn technika
zapamatujte no si to můžete najít na wikipedii mimochodem mi wikipedia úplně super pro vysvětlování
matematiky o tom úplně všude všecko
tak PCI vlastně nám _e určuje
_e když máme takovýhle blok dat
tak PCI nám určí
dva na sebe kolmých měli
a ten první bude směr největší variability a ten druhej
bude ten bude ten druhej
jo protože sme jenom ve dvě de
my sme měli prostě P rozměrný prostor tak _e tak _e vám to vyhledat té
směru
a ještě tady takovým těmto vektorům se říká takzvaný ať vektor s
a _e eště existují a tím value
a ty
ať hodnoty nám vlastně udávají kolik je variability k tomu kterým směru
jo takže my bychom klidně mohly tady tu deltu
jako její směr nebo _e
_e jo prostě
mně toho vektoru určit pomocí
to prvního a tím vektoru
a klidně ještě bysme mohli _e velikost tady té délky
jakým způsobem řídit pomocí největší Y value
a teďka jako bychom mohli ty a jim vektory a jim velí u spočítat globálně
se celý data
a kdybyste chtěli B Z vopravdu suprový tak byste si a tím velibech tesla a
jim velí
mohli spočítat ještě třeba
převzata který disipaci sou týmu
který ta
to by bylo úplně
nebylo úplně perfektní
takže _e
dost bolo
vektorového kvantování
_e jenom ještě k němu existují nebo _e používá se jedna pro kódování koeficientů filtru
ale taky pro kódování buzení
aute výkyvu existuje do varian který vám tady _e někdo povídat sítí de
tam někdo já musím dostat vole u výživnou skluzy
takže příště se uvízli rovinného sbalil nebo nějakého dalšího
kaskadér
tak
děkuju vám za pozornost pěkný večer