vítejte

začne bezdězu zpomalili přesunem toto je přednáška odvrhne

mám pocit že říká R _e vaši kolegové klasika řeknete přesouvaly jsem úplně jiná možnost

to nakonec zacyklí takhle

ta

bez občas

jo

my

utíká

zda

budeme dominika straně učitelem i na jihovýchod napřed řeše tak do a ten a krucinál

_e a ku

_e technika i

ale nevím

možná že by se podívat na nějaký

bude mít ten ale prosím vás

říká

vyšel takový

já jsem ráda

tak vystihnout tak

jo takže že

M

a _e ještě než se dáme do vlastně přednášky tak nějaké administrativním složky

_e natáčet prvního projektu

protože když _e skoro všechno co potřebujete tak víte a zbytek se tam dozvíte dneska

první prvek _e že vlastně rovina _e

určitě udělali anebo tento týden uděláte komplexní kodek od _e P T znamená určení parametru

_m filtru který modeluje naše hlasové ústrojí určení základního tónu

_e nějaké tak na kvantování parametrů a potom naopak

je mezi parametrů zase postavení toho filtru a nagenerování nějakého budícího signálu a daní řeči

dohromady

a jako one budu v rámci toho prvního projektu chtít abyste _e ten dekodér

napsali čemkoli jiném než matlabu takže si můžete vybrat měl jsem prostě různé

časově pá jednu se C plus C plus

víš art _e že možném skutečně nikdo nedokázal

_e možná šikanovat

_e bod je to je to všechno na webu popsané

vrutici krát budete mít pozici nějaký testovací signál referenční výstupem

takže po vás budu chtít prostě abyste si ten testovací signál skórovali neposlechli

_e já potom na to toho bodu pouštět nějaký svůj testovací signál pod ohodnotit kvalitu

výstupu jednak si budu dělat tak má logaritmickou spektrální vzdálenost zpracování možná trochu _e dozvíme

to je nějaké

jako v uvozovkách objektivní hodnocení kvality dekódované řeči podle toho si to sortu pár nejlepší

si poslechnu a ta úplně nejlepší dostane ještě frašku červeného vína

takže _e toho přesně zase dostáváte body máte nastane někdy na konci toho pdfka jako

de teda pustit produkuje poslouchat plnou tečna feťáky distribuci řeknu jinak linuxu

_e je k dispozici nějaká minimální dokumentace všech neformálně pořádku odevzdáte termínu toku toto je

širokej dostanete patnáct bodů když je něco s toho nebude oukej tak tady máte _e

napsány různé penalizace

a pokud všechno bude oukej eště budete mít nejlepší kvalitu výstupů tak trošku dobré víme

a i důležitá informace tento projekt jako na _e skupinka swot jednoho do tří studentů

zapisování normálně ve wisu udělám tam dneska večír nějaký takovýto zapisovat o podobně se hlásili

na laboratoře jo není tam žádný časový press a

odevzdání toho projektu musím ještě vymyslet

loni se vodevzdával

se to bylo na webu

_e

buněk někdy to dám na polovinu dubna

ještě přesně nevím tam

_e další administrativní informace půlsemestrální zkouška se mnou testovala na hory

nární prázdniny a vzhledem k tomu že sem hodil mu sjezdovka dvě až tři děti

tak pacem večer měl maximálně tak je to civilnosti aktivovali tak to znova se

nesrali složka ještě není opravena

tak _e začínáme přednášku

zase na zdroje pane kolego jedenáctka R tak se mi dejte

jihovýchodním směrem

ano

a

jo

zase dělat známe všichni na to samé a prostě odepři

si napsaný z dekodér _e něčem jiném matlabu

a pak si prostě dekodéru nějaký signál E

rovná vám

poslouchám

jo je samozřejmě na vás jako je vzít ovocného nového těchto to dodělali už mírou

že jo jako u textu není nejmenšího odporu

_e doufám že hosti výsledek jako dentista napíšu sem není to těžký prostě naučíte se

na tom pár věcí

který řeči _e

co

že se

zná jinde

jo Š poďme na kódování řeči

promiňte si že taková malá kalibrační vsuvka

tak to je to

video zamezte to znamená

jako kde to někdy psal a tak topasu objevovalo oku centimetrů vedle

takže potom co rovnou

takže černovic do blázince takže kódování řeči jedna

o čem to bude nějaké obecné povídání o dělení kodérů jak se vyhodnocuje kvalita kódování

objektivně subjektivně potom začneme s těma vlastníma bude doma

a přes _e to bude vo tak zvaným bejt von code i

předtištěné to hrozně krásně doslovně překládá jako kódování tvaru vlny

jo opravdu

_e dva a je to vlastně _e o tom že pracujete vzorek po vzorku aniž

by se brali nějak moc úvahu že máme _e že máme nějaké řečové ústrojí které

se skládá z buzení a modifikačního _e nebo z artikulačního traktu

o tom se podíváme na vokodéry kde už tady tohleto platí to znamená tam předpokládáte

že zpracováváte řeč která se dá nějak rozdělit

_e mrknem na vektorové kvantování že takovým základním kamenem

mnoha kodéru řeči ale i další

věcí

_m o _m mimochodem měli se někde no viděli se někde vektorové kvantování nebo klastrování

nebo z luku automatické shlukování

vrzali někde v nějakém kurzu

jo vy máte prostě jako mraky dat

nějaký vektoru v nějakém N rozměrném prostoru a také potřebujete _e rozdělit třeba do dvaceti

tříd automaticky

no něco takového

oba tyto viděli o tak

to tady eště jednou projedu

možná že by to bylo moc jako pomalu přičte a

by měla něco zajímavějšího o tom ještě přednáška kódování dva kde už beru trochu detailně

L kodéry nejsou dnešních mobile

takže možná že se X to je dvojice dneska

trochu dostaneme pokusilo sem taky sem

tak vosumnáct kódování de

ne no name bitů aby to přestalo co nejlépe sužovalo zřejmý když budete mít totálně

archivovány přenosový kanál tak aby to pořád krásný mluvilo aby to bylo co nejméně výpočetně

náročné

sem vám tuším říkal že

na napřed první přednášce že tady tato kritéria jsou _e

v rozporu

že třeba kdybyste chtěli opravdu jako co nejmenší počet bitů

úplně ideální _e kodér by byl ten

který by _e vlastně nahrál naprosto všechno se

toho daného člověka US narození

musí o indexoval a potom tak ještě kolik řeknete tak se to pravděpodobně někdy řekli

tak to jenom jako šáhl o té konvexní a poslalo to taky třeba čtyryceti bitový

index

tak to by bylo bezvadný akorát by to asi docela dlouho trvalo

takže by to

hodně spočívalo a kdybyste

ten index změnily o jeden jediný bit

a místo nějakého slova řeklo třeba nějakou sprosťárna tak _e prostě asi

i ta posloupností stránky nebyla

pokud _e na

takže

typicky prostě tak jako v jiných oborech lidské činnosti

jako chci dělat něco humanitárního ale stanovit hrozně málo peněz a nebo udělat nepříjemnou věcech

rovnicí nesouhlasím ale budu balíku prostě

to stejné vidíte tady požadavku na kódová

_e eště takhle druhá poznámka

když pojedete na nějakou konferenci tak _e ty kódovací sekce seznam jako popelky ani tam

jako nechodí moc lidí a jako všichni do u teda na to rozpoznávání protože to

je prostě jiná se _e velká věda

_e když se podíváte na _e komerci a na čísla kolik jednotlivé aplikace vydělávejte kdo

právě naopak uvědomte si že nějaký vokodérech

máte asi dnešních kapse a všichni ho denně používáte když to nějaký rozpoznávat řeči jako

tak někdy možná takovou vedra teda zásobu této někdy použili přednášky do com

si vlastně hráli výsledky rozpoznávače jo

dyž je to zatím taková hračka když to kodér rozvoji všichni to znamená firmy

jako půl com

_e

jako

tak se jmenuji

_e

naši

přátele

_e jak možná spoluvinu které dělají kodéry řeknu vám prostě vydělávaj úměrný masivní peníze

tak _e

poďme se teďka podívat na další větve standardizace

zatímco ve světě rozpoznávání řeči syntézy řeči forma ano jako celkem velká demokracie anarchie

vždy dělal jak se to se

tak kódování samozřejmě všechno musí standardizována protože

vás mobil nokia teda měl domluvy s tím samsung na druhé straně nebo

a _e tohleto pane od nepaměti který času existoval organizace se sejdete

kromě řekli krásný francouzský název

toho se vlastně rozděl organizaci tu _e T S

která dávala doporučení pro _e telefonování u pevných

linka

občas se některých těch doporučení _e používají

i třeba T C P telefony jako nějaký celkem kodéry docela masivně se do tohoto

druhý pánové vojáci takže třeba první standarty který vlastně byly vokodérech

pocházeli T americký vytipovat metody se

a tady máme evropě docela mocnou realizační organizaci která sme si

a to má vlastně protože com

u mobilních GSM telefon je vlastně francouzsky finále

tak _e tam _e vlastně sme sem portfoliu všechny možný normy na kódování mobilních sítí

pak máte ještě nějaký další inmarsat jsou takový ty satiry satelitní _e

telefony

pro lodě teroristy a další

_e ionizace a eště byste možná napočítali ve čtyry pět další organizací

tak _e

kde nějaké principiální dělení kodérů to první bude tak zvané tvaru vlny

jeden vzorek po vzorku

hraje to krásně ale je to za cenu velkého bitového toku

_e může se s tím zakódovat celkem cokoliv bude fungovat uspokojivě pro řeč pro _e

drogu jediná vlastně _e věc kterou tady o těch vy forma nebo o těch signálu

pro vy von kodéry budeme očekávat je

že jednotlivý vzorky na sobě aspoň trošku závisí

což platí pro všechny rozumí signály kromě bílýho sumu

a bílý šum jako

do toho takový přístroj budete

pouštět do s

tak za druhé sou vokodéry

které tvoří tady tím že si řeší a cache víme že se prostě nějaké jako

dá namodelovat pomocí _e pomocí _e

buzení pomocí artikulačního mustr

jo takže stejně tak tady nebo kodek najdete vlastně dva typy sítí bloky a to

bude probuzení a blok modifikace a tím se samozřejmě musí nějak updatovat parametry a musí

se nějak odhadovat a přenášet a C

zasahuje se přední cache nízkých rychlostí

spokojil jenom řeč zkuste si někdy jako přehrát přes mobil hudbu bude to sice přes

ale nebo řazení pěkné

_e to je _e hybridní přístupy

takhle vlastně se nazývají _e

ty kodéry který současně obraz nejvíc používáme protože ty vlastně kombinují _e to co bylo

v obchode takže třeba je tam úplně to samé zakódování artikulačního buzení jako _e vokodérech

tedy nějaký filtr jedna lomeno A Z

A modeluje naše artikulační ústrojí

ale _e je tam složitější modelování buzení

very zase přispívá jako přirozenosti hlasu a srozumitelnosti a to _e se nejčastěji i když

někoho bity kompaktně _e kóduje vzorek po vzorku že vlastně tady tyhlety dva dohromady

by vám dali hybridní kodéry a těleso hrozně důležitý protože to jsou všecky

že C je ten kodek

a pak sou takový _e

že experimentální vědecký fonetické vokodéry

_e pracují na tom principu že když se tlačit ten bitový tok ještě níž

tak už vám nestačí ani vzorky ani dáte asi they do nějakých dalších jednotek

kerý máte uloženy ve slovníku máte ty nějak _e popsaný jakými indexy takže tady budete

mít typicky kodéru rozpoznávač řeči

budou se přenášet jenom nějaký prostě pár bitový informace na druhé straně bude syntezátor

je to hrozně _e fajn jistý pan černocký vo tom sepsal vegetační práci mnoho let

no vole tomu na za

ale zatím žádný takový kodér neviděl _e standardizaci nový tím že se prostě jako zlevněné

_e

zlevněný přenosové rychlosti takže vono to už není moc není potřeba

tak _e

pro sme se podívat na dělení podle bitového toku

to sou zase taková

jo

klasická čísla ale když prostě někde tesla uvidíte

že nějaký kodér má I tak je to více mneš cesta kilobitů a bitů jo

nebo into kilobitů za sekundu

nic je musel úvod osmi do šestnácti lo vo dvě celé čtyř do osmi a

zelenou o tím

a mimochodem ten

plně první pokud _e sejdu normalizován právě americkou armádou

někdy uštvat sedmdesátých no osumdesátých letech

tak byl právě jako vlastně na spodní hranicí mouricu

ten standard deset patnáct

a ten pracoval na úterý čtyři

kilo byte

takže

ještě je potřeba se podívat na to co ta bitová rychlost vlastně znamená normálně klasický

_e

klasický sítích prostě

pevná linka nebo

no pro banka

_e

_e tady měl nějaké počítačové nebo telefonní sítě říkat tomu komutované spojení

když máte prostě bod a pevně

drátem propojeny

budem de

jo

jak je

_e obvykle se to ještě nějak říkal který ste si

_e zažili

no _e příště prostě tam kde máme zaručeno vytahuj o

tak si můžeme dovolit _e vlastně fixní bitový to

_e tam kde to nemáme to znamená máme _e máme paketové sítě

tak _e se spíš hraje na

na proměnnou bitovou rychlo

a _e občas vlastně víte že jsou kodérech třeba

a M R N ven má tyhle spektra velký

které si to _e bitovou rychlost sami V podle toho prostě k jaké

US jaké pásma kolik bitů mají k dispozici

_e ještě prosím vás jedna poznámka

_e ne když se tady budeme bavit vo nějakým kódování

tak to bude zásadně tak zvané source code i to znamená kolik bitů spotřebuju na

kódování řeči

a teďka a pak ještě tak druha druhá část které se říká channel coding

a tam vlastně přidáváte bity pomocí různých opravných kódů

abyste _e abyste jako

to řeč zabezpečili

proti _e proti výpadkům

na přenosové cestě

vono to jako čase hraje trošku

dohromady dezinformace protože pokud posíláte počítačový soubor nějaký tak tam záleží na každém bitu úplně

stejně to znamená tam musíte ten černookou name aplikovat naprosto bez rozdílu

se provede

tak to je trochu liberálnější a můžete si vlastně vybrat ty bity a který vám

V záleží

_mhm

_e zakódovat králově pomocí nějakých opravných kódů

a zasažena si ostatní se můžete vykašlat pokud nic dojde k chybě tak _e řetězci

sestřenku ztratíme kvality ale pořád bude srozumitelná

jo takže _m

stejně je všechno ztrátové a podobně ztrátovém mnou vlastně _e to kanálové kódová

tak _e

a _e existuje teprve dělení podle kvality

tak a standardní kvalita pevné telefonní linky

ze se říká nesme anebo to

znamená normální _e

normálně analogový nebo dneska už teda většině případů digitální

_e telefon a ten nevím se má tedy kvalitu C lepší to znamená nelze přirovnat

třeba rozhlasovém vysílání normálně sem rádiu

vy ste se říká brouska

tak to je _e poctím

takže

mobil _e možná sou někde tady mezi

záleží to na počtu chyb _e kanále tak to je prostě poctím také communication

to znamená rozumíte zachovává charakter mluvčího ale

řeč nezní _e nezní přirozeně

a to ještě více po tím

tak _e ze se říká syntetik

technická kvalita proteiny s někým mluvili pomocí takového toho

_e wall kyselky nebo ne z radiového pojítka

bavíte to _e

teď je to sou samozřejmě takto jako kategorie který by se mohli lidé a lada

to znamená docela důležité vyhodnocování kvality _e jednotlivých modelů

a ta ty metodiky vyhodnocování kvality jsou dvojí jedna firma objektivní

a jednak subjektivní

a jako je člověk prostě tady na této fakultě informatiky myslbek když máme

máme objektivní tak to je bezvadný nelze jako nám dá nějaké _e nějaké platné číslo

které hodnotícímu kodér dobrý nebo špatný

akorát že v tom kódování řeči je to právě naopak

tady vlastně objektivní měřítka kvality se dají

počítat je to jenom nějaké přiblížení _e tomu jak

_e člověk a když budete chtít nějaký mobil nějaký kodér prodat

tak pro vás bude nejdůležitější tady to subjektivní kritérium a se to prostě tak jak

se smísí lidí protože i vám to nakonec _e

dají nebo nedají peníze

že byste trochu detailně s tím objektivním a subjektivním hodnocením

_e když se podíváme objektivních metrik

tak úplně za nejjednodušší je poměr signál osum

vzpomínáte ještě chema

poměrem signálu co musíme někdy druháku _e

je stezku

na komín nevadí

máme

signál na vstupu

který vypadá takhle

zírala výstupu

který vypadá

takhle

mezi těmito dvěma signály samozřejmě rozdíl

když jedné rozdíl spočítáme

prostě spočteme _e signál který je v odečtením těch dvou

teď která nevím jestli to nezvládnu nakreslit na něco

něco takového podobně pěkného

a teď vlastně jasný že čím větší jeden chybový signál oproti tomu původnímu těmito horší

že jo

takže my si tady tohoto signálu spočítáme energii

ale to je tady ten _e

to je tady ten jmenovatel

to znamená na nějakém vzorku jedu _e spočítám

spočítám každý vzorek na druhou všecko sečtu mám energii to chybového signálu

a _e s toho původního signálu si spočítám taky energii čitatel

kdy normálně vezmu prostě hodnoty všech vzorků na druhou dáme do sumy to znamená tady

tohleto je energie dobra

to je dole bude energie špatná

jo to je to signál tu no je anglicky a tady tyhlety dvě energie podělím

a protože lidi jsou zvyklý na logaritmické měřítko takto pro táhnete _e protáhne terorismem základem

zase

vynásobíte desítkou máte signál _e poměr signálu k šumu

decibel

tak _e

tady je

zkuste říct jak ovčem bude mít tady ten

poměr signálu k šumu problém

připomínám se nám jde o to aby jsme poznali jestli nějaký kodér kóduje dobře obvodový

slovy

se

jako

tak když jeden signál

_e

bude míse

velmi půl hodiny

_e půl hodiny to bude úplně perfektně _e

horova

ale na dvě minuty to úplně vyhnout

nebude tam vůbec nic

tak to asi nebude moc fajn a _e tomhletom případě ale něco ty sumy vlastně

přehrání

zná půl hodiny ta _e ty budou nuly

a bude tam obrovská chyba tak se to prostě i průměru jestli

znamená problém toho poměru signál může jenže hodně globálních jako bere jeden se leží na

druhej souvisí dna

a nějak jako _e se nekouká na _e na chyby jednotlivých úsecích

_m problému vám za chvilku ukážu zkuste

se přemýšlet ještě bude jinej problém

co když třeba _e jeden z těch signálu o milisekundu posunu

když vám bude mluvit mobil a druhé mobil budem mluvit úplně stejně ale milisekundu osum

zavazovat

a nebude vadit vám bude úplně jedno co nikdo nepozná ale při počítání poměru signálu

k šumu

když si představíte že tady tenhleten druhý signál je takle posunutej

tak najednou byste se do počítali obrovské kiwi protože bude vo té odečítat záporný hodnoty

vodklad nechat rodnýho zákony

takže tam vlastně veliká citlivost na _e a časovým

časovým osum

to musí potom něco řeknu ty logaritmické

nechrání vzdálenosti

tak _e

tohleto je _e taková ukázka

poměru signálu k šumu

pro kódování slabiky a

_e

je to nalistovanou prosím vás není to vždycky

_e pomocí čtyř bitů

kdy vlastně tady demonstrujeme

to nepěkný globální chování

když se podíváme na _e řádku a

a na její dekódovanou variantu pomocí čtyř bitů jakýsi vidíte že to dekorovaná wavka je

zubatá ale jako zásadě

není žádnej problém a když to poslechnete to bude znít docela pěkně

na druhé straně pokud se podíváte na hlásku E

a pak se podíváte na to jak vypadá nekódovaně tak je zle protože

máte k dispozici možná jeden bit možná jeden a půl bitu

jo tady ti

i dva chudáci záporných duhovky

to znamená tam vidíte že to je jako skoro stoprocentní chyba

no a teďka když počítáte S N a

tak všechno tady toto se bere _e dohromady prostě s tohodle chybový o signálu se

spočítá suma jeho vzorků na druhou

tohodle užitečný a signál sekyr počítá suma

jo vzorků na druhou udělí se a toho

takže

není to moc dobrý

když _e bychom si spočítali

global globální poměr signálu k šumu

tak nám to na tom signálu za čtrnáct pro patnáct decibelu patnáct decibelu je výbornej

poměr signál osum prostě

čemu perfektně rozumně

_e tam slyšíte ale nějak vás neruší

tak _e ale ten problém řeší

tak zvanej segmentální poměr signálu k šumu nebo aspoň částečně řeší

já jsem tady ještě to mladistvým nadšením kdysi napsal jako obrovskou rovnici

která řekne každej ochromí

ale prosím vás

nejde vo nic jinýho než že máte

_e ten

originální signál

proto máme ten chybový signál

a na místo toho aby se ty sumy dělali globálně přes celý závit

tak si to prostě na začátku rozdělíme na nějaké úseky

remunu mistryně stejné parametry jako dá se o kterých jsme tady povídali jo třeba délku

já nevím dvacet nebo pět a dvacet milisekund

každýho toho úseku se spočítá samostatný poměr signálu k šumu

že to byl tady bude sonaru jedna

sem R dva a cedr a tede a tede

a teprve na konci až budou ty logaritmický tu poměry signálu k šumu spočítaný

tak se mi průměrového u

a já sem vám tady to demonstraci udělal

_e pro tu slabiku a

která je tomhle případě rozhozená na

na šest úseku vidíte že na začátku

na začátku kdy jako ten signál _e byl silný

tak dostáváme krásný hodnoty poměru signálu k šumu dvacet B devatenáct D umístěna

ale potom bysme na konci tak je to podstatně horší je tady dokonce dostáváme zápornej

poměr signálu com

co znamená zápornej poměrnou sumu

_e

no

je vhodné

jo

_e

čitatel tady dobrej signál je větší než nula _e

zavěšené jednička

algoritmu _e co leží ne sítích _e nula ano pak

jo ono mu to znamená tady ten poslední rámec byl úplně vedle a pokud tady

tyto s průměru je se dostane se _e čísílko devět celých šedesát šest

decibelu že teda podstatně horší ale je to reálnější hodnota

pomocí toho globálního S N a

tak _e tohle by prasek sem R

no a teď mně to _e se nám bude řešit _e

tu _e

co nám bude řešit _e vlastně ty časové

posuny

my bysme si mohli říct že _e

nebo _e eště dám pryč

jak byste udělali _e

dělali

_e míru

podobnosti mezi dvěma signály

která vymezila a sláva

na drobných víme řekněme komise

ne

a

jo

na _e

a

tu

jo

u zásobníku

_e

no

jo

zarovná

_e

po

a V

_e

je

_e

_e

jo

_e

ne

A

a bysme si udělali

_e

signálu

_e jeho spektrum

pomoci

to je

do gigový signálu

bychom si udělali

_e

toho

_e

sedum

ale teďka aby to nebylo citlivý na _e na právě ty časové posuvy

s tím spektrem se dělá

dobrý vás abyste se to by sme se dostali do to vlastně toho časového zarovnání

sekvencí mzdu násobili nebo komplexní exponenciálu

tak sme vlastně jako s tím spektrem trochu posouvaly nebo respektive zářily bysme na něho

časový posun těch to udělali jednoduše abysme se na to úplně vykašlali na ty

na ty časový posuvy

co ve spektru vlastně nese informaci vo

_e o poloze toho signálu čas

amplituda fáze

a jo jak se zbavit fáze

vytáhli C E

_e teda design střední hodnotu

tady taky vzali absolutní hodnotu a tady tyhle dvě sekce to může pohodě srovnávat a

a čase

s můžou být narovnali je

jak chtějí jo takže tady tohleto je podstatou

se _e

_e

_e logaritmické spektrální vzdálenosti

kdy vlastně zmrazena se možná šťastně pomocí integrálu vlastně v normovaných frekvencích integrujeme vod mínus

jedné poloviny do plus jedné poloviny

_e

nějakou funkci V F

absolutní hodnotě na druhou

a teďka tato S může být definovaná jako _e jako deset logaritmu

odhad spektrální hustoty výkonu toho původního signálu mínus odhad spektrální hustoty výkonu toho dekódovaným signál

no a teď prosím vás jenom aby mám tam doplnil tu důležitou

informaci

tady

_e

ta

spektrální hustota výkonu

se

je něco jako

jako

_e

výstup fourierovy transformace každý vzorek na druhou

děleno

_e děleno počtem vzorků

já pokud si ty počty vzorků sestavíte jsou algoritmech

prostě tady je

_e tady je něco děleno počtem vzorků a tady je taky něco děleno počtem vzorků

tak se na ně můžete vykašlat protože by se vám ty počty vzorku

navzájem _e nevře vynulovali

jenom prosím vás _e vypadá hrozně složitě ale když budete dělat se budete dělat projekt

tak _e

tak tam takovouhle funkci na výpočet logaritmické spektrální vzdálenosti máte

naimplementovanou

running kde tady

a to prosím vás nějakou inteligentní metodu jak teďka to otevřít textovým editoru

prosím

no

tady kopíruje news

jako pilot blox tehdy no

_e

tak prostě jako nemám

příkazu A nemám říkal obrázku jenom sem případně jak je windows commander takže zle

no

super

tak _e

inovaci

_hm

no

_e

jo vám si ukázat že výpočet _e logaritmické se krát vzdálenosti core není žádná _e

žádná složitá tragédie nemáte

jsou

jednoduchou

unk tyčku

_e tady to dokonce I dělením na rámce

takže _e vám ukázat vnitřek

_e

že bez vyberu si vždycky jeden rámec toho původního signálu

počítám s jeho

F téčko tady vidíte převod T toho access tečka na spektrální hustotu výkonu prostě vobyčejná

absolutní hodnota na druhou děleno _e děleno počtem vzorků a převede si to do logaritmického

vlastnil moc deset

jasně logaritmická spektrální se tedy

teďka tady to samý udělám i _e i

pro druhou

zase převodu logaritmické oblasti

teďka vlastně mám nachystanou _e

když to mám nachystaný tady tyhlety dva členy

_e

tech mám pocit že sem tam musel řešit nějaké _e

nějaké problémy s nekonečnými vzorky které vobčas

jo přes nastávají

tady

tohleto řádkem

_m prostě jako

když je něco špatně

ale _e zase něco potřebuju udělat tak je suma

tady těhletěch

rozdílu dvou spektrálním ste výkonu všecko na druhou

děleno dvě stě padesáti šesti a ten jako kdo pozorně se dívala poslouchal

se asi tuší ze ta suma

my bude implementovat právě

tenleten integrál

jo prostě normálně numericky spočítaná suma

není tam nic _e nic ani tvoříte

no a potom přes toho udělám

logaritmickou spektrální _e vzdálenost pro je ráme

a tady mám někde přidávání do jakéhosi akumulátoru abych to _e abych spočítal _e celý

řečový signál

a to je vše

takže _e

takhle krásně

počítám o rámcích

spektrální hustotu výkonu pro celý _e celý signál

také teď dobrý podívat na ta _e podruhé měření kvality a to sou to subjektivní

tohleto vyžaduje abyste měli bandu posluchačů

který samozřejmě musíte vytrénovat který musíte zaplatit

a oni vám potom budou posuzovat jak ty kodéry ní financí sluchátka budou to porovnávat

s nějakými jinými

_e zřejmě bude dobrý ještě jednotlivý vzorky mají nějakým způsobem randomizovaného

aby _e

si neřekli no tak já budu dycky dávat čárku tomu prvnímu a jako

tak dostanete

první kodér který bude nejlepší

a _e

ty metodiky jsou tři

první semene DIP

když se prostě měřil měří srozumitelnost pomocí nějakých _e párů podobných slov

který sem mé který se liší pouze v jednom jedno von enku zapsaný jít jo

to je speciální

tak dále

_e pomocí D M

se hodnotí komplexně kvalita

pomocí několika metod přiznám se že tady tu ne technologie D M pořádně neznám a

to je taková nejdůležitější technika se kterou se setkáte a když prostě budete mít nějaký

pode popsaný tak tam určitě budou dávat kvalitu na stupnici mu

tak je ze líný noty nýrsko

máte prostě do dvanácti do čtyryašedesátic

posluchačů

přes tím naše budou poslouchat tak je uzel skákali budujete signály aby věděli který známky

_e mají dál čemu

a potom i budete přehrávat vaše testovaný kodéry a oni to budou tomu rozdávat známky

ruské škole jo to znamená jednička

budete nejhorší a teďka bude

bude

tak _e teďka samozřejmě _e by ní techniky

jsou

ty

jako ty nejlepší no ale týmech chcete použít když dělat nějaký kodér ale když my

se vyvíjeli

a měli prostě padesát kodéru nebo padesát různých konfiguraci vyvinuli každej den tak vlastně nepříjemný

pořádný nedržel zavřenou skupinu čtyryašedesátin posluchačů a

_e jako platí zadávací mýdlo a tak dále

takže byste potřebovali nějaký je automatické techniky které

které tu subjektivní kvalitu aspoň trochu odhadnou

tak tady tyhlety kvalit techniky taky existují

jedná se věnuje je s cílem

_e de vo to

že tady tyto techniky vlastně

se tím

ne ty signály tečnou srovnávat

aplikují prostě nějaké perceptuální modely které modelují naše _e naše slyšení

jo a se nebudeme tady do detailů pokud chcete něco přečíst

tak je to v nějakém _e volně dostupné _m

registru a dostane se s tím míru kvality která nějak zhruba odpovídá tomu S

tohle další systém je stylem

teďka vlastně _e

u mého

mobilních sítí a P telefony a tak dále tak bylo potřeba se vyrovnat jednou věcí

a to sou výpadky paketů a to že prostě občas dostanete tu řeč _e

různě

vně po posouvanou oproti _e ostrostí _e

originálu

takže když se

podíváme vlastně tady sem

sem není žádnej blok který by dokázal pracovat třeba příplatkem kanálu a

a s výpadkem paketu a s tím že najednou prostě půl sekundy řeči není

_e tady tohle řešíte technika T S Q

která _e která tam přidává nějakou v identifikaci spatny intervalu a časový rovnání anglicky struska

enlightenment nebo

time vylíhla jmen

tedy vlastně nám jako na sebe narovná ty části řečí který si mají _e odpovídat

a na s tímhle na těmato čas na řeči

se potom použít _e se potom aplikuje ten

ten chybový model

tak _e

fajn nouzový sou

umožní částí

a teďka se poďme podívat do té první skupiny kodéru sborovny kodér warovými

waveform klade

tak tam úplně první technikám _e takový krásný turisti názorné pulzní kódová modulace

zná teďka si podstatu jako někam do šedesát X N takovýdle

kdy existoval amplitudová modulace vrstvám vlastně možná trochu nějaká fázová a teďka nějakých N šílenci

přišli s tím že se data budu jako audio data budou přenášet digitálně

_e museli dat nálepku S taky bude nějaká modulace

pulzní kódová zase že se nejedná o nic jinýho než na o vzorkování a kvantování

jo je tyhlety dvě etapy mají takový krásný historicky nám

tak o co de

vstupní analogový signál výstupní

_e digitální

když _e se

když se

kvantuje zase opáčko někdy z druháku

tak vám prostě

jako kdyby

přímku nebo úsečku s nějakými hodnotami

přijde tady vstupní signál N a ten _e prostě zaokrouhlen na nejvyšší kvantovací hladinu

_e

a

je reprezentován signálem S N

_e ze stříškou

tetě těch kvantovacích hladin

máme nějaký počestný z mého myslím že stezku

značí jako velkýho

a je docela inteligentní si dát tady tenhleten počet jako nějakou mocninou dvojky

protože pokud mám potom dispozici byl bitů

mám dvě na B tou takových _e kvantovacích hladin

tak a

když si _e spočítáme poměr signálu k šumu

který tady tyhle kvantovací který tady základní kvantování obsahuje

tak zase po nějakým odvození který sme který fires udělali zjistíme že to vlastně lineárně

závislý na _e na _e počtu bitů že tam taková magická šestka znamená pokuď si

dáte výsek přidat ještě decibelu _e poměru signálu k šumu

a pak je tam ještě nějaká konstant

jo to znamená pokud někde vidíme kvantování na

že se na ní se seznámil s že jo nezapomene že signálu

sumu krásný devadesát šest decibel

tak _e

tam který _e

budeme si to telefonu

znamená šestnáct bitů budu jistá na osum

to bude dělat

že se ta

A

a C

že

ano

sám

_e

jo

jo a

můžete mi na _e

bude to dobrý

_e S

nebo to sem

jo tady teďka udělám novou úsečku

tam budou chtít rozházet dvě stě padesát šest hladin

a vy mě zkuste říct

jak to udělat

takže se tam _e

kde si myslíte že se tady ten signál S N ten vstupní

bude nejvíce pohybovat

kdo uvidíme nejčastěji na té úsečce

pokud _e přesně tak jo když bysme syn nakreslili nějaké statistické rozložení

_e od napsal vstupního signálu tak to bude vypadat nějak takhle

takže kam vrhneme nejvyšší počet hladina tím že bitů

ok _e nuly jo přesně to znamená my uděláme tady velmi místě rose

_e mínus T hladiny a potom to budeme dejme chytrém postupně se dělat

a toto jestli potom proběhlo jisté záporné části tomu se nebudu umělecky

měl C teďka jako

zesilovat

_e tady tohoto je jedna

jedna motivace jo znamená řeč obsahuje mnoho malých vzorku z roku

to konces drát odsimulovat nějakým laplaceovým

rozložením se že něco prvku podobného _e gaussovce

tady ten si

_e

tady sem si to vyzkoušel pro

opravdické hodnoty vzorku na nějaké české větě

na úplně mně to

úplně mě to nevyšlo

nevím pořádně proč možná že

možná že sem tu černou červenou křivku ránu nějak

takže jedna věc je že skutečně

ty hodnoty vzorků jsou rozvrstveny více okolo nuly takže tam vadí

za druhé

_e že ucho má

neslyším binárně

ale jules verne

je _e

a

o javě

_e

_e

ucho slyší nějak takto

abyste někde tady

znamená u vám prostě ta _e tak kochá se úplně celá třese

a eště to

zvýšíte vinárně dvakrát

u škoda

jenom takový ve malý přírůstek _e ste hlasitosti co slyšíte

to znamená že _e

my raději budeme

rozmisťovat hodnoty lineárně tady na této se

eště nám potom projeví byl

jejich nelineární rozmístění

na se lineárního se

jo my mimochodem M tady tohle tyhlety hrátky z logaritmickou a z binárního sou

vidíme teďka u kódování a šest a v tomhle kurzu vidíme jednou vaše budeme bavit

vo nějakých parametrech rozpoznávání řeči _e tam mám pocit že už sem vám něco povídali

na té první přednášce

i slavné mel frekvenční cepstrální _e koeficienty této nebo na první nás sme měli někdy

předminule že

M S C jo tak tam se používá úplně stejná finta vlastně ho nakreslili jsme

si nějakou jiná se _e logaritmickou křivku tehdy to byla závislost _e

frekvence

_m

a dostali jsme jako modifikovanou frekvenci

tentokrát to nebudou žádný frekvence

ale bude to vlastně amplituda

a nějaká modifikovaná amplituda

tak _e

to znamená závěs toho je ten

že budu sítí

udělat logaritmický kvantování

a může to před realizovat takovýmhle schématem kdy vlastně budu mít vstupní signál na

a budu mít nějakou kompresní funkci

rámy bude produkovat nějaký prostě zkomprimovaný signál nelineárně _m

ten pro ženu

mlynářům vopichy

no

u

u

a

sám

jo

prostoru výsledek

na todleto jako teoreticky

teďka mě zkuste říct jak _e

nebo ne eště něco ne zkuste říct jestli vám K _e dva systémy které se

které se používají

v evropě se používá takzvané nejelo nebo

a _e

tak on

a _e ve státech minulo

annie bacha veličinu říkají míru

E s linku

_e které vlastně

tam je tam jenom nějaký drobný rozdíl jestli se logaritmu je celá závorka čitateli nebo

jenom kus závorky v čitateli

a když se podíváte na dvě křivky které odpovídají jelo a miloval takhle jsou skoro

stejné

jenom když uděláte zoom někde okolo nuly který těch nejmenších hodnot

je ta míru křivka trošku strmější

_e na její loje trošku plošina bych řek že

_e prostě klasický konkurenční boj mezi evropou ameriko projevuje

mealy jo

dalo nech

s litrech podobných jednotkách

mimochodem _e

v jiném posunutí

letního času

ve státech majoritní často šímův neděle

a vona cache někdy taky ne nebo zrna za dva takže teďka jestli třeba _e

domluvit nějaký telekonference kolegama ve státech úplně výborný

jako jsou oba dva na stejný čas explicitně zvykli pak že posun mezi českém a

jakým je takový a kalifornie makový a teďka to jinak

tak _e jenom prostě abyste věděli jak nám to zhruba pomáha

pokud _e uděláme na osmi bitech

tady takovýhle nelineární kvantování

a měli bychom tu kvalitu jako S N R na opravdický řečový signálech

tak _e

tak _e se dostaneme

někde na _e někde na dvanáct bitů

nebo na podobnou kvalitu jako měli D jako by

měl přenos na třináctý bitech vinárně

teď sem vlastním toho jsem se basilika

_e

se tady

ty komprese a expanze

dělají pokud potřebujete reálně kódovat

je

přichází signál to no

tady je normálně na šestnácti bitech vinárně a vy máte

logaritmický zakódovat na

na osum bitů

schválně

slyšíte se to dělá

kdo si myslí

že

se tam provádí taková komplexní funkce

a potom lineární kvantování

jo

do si myslí že se tam aplikuje ten vzorek

rád všichni takže se nedělám jednání shellech zranila

tak _e uvědomme si že _e

indexování pamětí

je mnohem levnější operace

počítání nějaký

v logaritmu

to znamená zase to skutečně dělá věku flintou

že nám přijde

informace na šestnácti byte

jo teďka tady někde znaménko

dva bity se toho rovnou odstřihnou

znaménko ze toho taky rozstřihne

a zůstane nám _e dvanáct bitů

takže se udělá normálně čtyřky rovná lookup table

jo

čtyřkolová tabulka

a těch _e dvanáct bliknu nám poslouží jako adresa tady téhleté tabulce

pak se toho prostě vezme hodnota přidá se k ní znaménko

a

máme se osum bitů který posíláme dál jo takže prostě jeden

_e nebo nějaký dvě bitový operace

a jeden pohled

do tabulky

a když pro score dáváme

máte máme těch osum bytí ku _e se znamínkem

tak to znamínko zase v odstřihneme této ještě jednodušší protože se podíváme do sto dvaceti

sedmi

_e

nebo sto dvaceti osmi

_e políčko ve tabulky

na indexem nám to hodnotu

přidáme znamínko a hotovo ven vyjíždí šestnáct bitů

já jenom když se budete dva za schématu nějakýho opravdický ho kodéru

a uvidíte tam nějaký hlavičkový soubor tečka _e a tam bude v jedné tabulce čtyry

tisíce devadesát šest čísel a ve druhé tabulce sto dvacet osum čísel

tak se není se ze prostě trans kódování mezi binární a _e z i binárním

a logaritmický

protože vy si mezi kodéru

potřebuje vzdělaná tak prověrka zahrádky _e

vlastně

logaritmické to nová

tak

to bylo ten úplný základ

tech _e

_m druhá taková technika

které se říkala T C N

adaptivní pulsní kódová modulace

_e jde vlastně o to že bychom se to chtěli dostat se do větší dynamiky

nebo mít lepší rozlišení ne šestimístnými pánvi díky

a zároveň bychom nechtěli

_e nechtěli prostě příliš zvětšovat

bitový to

to znamená

u ze a

S T M

bychom chtěli nějak dívat dynamickou co má jako

pro slabou řeč

rozhodně si nějaké malé byzantského rozsahu prosím nouze si rozhodně

_e za velkého dynamického rozsahu

ale i tady tohle když si dělat něco stojí jo takže _e tu informaci o

dynamice

musím nějakým způsobem přidat můžete tam přidat dvěma způsoby unk takzvaně C forme kdy řeknu

tady prostě kódu nějakou řeč

rozdělím si třeba na nějakém taky

a

tady dejme tomu jako přídavnou informaci

bych _e přenášel

maximální výchylku

kterou bych tak nepovalil do _e do dekodéru

a ten kodér by si potom nastavoval se kvantovací hladiny třeba o

plus do mínus

téhleté maximální výchylky

jo

takže takle byste to mohli udělat

pokud tu přídavnou informaci pošlete jako extra tak se to menuje takzvaně C format ale

samozřejmě vám to potom zabírá nějaké bity musíte tu informaci do dekodéru dostat

_e nebo

můžete udělat je jinak

můžeme počítat

tu _e informaci o dynamice

z minulých vzorku

jo můžeme to dělat tak že když _e

že mi to udělat tak že když prostě kvantujeme

tady takový signál

který má pořád velké hodnoty

jsme někde tady

tak prostě tu dynamiku nebudeme

mění protože dosahujeme pořád nějakých vysokých

vysokých hodnot

a pak najednou se dostanete tady do této oblasti

kdy vlastně _e tam budou pořád velmi malé hodnoty kvantovány

takže můžete na základě informace z minulých pár vzorků říct

ne nemá cenu abych tady používal pořád jenom jako _e dvě nebo tři hodnoty asi

prostě stanu dynamiku

a budu to _e a budu na tento interval používat všechny

všechny bity které má k dispozici

jo v tomhle případě se mluvilo takzvaném feedback

a _e ten dekodér vlastně si tu informaci o dynamice nebo ginu počítá úplně těch

samých vzorku které má k dispozici kodek

tak

to je taková technika která základní samostatní ve více

ale občas _e trestní setkáme jako komponentem nějakých složitějších kódovací schéma třeba že forejt _e

je sem

tedy _m

možná zjistíme se stínů promluvit

tak tam je to vlastně jako jedna technik

pro kódování buzení

takže todle a prosím

a nativních mít _e

tak teďka tady bude

další varianta sem _e to je dobře ten

když si uvědomíte sedělo s těmi

těch minulých vo technika

tak tam vlastně ty jednotlivé vzorky se opravdu zpracovávali naprosto samostatně

tohle běžných signálek který budete poslouchat neplatí tam prostě _e nebo nevlastní samozřejmě mě funguje

ale můžeme to udělat trošku chytřeji

protože _e

běžný signálech tohoto světa jsou mezi vzorky vždycky závislost

a ty závislostní můžeme namodelovat nějakým predikčním filtrem optimistou spoustu víte že jo

přednášku o

vo P se

který bude několika minulých vzorků

předpovídat hodnotu toho současného vzorku

a kódování vy si můžete i tak fajn

já nebudu posílat

to sou absolutní hodnotu nějakého vzorku a pošlu jenom

to chybu

kterou _e vlastně

reklamy něco předpověděl říkám opravdickou hodnot současně

u tak jakous poslu jenom tady ten kousíček

kterými chybí _e výrobě o dnešního

a tady to je podstata dete sem

se podívat jak se to

_e jak bychom to udělali technicky

měli bysme zase nějaký _e prediktor nebo odhadovat

které _e ze kterých by

neměl

_e neměl by vlastně pozici pro

nultej

nebo pro současný vzorek

a je vždy jenom vo

o jedna zpožděného vzorku a

poté zpožděného vzorku

tady ten filtr _e bez vám bude _e odhadovat ten současný vzorek

jo teďka se současný vzorek prostě

skutečně dostaneme přijde tam

mezitím skutečným současným a odhadnutým současným se udělá chyba

a jenom tady tahleta chyba se pošle dál do toho _e

přenosový rovná

tak _e jako pojem zavést _e

že

pokud ten vektor bude fungovat slušně

tak tady ten chybový signál bude mít _e podstatně menší hodnoty ještě marginální a budu

není

potřebovat nyní bitů

a _e jestli třeba podívat trošku detailněji

na to jak to funguje

když se potom budu chtít udělat dekodér

tak já vlastně budu mít ten chybový signál

který bude jako jediný přicházet do dekodéru

tady je ten chybový signál se bude přidávat odhadnuté mu

současnému vzorku

a s toho bude

ucházet

ten _e výstupní řečový signál

a samozřejmě jako jak teda dostaneme ten odhadnout Í no roztaveného takže se tady napíchneme

na výstupní řečový signál tady prostě bude _e

když i tady

toto schéma

prosklené rozkreslím _e definuje zpoždění vo jeden vzorek

o druhej vzorek a tak dále

a tak dále

a tady se prostě

pomocí filtru

prediktoru

budou normálně

_e normálně odhadovat

N _e ten současný vzorek

přídavky protože vlastně ta si korekce pro nás

počítá se výstup o to

tak

S je _e jakým _e tady tohoto schéma

je tím a tady toto schéma problém

prosím

se podívám jenom na schemátku

ho nette sem kodéru

a detekce

dekodéru

tam chybí jedna B správě

bych to udělal jenom takhle

_e

on nějak já

jo

že a je

_e napočítal

_e na hlavě a tak tomu

jako

_e jde o to že _e no _e nakreslil

tak _e

vlastně

tomto schemátku

pořád

musí vám

na stejný na stejné bitové šířce druhý signál

tady vo přijímám a vůbec vlastně sem jako nějak ne omezil bitový tok nic jsem

neudělal na umření bitové rychlosti

takže co já budu muset udělat je

úpravy

procesy k tomu

_e chybovému signálu nějaký další

řekněme kvantizéru řekněme tomu omezovač počtu bitů jak chcete

je prostě zařídí to sem _e ten kodér dělá to znamená omezené počet bitů oproti

originálu oproti té _e toto mně vlastně šlo

jo tady máme dejme tomu tenleten signál na osmi bitech

a já bych chtěl aby tady tento signál tady

_e valil na on čtyřech bitech

no a teďka mě

že mě řekněte když

toto schémátko takhle pěkně vyrobím

si tam někde nějaký

problém

a ten problém se prosím kde jste

dekodér

pro problém je

_e myslím že vím kam míříte problém je vtom že _e takovémto idealistickém schemátku které

jsem tady měl před tím

sem prostě ten _e signál

odhadoval přesně ze vstupní vzorku

jo

teďka sem tam neměl nikde žádnou ztrátu kvality

toho výstupu level naprosto přesně stejný signál jako se měl na vstupu

takže i tady tento signál ten odhadnout Í ten _e jedničkou N do úplně přesný

jako nejsem přesně stejně to nejsem

tom schématu kdy už začínám kvantovat

u že zlezl _e masíčko protože _e ty signály se kterými pracuju

tady

a tady

nejsou přesně stejné sem říkal že jako někde uprostřed budu chtít omezit informaci dejme tomu

s osmi bitů a čtyři

a

to že _e budu mít tady ten chybový signál trošku jiný

to by mě eště ani tak moc nebo nevadilo

ale já budu mít prosím vás tady tento signál který se nebude rovna

tomu vstupnímu

to znamená že ani odhadnutých signál

ani tady tendle

se nebude rovna tom odhadnuté mu

tedy se měl kodér a to už může být docela problém protože já vlastně pomocí

nějaké ještě jako trošku _e na kvantované a vznešené chyby

opravuji nějaký signál vo kterým si nejsem vůbec jistý že to je ten samý který

sem viděl kodér

tak

zkuste poradit

_e s tím

_m

možná že jo vyvazuju

složitý a sáhovi tomu bitů

zaměřte se tady na ten na tenhleten odhad na

ten je dělaný prostě _e ze vstupních

čistých perfektní vzor

přesně tak já tomu říkám odborný je v praxi

prostě _e

tady je potřeba to odpojit odstupu

a použít k odhadu

tohoto

_e signálu

to co dostanu dekodéru jo to znamená to co mi projede tady touhletou jako sekvencí

_e kvanty ze

kde kvanty ze tak tady odtud s tohoto vzorku musím vyrábět _e musím vyrábět ten

odhadovali signál to znamená jinými slovy zachycují stenografku musím říct ale klade

vestavěného do

ne myslím výsledek ode vestavěného do kodéru

a teprve výstupu

jo dekodéru

dělat jakýkoliv odhad abych si byl úplně jistý

že ten odhad bude stejný do ronerovi řekne tak představám tyto zahlazen obrázku ten

nazveme mnohem E jasnější jo

tak _e dívejte

_e vlastně

který schémátko kde sem vám říkal že sem ten _e sem ten odhadovat odpojil tady

o vstup

_e zatím prostě předpokládejme že tady je nějaký odhad jo zatím nebudeme povídat vo tom

jak se ten odhad vyrábí

a _m tady vstupní vzorek odhad

to je udělanej chybový signál jo teďka ten chybový signál protože no want jezerem

de kvantizéru M

jen tak mimochodem tady tento výstup _e vezmu a pošlu valil přenosový ho kanálu

a pořád sem ještě kodéru

když já vlastně toho chybovým signálu

si

poskládám

pátky

ten jako kdyby výstupní

signál

jo takže tady

po červený kolečko to je vlastně výstupní signál který uslyším na výstupu dekodéru ale a

ho kdy jako kdyby v uvozovkách slyším teďka u Š kodéru

a tohodle

ví úplně ale ty make výstupního signálu

při udělám teprve odhad

to současnýho vzorku jo takže ve výsledku děsnou na to si kdy tady prostě S

z _e ty vedou a eště stříškou

jedna znamená odhad a stříška znamená jako _e

dekodéru

jo a

toto je pro mě ona současnýho velkou a teprve ten zavedu tady do té odčítačky

abych z něho dostal chybový signál

tak a teďka prosím vás když se na toto schéma _e

podíváte

tak jak by se to dalo zjednoduší

a vám tady schválně forma žlutej

to je ten zmatek

_e to ale jako

je tam dvakrát že jo

že zdroje to stejný signál

a je to úplně stejný to znamená tomletom bodě

a v tomhle tom bodě

dostávám naprosto ty samý signál by bylo jednodušší prostě to ale udělat jenom jednou a

prostě tam rozvoj teda kterej vede sázet že jo

takže _e když tady toto operaci uděláte

tak vypadá takhle

co šije kodér trade běžně implementuje

ale já právě prosperující důvodu sít vopravdu

krok za krokem protože když se podíváte na ten dekodér tak prostě

já se přiznám jako _e se nevyznám konstantě že to prostě moc kompaktní

je to optimalizovány ale já tam nevidím ty jednotlivý operace když si uvědomíte exode krok

za krokem

tak se v tom dokážete vyznat a pak si tady tohoto silnou můžete překreslit

do toho tragickýho který se V F S M skutečně

takže tady tohle se _e opravdický jde potom a kodér

a _e taková kombinace tady tyhlety dvou metod je

_e norma

_e D S T M adaptivní diferenční pulsní kódová modulace

_e podle té staříč ke normy G sedum set dvacet jedna a nebo je potom

chtějí varianta která sme

je sedum set dvacet šest

za sedum set dvacet jednička má _e vlastně ze šedesáti čtyř

_e kilobitů nám to stahuje pouze na třicet dva

_e G sedum set dvacet šest

máte s ním čtyři bitový rychlosti

třicet dva dvacet čtyři

šestnáct a potom

eště nějakou nižší spirále musím nějak moc S moc nedá poslu

_e to _m a detektorem kodéru důležitý je

že tam máme vlastně _e z výčet _e do části

je diferenční

podobných schéma jak sme tady viděli na tom školním

příkladu to znamená kodér obsahuje kvantizéru i bych matice

tudy dál _e není tam jenom jeden filtr a jsou tam dva

detaily nebudu povídat a pak je tam ještě _e bylo

který vlastně nám _e řídí kvantizační krok _e na základě

základě současnýho a minulých

z roku

jo to znamená tady ta norma _e a detekce

pracuje tím systémem feedback

to znamená nepouští tam žádnou přídavnou informaci ale počítá cizinců počítá si nastavení toho kvantizačního

kroku

současnýho a z minulých vzor

mimochodem tady ty normy kde sem se dvacet jedna je sedm set dvacet šest

_e jsou vlastně ty který

nám přináší řeč po pevných linka

tak

to sou nějaký

k informace

suma odpověď

tak _e

teď sme hotoví sladováním tvaru vlny

poďme se podívat vokodérech

tak _e jsem povídal vlastně využívá informace o tom

že člověk budí

a potom

modifikuje

takže podobný schéma buzení filtr uvidíme

_e víme i zde pokud E

_e proč voko de

co myslíte to znamená slovo samozřejmě to jako de

sanitního bloku

něco takovýho boj code vlastně hlasu hlasový

to de jo

tak _e

my se podívat na obchode který je založený na minimálně si nyní modelu

na L P se

já a variace mám tady vlastním povídali o tom

že _e

řeč dokážeme namodelovat tak

co uděláme nějaký budící signál nějaký _e N

ten pošleme no

filtru jedna lomeno A Z

a s toho filtru papoušku jde něco

tady se podobnýho řeči

a eště by bylo dobrý fungujícímu signál jsem prostě přidat knoflík volume

_e který říká

jak to celý bude silný a

_m knoflík volume můžete dat buď na vstup toho predikčního filtru

nebo na výstup této je celkem jedno jedna se prostě o násobení konstant

jenom prosím vás uvědomte

a účtu taky ste dělali nebo budete dělat v laboratoři a budete z dělat na

projekt

že _e parametry

tady toho filtru se budu muset měnit

těch typických kodérech je to padesát krát za vteřinu jo na dvaceti milisekundový tam C

_e

jak to schéma takovýho vokodérů základního vypadá

mám prostě vstupní signál

musím z něho vydolovat pár informací

musím z něho vydolovat informace o tom jak budou vypadat koeficienty tady toho

dnešního _e filtru

o tom tady byla celá přednáška prostě _e počítat autokorelační koeficienty

pak se vyřeší nějaká soustava rovnic buď

buď hrubou silou a nebo pomocí nevyzná darina

_e jako

další produkt vám tady to počítání dá gain

další co potřebujete určit tak je _e také z něho

a potřebujete eště _e informaci o

periodě anebo kmitočtu základní tón

a ve stejné zdroje ty čtyři věci potřebujete

také nějakým způsobem můžete

za kvantovat jak to de udělat funkce

brzo dostaneme

předesílám se to bude pomocí vektorové kvantizace

tady tyhlety prostě projedou

přenosovým kanálem

na konci rozparsujete

a teď co s nimi dál

_e

to jestli se jedná o smělou řeč

vám bude ovládat takový krásný přepínač

a ten bude přepínat mezi _e generátorem periodických impulzu

todle bude případě znělý o buzení

a nebo generátorem šum

o tom

budeme mít gain

což bude tady ten

trojúhelník volume prostě násobení konstantou

a konečně _e koeficientama filtru a Í musíte nakrmit

ten _e

sníme syntetizační

filtr

a pokud všechno uděláte dobře tak na konci bude relativně srozumitelná řeč

tak _e

tady tohle implementuje ten známý

americký je vypláchnutí ten standard S xpath na

schválně

teďka nebudu dívat a zkuste se podívat kdy to bylo normovaná myslím mluví tak ke

konci sedmdesátých let

filtr potřebuje os na

se bitů za sekundu buzení přes N bitů za sekundu celkem nejsme na dvou celých

čtyřech

a _e hlavním problémem

je tohodle vo kodéru bylo modelování buzení

které vedlo k nepřirozené řeči

stejně se podíváte na schéma list nebo proč izolování není tak špatný vektoru

aby tam nulový na

_e

jak pro

_e

to display

jsou vlastně jaksi na jo

když _e

když _e

mluvíme a třeba _e F

ze téma mohlo fungovat doprava osum

použití do toho

vlastního

ale

vlastně obcích některé ty buzení

vaše _e

_e

to je poplachové dvě

_e rozhraní na S T

_e asi C když prvkových R T

stěhovat _e kdo pořád

jo odhaleno prostě takový server

okay počítačům

že

i marka mávnutí

pustíme vznikají turbulence

tohle jenou jinou ignoruje znamená na _e rovnou Y

jasně

osum

někde

_e prvku namítat

tady tohle právě jako seděla

a to docela sofistikovaně

i moderní

nebo moderní s v uvozovkách úterky v osmdesátých let

tím

_e

_e

kodérech pro mobilní telefon

tak je

poďme ještě de facto dostaneme si popovídat po technice _e real viděl se netradiční

_e

tady se nám vlastně jedná o to

že sem

úplně _e úplně zjednodušil modelování buzení jo řekl jsem bude tady jenom informace o znělosti

jenom informace o základním tónu

a ten budící signál který _e který uvidím někde tady

_e stě buď bude vypadat takhle

a nebo bude vypadat jako bílý šum

nic nevidím

může a tady taky z druhé strany může si říct no tak _e

počkej jako

když si dělal

tady to rotace analýzu

tak by se překonalo udělat to co sme si tady předváděli

přednášce vo _e o L pece to znamená vzít vstupní řeč

S N

pro hnací filtrem

_e ze jo

dostat _e

ten chybový signál E N

teďka tady tenhle vyslovil klidně třený

o toho dekodéru pro ženeš

_e filtrem jedna lomeno A Z

a tady na konci dostaneš úplně perfektní

úplně perfektní _e dekódovanou řeč

jo tak tady tohleto je možný akorát millikanem uspořil i ani bytí k protože potřebujeme

přednášet chybový signál potřebujeme přenášet parametry filtru a

navíc sme si ještě možná

nějaký bity přidali

takže toto nebylo kodér který by spořil bity ale přidával

nebylo dobrý

tak poďme se na to podívat ještě trochu užší trochu detailně

na _e na tenhleten R L

a

_e intel tady nemám

ne takto k tomu se dostaneme ještě dál

tak prakticky to co sem chtěl říct tady na ten na tom na tom skleníku

sem vám to vykládal jo prostě problém

že byl ten aby ty koeficienty filtru ani chybový signál nebyly nějak dál zpracovávány kvantovány

tak byste si přidali bit

takže teďka poďme si chvilku povídat o tom

jak se bude dál _e dál zpracovávat nebo kontrolu

vektorově

jo

_e protože

my vlastně

dostaneme i nějaký balík informace třeba deset koeficientů predikčního filtru

a teď samozřejmě jako bychom se na to mohli dívat jako po jednotlivých čísílka

ale tak bychom vždycky dostali jako sup optimální výsledek kdyby buď kvalita bylo horší ano

počet withdraw

znamená _e my si tady povíme něco o vektorovém

kvantování

jak to vektorové kvantování funguje opravdu mi říkejte pokud bych jako tomu natahoval

místo někde slyšeli máme tady prostě prostor nějakých dat

jo to budu ukazovat ve dvou dimenzích

no tady tohleto je parametry X jedna tohleto je parametr X dva

a teďka když ty _e jednotlivé dimenze konturu nezávisle

tak prostě _e a na každé dimenzi mám když k dispozici určitý počet bitů v

tomhle případě třeba dva

tak prostě tady si určím čtyři možný hodnoty

tady si určím taky čtyři možný hodnoty

a tetě

vlastně _e hodnoty

těch parametrů

nebo těch vektoru který jsem schopen pomocí těchto kombinací dostat

jsou prostě tady voznačený těma _e ty má černýma unk sítama

protože když mám takový nějaký zrůda

vypadá takhle tak vidíte že

prostě jsou tam hodnoty

to jsou tam úplně na houby

tedy prakticky nikdy

ty kvantování žádné hodnoty nepoužiju

takže to by bylo asi _e lepší

to udělat trošku inteligentními a říct vlastně nechat ty data

kasta data se

ať i _e aby si ty typické hodnoty

vymyslela sama

a pomocí tady tyhlety natrénovaných hodnot potom kvantovat

vidíte že když _e

jsem se o to pokusil

se mi ty takzvané kódové vektory

vhodili úplně jinak než na pravidelné mřížce _e čtyři krát čtyři a už se nám

jako pohledu zjistíte že ta data prostě vyskytujou _e

takže tady todleto je

vy si tam vektorově kvantizace je to

že vlastně se nedívám nezávisle na dva nebo N různých komponentu toho vektoru

a že ten vektor beru jako jednu hodnotu která se zcela

_e nezávisle

ones je

tak _e poďme nějakou terminologii

když mám teda jako ten prostor parametrů

tak _e

tam mám nějaké regiony

které se budu věnovat voronoiovy

_e ty regiony jsou reprezentovány

musím předem v říkat ten zdroj

a každý ten _e region taky musí mít vlastní jednu výstupní hodnotu kterou potom při

dekódování S ano takový to server _e

hodně časovej ta výstupní hodnota

ten tak zvaný kódový vektor je právě položený ve prostředku toho region to znamená tom

jeho _e centroidu

tak je teďka

něco trénování

_e rim začínáme to matematikou takže si

_e řekneme vlastně co máme k dispozici

máme k dispozici

budu vám to že sou kreslit ve dvourozměrném prostoru

tohleto je složka X jedna s dneska X dva

a já mám k dispozici prostě mráz dat

každá tečka

reprezentuje jeden trénovací vektor

_e

mám k dispozici natrénovat

kódovou knihu

o velikosti o velikosti call

pro mě třeba to K budou čtyři

první věc je jak souborovou nainicializovat to jako je

celkem věda

za chvilku si potom popovídáme vít teďka předpokládejme že se mi to povinné nějak takhle

tady toto jsou čtyři kódové vektory

když sempra vizitka nainicializovat

a teď že _e

první fází

toho trénování

je vlastně za kvantovat nebo příznaky

jednotlivé trénovací vektory

nemyslím kódovými

na to jako zní hrozně jednoduše

protože bych prostě jako řekl no tak to je přece jasný nette nikoho udělám

takhle čáru takhle Č takhle čáru

tyto _e tyto všechny budou patřit sem si to budou patřit sem a tak dále

a tak dále

ale _e já bych teďka chtěl aby se mi řekli jak to jak to spočítat

kdybyste tohleto algoritmizovat

takže to člověk dokáže udělat prokazuje

_m no dobře ale tučně říkat jako highlevel se to je jasný jak rasterizačního _e

to tak D ale jak to bude probíhat

jo představte si že prostě jedu po jednotlivých datových vektor T

a teďka sem tady téhleté modré tečky

a vám říct

a se rozhodnout ke kterýmu kódovým o vektoru ta modrá tečka bude ta

přesně tak jo musím prostě spočítat vzdálenosti je všem čtyřem kódovým vektorům op

no

jo

vy první co nejmenší což by byla _e tady je houby vidět ale asi

asi tady tato

a řekl by

ano tady tato modrá tečka bude patřit tomuto

kódovém

vektoru jo to tady mám zapsaný taktu

takovou složitou funkcí jako že kvantovaná hodnota _e vektoru _e vektorový

bude

příslušný

kódový vektor pokud platí že vzdáleností k sou k tomuto kódovaném _e k tomuto vzorovému

vektoru je menší než vše vzdálenost X u ke všem ostatním torovi vektoru

teďka samozřejmě si tady můžeme půl hodiny a toto jako jakou vzdálenost _e použijeme

to bude ve dvě de ještě docela pochopitelný ze vlastně normálně vymazáno

pokusme v nějakém

více rozměrnějším prostoru

tak se pořád pohody používá euklidova vzdálenost

znamená bereme rozdíly jednotlivých složek vektoru na druhou

suma toho všeho strčíme no změny

tak

a když dokončíme vlastně tady tour odhazovací etapu nebo

kvantovací

tak

děláme co

jeden další krok

a tak se tady protože tak jak sem teďka jako namačkaný tady někde uprostřed

tak se nám to moc nelíbí že jo tady to prostě ta data moc _e

moc dobře nereprezentuje

takže já bych to asi chtěl jako intuitivně vidíme že i správný hodnoty byly někde

tady ne

ale ty správný hodnoty spočítat

průměrná poloha

průměrná šesti _e vstupní nebo trénovací vektory který padly tomu dalšímu _e organismu kódovým vektoru

eště předtím

můžu udělat jednu věc

když si tak pěkně _e za kvantová vám ty trénovací vektory

tak je docela dobrý si někam _e ukládat fitkitu optimální vzdáleno

a S a při čítací třeba nějaký v akumulátoru protože potom vlastně když tady toto

provedu pro všechny trénovací vektory

a podělím to jejich počtem tak dostanu jakousi

musí jako totální vzdálenost

nebo můžeme tomu taky říká kreslení

který vlastně způsobuje kvantování vektoru tou touhletou na novou generací

kódové _e zní

a můžu udělat tak je to že když ušel si myslím že ovšem sem hotovej

že _e se mi to vo té minulé generace moc nezlepšuje takto trénování prostě zastavím

a prohlásím ten výsledek za hotovej

jo

tady je dobrý prostě si pamatovat _e

pamatovat tu minerálu celkovou vzdálenost

teďka máme spočítanou novou vzdáleno

můžeme si vlastně spočítat relativní _e relativní zlepšení

a nastavíme si nějakej práh třeba pokud tady tohleto celý

je menší než

nula celá pět procent tedy binární moc Á nula mapě

tak sto

protože

protože už sem spokojenej jo to prostě jako dál

dále

no silnic

pokud ale nejsem spokojenej

pokud ještě tady

no tak mi nějaké zlepšení

tak prostě spočítáme nové polohy

trénovacích vektorů

a je to zase máme sme na

hrozně složitě napsaný jako

centroidy té buňky se Í ale vlastně se jedná o to že zprůměruji všecky _e

všecky trénovací vektory

který mi tam padly

a může se vrátíme začal

jo takže když _e to zkrátíme vykoupena rovnice

tak vektorový kvantování jo

mně

_e

ráno

ono

dále on

a za

A a odnese zima

jo

a nebo

_e

o

nula jedna

_e

vektorové kvanty

tak

co to u toho výkyvu je trošku problém

je _e je inicializace

první orvek

jo

_e

na _e

povede

ale

nemusí V

třeba

já mu

_e

u

vy sám _e přes korun

u

jo

kterého

u

udělat formu o

_e

a vy

no _e

a

_e jo

_e že se vám potom ta

o jedna nepříjemná v je

a to že jedno nějakýmu horový mu vektoru ne přiřadíte ani jeden vstupní vektor

jo

když tě tam jako vesele trénujeme

_e ve někde

je zkusím ukázat představte si

že _e že ten

že tady dáte

že máte jenom dva kódový vektor i tady dáte jeden

a tady já to druhej protože se nějak úplně o

minete

tady tenhleten kódový vektor stáhne sobě úplně všechny trénovací data

a na tento

a tento nezbyde nic

a v tomhle případě máte celkem problém protože _e vlastně nová hodnota toho logovacího toho

kódového vektoru

přepočítala

jako průměr těch _e trénovacích který k nim upadli

a tady najednou jako byste měli nulu

jedna lomeno nulou krát nula a jako

je to je to

_e dobře tak vám dám

fajn

jiný protipříklad představte si že tady

_e že máte tady tenhleten mrak trénovacích dat

a teďka tady jako si určíte raz dva tři čtyři trénovací vektory dáte sem

ne

ne tak respektive takle to sem prostice

jsem chtěl nějak

za nějak jinak

ne účtová

čtou mám

_e

dejme tomu že máte tři

budete mít tady

náhodou se vám podaří tady toto

při inicializaci

jo

potom máte pro celou velkou šanci že tady ten prostřední

vám stane všechny data a tady tuto zůstane s jedním vektorem a tady tohle taky

řením vektorem

takže jako sice

o tyto dva budou korektně natrénovaný ale _e celej balík dalších důležitých dat budete mít

kvantovaný jenom jedním jediným vektorky

no tohlencto vám echoed

teď toto se opravdu školní příklady ve dvě D ale když se v nějakém deseti

rozměrném prostoru tak se vám tady tohle

naprosto krásně může stát jo takže prostě se _e toto prvotní

roztleskávání všech vektorů je docela

vy

proto se právě dělat nejsou jako posuvný štípání

_e korektní říká sem taky _e ví kdy vlastně řekneme ne

my to uděláme postupně

první zaprvé vezmeme jenom jeden kódový vektor

na trénuje

ten se nám samozřejmě dva ne

do centroidu všechna

ottawě za chviličku

ten

rozřežeme a někam posuneme

natrhneme korun knihu o velikosti dvě

potom vezmeme tady tyhlety kódový vektory

rozřežeme se trénujeme paretovy opraveno prosím vás ta první kódovacího se nám samozřejmě

tak přímo doprostřed

tady sem

tady sem _e

posunulo

nebo rozřezal kousíček musíme posunulo

před trénoval

zase každej rozřezal kousíček pro C posunu pře trénoval

čtyři někde nakonec mám krásnou kódu knihu o velikosti osum

tak _e

si myslím že se tady někde mám popsáno

matematicky nemám to zkusme vymyslet

jak byste realizovali

rozřezání a posunutí nějakého kódového

_e

jo takže by se to že by se to posunuli k tomu trénovat nejvyššímu trénovacího

vektoru jo

ano

to mě napadlo ze

_e samotný ta koncový uzel se používá

tak když vlastně máme nějaký kódový vektor nějaký Y T

tak pokud chceme rozřezat na dva

tak _e tak se používá Y T

plus nějaký delta

samozřejmě

a to druhý bude

mínus delta znamená jako kdybyste ty vektory

od sebe odtáhli

do

_e opačný směru _e tom prostoru ale myslím že ta technika jako prostě vymyslel že

bych jako to přeřadil dvěma nejnižším vektoru že by

ty fungoval

teďka kterého těch jak _e kdybyste byste určili ten směr

kam se mají různou

historicky pro

_e

gradientu

nejvyšším své pravděpodobně tam kde ste

dvěma

nemáte ten původní

kódové je to

F teďka u té _e ani nemám vyzkoušený ale _e máte dvě možnosti buď si

tu deltu nějak prostě

vymyslet jo jako tato

nula celá nula jedna

nula jedna a tak dále _e všech

směru a mínus nula celá nula jedna N

no akčního

a pokud se čili na to jít trošku chytřeji

tak víte _e jak jakým směrem

nebo videotechnikou zjistit

kde máte vlastně směr největší proměnnosti nebo variability dat

určitého

C R T

jestli pro komponent

ten

jako docela fajn technika

zapamatujte no si to můžete najít na wikipedii mimochodem mi wikipedia úplně super pro vysvětlování

matematiky o tom úplně všude všecko

tak PCI vlastně nám _e určuje

_e když máme takovýhle blok dat

tak PCI nám určí

dva na sebe kolmých měli

a ten první bude směr největší variability a ten druhej

bude ten bude ten druhej

jo protože sme jenom ve dvě de

my sme měli prostě P rozměrný prostor tak _e tak _e vám to vyhledat té

směru

a ještě tady takovým těmto vektorům se říká takzvaný ať vektor s

a _e eště existují a tím value

a ty

ať hodnoty nám vlastně udávají kolik je variability k tomu kterým směru

jo takže my bychom klidně mohly tady tu deltu

jako její směr nebo _e

_e jo prostě

mně toho vektoru určit pomocí

to prvního a tím vektoru

a klidně ještě bysme mohli _e velikost tady té délky

jakým způsobem řídit pomocí největší Y value

a teďka jako bychom mohli ty a jim vektory a jim velí u spočítat globálně

se celý data

a kdybyste chtěli B Z vopravdu suprový tak byste si a tím velibech tesla a

jim velí

mohli spočítat ještě třeba

převzata který disipaci sou týmu

který ta

to by bylo úplně

nebylo úplně perfektní

takže _e

dost bolo

vektorového kvantování

_e jenom ještě k němu existují nebo _e používá se jedna pro kódování koeficientů filtru

ale taky pro kódování buzení

aute výkyvu existuje do varian který vám tady _e někdo povídat sítí de

tam někdo já musím dostat vole u výživnou skluzy

takže příště se uvízli rovinného sbalil nebo nějakého dalšího

kaskadér

tak

děkuju vám za pozornost pěkný večer