na přednášce

zeroes

_e měla by být dneska _e syntéza řeči

zem k tomu že se skupiny speech exit se v podstatě jediný kdo to kdy

nějak dělal to jako diplomku

tak to popadlo na mě

takže tam o tom

něco se pokusím říct

a byl bych rád že pokud byste měli k tomu nějaké dotazy tak _e prostě

ptejte stále budete mít

nějakou myšlenku

a nenechávejte to na potom

a ještě dál naše začneme tak _e

sloupec jednotky

mě řekl že vám tady mám říct

co si o nějakým C E mailu který mimo jiné posílal tak máte to tady

jo to byl i přečtu

po této přednášce budou numericky cvika

že předpokládám že to přednášku nebudeme my do šesti že to bude trošku kratší

potom

_e

co si ohledně projektu

číslo dva

odevzdání ve čtvrtek dvanáctého pátý

tak potom

termín zkoušky se dobře vidím devátého pátý

deset až dvanáct

jo místnost tohle asi pro vás důležitým místnost cestu pět

a měli byste se dostavit nejpozději devět padesát

no

a projekt

bude opraven během příštího týdne neměli byste spoléhat na to že

že

dostane se na zkoušku dostatek bodů takže

udělat projektu a

budete ještě být

tak

to je všechno _e

organizačních záležitostí

podíváme se na syntézu

takže

tady tento kurz se tati asi doteď zabýval spíš _e rozpoznávání to znamená měli ste

měli ste řeč _e byste se snažili v podstatě počítačem nějakým způsobem extrahovat informace co

v ní sou takže z toho

udělat nějaké slovní předpis zjistit kdo tam mluví _e zjistit jakým jazykem mluví a jaké

jsou tam klíčový slova já nevím

já nevím co všechno

a teď se podíváme vlastně na tu opačnou v je toto je vy máte nějakou

textovou informaci _e se

se test toho udělat jaké ten signál znamená chcete to prostě nějakýmu

člověku přehřátá ten člověk by měl mít pocit že to mluví

ideálním nějaký jiný člověka ne plechova loop

tak _e

co se týká

vlastně syntézy tak _e

to využití

může být to si asi každý dokáže představit odpomoci nějakým postiženým lidem který neslyší teda

navopak který vidí a slyší

takže nemůžou číst ale můžu poslouchá tak že sou schopný prostě ty informace dostat skrze

ucho

přes nějakou pomoc nesní době každá nějaká navigace má a syntézu takže řídíte a vám

to říká right doleva jeďte doprava

teče otázka jak moc tomu rozumíte a jak moc té přesný a

jestli jako vlastně kdybysme zmaten Š jako že vám to poradit

_e potom samozřejmě ideální stav je alla startrek a podobné věci že máte doma prostě

něco co taktiku úplně vklidu wheel všechno to jako

řekne kdyby

ste měli někde

krabici zavřený ho člověka vy nepoznáte rozdíl

tam

se to bude ještě chvilku trvat než se tam my se tam dostaneme

to je

taky zajímavý je že podstatě syntéza řečí je to _e inter disciplinární věc takže nejenom

signál procesing

ale máte tam tyto hry informaci máte tam největší _e začalo procesing takže věci co

dělá pavel smrž

_e fonetiku databázových systémech prostě tam to hromada jo takže se tam bylo zkopírovat soustavy

_e se říká historie asi někdy osumnáct set padesát první mechanicky syntetizátor proto jako jakýsi

varhany prostě mělo to padá pedály kroky a jakým způsobem

se tam simuloval lokální trakt a když ten člověk na to jako by hrál takovou

stupňů jako

jo tak tomu bylo to schopností za tady nějakou písničku

got se indukují

_e devatenáct set dvacet dva první nějaký primitivní elektrický _e syntetizátor

no a potom jak začali _e počítače ta kuš v podstatě se jednalo o nějaké

nějaké prográmky které byly schopny Ú řeči lépe mluvit

takle vypadá o ten dnes _e jeden

těch _e

první vokodérů

_e toto myslím že zrovna ten manuální to znamená vy ste měli nějaký zdroj

a boj signálu suše šumový generátor avoj signálu

nějakej

nevím

jak to říct

říkali tomu

nebo prostě něco co nějak učí

tak tady máte nějakou rezonanční komoru máte nějaký pedály kterým ovládáte vlastně ten shape ten

tvar trhu naší komory a na konci hotels nějakým svoloč

no tím nekrytej změníte ty klapky a tadyhle nějakým se dále měníte základní tón

tak

no to potom zní jako že

víte co je základní to

jo

dobře víte jo jak vypadá prostě hlasové ústrojí co se tam vlastně děje jo co

se všechno musí stát třetí mneš

to vypadne

zkusil vznikl jako řeč

zase že zase že

_e fajn

tak _e

takže použití nejednodušší použití jsou nějaký _e telefonní aplikace to znamená help lajny jakou centrála

klasické použití a dělá systému plechové úplně kam se dovolat _e citoval říkal značky to

jednoznačně tesla

obvykle to je všechno namluvení předem jo takže o to ani tak jako té tesco

není nebo

musí se to považovat za té tesco protože to podstatě někdo namluví jazyce to jenom

že ano nafláká se to za sebe jo ale může tam být nějaká elementární logika

tam můžou být nějaké inteligentnější S dialogové systémy banka včera to teda moc zatím není

že zavoláte _e prostě něco řeknete tam padesátkou který vám to rozpozná do nějakýho textu

takže se to zjistit podstatě zkuste řekli poskládat to oslovit se nějak vám to odpoví

syntetizuje tu odpověď aby si v podstatě

povídáte s počítačem

navigační systémy skautech zase relativně jednoduchý té terezko máte nějakou jednoduchou gramatiku X desítek stovek

slov a v podstatě vám to jenom nějakým omezeným slovníkem _e říct jestli máte je

pro mě nebo doleva

_e použitích počítačích

někde se vyhrabal že by měl velkou výzvy že dva tisíce čtrnáct bude na nás

pí síčko mluvit ami není budeme mluvit no už se to blíží zatím se nezdá

takže

ještě to bude chvilku pro nicméně google

se snaží rodila

dělat dost

no a

budoucnost

koukněte se na nějaký fi filmy

_e ačkoli se může stát že _e syntéza jednoduchá v podstatě je dost složitá a

to z jednoduchýho důvodu nebo pokud chcete mít hodně to budou syntézu

_e když si poslechnete nějak jakýkoli systém a on vám tam udělá nějakou chybu tak

si tu chybu prostě slyšíte to jako člověk

je tam něco jinak co vám nesedí

obvykle sou to takové věci které sou dost blbě pochopitelně jako je prozódie

to znamená

_e _m

ten počítač době klesne hlasem jo dá blbě při dá prostě něco takovýho

a václav to prostě tahá za užšího jevy to posloucháte a teď prostě to tam

jako

kladivem mlátila sto do hlavy jako že

to není vono

a pokud Š

eště k tomu ten hlas

zní jako opravdu blbě jako opravdu taková oba tak _e vám to začne dávat strašnou

námahu abyste tomu vůbec rozměry abyste jako s toho něco měli tudíž přestává to mít

ten člověk odjíždíte a vy se musíte soustředit na to co vám vlastně ta navigace

řekla

tak pak účtu pomalu nemá smysl jako suše možná lepší zastavit podívat se dozvím asi

jo nebo

prostě ztrácíte ztrácet textů písem trasy pro byste měli mít na to řízení a ne

na jste poslouchali

poslouchali neviděl

tak _e jak jsem říkal tesco může být primitivního systému že si nahrajete deset babek

a nějaké lety to dohromady po opravdu komplexně systém kde

_e ste schopni syntetizovat jakýkoliv text

to znamená nehledíte už na nějakou slovní zásobu

_e chcete syntetizovat běžný text to znamená složité se zjistí že tam máte nějaký věty

máte tam třeba přímou nepřímou řeč máte tam nějaký otazníky měli byste něco dělat základním

tónem

to pruhový takže v tomto případě to opravdu služ

tak struktur _e

někdo má nějaký dotaz

ohledně to je takle no

to začátku

jo takže se podíváme na strukturu jak takový systém většinou může vypadat

máte tam

takový čtyři základní bloky

první bloky textová analýza to znamená

vy nastup dostanete nějaký text

jo může to být to může to být nějaká webová stránka může to být prostě

knížka může to být

cokoliv něco se prostě textu

to vy nějakým způsobem musíte

prozkoumat zjistit jestli to má nějakou strukturu

eventuálně pokud to má strukturu tím myslím odstavce věty přímá řeč nepřímá řek

názvy kapitol třeba cokoliv

_e jaké zjistíte strukturu musíte se s tím nějak poradit když byste si vzali třeba

toho stránku a byla tam tabulka doby fajn i začít diktovacímu ty vybudit kteří

třeba teďka začíná tabulka a má čtyři sloupce api řádku jo a první sloupec a

tady začít jo takže už nějakým způsobem musíte to nějak uřež _e ošetřit takže

musíte to uzavřít do nějakých

dalších

jako by dalšího textu nebo další řeči oko nepopisujte v podstatě ten

já se tam nějaká textová normalizace

což není nic jinýho že když vám tam někdo nafláká tohle stojí sto dvacet pět

korun a tyto vypíše číslama

tak byste to měli asi říct jako by sto dvacet pět ne jedna dva pět

krčil sto dvacet pět korun

teďka máte český jazyk který se skloňuje a máte tam ještě budu přístup kus podnětem

takže byste měli se podívat i se vám tam sedí prostě pády jestli vám tam

sedí

tady tyhlety věci a už to začaly hodně složitý

a potom je tam lingvistická analýza takže ještě můžete začít zkoumat jestli jsou to graf

a

a další podobné nechutné věci jako že číslo si můžu stejně psát různě číst _e

můžu se

můžu mít _e dopad na kontext

jo to znamená

musíte podstatě pochopit N tak

pokud máte něco jednoduššího jako je zase nějaká navigace nebo

nějaké call centrům nějaký tady I D R

tak toto s trochou štěstí se na vynechat jo pokuď prostě máte ten textury dobře

vopravovanej

_e cache na to textu normalizaci toto by se dalo přeskočit jednoduchý při

to co by vám měla vypadnout je nějaký relativně čistý textu znamenáte který opravdu chcete

jakobín syntetizovat neměli by tam být žádný speciální symboly jaký dolary jo nějaký číslo prostě

text

tak máte fonetickou analýzu

teda to statis toho samýho textu vám udělá jakoby mluvený textu znamená vám z toho

udělá fonémy předpokládám že taky víte C F M

to znamená něja převede vám to byl nějaký sekvence jednotek který prostě členy jsou jo

takže nějakých akustický takových základních jednotek

toho

mám teda vypadnou fonémy které sou nějakým způsobem tak zvaný ten taking se jako vyváži

spi je tady k tomu textu to znamená mám říká

máte nějaký řetězec fonému

a on vám říká tady začátek věci tady je konec věty tady by měla jít

intonace nahoru tady dolů tady dej důraz tady bude delší pouze _e prostě nějaký tak

toto se

vlastně je vstupem zblízka analýzy která na základě těch stavů

rozhodne o tom jak je tam základní tom jestli D hlas nahoru

jestli ten hlas dolů jaká je tam vlastně jaká je tam prodleva

jestli se má vyšší hlasitost a jakýmsi způsobem na modeluje tady tyhlety tři proměnný to

sou podstatě při důležitý proměnný rychlost základního po u

to znamená jestli mluvím prostě hlubokým hlasem jestli dávám otázku nebo ukázku jo tak je

tam nějaký duration to znamená

_e člověk dává důraz když dávat důraz na něco na něco ve větě tak to

řeknete víc nahlas a taky to řeknete třeba pomaleji

jo a takový ty vy perníkový slova říká se prostě strašně rychle jo takže ta

věta má nějakou ta to tam obama nějakou dynamiku jo to sou takový to sou

parametry to nějaká spojit a spojitá funkce která by měla

by

víc modelována tady s téhleté prosecké analýze

no a výstupem s toho

Ú uši nějaký opravdu detailní popis toho co se má syntetizovat a to se pošle

do samotné syntézy troše nějaký jakoby signál procesing

který vezme tady tyto informace to sou nějaký prostě znaky nějaký fonémy a tady ty

kontrolní

kontrolní křivky

základního toho hlasitosti a vyrenderuje nebo jako kdyby syntetizujete vlastní signál

je to jasné

ahoj

tak teďka k těm jednotlivým bločků

jo tady je popsaný v podstatě co se tam co se tam je

takže textová analýza jak sem říkal

dokument structure znamená detekce

struktury dokumentu textová normalizace lingvistická analýza

obvykle

toto je věc která je jazykově závislá to znamená když budete mít českou syntéza logickou

syntézu potom musíte vždycky stavět solidní čili ten den s toho prostě

sem dál nehněte

jsou tam obvykle nějaká pravidla třeba pro tu normalizaci nějaké gramatiky

takže X to analýza

jak jsem říkal

snaží se porozumět textu

zjisti strukturu dokumentu takže máte kapitoly paragrafy tabulky

jo měli byste tam dat nějaký výtvarníky to znamená ten dokument třeba nějak popsat

_e rozdělení věc jo skončí věta skončí odstavec dat tam jakub

textová normalizace

de o

to substituovat netextové nějaké tloukli netextové znaky do textové podoby takže čísla data

jo máte dva celá třída celá čtyři nebo druhého čtvrtý třináct třicet nebo můžete říct

kliniku druhý

to závisí na

na tom jak to chcete pojmout zkratky B u tý nebo jestli to rozepsat jo

ne vždy ty zkratky můžou mít víc významů takže

takže jako do sepisování třeba

do konkrétního významu už může znamenat pochopit ten text koš

co Š je to složitý a pak korektně rozepsat danou zkratku

speciální symboly a samo o sobě matematičtí s matematické formule nebo nějaký chemický rovnice vzorečky

touž koje

celkem složitý

jo bacha za to některé jazyky obzvlášť čeština sou se skloňuje to znamená musí tam

určovat

určovat _e shoda přístup kus podnětem mapa

tady je příklad jednoduchý příklad nějakýho regulárního výrazu jaksi poradit _e s číslama jo takže

když máte jedničku a zatímco u

je nějaký čísílka tak to přepíšete na s po

nechali tam ty dvě další čísílka máte další regulární výraz který vám potom už předpisuje

tady ty

desítky a tak dále a tak dále teoretickou informatiku strofy měli takže víte co

víte co to obnáší

lingvistická analýza

jak jsem

říkal můžete mít slovo třeba banka nebo taky třech

že jo závisí prostě na kontextu takže pochopit

pochopit kontext

_e tady kdybyste si to chtěli představit češtině tak máte slovo nitromind monitoru

jo prostě píše se po stejně a vy byste měli když to syntetizujete říct tak

fotosyntézy zlatko vnitro nebo je kontra

nihilistická analýza by vám měla říct

_e H tak tady to s kontextu

ni pro tak tam bude asi

měl

zatímco pokud to tam budete mít prostě vokolo hromadu nějaký chemických sloučenin tak to možná

bude mít

jo takže to je prostě úkol lingvistické

_e důležité taky je tady že ona by měla pochopit podstatě o čem ten text

je určen je ta věta a dat tomu korektní takovou highlevel proslovy

u řeči se vám může stát že vy můžete mít ten samý text ale pokuď

to řeknou

řekne jeden člověk a dá tomu

dvakrát na tom pokaždé jinou proto B tak můžete totálně otočit význam té věty prostě

tím že a ty důraz nesprávně nebo na nějaký místo jiná

tak vy podstatě si můžete pohrát jakoby z _e

jako by s tím vlastním obsahem s tou informací o takže to takovéto je to

prostě

složité jo je potřeba jako to opravdu pečlivě

pečlivě tady toto řeší

fonetická analýza

znamená máte právě homo graf a takže slova který se

stejně píšou různě čtou snažíte se je nějakým způsobem identifikovat

of logickou analýzu to se vám může hodit později pokuď máte slova tak rozdělit na

_e rozdělit na

na nějaké kořen

předpona příponám že se vám to hodit protože super jakési slabiky je kissing které se

opakují

_e na konci let proto jsou to vržen to znamená

těch slov který tady generujete se snažíte tedy na konci dostat nějakou sekvenci nějakou sekvenci

ta příklad když _e tomograf disambiguation slovo street read

ba

B

morfologická analýza snažte se identifikovat přípony předpony

_e pro tu samou to znamená vlastně převod

písmen na nějaký fonémy

češtině to celkem jednoduchý protože češtinář foneticky jazyk tudíž _e máme tady pár nějakých základních

pravidel jako že

dvoji možná chvil

je tady něco takového co by měl odpovídat právě tomu v kuch

že třeba zase jeden znak to je jako by dva fonémy K V

když máte F háčkem a je předtím dotaz L nebo S

v podstatě svislou jako jo to je to iksko na

na X

pak máte s podobu smělosti to znamená že řekne když se napsaný svou bůh _e

takto nic tak to je čili neříkali bůh _e ale řeknu bůch

to znamená

mění se tam mění se to vlastně ta znělost

spodoba call artikulační že když máte buď písmenka to select obvykle lidí prostě řeknu jako

C

že Č S

jo banka takže nosovy _e

ale je to relativně jednoduchý prostě pár pravidel je to unk jo když ste v

angličtině úst na to podstatně hůř protože

tam se

každý slovo čte trošku jinak ta motion se to třeba neřeší pravidla máme řeší se

to

vyloženě statistický takže máte nějaký máte nějaký účinek

_e obvykle se používá nějaký konečné stavové převodníky

kdy vstupem je právě psaný text výstupem je statistický nějak

sekvence fonému k

kde se říká že tak to asi bude znít jo sou tam občas nějaký

tak _e nějaký dotaz tady k té první

krabičce

tak pokuď se to všem jasný tak se podíváme pro na pro matickou analýzu to

znamená tady se snažíme podstatě tomu nějakýmu opakované sekvenci fonému

přiřadit

vlastně hlasitost

to znamená jak nahlas

ten

počítač bude mluvit

nějakou konturu základního tónu to znamená jak vysoko bude ten hlas posouzení a nějakou rychlost

jak se to jak se to dá dělat svou

metody

například

sou nějaké akustické metody které vám

vlastně vemou ty jednotlivé tady

a uloží vám vloží vám

do nějakého konkrétního času

té věty vám vloží nějaké události které říkají tady bude důraz tady bude prostě zvýšení

základního po jaké diskrétní jednotky

no a pak se to pro ženy nějakým filtrem a ono se vám to krásný

vyhodí a to se použije druhá možnost je želíz detekujete

nějaké důležité částí nějaké

valí s nebo nějaký os to znamená kde tenhle

jako by má vrchol třeba základní to na kde má naopak nějaké není

jo vypadá to takto to znamená

vy máte čas takle vám plyne nějaká ta věta tady vám to říká

tady bude tečka prostě zvýšení jako základního tónu tady bude druhý a tady se na

konci věty takže ten za sedum

pak máte druhou druhé nějaké údaje které vám říkají něco akcentu takže třeba

třeba že ten člověk nemluví jako by

čistou češtinu ale že třeba _e ze slovenska nebo s poukázek že má prostě nějaký

cen takže toto můžete doplnit nějaké

nějaké podružné

podružné informace

no pak to pro ženete filtrama sečtete dostanete s toho nějakou takovoudle obálku

základního to

jo druhá možnost sou právě tady ty eval E s hýrous to znamená máte nějaké

důležité informace

máte nějakou obecnou kulturu té věty jako že by ta ten hlas měl postupně klesá

to držet se v nějakých limity

no a na základě toho vy tak vygenerujete

vygenerujete nějakou křivku

toto je _e

lo based nebo nějakými pravidly řízení _e řízena vlastně

syntéza

prozodie druhá možnost je že si můžete posbírat spoustu dat

a na trénovací nějaký statistický model

takže prostě víte

tak jak rozpoznávat _e řeč tak v podstatě nebudete rozpoznávat jakoby _e ve signálu

do nějakých příznaků ale budete rozpoznávat jako B S

s průběhu základního tu nula a hlasitosti

na

nějaký maslowa mazdu právě takovýchto podobných parametrů a ta převede to statisticky

tak

další bloček

poslední je syntéza vlastního signálu

to znamená teďka máte fonémy a máte nějaký máte právě nějakou obálku základního tónu a

už jenom potřebujete vybrat vlastní jednotky dva máte nějakou databázi jednotek můžou to byt fonémy

cokoliv slova

a potřebujete jenom ste databáze vybrat vhodný jednotky získaných signál se tyto dohromady zas tomu

nějakou obálku základního tomu a

máte řečový signál

jaké použit jednotky

jednotek je

spousta můžete život těch nejjednodušších co sou nějaké a ufony

přes fonémy

pak jsou to například by von i koš sou

co šest jednotka odpůrci jednoho fonému do půlky druhýho fonému proč je to odpůrci do

půlky je to kvůli tomu že

_e ten fonémy uprostřed stabilní

jo když máte nějakou samohlásku _e tak na prostě uprostřed

bývá stabilní takže ty jednotlivý periody základního tónu se moc nemění zatímco když přecházíte z

jedno fonémů do druhýho tak je tam nestabilita a vy potřebujete právě zachytit

to nestabilitu zatímco když to lety to dohromady tak to bude ten připravit těch stabilních

částech to znamená těch koukání von

ideální je použit ještě nějaké další jednotky takže třeba něco postavy na slabikách nebo slovech

dělali celý věty potom můžete prostě

_e cílem je nějakým způsobem z minimalizovat počet konkatenací znamená pokud se bavíme to davu

koukat relativní syntéze

takže počet míst kde se spojují kde na sebe navazují nějaký _e nějaký části signál

tady

tabulka jednu jednotek

to znamená můžete jít od nějakých se třiačtyřiceti jednotek po hash nějakých

stovky tisíc co se týká slov

kvalita čím cvičení další máte jednotky tím máte větší kvalitu protože

máte tam Í nějakých přerušení

máte to také ale náročnější jakoby _e na paměť nebo na databázi

a stejně se vám může stát že budete něco vo který nemáte jakoby databázi to

že budete muset syntetizovat

nějakým

takže je rozumné mít nějaké slabiky nebo nějaké jednotky kterých máte rozumný počet a ste

schopni s toho jako by vždy kdykoliv slepit

slepic _e jakékoliv slovo

tak výběr jednotek

pokud se bavíme okoukat relativní syntéze s _e vlastně přístupy

syntéze můžou být _e můžou být dva

jedna je takzvaná koukat relativní druhá je formantová takže koukáte nativní syntéza je

tak vy máte právě nějaký

jednotky v databázi

a v je prostě lety to dohromady jo takže tak takhle fungují takle fungují call

centra fungují ideas systémy funguje vaše navigace

jo máte tam prostě nějaký jednotky nějaký slova ten slovníky omezené jo

jenom se to lety dohromady

_e ta formantová syntéza funguje

funguje vlastně jinak to funguje tak že máte nějaký model řečového traktu

máte tam spoustu parametrů

a vy podstatě jenom měníte nějakým spust pojď tím způsobem

s tu

jo to znamená máte tady nějaký buzení zas tady máte nějaký parametr základního tónu máte

nějaký generátor impulsů pak máte

tady nějaký _e generátor

_e šumu

no a celý to prohání ty nějakým strašným filtrem

tedy má simulovat _e licky

historické hlasové ústrojí a ven vám vypadne řečový signál

jo takže tady v podstatě na měníte nějakým způsobem kontinuálně parametry a ale ne nepijte

dohromady žádný znak

takže pokud meste konkatenace ty nyní syntéze tak

jak vybrat jednotky

ideálně si necháte od někoho nahrát

pár hodin pár desítek hodin řeči to znamená někdo sedne a bude vám tečka číst

nějaký texty

vy to musíte přepsat

pokuď máte nějaký řečový nástroje tak _e tři provedete automaticky zarovnání to znamená vám

co jela jmen víte

zarovnání fonémů

když _e máte

_e rozpoznávače řečí a vy musíte jakoby manuální přepis tak můžete přepnout do modu že

obama bude rozpoznávat slova levou veme ty slova kterýmu dat jako bratrův a jenom vám

prostě ty slova přesně zrovna na ten signál tak jak se mu nejvíc líbí že

tam jsou

tudíž vám automaticky řekne která část signálu odpovídá jakým von

jo a pak vy to můžete už jenom rozsekat jo že to nemusíte všechno dělat

ručně

když jsem teda dělal svůj diplomku tak sem to všechno dělali čísel tak měl jsem

asi tří ty nějaké řeči že to celkem šlo to

pěknou pro

jo takže máte nějakou řečový databázi necháte máte k tomu přepis musíte k tomu mít

hranice jednotlivých slov nebo fonému

toto nějakým způsobem

za indexuje té

pokuď máte tu možnost takto můžete nějakým způsobem prozodicky olej bilovat takže můžete si k

tomu nechat informaci jaká je tam výška základního tónu hlasitost

a

potom když se snažíte jednotky

vlastně tvoří syntetizovat

tak

se snažíte zajistit to aby to syntetizovaná jednotka

kterou vy chcete vyprodukovat byla co nejblíž tady ho přesouvat databázi takže to může bejt

nejenom jako že foném _e by měl být

honem a ale ne jako že tam bude éčko

ale že by třeba hodnotou základní oponou takovou jako vy chcete syntetizovat by měla být

co nejblíž protože jakýkoli změny který tam provádíte

máme na je že můžou být potenciálním zdrojem nějakých problém

a potom se snažíte minimalizovat nějakou vzdálenost mezi vlastně tu konkatenaci to znamená snažte se

dívat aby ten kontext když tady máte třeba foném a

tady máte foném byl

tak

abyste databázi když tady byl taky foném _e tak za ním byl opravdu taky ten

foném byl protože když by to bylo třeba von N T

tak _e

tady bude zní trošku jinak a potom když to slepice dohromady tak

to bude znít

potom co vlastně vyberete takto jednotky ta kuš provádíte nějakou

vlastní syntézu to znamená kuš

sáhnete do databáze vemete si ten signál se pěkného dohromady

pokuď máte nějaký parametrický model tak tam nemáte v databázi uloženy vyloženě signál vyloženě ty

vazká ale něco co vám to popisuje takže nějakou nějaké spektrální koeficienty cokoliv to pak

slepice dohromady a

syntetizujete to

toto je formantová syntéza v dnešní době už se to takle jako moc nepoužívá

na druhou stranu _e z poslední doby se začaly objevovat _e syntézy pomocí ničem N

to znamená je to s něco podobnýho je když máte rozpoznávač

tak _e v podstatě

zase máte nějaký syntetizátor které máte nějaký model který vám kteří vám generuje parametry

parametry pro

jako by nějaký takovýto

takovýto mechanismus který fotosyntetizujete vlastně signál

plus v podstatě říkal tady je no

takové zajímavé zamyšlení

jaká je závislost podstatě kvality výstupů na

množství

nebo na

na množství nebo na rozptylům mezi kvalitním Í a málo kvalitními segmenty

jo ta formantová syntéza konkrétně to má tu výhodu že ten signál zní

furt stejně kvalitně ale to stejně blbý

jo zatímco když máte nějakou konkatenaci ní syntézu tak můžete mi

hodně dobrou kvalitu ale stává se vám že máte jakési procento

_e vygenerované řeči kde prostě to skřípe protože to tam zrovna nesedí ty jednotky a

a

tak je to tam slyšet nějakým pan se nebo prostě spojitosti

metody vlastně vlastního nějakého spojování můžete

spojovat čistila sklad souš

není zrovna ideální protože máte nespojitosti signálu

můžete se snažit nějakým způsobem překrývat

o uhodla to znamená uhodla pova a ideální je nějakým způsobem zařídit aby to bylo

synchronizovaný základní pouze

protože když byste to překrývaly a synchronizovaný to nebylo tak _e tam pak vznikají

vznikají nespojitosti

a úplně nejlepší je když se použije nějaký motel to znamená nepracuje se z vlastní

basket a začne se pracovat s nějakým parametrický popis entry vám říkala jaký sou tam

jsou tam vlastně parametry nějaký frekvenční parametry

toho signálu což podobně třeba nechce céčka nebo ty opička

prostě jsou tady nějaký parametry a ten mobil vám říká

jak to vypadá

tady je příklad

tady je příklad nula to znamená odhodlat _e do

kdy máte nějaký v asko

a vy chcete

toto v lasko

zrychlit dvakrát

jo to má máte nějakou řeč a chcete aby to bylo řečený dvakrát rychleji

jo nemůžete to udělat tak že zvednete jakoby že to přehled dvakrát rychleji pak to

zní jako četnost

jo takže

to co uděláte

nejprimitivnější je že uděláte si tady takový okýnka jo jak tady vidíte

no a ty okýnka vpodstatě tak to jako by na ni znáte

mít k sobě

no a každý to okýnko jako bývá potřebuju schovaný to jeli váhovací okno

jo

znamená to má potřebu jakoby schovaný ten signál no a pak to jenom sečtete ale

jak vidíte když se tady podíváte tak máte podstatě ty špičky základního tomu máte tady

tak jako dost blbě

jo že tady v tomletom úseku to vůbec neodpovídala bude to tak todleto _e

jo vy byste chtěli aby byly pěkně

pěkně pravidelně od sebe

jak tomu zařídit to jak to zařídit aby to tak bylo je právě

_e sola to znamená když synchronnost takže vy synchronizujte tady tyhlety okýnka

jak máte

tyto body takový synchronizujte tady sme špičkám a základního to

jo a pak když je chcete jako by ten hlas dvakrát access i tak můžete

třeba každý druhý vokýnko vyhodí

no a dostanete v podstatě dva krát rychlejší řeč která zní jako dobře

jo což

toto by se mělo dít pokud máte nějaký jen plechem enkodéry který jakoby umí nebo

jiný turína editování

který umí jakoby zrychlit zrychli ten daný zvuk aniž by ho jako by sekvenčně frekvenční

poničili tak dělají většinou tady toto jo takže prostě si tam udělal nějaký takovýto

takovýto okýnka

to třeba půlku vyhlašuju a

tyto

jo to znamená tady jenom nějaká funkce která se snaží jako by

mapovat původní

nějaký signál a signálový

to znamená vy tady vemete nějaký okýnko

na s touto periodu základního tónu máte takovýto signál

a pokuď chcete

tohle naopak slouží k _e prodloužení

řeči

pokuď chcete

_e pokuď chcete

vygenerovat nový signál tak si musíte jakoby měří vygenerovat nové periody základního tomu

a jim potom přiřadíte s toho původního signálu nějaký

ten signál potím okýnkem

a nakonec to musíte všechno složit dohromady

no taková trošku drsněl a na potom ušet právě parametrický model to znamená tady třeba

harmonik N plus model který funguje tak že

jak máte řečový signál

tak ho rozdělí na harmonickou a šumovou složku

jo dá se určitě zhruba do těch

čtyř kiloherc vtom signálu převládá harmonická složka to znamená to co vlastně signál který je

tvořen zejména

jako by kmitáním hlasivek a nasednou rezonanci dutině ústní to co je vejš potom už

většinou bývá a šumová složka jo takže to je prostě různý takový téhož

_e

takový prostě signály který mi nemají zdroj

_e klasická

jo takže vy můžete vzít spektrum nějakého řečového signálu takle to třeba pěkně rozdělíte říci

fajn

tady od nuly do čtyř kilo hertz to budu

_e to budu

modelovat nějakým parametrickým modelem

a o čtyři vejš to budu

modelovat nějakým

nějakým šumový model N ten šumový model může bejt jednoduché jak to že si uděláte

jenom

jako obálku jednoduchou obálku spektra potom hrozí té šumavy

generátor potom dostanete ten samý signál

samozřejmě to proč se to tady musí dělat _e s modelovat tom vlastně v tom

harmonickým

harmonické části parametrický je

nevím jestli ste brali

_e se tam

tady honza černocký říkal něco o percepci

lidský ucho je tady vnějších

nižší frekvencích citlivé žirafa

jo to znamená vy ste schopných určitých frekvencích poznat třeba že vám nesedí fáze

složku vyšší frekvenci je _m úplně jedno

jo tam když prostě byste syntetizovaný a tady byste

dali

já nevím šest kilo sedum kilo a dali jeden signál a pak sedum kilo posunuli

o půl fáze

o půl P třeba dopředu nebo dozadu tak trochu to nepozná zatím což byste to

syntetizovaný a tu fázi posunuli tady nějaké frekvenci tak vám to menu když lidi

_e tou plochou prostě to pozná jo takže proto metod tady takové

citlivější

a teorie tady zatím harmonický modelem je takže

vy podstatě si musíte

_e zjistit základní to a pak říkáte že

s klasická _e vám

se neděje nic jinýho než že ten základní toho nějakým způsobem rozhoduje o vznikají tam

harmonické nás

znamená že zjistíte základní tón ten budiž třeba sto herců no a pak

s toho spektra který tady vidíte nějaké

_e s nějaké krátkodobé spektrum

tak si vemete všechny násobky základního tónu a pro ty si zjistíte jakoby hodnotu frekvence

jo

a

ne různé hodnotu sekvence ale _e

amplitudy to znamená něco zastoupených to všechno

nakonec to můžete proložit ničím červeným soše nějaký parametrický model podobně to bývá únosce teče

a máte něco co vám říkal diskrétní kepstrum to znamená ten máte něco co modelujete

všechno

toto

tak jak se to tady viděli tak vy toto provedete pro každý třeba zase deset

milisekund jo nebo nějaký dvacet milisekund signálu

a pokud máte databáze kterou chcete syntetizovat máte tam ty jednotlivý fonémy jednotlivý jednotky

tak máte pro mě zase nějaký rámce a vtom těch rámcích máte uloženy parametry který

vám popisují tady tuhletu obálku spektra plus třeba tadyhle ten filtr který vám zařizuje

tady ty vysoko

vysokofrekvenční složky

řeči

potom pokuď chcete syntetizovat a chcete jako bitu řečnění to znamená chcete říct fajn proč

mám nějakou promluvu a chcu aby to

mluvilo třeba dvakrát tak dlouho nebo chci aby to mluvilo se základním tónem o

jeden a půl násobek víš

tak to co musíte udělat je že musíte vzít

v podstatě ten původní signál říci fajn tady mám nějaké okamžiky

základního tónu

rok které mám ty parametry v řeči

to je tady toto

a pokuď chci aby to znělo jako by

dvakrát tak vysoko ten hlas takže by to prostě neznělo ahoj ale bylo to ahoj

tak

vy musíte mít dvojnásobný počet

period základního tónu rozumná máte

máte dvojnásobnou frekvencí

takže uděláte jakousi mapovací

mapovací funkci která vám říká

jaká ta nová perioda dědí

informace z nějaké kterou už máte jo takže tady vidíte že v podstatě rozhodněte

rozhodujete

kterým si to znamená tyhlety dva periody mají stejný jako by signál

stejný parametry jako tady tak

no a jak máte tady tyto informace tak pak můžete spustit mašinku která vám zpětně

syntetizuje s těchto parametrů vám udělá jako by to masku

jo a dostanete signál který třeba mluví vyšším hlasem v tomhletom případě mluví pomaleji

jo tady zas vidíte že vám

ta délka toho

základního ptal délka periody je stejná

jo až na to že jich máte víc jo takže prostě se vám natahuje čas

chápete to tady ty obrázky dává to smysl

nebo to set utratili

no to necháte

jo na ose X máte čas

_e zkusíme se

kreslit je to nádhera

tady máte čas

s tím

_hm

víte někde předtím kreslí

no

tak to zkusíme klasickou metodu

značeny

takže máte signál

řečové který vypadá nějak takto

jo měli toto sou

jednotlivý periody základního to víte co

jo

víte co to je dost kdo neví se perioda základního to

kteří se potupil neusmívajíc takže nevím jestli ví nebo neví

do toho neví

toto vy

kdy

jo což je tady ta jsou tady ty jedničky

vy pro každou tuto periodu

můžete

si říct pro tuto periodu mám nějaký takovýto signál

tedy můžete tak jako by nějakým oknem vyvalovat takže vám s toho zbyde něco takovýho

jo

pro tento signál vy můžete udělat takovouto analýzu uděláte si spektrum

jo dostanete něco takovýho co vidíte

ztište si víte že základní tón

to si spočítáte tady jo víte že tady máte prostě X samplů takže víte že

základní tón je tady sto herců

takže

uděláte si tady ty zelený

zeleny násobky spočítáte si

frekvence pro

pro vložíte toho nějakým modelem a máte nějaký parametry jo máte tady nějakej vektor parametrů

který vám popisují

tedy zpětně z těch parametrů můžete zpětně se syntetizovat přesně tenleten kousek signál

jo máte tady nějaký čísel

to máte pro každou periodu základního to

no a teďka V pokuď chcete aby ten signál měl

měl byl stejně dlouhej ale měl jakoby základní tom dvojnásobně vyšší

jaká musí bejt perioda

základního to

když chcete aby sekvence byla dvojnásobná

tak jo to znamená váš původní váš novej signál by měl vypadat prostě nějak takto

jo takže

v podstatě by to mělo odpovídat takhle nějak

jo takže tady bude vždycky jakoby navíc nějaká perioda aby jenom to co musíte udělat

i vy musíte si nějakým způsobem zjistit kde já vemu parametry tady téhleté periody která

jako by je navíc v tom původním signálu není nejednodušším způsob je že to prostě

nějakým způsobem namapujte na ty původ

že řeknete fajn tady tahleta

perioda bere

tyto parametry tyhlety dvě sdílí

to samý tady tahle zase třeba by odsáď

a tak dále

jo na naopak zase pokuď chcete aby ta řeč aby ten základní tón byl stejnej

ale trval dvakrát tak dlouho takže aby ten člověk úvěru

pomalu

tak

s periodou základního tónu neděláte nic

protože chcete aby vyčkal osobnost A na ale pouze třeba každou druhou periodu zopakujte znova

jo čímž pádem tam jako by to dáte

dodá teda no na tom

tu časovou

složku jo takže to bude potom

vypadat

vypadat takto

že to jasnější co se tam zhruba děje

jo a tady jak to vypadá prostě nějak obecně jo přičemž si tady ještě to

budete takovou věc a to že pokud by se netrefíte přímo do nějaké

periody základního tónu takový ty s vy ty

vy si to můžete to počítat takže uděláte nějakou lineární interpolaci

jo aby to bylo ještě takový lepšího ale

_e jsou

detaily

tady příklad jak to vypadá to znamená pokud na ten harmonický šumový model

černý signály ten originální a ten červený R syntetizovaných jo zná vidíte že tady ztrácíte

jakousi informaci jo která

která se vám ztrácí díky tomu že vy to spektrum tady prokládat _e nějaký model

ale jinak

to je celkem blízko

jo takže když

syntetizujete bez jakýchkoliv modifikaci vypadá to takto pokud dáte dvojnásobnou

frekvenci základního tónu tak vidíte že vám tady přibyly

přibyly

erozi základního tónu naopak když dáte poloviční tak

vám tady zase chybí

tak _e na závěr

evaluace můžete

můžete to nechat nějaký lidi poslouchat

můžete

zjišťovat jak funguje jednotlivé systémy a kvalitně fungují

jak je vlastně jakoby

ta

řeč generováno S srozumitelná jestli ty lidí a kojetín potřeba nějak vadí že jsou tam

chyby

nechat otestovat

tak co se týká nějakých praktických věci

upřímně řečové to tady takovéto trošku starší slajdy takže nejsou to úplně nejnovější věci

_e určitě epos systém by měl být _e pro res pro research zdarma je to

za karvinný vět český

speech texasu kolegové z plzně

dělají já tady za chvilku něco pustím

takže ty mají něčeho syntézu já jsem dělal jako diplomku plus potom byly nějaká jedna

dvě bakalářky nebo taky diplomky

festival _e

edymburku je velmi dobrý

ty mimo jiné sis

se teďka dobře viděl tak se snaží vyvinout _e tesco který by bylo jazykově nezávislý

s tím že už tam taky používají právě halenka to znamená ušet o

zase o něco dopředu

že celkem

celkem fajn kdybyste měli rozvalem _e jako by vás toto téma zajímalo tak se o

tom dá udělat velmi pěkná bakalářská určitě

určitě diplomka jako je tam spousta věcí

nějaký dotazy

obecně něco co nechápete

nebo chcete nezřetelně sotva zajímá tady s tohoto

no zpěv _e

tam je to takový jako tam je to složitější sou nějaký peterka nebo s určitě

jako výzkumně byly nějaký

nějaký pokusy jako že zkoušeli kartézském něco zpívat

ono se to i dá jo tam je nejhorší _e tam asi naprosté budeme horší

že vypotřebuje ten do dobře mít odhadnuty ty parametry

_e prozodie jo to znamená těžko budete mít teďka systém kterým předhoďte text a on

vám to zazpívá eventuelně text a motyl mám to odzpíval

jo ale samozřejmě že to znělo pěkně ale ty lidi si s tím strašně hráli

protože prostě ruční hladivých doprovodný ale diví teďka prostě má být nějaký vibrátory takový ty

věci jo takže

jo takže jako v reálu v reálné jo real prostě nějaký opravdu systém který byste

k abyste bodě text a hodnoty nebo něco takovýho tak to není

jo ale

jako nula se prostě ukázat jo tady nám to krásně zpívá ale sou zatím se

práce jako drbání se

se s parametrem ano takže

někdo i na další

no nějakou za mu ta

tak _e

tady můžem zkusit si něco přehrát

tady do sme diplomky

a ty k té služ

popravdě ani nevím co to je možná ten moc frčky systémy

po kartotéky sou cvakání těch sloupu kouzelní ustavena

takle mimochodem zní

syntéza když tam nemáte pro shodný znamená máte jakoby rovný

na první základní to

jo v podstatě tam jenom myslíte mydlíte

_e

mydlíte jednotky eště by řek že toto není ani konkatenační jo to vypadá že vypadá

_e že to je na nějaká ta

takové té šílené diagram s těma

s tím filtrem

česká republika je maličká nic samotném se výchylky

po akademie věc ten jo ten obvod a bobek gisů dva králíci sklo kluků kouzelníka

pokus tu na

tam už máte nějakou pro vhodný jo tam už když posloucháte tak _e push to

tam prostě i klesne jako by to

blok a bobek lidi sou dva králíci sklo kluků kouzelníka pokus tou na

_e řekli že tady téhleté době oni měli bych formy jo to znamená měli jednotky

jak se vám

jak sem vám říkal

jo když máte prostě nějakou

nějakou řeč máte tam

ahoj

jo takhle máte zarovnaný ty fonémy

tak ten kdy von vypadá takto

jo to znamená když von jako

jo ale sice to jako by

takle to napište dohromady

jo to znamená

uprostřed jakoby fonému to vždycky rozseknete tam kde to jest

poté co primi děr vladimír šídla zakázal ministrům cestování v dob

byl ještě špidla první

tak budou a

to je něco zahraničního

ale byly tam česky ukázky

to je zase inte nějaké rozšíření psovi jo znamená zase tam volal že ohodnocen at

a je tam nějaký

je tam nějaký US příměří co nepamatuju jaký rozšíření

bojím o nějaký lásku řeči nějakou tady tyhle voják a nevíte nebo jitka

jedna chudá že na mě na jedinou ale to dělení proud směru

jo poštovního něco líp ale

tak to by speech tech tak to je slovně ale to je

tady _e roku dva tisíce čtyři bot apotéky jsou dva králíci s klobouk

česká republika je maličká zevnitř samotném

no asi tomu nuly jako na konci

tady nějaká moje

moje diplomka

a bobek jsou dva králíci

oblouku kouzelníka

česká republika je maličká země samotném evropy

no neměl jsem jednotku neměl sem neměl sem jednotku pro srdci

S

hra teda sem to psal delfín ještě

ahoj jak se ti vede dobře a co to je ale nestojí to za nic

myslíš že dneska bude něco televizi nevím

tady něco festivalu to znamená _e edymburku

on chuck se sice

jo dobrý tak se stal jel nestrčil stanek

nesoucí dneska během sionistka do vězení

emise je

tak to vypadá když narvete český tektonický otec

líbilo jsem sme deleted vylézt Y N párovým na todlento vylezla jsem se

majestát není

se lépe fungovalo jsem stránku jasem ta těch compete

_e s tam umět co jste slyšeli tak tam právě bylo tady to _e harmonik

employs model jo služ

no to sice taky neznělo nic moc ale aspoň to dokázalo že

tím hlasem syčet dokázal fakt vyhrát o důkazu to mi

i různý

velký proběhnou příklad abyste věděli jak to jako pustím dohadovat období války třicetileté

stěnu měla příznaky vzorek metody jako jaksi můžete pohlo vlastně s _e střevo prom eprom

odezva kromě toho povrchu

o dva a třiceti letech

bylo to že to můžete zrychloval můžete tu

povolovalo od dobývá třicetileté chodu _e

vyšlo základní to

o dva i si cíle

_e

o _e ve _e

takže s tím zábava

love se může mrknout jenom jak to vypadá blesklo

tak to je sou na příkop hodnot si

tady no ty starý

_e ještě starali syntéze osoby už bylo no koupit jako phongovo prostě

toto je ukázka českého syntaktického hlasu firmy speech tech

_e to vyruš to potom to obyvatel se zlepšit že soubor kouli mobilitu že strukturní

jako fotky

toto je ukázka českého syntetického hlasu firmy speech tech

to co to jsou se tu ku co to sou

toto je ukázka českého syntetického hlasu firmy speech tech

toto je ukázka českého syntetického hlasu firmy jí speech ty

příliš hloupoučký ku výhodná selské vozy

takže to posunulo se sepne soukromý full contact vy

zahraničních _e

třeba to tohoto chodilo pro tu jazyky tady bude třeba

roky jo když ho služko násobenou zkoušel jakým funguje prohovořil takže

takže sto osum když to jako že to jsou číslo toho jo je tam jedna

chyba

jak se to něco blbě prochvalně syn s tím

protože com

ahoj

ahoj

ahoj

deset metrů desátý metr

sem českých naspod a kapely

tato syntéza řeči je rychlá efektívní a na délku kvalitu

zkuste si nechat přečíst tvůj vlastní text co se hodí tvé aplikaci

takže všechny slyšeli efektivní

takže _e tomu se ještě zapracovat na

převodu grafem budov onen

takže můžeme si to je zkusit

_e k ještě

a je třicet mail potěšen když moji se základce jo žhavit řádu těle přes

takže jako v dnešní době bych

tak jako řek že

intel solutions celkem jako pěkně

pěkně zmáknu ta

tak nějaký dotazy

něco co vás zajímá na toto téma nebo jakékoliv jiné

tak _e tak

zkusím mluvit trochu

mírněji raz dva tři jo

tak víc vítejte vítám vás pěkný podvečer poslední přednášky

_e doufám že vám igor dál takové ty

administrativně technické informace jako že sem ještě nestačil opravit ten projekt jsem nestačilo zadat ten

projekt a tak dále všechno vám řekl jo musím to opakovat příští týden hnedka pondělí

se uvidíme na zkoušce

_e

jak to bez materiálu je povolen jeden jednu listový dvou stránkový čičí

tak se sem zvědav na ty několika vrstvé _e designing se na to těším

_e

poďme tady teďka k tomu numerickému cviku byl to že sme si vlastně během semestru

moc _e nezapočítaly tak se to snažím dohonit teďka touto tohoto srdeční

která bude trvat tak ní

hodinu máš hodinu a půl

podle toho jenom to rychle půjde na webové stránce máte _e zadání toho numerického cvičení

a kupodivu tam máte i poměrně pečlivě zpracované řešení

takže tam kde _e _m prostě to bude no opakovat _e že vytištěné řešení tam

pojedou relativně rychle

možná jako si _e _m to uděláme trochu víc do hloubky nějakých problematičtější věcech

především

tak je tam třeba někde deter dete véčko _e a asi trochu podrobněji vezmeme skryté

markovovy modely

tak poďme _e pěkně od začátku první část se týkalo pocel

máme zadány nějaký signál který má C dvanáct vzorků

_e nula celá sedum set sedum a tak dál a tak dále vidíte že to

vlastně bude

to je někde pěkně nakreslený _e dělá nám to pěkně _e

jeden a kus periody

sinusovky

a prvními příkladem je zda je možné tento signál vyjádřit analyticky a pokud ano tak

jak

takže _e se třepnu do toho no látka signál si ještě jednou nakreslíme

a _e vem řešit jo

vlož

toto je osa N

toto je signál X N

příklad první _e vzorečky padají takhle nula celá sedum set sedum jedna nula celá sedum

set sedum

nula

_e mínus nula celá sedum se sedum mínus jedna a tak dále a

skončilo to

třemi

vzorky

A vypadají na

takhle

tak _e

vzorky nula jedna dvě tři

sedum

osum devět deset

jedenáct celkem dvanáct vzorků

vidíte _e

přímo jaksi syn bystrým pohledem že to sinusovka že jo takže pro toho kdo to

úplně zapomněl

že tady napíše sinus

a teďka jaké medvědech budeme prakticky below doplatek na druhou do klapek a budete přemýšlet

co vyplnit dovnitř jo zkusíme to datum dohromady úplně z hlavy

bez nějakých pouček abyste vazby aniž by sme si museli pamatovat moc nějaký vzorečku

tak toto je závorky asi tak přinde

N určitě že jo

protože to je čas

co jinak

asi jo

pro dvě pí

dobrý měřit a co ještě dál

technika vám poradím takovou fintu

sinus je goniometrická funkce a pokuste dobře poslouchali na základce nebo na střední škole tak

dělá jednu periodu za dvě pí

jo když se podíváme _e

kolik mě vlastně trvá než tady ten signál udělá jednu periodu tak to je osum

jo to znamená _e já teďka tam mám sinus dvě pí

a za jednu periodu tam pravým číslo osum

co snědá šestnáctý

a to je nějaký moc rychlý

takže tam budete muset přidat to čísílko který

udělá tu jednu periodu přesně po osmi vzorcích a té čísílko lomeno osmi jo takže

vidíte že sme to dali dohromady

jaksi _m

_e lidskou úvahou bez nějaký vzorečku fajn

máme litický zápis tady toho signálu

a pudeme dál

_e

spočítejte energii signálu

staženou na jeden vzorek

jak se to dělá

jo

všecky vzorky na druhou a když to má být stažené na jeden vzorek když to

tady takhle říkám explicitně tak

tak asi podělíme počtem vzorků že takže kdyby někdo chtěl ochromovat

tak dokonce můžeme napsat _e nějaký vzoreček že jo S rovná jedna lomeno N

sumu X na druhou N

_e do té sumy můžeme dat třeba žena pojede vod nuly do jedenácti

a kolik to asi tak bude

zkusme si psát nějakou taštičkou tady hodnoty na druhou tak nula bude asi nula to

je jasný kolik je nula celá sedum set sedum na druhou

bacha macho

jedna polovina jo nula celá sedum set sedum je

pokud se to dobře pamatuju jedna lomeno odmocnina ze dvou

jo takže tady to bude _e jedna polovina to nebude jednička jedna polovina nula

na polovina jedna polovina víte že tam nepíšu žádný záporný znamínka protože to je na

druhou jedna polovina shrábnu tavidlem a

_e ráz dva tři a raz dva tři čtyři pět šest

tři plus šest _e polovin je tři a tři

to bude asi tak šest

ne

zkontrolujte mě prosím vás

já jsem taky vyčerpali na konci semestru

takže šéf děleno dvanácti

a _e budeme mít tedy energii staženou na vzorek jedna polovina byl zatím nám to

de úplně krát

_e teďka

spočítejte průchody nulou nejprve pohledem a potom matematicky

tak pohledem na obrázek budu mít těch průchodů nulou kolik

no a nebo taky dva podle toho jestli se tady ten první

jestli ten první počítá že jo _e to je otázka rozhodně tady ta funkce prochází

nulou tady prochází nulou

takže

_e

dobře za třetí

průchody

dva nebo tři

teď K V si to poďme zkusit spočítat také můžete jak by to počítalo nějaký

_e algoritmu

a _e průchodu nulou sme měli takový _e

postup že sme brali jednu polovinu

sumu

muselo se jít od jedničky až do konce signálu

a teďka pozor teďka tam byla L _e znaménková funkce signum

_e vzorku

současného

mínus signum

vzorku minulého

a tady tohle celý bylo uzavřených absolutní hodnotě

tak to vypadá hrozně _e hrozně vědecky

_e poďme si pots ten signálek který tady máme návrh nahoře

namalovat takové absolutní hodnoty

a asi by bylo dobrý si dodefinovat absolutní hodnotu nuly

protože nulou to nebude úplně dobře fungovat _e rozhodneme že nule kladný nebo záporný číslo

kladný tak jo

dobrý nula jeho teďka kladný číslo

tak _e ty _e Í signál nebo _e nebo absolutní hodnotu teda v _e pana

znaménkové funkce budou tady jedna

jedna

pořád ještě jedna mínus jedna mínus jedna mínus jedna

jedna

jedna jo tohleto je funkce _e signum leze signálový

a teďka mě řekněte jak mám _e implementovat tady tu

to je to děsně

složitě vypadají ty závorku

pojedu po signálu že

vždycky se zastavím nějakým vzorku N kouknu se doleva

a odečtu od sebe ty dvě vedle sebe sedící hodnoty znaménka

a volbu je to hotový to znamená mám je T vodsaď

_e jednička mínus jednička je nula tak se přesunu dál jedna mínus jedna je zase

nula pořád nula pořád nula teďka bacha kolik je to mezi tady těma dvěma vzorky

_e dobře absolutní hodnotě dva bez absolutní by bylo mínus dva tak když už teda

mám _e fungovat

absolutní hodnotě tak dva

tak by to bylo zase nula se pozor kolik

zase dva že jo nula

tak _e když si to sumu udělám

tak mi to dá hodnotu čtyři

podělím to hodnotou dvě

a dostanu dva průchody nulou tady Ú P mám

tak _e průchody nulou taky umíme a teďka to začne bity v ostřejší protože máme

udělat L P se analýzu řádu dvě to znamená máme spočítat _e filtr

_e Z nebo jedna lomeno a ve

který by tady tenhle _e tenhle signál

dokázal namodelovat

tak _e schválně ještě předtím než takový filtr začnem počítat

když to bude filtry jedna lomeno A Z jo

a máme ho určit jako druhého řádu to znamená

_e že bude mít dva póly zkuste si tipnout takhle jako jak ten filtr asi

tak bude vypadat kde bity poli tak třeba mohli bejt

jo trochu poradím _e když máme _e když máme řečový signál

jo ten řečový signál má takovéhle _e

jaké spektrum kterejma prostě

nějaký základní tón a tady má jedno rezonanci

první formant druhý formant třetí formant

tak pokud to modulem _e takovýmhle filtrem jedna lomeno A Z

tam většinou najdeme

poli

_e které budou odpovídat prvnímu formantů potom nějakej pár půl který by odpovídaly druhýmu formantů

potom někde možná pár půl který byl povídali

tomu třetímu formantů tak jak myslíte že to bude tím naším signál k M

_e žádnej základní to na žádný formanty nejsou že jo je to vobyčejná sinusovka

na druhé straně ten filtr kterým to bude modelovat extrémně prostinké A

jenom ten dva póly

tak

co myslíte kde tak asi budou

tak

dobrý nevíte

někde budou

přijdeme na to kde budou a možná že to potom začne dávat smysl

_e dobrý tak _e že máme ten _e mám provést otestuje analýzu

řádu dvě

a abychom udělali takovou rotace analýzu

tak _e my musíme mít k dispozici autokorelační koeficienty musíme mít dispozici R nula

tedy jedna a R dva

ty se dají docela nějaké D soustavy rovnic o dvou neznámých

a ste mě potom vypadnou koeficienty A jedna Á dva

a já potom může napsat _e filtr který _m _e je A Z

jedna plus A jedna

Z na mínus prvou plus _e dvě na mínus prvou _e na mínus druhou a

takovýmhle filtrem se ten signál dál namodelovat když do toho filtru pošlete nějakým bobiči dycky

buzení jako třeba jednotkový impulz

a pak _e ten jednotkový impulz zas ne tak by vám ten filtr měl odpovědět

signálem který odpovídá tomu co _e co modeluje jo tak uvidíme

jak to dopadne jestli se podaří takovou kosinusovku filtrem druhého řádu na model

tak _e věc první je

že budem potřebovat _e asi _e autokorelační

koeficienty

tak _e

co takhle nultý nebo obecně

autokorelační koeficient

se píše takže bych měl projet _e

celým signálem

a _e měl bych _e vždycky vynásobit

signál

N si ho posunutou variantou

vo _e voka vzorku jsem říkal že jako první budu potřebovat

autokorelační koeficient R nula

tak u té hranolky

to bude jak pro C

_e takhle sem jiný člověk takže za přemýšlíme jestli už ho náhodou někde nemáme spočítali

_e ten výkon jo ale bacha z _e tady se nám to trošku liší byla

máte pravdu pane kolego pokud vlastně ten signál neposlouchá neposouvám

pokud je _e káčko nula tak prostě plácam stejný vzorky na sebe a roznásobím N

ten samý s tím samým makra tady nemám tu normalizační konstantu

jo to znamená bude to ten _e nenormovaná energie nebo o prostě tady ta šestka

to bude

jo takže R nula _e ve spočítání rovná se šest

pro ty pro který to bylo moc rychle tak je to prostě suma vod nuly

do N mínus jedna

X N krátkých N

což není nic jinýho než S každýho vzorku vezmu _e druhou mocninu a mám to

tak teďka _e ten autokorelační koeficient R jedna

ten vznikne jako X N _e X

N plus jedna

takže si budeme muset _e vzít ten náš signálek a posunout ho

_e v o jeden vzorek říkám doleva nebo doprava

doleva ale ono je to jedno že jo protože

jestli ho posouvám do jednoho doleva nebo doprava

to je mě celkem fuk

ono to totiž

pokaždé vyjde úplně stejně jo takže tady tento signál no moment X do možná nakreslím

o něco slušněji

_e tento signál

posunu

o jeden vzorek doleva že to bude takhle

_e

tak a zkusíme si počítat ty vzorky které jsou nad sebou

a psací kolik _e kolik jinde

tak tady je

toto mě nezajímá tady se to násobí nulou to je taky vpohodě tady mě vyjde

_e nula celá sedum set sedum

takže

nula celá sedum se sedum víte co udělám tak v hospodě o budeme po to

dá dělat takhle čárky prostě

_e dá další vzorek bude _e tenleten taky nula celá sedum se sedum tak další

čárku

tady bude nula tak to nic nula celá sedum se sedum dalších čárka či bude

nula celá sedum další čárka tady nula celá sedum set sedum a nula celá sedum

se sedum tak to bylo docela dobrý

protože jsem zjistil že to bude šestkrát nula celá sedum set sedum

_e kolik to je

se budou se podívat do řešení to že moc složité

čtyry celé dvacet čtyři dobrý

tak _e

a teď by to chtělo eště R dvojku

no a tam bych ten _e signál měl posunou

o dva vzorečky doleva

takže pojďme na to

nula

nula sedum set sedum

jedna

no sense

sedum

_e

no a

mínus nula celá sedum s

sedum

mínus jedna

mínus nula celá sedum s

nula

takle

dle

a

takhle

tak a

tak _e poďme se zase započítat

všude samý nuly tady to bude nula celá sedum set sedum na druhou to je

jedna polovina

takže jedna polovina

budeme si k ní dělat zase čar K hospodě

_e

další polovina

a není

další polovina

tady nic další polovina

tady nic

a

další polovina tak je možný že to je pět polovin

prosím

a

no jo

máte pravdu děkuju mockrát takže znova

to bylo tak soborský jo _e vektory

červeně budou značit kladný poloviny a modře budu začli záporný poloviny jo

op

op

a

no bude ještě tepla

_e řeky tesla modrá studena tak je to asi teda plus jedna polovina

naštěstí máme k dispozici referenční řešení

jo

výborný

tak a teď prosím máme řešit takovoule soustavu rovnic

kde _e vlastně do

levé matice koeficientu

dosadíme nula jedna nula

pak sou tam _e

hledané hodnoty koeficienty A jedna dva

a na pravé straně jsou _e mínus autokorelační koeficienty tady jedna

R dva

tak teďka tady tohleto soustava rovnic se dál vyřešit

_e asi vás matematice učili

nějaké metody jako metodu kofaktorů a podobně já jsem se na ně když jsem vyráběl

tady tohle za D toho řešení nemohl vzpomenout access byl pěkně ručně odvodil

a _e kdybychom to počítali tak prostě dostaneme jako řešení

nějaké hodnoty koeficientů mínus jedna celá dvě stě devadesát sedum a dva se rovná nula

celá osumdesát čtyři _e zatím to berte tak

že _e že běžným řešením soustavy rovnic

o dvou neznámých nám tady tyhlety hodnoty vyšly

já si tady schválně zkopíruju

vysloveně kde měli protože

je to nebudeme _e to nebudem řešit obyčejnými

obyčejným zadáním

ale neobyčejnými

pomocí

levinsona darby

tak _e tohle to vyšlo standardním postupem

ovšem my máme za úkol

_e použít _e pro tento výpočet _e metodu pánů levinsona dá by na která vlastně

iterativně zvyšuje krát _e zvyšuje krát

prediktoru dycky v o jedničku

a dopočítává koeficienty toho příslušného prediktoru teda ne délky to znamená my začneme na prediktoru

řádu nula

co si myslíte že _e že prediktoru řádu nula

který Z

nula předchozích vzorků

má předpovídat současný vzorek

dyž nemáte žádnou informaci a máte předpovědět co se teďka co bude tento vzorek

a máte teda jako

aspoň ponětí vo tom že řečový signál by neměl by stejnosměrnou složku tak jaká je

nejlepší předpověď

nula správně

_e

když byste měli

dyž my sme měli prediktor

řádu jedna

to znamená předpovídali sme z minulýho vzorku

tak tam _e

si myslíte že by to bylo jaká předpověď zhruba

tak ten samý no dvojnásobná hodnota tady vám z hlavy neodpovím zase to spočítat uvidíme

jo

a _e když _e budeme předpovídat pomocí dvou vzorků

tak už budou mít koeficientíky Á jedna Á dva který si optimálně na ladím tak

jak _e tak jak mají být

tak poďme se podívat na to jak ta _e metoda těch dvou plánu

vypadá

tady tohle dycky vypadá jako strašně složitě jo tady prostě jako _e takový balík rovnic

který nikdo moc nechce rozumět

tak

to pojďme ukázat

když to není zas taková

to není zas taková hrůza hrůzoucí

no

no

_e dobrý

jedeme prosím

je tam na trošku vidět aspoň rovnice

vidíme jo

_e jedeme

nebo to mám ještě zvětšit klidně

tak jo

tak jedeme o T prediktoru řádu nula

který nám vlastně říká když budu předpovídat takovýmhle prediktorem

to téčko znamená energií chybového signálu do jaká bude energie toho signálu které jsme řeknu

schválně kolik myslíte že to bude pro prediktoru řádu nula

když nevím nic nebudu říkat pořád je nula odhad je nula odhad je nula

pak otto odhadů budou odečítat ten skutečný signál

a budu počítat jeho energii kolik to bude

tomto vole nultej autokorelační koeficient že jo protože _e prostě to bude ten původní signál

který nebude vůbec nějak změněny

jo takže _e

tomto případě _e nula se rovná nultý autokorelační koeficient tedy šest

_e další počítání

je _e počítání vlastně nejvyššího koeficientu

_e

prediktoru

řádu jedna jo takže poďme

ne na to

tady si _e

tady si nastavím T se rovná jedna

a počítám teďka prediktoru řádu jedna jo to znamená jeden koeficientík který bude

násobit minulý vzorek aby z něho dostal nebo předpověděl ten _e ten současný vzorek

a metody hrozně složitý _e vzorek

který mě říká jedna se bude rovnat mínus dlouhá vošklivá za rok závorka

autokorelační koeficient jedna

plus

a teďka suma _e ale u té sumy si prosím pozorně prohlídněte její meze vono

to jede vod jedničky

do Í mínus jedničky takže do nuly to znamená že tady tato _e suma nebude

mít vůbec žádný členy

takže tam nebude

jo takže suma

bude nic

lomeno

_e je mínus jedna

a to je předchozí hodnota kterou sem _e kterou sem měl tady takže

šestka jo

takže si pěkně dosadím

a bude to hodnota čtyry celé dvacet čtyři

mínus čtyry celé dvacet čtyři

děleno šesti

a

to bych to tady doufám mám někde spočítáno

mínus nula celá sedum set sedum zajímavá hodnota že jo

jo takže mám prosím vás teďka spočítaný prediktor

_e prediktoru řádu jedna

ještě tak _e takovou taková lipova poznámka když bych trestním predikoval tak tady ten koeficient

_e tam bude s kladným znaménkem nebo se záporným

jo i intuitivně prosím vás višně pojede nějaký signál pojede mě sinusovka

a říkám mně to že _e současný vzorek toho minulýho dostanu pomocí hodnoty mínus nula

celá sedum set sedum

já by tam by se znaménkem je nutno plus

já bych teda si tipnul že plus

takže poďme se raději podívat _e zpět _m do přednášky

jak že to vlastně bylo s těmi prediktory

_e

no tak skutečně do takže

ten predikovaný signál

je _e je tady tvořený vlastně filtrem jedna mínus A Z jo to znamená pokud

bych vám chtěl _e takhle vopravdu vyrábět

tak tam ten koeficient musí být se záporným znamínkem

jo takže

potvrzuje toto sme říkali já jsem tady měl návrhy jako že současný vzorek budete minulý

nebo to bude polovina z minulýho nebo dvojnásobek minulýho

tak to bude nula celá sedum se sedum minulýho a tady toto bude pro tento

signál optimálního dat

současnýho vzorku

dobře tak poďme dál

_e poďme to teďka prodloužit a poďme na prediktoru řádu dvě

ji rovná se dvě

ne pardon mi to ještě nemáme dopočítány omlouvám se

tak _e do valili sme tady ten koeficient K jedna

a _e

z toho koeficientu K jedna vypočítám nejvyšší koeficient prediktoru řádu jedna akorát že vone tam

jenom jeden chudáček

takže _e to bude mínus nula celá

sedum set sedum a je to koeficient a

jedna jo nejvyšší koeficient první generace prediktoru kterej se vypočítá

takže _e jedna

jedna

bude

mínus nula celá sedum set sedum

tak teďka tam máme zase rovně složitý vzorec

prosím na výpočet dalších koeficientu tady tohodle filtru

sou nějaký

nejsou pořád je jedna já jsem počítal koeficient jedna žádný další sany další nemusím

poslední věc která mě zbývá je tady ten závěr kdysi pro tenhleten hřát prediktoru spočtu

chybu výslednýho _e že teda energii výslednýho chybový ho signál

jo takže C jedna

rovná se

jedna mínus

_e teďka tam bude nula celá sedum se sedum na druhou

Z té předchozí energie krát šest

takže to bude _e jedna mínus jedna polovina krát šest tedy tři

jo dokázali bychom si skutečně ten signál chybový vypočítat

a vyhodnotit si tady tuhletu energii chyby a zjistíme že oproti minulým u se nám

dvakrát zmenšila to je docela úspěch jo prostě pro úplně blbý prediktor který neumí nic

ten který odhaduje jenom z jednoho minulýho vzorkovat dvakrát nižší chybu _e slušně

tak poďme dál

poďme na _e Í

rovná se dva

tak _e

zase počítáme hodnotu K Í která je

mínus

_e

R dva

víte co já tam o tom budu ty rovno ty hodnoty rovnou psát

takže mínus _e R dva

to bylo nula celá a

pět

tak teďka je tam vošklivá suma

a pozor ta suma už teďka nebude prázdná ale to bude obsahovat

obsahuje vlastně _e si

koeficienty prediktoru s předchozí generace že jo

toto sem vypočítal tady

a já to mám jenom jedinej

a ten je mínus nula celá sedum se sedum a lehčího budu násobit

jednu sumou vo ty jedničky do

dva mínus jedna tedy zase do jedničky

jo takže jedinej člen sumy bude pro je se rovná jedna

tady je dva mínus jedna

takže by měl násobit _e autokorelační koeficient R jedna

to _e by to mělo být

mínus nula celá sedum nula sedum

krát _e autokorelační koeficient můj drahý

N jedna bylo čtyry celé dvacet čtyři

čtyry celé dvacet čtyři

_e děleno

předchozí energií a ta předchozí energie dva tři

tak tady tohle kdy se na možná z hlavy počítalo trochu hůře tak sedum podívám

do reference

do to bude

za to bude dobrý

a měl by to být nula celá osum tři

_e tím pádem sem vypočítal

tenhleten chlíveček

_e

nejvyšší

koeficient tohodle řádu prediktoru kterej bude nula celá osum tři

a musím k němu dopočítat ještě ty který mě chybí a chybí mě jediny

a to první koeficient tady tohodle prediktoru jo to znamená

teďka _e počítám s prediktoru téhleté délky koeficient a jedna

a podívám se jak že to má být no je to ten _e toho samýho

čísla z minule generace tedy a jedna

kdy by měl být tady tenhle

_e že rovná se mínus nula celá sedum set sedum

a eště _e musím vzít

ten současný koeficient kálí který sem teďka vypočítal takže nula celá osum tři

plus nula celá

osum

tři

krát to

dva

mínus jedna

je jedna

dva mínus jedna takže zase

ten sami

ten samý koeficient _e

z minula

mínus nula celá

sedum nula sedum

_e kdybychom potom počítali _e prediktory vyšších řádů tak byste viděli

že vlastně tady

tenleten tahleta část výrazu je zodpovědná za to že bereme _e že bereme

vždycky

no

jak to říct že pro výpočet jezdí ho koeficientu to znamená koeficientech který počítám jedu

vodspoda nahoru a tady

tato část indexování mínus jemně spolu způsobuje že jedou vlastně z těch starej koeficientech shora

dolů

jo ale teďka to nemusíme řešit

_e mám

tady tento předpis pro výpočet _e

druhýho koeficientu a mělo by to být mínus jedna ceva

dvě stě

devadesát pět

mínus jedna celá dva mezi pět

jo takže prosím tady zastavíme

u levinsona darby na by to bylo všechno jenom se podíváme se jsme spočítali ty

samý hodnoty jako je jako prostým řešením soustavy rovnic o dvou neznámých

spočítali

oukej

jo takže

prosím teďka máme k dispozici filtr

který nám vlastně modelujete náš signál

a ten filtr

bude následující bude to _e Z

se rovná jedna lomeno

_e

jedna

plus

jedna celá dvě stě devadesát pět

Z na mínus prvou

_e

moment

sorry mínus

plus _e nula celá

osum tři

Z na mínus druhou

tak _e

kdyby co kdybysme chtěli _e toto je filtr který bychom použili vlastně modelování řeči lze

kdybysme chtěli udělat prediktor

tedy větu řeč bral pro ustála predikoval skutečně z těch minulej vzorku

ten _e ten současnej dokázali byste měřítek jak by vypadal ten

jo tady je to je prostě řeč

tady mám vyleze prý predikce

a aby chtěl vědět jak to bude vypadat

tak _e

asi by to mělo

byly tam dvě zpožďovací

linky že jo

dva zpožďovací o budky

tak tady s toho pole za predikce a mně teďka řekněte co mám napsat s

tím trojúhelníčku

bacha nekreslím strukturu tady tohoto filtru jo tento filtr by byl jakej T jíra nebo

sýr

toto by byl here

teďka sem nakreslil sýr

který by měl jenom predikovat

dyž to vezmu podle přednášky tak tady tenhleten fire by měl být jedna

_e mínus

o pardon to je tedy _e ten filtr by se měl jmenovat podle mě jinak