na přednášce
zeroes
_e měla by být dneska _e syntéza řeči
zem k tomu že se skupiny speech exit se v podstatě jediný kdo to kdy
nějak dělal to jako diplomku
tak to popadlo na mě
takže tam o tom
něco se pokusím říct
a byl bych rád že pokud byste měli k tomu nějaké dotazy tak _e prostě
ptejte stále budete mít
nějakou myšlenku
a nenechávejte to na potom
a ještě dál naše začneme tak _e
sloupec jednotky
mě řekl že vám tady mám říct
co si o nějakým C E mailu který mimo jiné posílal tak máte to tady
jo to byl i přečtu
po této přednášce budou numericky cvika
že předpokládám že to přednášku nebudeme my do šesti že to bude trošku kratší
potom
_e
co si ohledně projektu
číslo dva
odevzdání ve čtvrtek dvanáctého pátý
tak potom
termín zkoušky se dobře vidím devátého pátý
deset až dvanáct
jo místnost tohle asi pro vás důležitým místnost cestu pět
a měli byste se dostavit nejpozději devět padesát
no
a projekt
bude opraven během příštího týdne neměli byste spoléhat na to že
že
dostane se na zkoušku dostatek bodů takže
udělat projektu a
budete ještě být
tak
to je všechno _e
organizačních záležitostí
podíváme se na syntézu
takže
tady tento kurz se tati asi doteď zabýval spíš _e rozpoznávání to znamená měli ste
měli ste řeč _e byste se snažili v podstatě počítačem nějakým způsobem extrahovat informace co
v ní sou takže z toho
udělat nějaké slovní předpis zjistit kdo tam mluví _e zjistit jakým jazykem mluví a jaké
jsou tam klíčový slova já nevím
já nevím co všechno
a teď se podíváme vlastně na tu opačnou v je toto je vy máte nějakou
textovou informaci _e se
se test toho udělat jaké ten signál znamená chcete to prostě nějakýmu
člověku přehřátá ten člověk by měl mít pocit že to mluví
ideálním nějaký jiný člověka ne plechova loop
tak _e
co se týká
vlastně syntézy tak _e
to využití
může být to si asi každý dokáže představit odpomoci nějakým postiženým lidem který neslyší teda
navopak který vidí a slyší
takže nemůžou číst ale můžu poslouchá tak že sou schopný prostě ty informace dostat skrze
ucho
přes nějakou pomoc nesní době každá nějaká navigace má a syntézu takže řídíte a vám
to říká right doleva jeďte doprava
teče otázka jak moc tomu rozumíte a jak moc té přesný a
jestli jako vlastně kdybysme zmaten Š jako že vám to poradit
_e potom samozřejmě ideální stav je alla startrek a podobné věci že máte doma prostě
něco co taktiku úplně vklidu wheel všechno to jako
řekne kdyby
ste měli někde
krabici zavřený ho člověka vy nepoznáte rozdíl
tam
se to bude ještě chvilku trvat než se tam my se tam dostaneme
to je
taky zajímavý je že podstatě syntéza řečí je to _e inter disciplinární věc takže nejenom
signál procesing
ale máte tam tyto hry informaci máte tam největší _e začalo procesing takže věci co
dělá pavel smrž
_e fonetiku databázových systémech prostě tam to hromada jo takže se tam bylo zkopírovat soustavy
_e se říká historie asi někdy osumnáct set padesát první mechanicky syntetizátor proto jako jakýsi
varhany prostě mělo to padá pedály kroky a jakým způsobem
se tam simuloval lokální trakt a když ten člověk na to jako by hrál takovou
stupňů jako
jo tak tomu bylo to schopností za tady nějakou písničku
got se indukují
_e devatenáct set dvacet dva první nějaký primitivní elektrický _e syntetizátor
no a potom jak začali _e počítače ta kuš v podstatě se jednalo o nějaké
nějaké prográmky které byly schopny Ú řeči lépe mluvit
takle vypadá o ten dnes _e jeden
těch _e
první vokodérů
_e toto myslím že zrovna ten manuální to znamená vy ste měli nějaký zdroj
a boj signálu suše šumový generátor avoj signálu
nějakej
nevím
jak to říct
říkali tomu
nebo prostě něco co nějak učí
tak tady máte nějakou rezonanční komoru máte nějaký pedály kterým ovládáte vlastně ten shape ten
tvar trhu naší komory a na konci hotels nějakým svoloč
no tím nekrytej změníte ty klapky a tadyhle nějakým se dále měníte základní tón
tak
no to potom zní jako že
víte co je základní to
jo
dobře víte jo jak vypadá prostě hlasové ústrojí co se tam vlastně děje jo co
se všechno musí stát třetí mneš
to vypadne
zkusil vznikl jako řeč
zase že zase že
_e fajn
tak _e
takže použití nejednodušší použití jsou nějaký _e telefonní aplikace to znamená help lajny jakou centrála
klasické použití a dělá systému plechové úplně kam se dovolat _e citoval říkal značky to
jednoznačně tesla
obvykle to je všechno namluvení předem jo takže o to ani tak jako té tesco
není nebo
musí se to považovat za té tesco protože to podstatě někdo namluví jazyce to jenom
že ano nafláká se to za sebe jo ale může tam být nějaká elementární logika
tam můžou být nějaké inteligentnější S dialogové systémy banka včera to teda moc zatím není
že zavoláte _e prostě něco řeknete tam padesátkou který vám to rozpozná do nějakýho textu
takže se to zjistit podstatě zkuste řekli poskládat to oslovit se nějak vám to odpoví
syntetizuje tu odpověď aby si v podstatě
povídáte s počítačem
navigační systémy skautech zase relativně jednoduchý té terezko máte nějakou jednoduchou gramatiku X desítek stovek
slov a v podstatě vám to jenom nějakým omezeným slovníkem _e říct jestli máte je
pro mě nebo doleva
_e použitích počítačích
někde se vyhrabal že by měl velkou výzvy že dva tisíce čtrnáct bude na nás
pí síčko mluvit ami není budeme mluvit no už se to blíží zatím se nezdá
takže
ještě to bude chvilku pro nicméně google
se snaží rodila
dělat dost
no a
budoucnost
koukněte se na nějaký fi filmy
_e ačkoli se může stát že _e syntéza jednoduchá v podstatě je dost složitá a
to z jednoduchýho důvodu nebo pokud chcete mít hodně to budou syntézu
_e když si poslechnete nějak jakýkoli systém a on vám tam udělá nějakou chybu tak
si tu chybu prostě slyšíte to jako člověk
je tam něco jinak co vám nesedí
obvykle sou to takové věci které sou dost blbě pochopitelně jako je prozódie
to znamená
_e _m
ten počítač době klesne hlasem jo dá blbě při dá prostě něco takovýho
a václav to prostě tahá za užšího jevy to posloucháte a teď prostě to tam
jako
kladivem mlátila sto do hlavy jako že
to není vono
a pokud Š
eště k tomu ten hlas
zní jako opravdu blbě jako opravdu taková oba tak _e vám to začne dávat strašnou
námahu abyste tomu vůbec rozměry abyste jako s toho něco měli tudíž přestává to mít
ten člověk odjíždíte a vy se musíte soustředit na to co vám vlastně ta navigace
řekla
tak pak účtu pomalu nemá smysl jako suše možná lepší zastavit podívat se dozvím asi
jo nebo
prostě ztrácíte ztrácet textů písem trasy pro byste měli mít na to řízení a ne
na jste poslouchali
poslouchali neviděl
tak _e jak jsem říkal tesco může být primitivního systému že si nahrajete deset babek
a nějaké lety to dohromady po opravdu komplexně systém kde
_e ste schopni syntetizovat jakýkoliv text
to znamená nehledíte už na nějakou slovní zásobu
_e chcete syntetizovat běžný text to znamená složité se zjistí že tam máte nějaký věty
máte tam třeba přímou nepřímou řeč máte tam nějaký otazníky měli byste něco dělat základním
tónem
to pruhový takže v tomto případě to opravdu služ
tak struktur _e
někdo má nějaký dotaz
ohledně to je takle no
to začátku
jo takže se podíváme na strukturu jak takový systém většinou může vypadat
máte tam
takový čtyři základní bloky
první bloky textová analýza to znamená
vy nastup dostanete nějaký text
jo může to být to může to být nějaká webová stránka může to být prostě
knížka může to být
cokoliv něco se prostě textu
to vy nějakým způsobem musíte
prozkoumat zjistit jestli to má nějakou strukturu
eventuálně pokud to má strukturu tím myslím odstavce věty přímá řeč nepřímá řek
názvy kapitol třeba cokoliv
_e jaké zjistíte strukturu musíte se s tím nějak poradit když byste si vzali třeba
toho stránku a byla tam tabulka doby fajn i začít diktovacímu ty vybudit kteří
třeba teďka začíná tabulka a má čtyři sloupce api řádku jo a první sloupec a
tady začít jo takže už nějakým způsobem musíte to nějak uřež _e ošetřit takže
musíte to uzavřít do nějakých
dalších
jako by dalšího textu nebo další řeči oko nepopisujte v podstatě ten
já se tam nějaká textová normalizace
což není nic jinýho že když vám tam někdo nafláká tohle stojí sto dvacet pět
korun a tyto vypíše číslama
tak byste to měli asi říct jako by sto dvacet pět ne jedna dva pět
krčil sto dvacet pět korun
teďka máte český jazyk který se skloňuje a máte tam ještě budu přístup kus podnětem
takže byste měli se podívat i se vám tam sedí prostě pády jestli vám tam
sedí
tady tyhlety věci a už to začaly hodně složitý
a potom je tam lingvistická analýza takže ještě můžete začít zkoumat jestli jsou to graf
a
a další podobné nechutné věci jako že číslo si můžu stejně psát různě číst _e
můžu se
můžu mít _e dopad na kontext
jo to znamená
musíte podstatě pochopit N tak
pokud máte něco jednoduššího jako je zase nějaká navigace nebo
nějaké call centrům nějaký tady I D R
tak toto s trochou štěstí se na vynechat jo pokuď prostě máte ten textury dobře
vopravovanej
_e cache na to textu normalizaci toto by se dalo přeskočit jednoduchý při
to co by vám měla vypadnout je nějaký relativně čistý textu znamenáte který opravdu chcete
jakobín syntetizovat neměli by tam být žádný speciální symboly jaký dolary jo nějaký číslo prostě
text
tak máte fonetickou analýzu
teda to statis toho samýho textu vám udělá jakoby mluvený textu znamená vám z toho
udělá fonémy předpokládám že taky víte C F M
to znamená něja převede vám to byl nějaký sekvence jednotek který prostě členy jsou jo
takže nějakých akustický takových základních jednotek
toho
mám teda vypadnou fonémy které sou nějakým způsobem tak zvaný ten taking se jako vyváži
spi je tady k tomu textu to znamená mám říká
máte nějaký řetězec fonému
a on vám říká tady začátek věci tady je konec věty tady by měla jít
intonace nahoru tady dolů tady dej důraz tady bude delší pouze _e prostě nějaký tak
toto se
vlastně je vstupem zblízka analýzy která na základě těch stavů
rozhodne o tom jak je tam základní tom jestli D hlas nahoru
jestli ten hlas dolů jaká je tam vlastně jaká je tam prodleva
jestli se má vyšší hlasitost a jakýmsi způsobem na modeluje tady tyhlety tři proměnný to
sou podstatě při důležitý proměnný rychlost základního po u
to znamená jestli mluvím prostě hlubokým hlasem jestli dávám otázku nebo ukázku jo tak je
tam nějaký duration to znamená
_e člověk dává důraz když dávat důraz na něco na něco ve větě tak to
řeknete víc nahlas a taky to řeknete třeba pomaleji
jo a takový ty vy perníkový slova říká se prostě strašně rychle jo takže ta
věta má nějakou ta to tam obama nějakou dynamiku jo to sou takový to sou
parametry to nějaká spojit a spojitá funkce která by měla
by
víc modelována tady s téhleté prosecké analýze
no a výstupem s toho
Ú uši nějaký opravdu detailní popis toho co se má syntetizovat a to se pošle
do samotné syntézy troše nějaký jakoby signál procesing
který vezme tady tyto informace to sou nějaký prostě znaky nějaký fonémy a tady ty
kontrolní
kontrolní křivky
základního toho hlasitosti a vyrenderuje nebo jako kdyby syntetizujete vlastní signál
je to jasné
ahoj
tak teďka k těm jednotlivým bločků
jo tady je popsaný v podstatě co se tam co se tam je
takže textová analýza jak sem říkal
dokument structure znamená detekce
struktury dokumentu textová normalizace lingvistická analýza
obvykle
toto je věc která je jazykově závislá to znamená když budete mít českou syntéza logickou
syntézu potom musíte vždycky stavět solidní čili ten den s toho prostě
sem dál nehněte
jsou tam obvykle nějaká pravidla třeba pro tu normalizaci nějaké gramatiky
takže X to analýza
jak jsem říkal
snaží se porozumět textu
zjisti strukturu dokumentu takže máte kapitoly paragrafy tabulky
jo měli byste tam dat nějaký výtvarníky to znamená ten dokument třeba nějak popsat
_e rozdělení věc jo skončí věta skončí odstavec dat tam jakub
textová normalizace
de o
to substituovat netextové nějaké tloukli netextové znaky do textové podoby takže čísla data
jo máte dva celá třída celá čtyři nebo druhého čtvrtý třináct třicet nebo můžete říct
kliniku druhý
to závisí na
na tom jak to chcete pojmout zkratky B u tý nebo jestli to rozepsat jo
ne vždy ty zkratky můžou mít víc významů takže
takže jako do sepisování třeba
do konkrétního významu už může znamenat pochopit ten text koš
co Š je to složitý a pak korektně rozepsat danou zkratku
speciální symboly a samo o sobě matematičtí s matematické formule nebo nějaký chemický rovnice vzorečky
touž koje
celkem složitý
jo bacha za to některé jazyky obzvlášť čeština sou se skloňuje to znamená musí tam
určovat
určovat _e shoda přístup kus podnětem mapa
tady je příklad jednoduchý příklad nějakýho regulárního výrazu jaksi poradit _e s číslama jo takže
když máte jedničku a zatímco u
je nějaký čísílka tak to přepíšete na s po
nechali tam ty dvě další čísílka máte další regulární výraz který vám potom už předpisuje
tady ty
desítky a tak dále a tak dále teoretickou informatiku strofy měli takže víte co
víte co to obnáší
lingvistická analýza
jak jsem
říkal můžete mít slovo třeba banka nebo taky třech
že jo závisí prostě na kontextu takže pochopit
pochopit kontext
_e tady kdybyste si to chtěli představit češtině tak máte slovo nitromind monitoru
jo prostě píše se po stejně a vy byste měli když to syntetizujete říct tak
fotosyntézy zlatko vnitro nebo je kontra
nihilistická analýza by vám měla říct
_e H tak tady to s kontextu
ni pro tak tam bude asi
měl
zatímco pokud to tam budete mít prostě vokolo hromadu nějaký chemických sloučenin tak to možná
bude mít
jo takže to je prostě úkol lingvistické
_e důležité taky je tady že ona by měla pochopit podstatě o čem ten text
je určen je ta věta a dat tomu korektní takovou highlevel proslovy
u řeči se vám může stát že vy můžete mít ten samý text ale pokuď
to řeknou
řekne jeden člověk a dá tomu
dvakrát na tom pokaždé jinou proto B tak můžete totálně otočit význam té věty prostě
tím že a ty důraz nesprávně nebo na nějaký místo jiná
tak vy podstatě si můžete pohrát jakoby z _e
jako by s tím vlastním obsahem s tou informací o takže to takovéto je to
prostě
složité jo je potřeba jako to opravdu pečlivě
pečlivě tady toto řeší
fonetická analýza
znamená máte právě homo graf a takže slova který se
stejně píšou různě čtou snažíte se je nějakým způsobem identifikovat
of logickou analýzu to se vám může hodit později pokuď máte slova tak rozdělit na
_e rozdělit na
na nějaké kořen
předpona příponám že se vám to hodit protože super jakési slabiky je kissing které se
opakují
_e na konci let proto jsou to vržen to znamená
těch slov který tady generujete se snažíte tedy na konci dostat nějakou sekvenci nějakou sekvenci
ta příklad když _e tomograf disambiguation slovo street read
ba
B
morfologická analýza snažte se identifikovat přípony předpony
_e pro tu samou to znamená vlastně převod
písmen na nějaký fonémy
češtině to celkem jednoduchý protože češtinář foneticky jazyk tudíž _e máme tady pár nějakých základních
pravidel jako že
dvoji možná chvil
je tady něco takového co by měl odpovídat právě tomu v kuch
že třeba zase jeden znak to je jako by dva fonémy K V
když máte F háčkem a je předtím dotaz L nebo S
v podstatě svislou jako jo to je to iksko na
na X
pak máte s podobu smělosti to znamená že řekne když se napsaný svou bůh _e
takto nic tak to je čili neříkali bůh _e ale řeknu bůch
to znamená
mění se tam mění se to vlastně ta znělost
spodoba call artikulační že když máte buď písmenka to select obvykle lidí prostě řeknu jako
C
že Č S
jo banka takže nosovy _e
ale je to relativně jednoduchý prostě pár pravidel je to unk jo když ste v
angličtině úst na to podstatně hůř protože
tam se
každý slovo čte trošku jinak ta motion se to třeba neřeší pravidla máme řeší se
to
vyloženě statistický takže máte nějaký máte nějaký účinek
_e obvykle se používá nějaký konečné stavové převodníky
kdy vstupem je právě psaný text výstupem je statistický nějak
sekvence fonému k
kde se říká že tak to asi bude znít jo sou tam občas nějaký
tak _e nějaký dotaz tady k té první
krabičce
tak pokuď se to všem jasný tak se podíváme pro na pro matickou analýzu to
znamená tady se snažíme podstatě tomu nějakýmu opakované sekvenci fonému
přiřadit
vlastně hlasitost
to znamená jak nahlas
ten
počítač bude mluvit
nějakou konturu základního tónu to znamená jak vysoko bude ten hlas posouzení a nějakou rychlost
jak se to jak se to dá dělat svou
metody
například
sou nějaké akustické metody které vám
vlastně vemou ty jednotlivé tady
a uloží vám vloží vám
do nějakého konkrétního času
té věty vám vloží nějaké události které říkají tady bude důraz tady bude prostě zvýšení
základního po jaké diskrétní jednotky
no a pak se to pro ženy nějakým filtrem a ono se vám to krásný
vyhodí a to se použije druhá možnost je želíz detekujete
nějaké důležité částí nějaké
valí s nebo nějaký os to znamená kde tenhle
jako by má vrchol třeba základní to na kde má naopak nějaké není
jo vypadá to takto to znamená
vy máte čas takle vám plyne nějaká ta věta tady vám to říká
tady bude tečka prostě zvýšení jako základního tónu tady bude druhý a tady se na
konci věty takže ten za sedum
pak máte druhou druhé nějaké údaje které vám říkají něco akcentu takže třeba
třeba že ten člověk nemluví jako by
čistou češtinu ale že třeba _e ze slovenska nebo s poukázek že má prostě nějaký
cen takže toto můžete doplnit nějaké
nějaké podružné
podružné informace
no pak to pro ženete filtrama sečtete dostanete s toho nějakou takovoudle obálku
základního to
jo druhá možnost sou právě tady ty eval E s hýrous to znamená máte nějaké
důležité informace
máte nějakou obecnou kulturu té věty jako že by ta ten hlas měl postupně klesá
to držet se v nějakých limity
no a na základě toho vy tak vygenerujete
vygenerujete nějakou křivku
toto je _e
lo based nebo nějakými pravidly řízení _e řízena vlastně
syntéza
prozodie druhá možnost je že si můžete posbírat spoustu dat
a na trénovací nějaký statistický model
takže prostě víte
tak jak rozpoznávat _e řeč tak v podstatě nebudete rozpoznávat jakoby _e ve signálu
do nějakých příznaků ale budete rozpoznávat jako B S
s průběhu základního tu nula a hlasitosti
na
nějaký maslowa mazdu právě takovýchto podobných parametrů a ta převede to statisticky
tak
další bloček
poslední je syntéza vlastního signálu
to znamená teďka máte fonémy a máte nějaký máte právě nějakou obálku základního tónu a
už jenom potřebujete vybrat vlastní jednotky dva máte nějakou databázi jednotek můžou to byt fonémy
cokoliv slova
a potřebujete jenom ste databáze vybrat vhodný jednotky získaných signál se tyto dohromady zas tomu
nějakou obálku základního tomu a
máte řečový signál
jaké použit jednotky
jednotek je
spousta můžete život těch nejjednodušších co sou nějaké a ufony
přes fonémy
pak jsou to například by von i koš sou
co šest jednotka odpůrci jednoho fonému do půlky druhýho fonému proč je to odpůrci do
půlky je to kvůli tomu že
_e ten fonémy uprostřed stabilní
jo když máte nějakou samohlásku _e tak na prostě uprostřed
bývá stabilní takže ty jednotlivý periody základního tónu se moc nemění zatímco když přecházíte z
jedno fonémů do druhýho tak je tam nestabilita a vy potřebujete právě zachytit
to nestabilitu zatímco když to lety to dohromady tak to bude ten připravit těch stabilních
částech to znamená těch koukání von
ideální je použit ještě nějaké další jednotky takže třeba něco postavy na slabikách nebo slovech
dělali celý věty potom můžete prostě
_e cílem je nějakým způsobem z minimalizovat počet konkatenací znamená pokud se bavíme to davu
koukat relativní syntéze
takže počet míst kde se spojují kde na sebe navazují nějaký _e nějaký části signál
tady
tabulka jednu jednotek
to znamená můžete jít od nějakých se třiačtyřiceti jednotek po hash nějakých
stovky tisíc co se týká slov
kvalita čím cvičení další máte jednotky tím máte větší kvalitu protože
máte tam Í nějakých přerušení
máte to také ale náročnější jakoby _e na paměť nebo na databázi
a stejně se vám může stát že budete něco vo který nemáte jakoby databázi to
že budete muset syntetizovat
nějakým
takže je rozumné mít nějaké slabiky nebo nějaké jednotky kterých máte rozumný počet a ste
schopni s toho jako by vždy kdykoliv slepit
slepic _e jakékoliv slovo
tak výběr jednotek
pokud se bavíme okoukat relativní syntéze s _e vlastně přístupy
syntéze můžou být _e můžou být dva
jedna je takzvaná koukat relativní druhá je formantová takže koukáte nativní syntéza je
tak vy máte právě nějaký
jednotky v databázi
a v je prostě lety to dohromady jo takže tak takhle fungují takle fungují call
centra fungují ideas systémy funguje vaše navigace
jo máte tam prostě nějaký jednotky nějaký slova ten slovníky omezené jo
jenom se to lety dohromady
_e ta formantová syntéza funguje
funguje vlastně jinak to funguje tak že máte nějaký model řečového traktu
máte tam spoustu parametrů
a vy podstatě jenom měníte nějakým spust pojď tím způsobem
s tu
jo to znamená máte tady nějaký buzení zas tady máte nějaký parametr základního tónu máte
nějaký generátor impulsů pak máte
tady nějaký _e generátor
_e šumu
no a celý to prohání ty nějakým strašným filtrem
tedy má simulovat _e licky
historické hlasové ústrojí a ven vám vypadne řečový signál
jo takže tady v podstatě na měníte nějakým způsobem kontinuálně parametry a ale ne nepijte
dohromady žádný znak
takže pokud meste konkatenace ty nyní syntéze tak
jak vybrat jednotky
ideálně si necháte od někoho nahrát
pár hodin pár desítek hodin řeči to znamená někdo sedne a bude vám tečka číst
nějaký texty
vy to musíte přepsat
pokuď máte nějaký řečový nástroje tak _e tři provedete automaticky zarovnání to znamená vám
co jela jmen víte
zarovnání fonémů
když _e máte
_e rozpoznávače řečí a vy musíte jakoby manuální přepis tak můžete přepnout do modu že
obama bude rozpoznávat slova levou veme ty slova kterýmu dat jako bratrův a jenom vám
prostě ty slova přesně zrovna na ten signál tak jak se mu nejvíc líbí že
tam jsou
tudíž vám automaticky řekne která část signálu odpovídá jakým von
jo a pak vy to můžete už jenom rozsekat jo že to nemusíte všechno dělat
ručně
když jsem teda dělal svůj diplomku tak sem to všechno dělali čísel tak měl jsem
asi tří ty nějaké řeči že to celkem šlo to
pěknou pro
jo takže máte nějakou řečový databázi necháte máte k tomu přepis musíte k tomu mít
hranice jednotlivých slov nebo fonému
toto nějakým způsobem
za indexuje té
pokuď máte tu možnost takto můžete nějakým způsobem prozodicky olej bilovat takže můžete si k
tomu nechat informaci jaká je tam výška základního tónu hlasitost
a
potom když se snažíte jednotky
vlastně tvoří syntetizovat
tak
se snažíte zajistit to aby to syntetizovaná jednotka
kterou vy chcete vyprodukovat byla co nejblíž tady ho přesouvat databázi takže to může bejt
nejenom jako že foném _e by měl být
honem a ale ne jako že tam bude éčko
ale že by třeba hodnotou základní oponou takovou jako vy chcete syntetizovat by měla být
co nejblíž protože jakýkoli změny který tam provádíte
máme na je že můžou být potenciálním zdrojem nějakých problém
a potom se snažíte minimalizovat nějakou vzdálenost mezi vlastně tu konkatenaci to znamená snažte se
dívat aby ten kontext když tady máte třeba foném a
tady máte foném byl
tak
abyste databázi když tady byl taky foném _e tak za ním byl opravdu taky ten
foném byl protože když by to bylo třeba von N T
tak _e
tady bude zní trošku jinak a potom když to slepice dohromady tak
to bude znít
potom co vlastně vyberete takto jednotky ta kuš provádíte nějakou
vlastní syntézu to znamená kuš
sáhnete do databáze vemete si ten signál se pěkného dohromady
pokuď máte nějaký parametrický model tak tam nemáte v databázi uloženy vyloženě signál vyloženě ty
vazká ale něco co vám to popisuje takže nějakou nějaké spektrální koeficienty cokoliv to pak
slepice dohromady a
syntetizujete to
toto je formantová syntéza v dnešní době už se to takle jako moc nepoužívá
na druhou stranu _e z poslední doby se začaly objevovat _e syntézy pomocí ničem N
to znamená je to s něco podobnýho je když máte rozpoznávač
tak _e v podstatě
zase máte nějaký syntetizátor které máte nějaký model který vám kteří vám generuje parametry
parametry pro
jako by nějaký takovýto
takovýto mechanismus který fotosyntetizujete vlastně signál
plus v podstatě říkal tady je no
takové zajímavé zamyšlení
jaká je závislost podstatě kvality výstupů na
množství
nebo na
na množství nebo na rozptylům mezi kvalitním Í a málo kvalitními segmenty
jo ta formantová syntéza konkrétně to má tu výhodu že ten signál zní
furt stejně kvalitně ale to stejně blbý
jo zatímco když máte nějakou konkatenaci ní syntézu tak můžete mi
hodně dobrou kvalitu ale stává se vám že máte jakési procento
_e vygenerované řeči kde prostě to skřípe protože to tam zrovna nesedí ty jednotky a
a
tak je to tam slyšet nějakým pan se nebo prostě spojitosti
metody vlastně vlastního nějakého spojování můžete
spojovat čistila sklad souš
není zrovna ideální protože máte nespojitosti signálu
můžete se snažit nějakým způsobem překrývat
o uhodla to znamená uhodla pova a ideální je nějakým způsobem zařídit aby to bylo
synchronizovaný základní pouze
protože když byste to překrývaly a synchronizovaný to nebylo tak _e tam pak vznikají
vznikají nespojitosti
a úplně nejlepší je když se použije nějaký motel to znamená nepracuje se z vlastní
basket a začne se pracovat s nějakým parametrický popis entry vám říkala jaký sou tam
jsou tam vlastně parametry nějaký frekvenční parametry
toho signálu což podobně třeba nechce céčka nebo ty opička
prostě jsou tady nějaký parametry a ten mobil vám říká
jak to vypadá
tady je příklad
tady je příklad nula to znamená odhodlat _e do
kdy máte nějaký v asko
a vy chcete
toto v lasko
zrychlit dvakrát
jo to má máte nějakou řeč a chcete aby to bylo řečený dvakrát rychleji
jo nemůžete to udělat tak že zvednete jakoby že to přehled dvakrát rychleji pak to
zní jako četnost
jo takže
to co uděláte
nejprimitivnější je že uděláte si tady takový okýnka jo jak tady vidíte
no a ty okýnka vpodstatě tak to jako by na ni znáte
mít k sobě
no a každý to okýnko jako bývá potřebuju schovaný to jeli váhovací okno
jo
znamená to má potřebu jakoby schovaný ten signál no a pak to jenom sečtete ale
jak vidíte když se tady podíváte tak máte podstatě ty špičky základního tomu máte tady
tak jako dost blbě
jo že tady v tomletom úseku to vůbec neodpovídala bude to tak todleto _e
jo vy byste chtěli aby byly pěkně
pěkně pravidelně od sebe
jak tomu zařídit to jak to zařídit aby to tak bylo je právě
_e sola to znamená když synchronnost takže vy synchronizujte tady tyhlety okýnka
jak máte
tyto body takový synchronizujte tady sme špičkám a základního to
jo a pak když je chcete jako by ten hlas dvakrát access i tak můžete
třeba každý druhý vokýnko vyhodí
no a dostanete v podstatě dva krát rychlejší řeč která zní jako dobře
jo což
toto by se mělo dít pokud máte nějaký jen plechem enkodéry který jakoby umí nebo
jiný turína editování
který umí jakoby zrychlit zrychli ten daný zvuk aniž by ho jako by sekvenčně frekvenční
poničili tak dělají většinou tady toto jo takže prostě si tam udělal nějaký takovýto
takovýto okýnka
to třeba půlku vyhlašuju a
tyto
jo to znamená tady jenom nějaká funkce která se snaží jako by
mapovat původní
nějaký signál a signálový
to znamená vy tady vemete nějaký okýnko
na s touto periodu základního tónu máte takovýto signál
a pokuď chcete
tohle naopak slouží k _e prodloužení
řeči
pokuď chcete
_e pokuď chcete
vygenerovat nový signál tak si musíte jakoby měří vygenerovat nové periody základního tomu
a jim potom přiřadíte s toho původního signálu nějaký
ten signál potím okýnkem
a nakonec to musíte všechno složit dohromady
no taková trošku drsněl a na potom ušet právě parametrický model to znamená tady třeba
harmonik N plus model který funguje tak že
jak máte řečový signál
tak ho rozdělí na harmonickou a šumovou složku
jo dá se určitě zhruba do těch
čtyř kiloherc vtom signálu převládá harmonická složka to znamená to co vlastně signál který je
tvořen zejména
jako by kmitáním hlasivek a nasednou rezonanci dutině ústní to co je vejš potom už
většinou bývá a šumová složka jo takže to je prostě různý takový téhož
_e
takový prostě signály který mi nemají zdroj
_e klasická
jo takže vy můžete vzít spektrum nějakého řečového signálu takle to třeba pěkně rozdělíte říci
fajn
tady od nuly do čtyř kilo hertz to budu
_e to budu
modelovat nějakým parametrickým modelem
a o čtyři vejš to budu
modelovat nějakým
nějakým šumový model N ten šumový model může bejt jednoduché jak to že si uděláte
jenom
jako obálku jednoduchou obálku spektra potom hrozí té šumavy
generátor potom dostanete ten samý signál
samozřejmě to proč se to tady musí dělat _e s modelovat tom vlastně v tom
harmonickým
harmonické části parametrický je
nevím jestli ste brali
_e se tam
tady honza černocký říkal něco o percepci
lidský ucho je tady vnějších
nižší frekvencích citlivé žirafa
jo to znamená vy ste schopných určitých frekvencích poznat třeba že vám nesedí fáze
složku vyšší frekvenci je _m úplně jedno
jo tam když prostě byste syntetizovaný a tady byste
dali
já nevím šest kilo sedum kilo a dali jeden signál a pak sedum kilo posunuli
o půl fáze
o půl P třeba dopředu nebo dozadu tak trochu to nepozná zatím což byste to
syntetizovaný a tu fázi posunuli tady nějaké frekvenci tak vám to menu když lidi
_e tou plochou prostě to pozná jo takže proto metod tady takové
citlivější
a teorie tady zatím harmonický modelem je takže
vy podstatě si musíte
_e zjistit základní to a pak říkáte že
s klasická _e vám
se neděje nic jinýho než že ten základní toho nějakým způsobem rozhoduje o vznikají tam
harmonické nás
znamená že zjistíte základní tón ten budiž třeba sto herců no a pak
s toho spektra který tady vidíte nějaké
_e s nějaké krátkodobé spektrum
tak si vemete všechny násobky základního tónu a pro ty si zjistíte jakoby hodnotu frekvence
jo
a
ne různé hodnotu sekvence ale _e
amplitudy to znamená něco zastoupených to všechno
nakonec to můžete proložit ničím červeným soše nějaký parametrický model podobně to bývá únosce teče
a máte něco co vám říkal diskrétní kepstrum to znamená ten máte něco co modelujete
všechno
toto
tak jak se to tady viděli tak vy toto provedete pro každý třeba zase deset
milisekund jo nebo nějaký dvacet milisekund signálu
a pokud máte databáze kterou chcete syntetizovat máte tam ty jednotlivý fonémy jednotlivý jednotky
tak máte pro mě zase nějaký rámce a vtom těch rámcích máte uloženy parametry který
vám popisují tady tuhletu obálku spektra plus třeba tadyhle ten filtr který vám zařizuje
tady ty vysoko
vysokofrekvenční složky
řeči
potom pokuď chcete syntetizovat a chcete jako bitu řečnění to znamená chcete říct fajn proč
mám nějakou promluvu a chcu aby to
mluvilo třeba dvakrát tak dlouho nebo chci aby to mluvilo se základním tónem o
jeden a půl násobek víš
tak to co musíte udělat je že musíte vzít
v podstatě ten původní signál říci fajn tady mám nějaké okamžiky
základního tónu
rok které mám ty parametry v řeči
to je tady toto
a pokuď chci aby to znělo jako by
dvakrát tak vysoko ten hlas takže by to prostě neznělo ahoj ale bylo to ahoj
tak
vy musíte mít dvojnásobný počet
period základního tónu rozumná máte
máte dvojnásobnou frekvencí
takže uděláte jakousi mapovací
mapovací funkci která vám říká
jaká ta nová perioda dědí
informace z nějaké kterou už máte jo takže tady vidíte že v podstatě rozhodněte
rozhodujete
kterým si to znamená tyhlety dva periody mají stejný jako by signál
stejný parametry jako tady tak
no a jak máte tady tyto informace tak pak můžete spustit mašinku která vám zpětně
syntetizuje s těchto parametrů vám udělá jako by to masku
jo a dostanete signál který třeba mluví vyšším hlasem v tomhletom případě mluví pomaleji
jo tady zas vidíte že vám
ta délka toho
základního ptal délka periody je stejná
jo až na to že jich máte víc jo takže prostě se vám natahuje čas
chápete to tady ty obrázky dává to smysl
nebo to set utratili
no to necháte
jo na ose X máte čas
_e zkusíme se
kreslit je to nádhera
tady máte čas
s tím
_hm
víte někde předtím kreslí
no
tak to zkusíme klasickou metodu
značeny
takže máte signál
řečové který vypadá nějak takto
jo měli toto sou
jednotlivý periody základního to víte co
jo
víte co to je dost kdo neví se perioda základního to
kteří se potupil neusmívajíc takže nevím jestli ví nebo neví
do toho neví
toto vy
kdy
jo což je tady ta jsou tady ty jedničky
vy pro každou tuto periodu
můžete
si říct pro tuto periodu mám nějaký takovýto signál
tedy můžete tak jako by nějakým oknem vyvalovat takže vám s toho zbyde něco takovýho
jo
pro tento signál vy můžete udělat takovouto analýzu uděláte si spektrum
jo dostanete něco takovýho co vidíte
ztište si víte že základní tón
to si spočítáte tady jo víte že tady máte prostě X samplů takže víte že
základní tón je tady sto herců
takže
uděláte si tady ty zelený
zeleny násobky spočítáte si
frekvence pro
pro vložíte toho nějakým modelem a máte nějaký parametry jo máte tady nějakej vektor parametrů
který vám popisují
tedy zpětně z těch parametrů můžete zpětně se syntetizovat přesně tenleten kousek signál
jo máte tady nějaký čísel
to máte pro každou periodu základního to
no a teďka V pokuď chcete aby ten signál měl
měl byl stejně dlouhej ale měl jakoby základní tom dvojnásobně vyšší
jaká musí bejt perioda
základního to
když chcete aby sekvence byla dvojnásobná
tak jo to znamená váš původní váš novej signál by měl vypadat prostě nějak takto
jo takže
v podstatě by to mělo odpovídat takhle nějak
jo takže tady bude vždycky jakoby navíc nějaká perioda aby jenom to co musíte udělat
i vy musíte si nějakým způsobem zjistit kde já vemu parametry tady téhleté periody která
jako by je navíc v tom původním signálu není nejednodušším způsob je že to prostě
nějakým způsobem namapujte na ty původ
že řeknete fajn tady tahleta
perioda bere
tyto parametry tyhlety dvě sdílí
to samý tady tahle zase třeba by odsáď
a tak dále
jo na naopak zase pokuď chcete aby ta řeč aby ten základní tón byl stejnej
ale trval dvakrát tak dlouho takže aby ten člověk úvěru
pomalu
tak
s periodou základního tónu neděláte nic
protože chcete aby vyčkal osobnost A na ale pouze třeba každou druhou periodu zopakujte znova
jo čímž pádem tam jako by to dáte
dodá teda no na tom
tu časovou
složku jo takže to bude potom
vypadat
vypadat takto
že to jasnější co se tam zhruba děje
jo a tady jak to vypadá prostě nějak obecně jo přičemž si tady ještě to
budete takovou věc a to že pokud by se netrefíte přímo do nějaké
periody základního tónu takový ty s vy ty
vy si to můžete to počítat takže uděláte nějakou lineární interpolaci
jo aby to bylo ještě takový lepšího ale
_e jsou
detaily
tady příklad jak to vypadá to znamená pokud na ten harmonický šumový model
černý signály ten originální a ten červený R syntetizovaných jo zná vidíte že tady ztrácíte
jakousi informaci jo která
která se vám ztrácí díky tomu že vy to spektrum tady prokládat _e nějaký model
ale jinak
to je celkem blízko
jo takže když
syntetizujete bez jakýchkoliv modifikaci vypadá to takto pokud dáte dvojnásobnou
frekvenci základního tónu tak vidíte že vám tady přibyly
přibyly
erozi základního tónu naopak když dáte poloviční tak
vám tady zase chybí
tak _e na závěr
evaluace můžete
můžete to nechat nějaký lidi poslouchat
můžete
zjišťovat jak funguje jednotlivé systémy a kvalitně fungují
jak je vlastně jakoby
ta
řeč generováno S srozumitelná jestli ty lidí a kojetín potřeba nějak vadí že jsou tam
chyby
nechat otestovat
tak co se týká nějakých praktických věci
upřímně řečové to tady takovéto trošku starší slajdy takže nejsou to úplně nejnovější věci
_e určitě epos systém by měl být _e pro res pro research zdarma je to
za karvinný vět český
speech texasu kolegové z plzně
dělají já tady za chvilku něco pustím
takže ty mají něčeho syntézu já jsem dělal jako diplomku plus potom byly nějaká jedna
dvě bakalářky nebo taky diplomky
festival _e
edymburku je velmi dobrý
ty mimo jiné sis
se teďka dobře viděl tak se snaží vyvinout _e tesco který by bylo jazykově nezávislý
s tím že už tam taky používají právě halenka to znamená ušet o
zase o něco dopředu
že celkem
celkem fajn kdybyste měli rozvalem _e jako by vás toto téma zajímalo tak se o
tom dá udělat velmi pěkná bakalářská určitě
určitě diplomka jako je tam spousta věcí
nějaký dotazy
obecně něco co nechápete
nebo chcete nezřetelně sotva zajímá tady s tohoto
no zpěv _e
tam je to takový jako tam je to složitější sou nějaký peterka nebo s určitě
jako výzkumně byly nějaký
nějaký pokusy jako že zkoušeli kartézském něco zpívat
ono se to i dá jo tam je nejhorší _e tam asi naprosté budeme horší
že vypotřebuje ten do dobře mít odhadnuty ty parametry
_e prozodie jo to znamená těžko budete mít teďka systém kterým předhoďte text a on
vám to zazpívá eventuelně text a motyl mám to odzpíval
jo ale samozřejmě že to znělo pěkně ale ty lidi si s tím strašně hráli
protože prostě ruční hladivých doprovodný ale diví teďka prostě má být nějaký vibrátory takový ty
věci jo takže
jo takže jako v reálu v reálné jo real prostě nějaký opravdu systém který byste
k abyste bodě text a hodnoty nebo něco takovýho tak to není
jo ale
jako nula se prostě ukázat jo tady nám to krásně zpívá ale sou zatím se
práce jako drbání se
se s parametrem ano takže
někdo i na další
no nějakou za mu ta
tak _e
tady můžem zkusit si něco přehrát
tady do sme diplomky
a ty k té služ
popravdě ani nevím co to je možná ten moc frčky systémy
po kartotéky sou cvakání těch sloupu kouzelní ustavena
takle mimochodem zní
syntéza když tam nemáte pro shodný znamená máte jakoby rovný
na první základní to
jo v podstatě tam jenom myslíte mydlíte
_e
mydlíte jednotky eště by řek že toto není ani konkatenační jo to vypadá že vypadá
_e že to je na nějaká ta
takové té šílené diagram s těma
s tím filtrem
česká republika je maličká nic samotném se výchylky
po akademie věc ten jo ten obvod a bobek gisů dva králíci sklo kluků kouzelníka
pokus tu na
tam už máte nějakou pro vhodný jo tam už když posloucháte tak _e push to
tam prostě i klesne jako by to
blok a bobek lidi sou dva králíci sklo kluků kouzelníka pokus tou na
_e řekli že tady téhleté době oni měli bych formy jo to znamená měli jednotky
jak se vám
jak sem vám říkal
jo když máte prostě nějakou
nějakou řeč máte tam
ahoj
jo takhle máte zarovnaný ty fonémy
tak ten kdy von vypadá takto
jo to znamená když von jako
jo ale sice to jako by
takle to napište dohromady
jo to znamená
uprostřed jakoby fonému to vždycky rozseknete tam kde to jest
poté co primi děr vladimír šídla zakázal ministrům cestování v dob
byl ještě špidla první
tak budou a
to je něco zahraničního
ale byly tam česky ukázky
to je zase inte nějaké rozšíření psovi jo znamená zase tam volal že ohodnocen at
a je tam nějaký
je tam nějaký US příměří co nepamatuju jaký rozšíření
bojím o nějaký lásku řeči nějakou tady tyhle voják a nevíte nebo jitka
jedna chudá že na mě na jedinou ale to dělení proud směru
jo poštovního něco líp ale
tak to by speech tech tak to je slovně ale to je
tady _e roku dva tisíce čtyři bot apotéky jsou dva králíci s klobouk
česká republika je maličká zevnitř samotném
no asi tomu nuly jako na konci
tady nějaká moje
moje diplomka
a bobek jsou dva králíci
oblouku kouzelníka
česká republika je maličká země samotném evropy
no neměl jsem jednotku neměl sem neměl sem jednotku pro srdci
S
hra teda sem to psal delfín ještě
ahoj jak se ti vede dobře a co to je ale nestojí to za nic
myslíš že dneska bude něco televizi nevím
tady něco festivalu to znamená _e edymburku
on chuck se sice
jo dobrý tak se stal jel nestrčil stanek
nesoucí dneska během sionistka do vězení
emise je
tak to vypadá když narvete český tektonický otec
líbilo jsem sme deleted vylézt Y N párovým na todlento vylezla jsem se
majestát není
se lépe fungovalo jsem stránku jasem ta těch compete
_e s tam umět co jste slyšeli tak tam právě bylo tady to _e harmonik
employs model jo služ
no to sice taky neznělo nic moc ale aspoň to dokázalo že
tím hlasem syčet dokázal fakt vyhrát o důkazu to mi
i různý
velký proběhnou příklad abyste věděli jak to jako pustím dohadovat období války třicetileté
stěnu měla příznaky vzorek metody jako jaksi můžete pohlo vlastně s _e střevo prom eprom
odezva kromě toho povrchu
o dva a třiceti letech
bylo to že to můžete zrychloval můžete tu
povolovalo od dobývá třicetileté chodu _e
vyšlo základní to
o dva i si cíle
_e
o _e ve _e
takže s tím zábava
love se může mrknout jenom jak to vypadá blesklo
tak to je sou na příkop hodnot si
tady no ty starý
_e ještě starali syntéze osoby už bylo no koupit jako phongovo prostě
toto je ukázka českého syntaktického hlasu firmy speech tech
_e to vyruš to potom to obyvatel se zlepšit že soubor kouli mobilitu že strukturní
jako fotky
toto je ukázka českého syntetického hlasu firmy speech tech
to co to jsou se tu ku co to sou
toto je ukázka českého syntetického hlasu firmy speech tech
toto je ukázka českého syntetického hlasu firmy jí speech ty
příliš hloupoučký ku výhodná selské vozy
takže to posunulo se sepne soukromý full contact vy
zahraničních _e
třeba to tohoto chodilo pro tu jazyky tady bude třeba
roky jo když ho služko násobenou zkoušel jakým funguje prohovořil takže
takže sto osum když to jako že to jsou číslo toho jo je tam jedna
chyba
jak se to něco blbě prochvalně syn s tím
protože com
ahoj
ahoj
ahoj
deset metrů desátý metr
sem českých naspod a kapely
tato syntéza řeči je rychlá efektívní a na délku kvalitu
zkuste si nechat přečíst tvůj vlastní text co se hodí tvé aplikaci
takže všechny slyšeli efektivní
takže _e tomu se ještě zapracovat na
převodu grafem budov onen
takže můžeme si to je zkusit
_e k ještě
a je třicet mail potěšen když moji se základce jo žhavit řádu těle přes
takže jako v dnešní době bych
tak jako řek že
intel solutions celkem jako pěkně
pěkně zmáknu ta
tak nějaký dotazy
něco co vás zajímá na toto téma nebo jakékoliv jiné
tak _e tak
zkusím mluvit trochu
mírněji raz dva tři jo
tak víc vítejte vítám vás pěkný podvečer poslední přednášky
_e doufám že vám igor dál takové ty
administrativně technické informace jako že sem ještě nestačil opravit ten projekt jsem nestačilo zadat ten
projekt a tak dále všechno vám řekl jo musím to opakovat příští týden hnedka pondělí
se uvidíme na zkoušce
_e
jak to bez materiálu je povolen jeden jednu listový dvou stránkový čičí
tak se sem zvědav na ty několika vrstvé _e designing se na to těším
_e
poďme tady teďka k tomu numerickému cviku byl to že sme si vlastně během semestru
moc _e nezapočítaly tak se to snažím dohonit teďka touto tohoto srdeční
která bude trvat tak ní
hodinu máš hodinu a půl
podle toho jenom to rychle půjde na webové stránce máte _e zadání toho numerického cvičení
a kupodivu tam máte i poměrně pečlivě zpracované řešení
takže tam kde _e _m prostě to bude no opakovat _e že vytištěné řešení tam
pojedou relativně rychle
možná jako si _e _m to uděláme trochu víc do hloubky nějakých problematičtější věcech
především
tak je tam třeba někde deter dete véčko _e a asi trochu podrobněji vezmeme skryté
markovovy modely
tak poďme _e pěkně od začátku první část se týkalo pocel
máme zadány nějaký signál který má C dvanáct vzorků
_e nula celá sedum set sedum a tak dál a tak dále vidíte že to
vlastně bude
to je někde pěkně nakreslený _e dělá nám to pěkně _e
jeden a kus periody
sinusovky
a prvními příkladem je zda je možné tento signál vyjádřit analyticky a pokud ano tak
jak
takže _e se třepnu do toho no látka signál si ještě jednou nakreslíme
a _e vem řešit jo
vlož
toto je osa N
toto je signál X N
příklad první _e vzorečky padají takhle nula celá sedum set sedum jedna nula celá sedum
set sedum
nula
_e mínus nula celá sedum se sedum mínus jedna a tak dále a
skončilo to
třemi
vzorky
A vypadají na
takhle
tak _e
vzorky nula jedna dvě tři
sedum
osum devět deset
jedenáct celkem dvanáct vzorků
vidíte _e
přímo jaksi syn bystrým pohledem že to sinusovka že jo takže pro toho kdo to
úplně zapomněl
že tady napíše sinus
a teďka jaké medvědech budeme prakticky below doplatek na druhou do klapek a budete přemýšlet
co vyplnit dovnitř jo zkusíme to datum dohromady úplně z hlavy
bez nějakých pouček abyste vazby aniž by sme si museli pamatovat moc nějaký vzorečku
tak toto je závorky asi tak přinde
N určitě že jo
protože to je čas
co jinak
asi jo
pro dvě pí
dobrý měřit a co ještě dál
technika vám poradím takovou fintu
sinus je goniometrická funkce a pokuste dobře poslouchali na základce nebo na střední škole tak
dělá jednu periodu za dvě pí
jo když se podíváme _e
kolik mě vlastně trvá než tady ten signál udělá jednu periodu tak to je osum
jo to znamená _e já teďka tam mám sinus dvě pí
a za jednu periodu tam pravým číslo osum
co snědá šestnáctý
a to je nějaký moc rychlý
takže tam budete muset přidat to čísílko který
udělá tu jednu periodu přesně po osmi vzorcích a té čísílko lomeno osmi jo takže
vidíte že sme to dali dohromady
jaksi _m
_e lidskou úvahou bez nějaký vzorečku fajn
máme litický zápis tady toho signálu
a pudeme dál
_e
spočítejte energii signálu
staženou na jeden vzorek
jak se to dělá
jo
všecky vzorky na druhou a když to má být stažené na jeden vzorek když to
tady takhle říkám explicitně tak
tak asi podělíme počtem vzorků že takže kdyby někdo chtěl ochromovat
tak dokonce můžeme napsat _e nějaký vzoreček že jo S rovná jedna lomeno N
sumu X na druhou N
_e do té sumy můžeme dat třeba žena pojede vod nuly do jedenácti
a kolik to asi tak bude
zkusme si psát nějakou taštičkou tady hodnoty na druhou tak nula bude asi nula to
je jasný kolik je nula celá sedum set sedum na druhou
bacha macho
jedna polovina jo nula celá sedum set sedum je
pokud se to dobře pamatuju jedna lomeno odmocnina ze dvou
jo takže tady to bude _e jedna polovina to nebude jednička jedna polovina nula
na polovina jedna polovina víte že tam nepíšu žádný záporný znamínka protože to je na
druhou jedna polovina shrábnu tavidlem a
_e ráz dva tři a raz dva tři čtyři pět šest
tři plus šest _e polovin je tři a tři
to bude asi tak šest
ne
zkontrolujte mě prosím vás
já jsem taky vyčerpali na konci semestru
takže šéf děleno dvanácti
a _e budeme mít tedy energii staženou na vzorek jedna polovina byl zatím nám to
de úplně krát
_e teďka
spočítejte průchody nulou nejprve pohledem a potom matematicky
tak pohledem na obrázek budu mít těch průchodů nulou kolik
no a nebo taky dva podle toho jestli se tady ten první
jestli ten první počítá že jo _e to je otázka rozhodně tady ta funkce prochází
nulou tady prochází nulou
takže
_e
dobře za třetí
průchody
dva nebo tři
teď K V si to poďme zkusit spočítat také můžete jak by to počítalo nějaký
_e algoritmu
a _e průchodu nulou sme měli takový _e
postup že sme brali jednu polovinu
sumu
muselo se jít od jedničky až do konce signálu
a teďka pozor teďka tam byla L _e znaménková funkce signum
_e vzorku
současného
mínus signum
vzorku minulého
a tady tohle celý bylo uzavřených absolutní hodnotě
tak to vypadá hrozně _e hrozně vědecky
_e poďme si pots ten signálek který tady máme návrh nahoře
namalovat takové absolutní hodnoty
a asi by bylo dobrý si dodefinovat absolutní hodnotu nuly
protože nulou to nebude úplně dobře fungovat _e rozhodneme že nule kladný nebo záporný číslo
kladný tak jo
dobrý nula jeho teďka kladný číslo
tak _e ty _e Í signál nebo _e nebo absolutní hodnotu teda v _e pana
znaménkové funkce budou tady jedna
jedna
pořád ještě jedna mínus jedna mínus jedna mínus jedna
jedna
jedna jo tohleto je funkce _e signum leze signálový
a teďka mě řekněte jak mám _e implementovat tady tu
to je to děsně
složitě vypadají ty závorku
pojedu po signálu že
vždycky se zastavím nějakým vzorku N kouknu se doleva
a odečtu od sebe ty dvě vedle sebe sedící hodnoty znaménka
a volbu je to hotový to znamená mám je T vodsaď
_e jednička mínus jednička je nula tak se přesunu dál jedna mínus jedna je zase
nula pořád nula pořád nula teďka bacha kolik je to mezi tady těma dvěma vzorky
_e dobře absolutní hodnotě dva bez absolutní by bylo mínus dva tak když už teda
mám _e fungovat
absolutní hodnotě tak dva
tak by to bylo zase nula se pozor kolik
zase dva že jo nula
tak _e když si to sumu udělám
tak mi to dá hodnotu čtyři
podělím to hodnotou dvě
a dostanu dva průchody nulou tady Ú P mám
tak _e průchody nulou taky umíme a teďka to začne bity v ostřejší protože máme
udělat L P se analýzu řádu dvě to znamená máme spočítat _e filtr
_e Z nebo jedna lomeno a ve
který by tady tenhle _e tenhle signál
dokázal namodelovat
tak _e schválně ještě předtím než takový filtr začnem počítat
když to bude filtry jedna lomeno A Z jo
a máme ho určit jako druhého řádu to znamená
_e že bude mít dva póly zkuste si tipnout takhle jako jak ten filtr asi
tak bude vypadat kde bity poli tak třeba mohli bejt
jo trochu poradím _e když máme _e když máme řečový signál
jo ten řečový signál má takovéhle _e
jaké spektrum kterejma prostě
nějaký základní tón a tady má jedno rezonanci
první formant druhý formant třetí formant
tak pokud to modulem _e takovýmhle filtrem jedna lomeno A Z
tam většinou najdeme
poli
_e které budou odpovídat prvnímu formantů potom nějakej pár půl který by odpovídaly druhýmu formantů
potom někde možná pár půl který byl povídali
tomu třetímu formantů tak jak myslíte že to bude tím naším signál k M
_e žádnej základní to na žádný formanty nejsou že jo je to vobyčejná sinusovka
na druhé straně ten filtr kterým to bude modelovat extrémně prostinké A
jenom ten dva póly
tak
co myslíte kde tak asi budou
tak
dobrý nevíte
někde budou
přijdeme na to kde budou a možná že to potom začne dávat smysl
_e dobrý tak _e že máme ten _e mám provést otestuje analýzu
řádu dvě
a abychom udělali takovou rotace analýzu
tak _e my musíme mít k dispozici autokorelační koeficienty musíme mít dispozici R nula
tedy jedna a R dva
ty se dají docela nějaké D soustavy rovnic o dvou neznámých
a ste mě potom vypadnou koeficienty A jedna Á dva
a já potom může napsat _e filtr který _m _e je A Z
jedna plus A jedna
Z na mínus prvou plus _e dvě na mínus prvou _e na mínus druhou a
takovýmhle filtrem se ten signál dál namodelovat když do toho filtru pošlete nějakým bobiči dycky
buzení jako třeba jednotkový impulz
a pak _e ten jednotkový impulz zas ne tak by vám ten filtr měl odpovědět
signálem který odpovídá tomu co _e co modeluje jo tak uvidíme
jak to dopadne jestli se podaří takovou kosinusovku filtrem druhého řádu na model
tak _e věc první je
že budem potřebovat _e asi _e autokorelační
koeficienty
tak _e
co takhle nultý nebo obecně
autokorelační koeficient
se píše takže bych měl projet _e
celým signálem
a _e měl bych _e vždycky vynásobit
signál
N si ho posunutou variantou
vo _e voka vzorku jsem říkal že jako první budu potřebovat
autokorelační koeficient R nula
tak u té hranolky
to bude jak pro C
_e takhle sem jiný člověk takže za přemýšlíme jestli už ho náhodou někde nemáme spočítali
_e ten výkon jo ale bacha z _e tady se nám to trošku liší byla
máte pravdu pane kolego pokud vlastně ten signál neposlouchá neposouvám
pokud je _e káčko nula tak prostě plácam stejný vzorky na sebe a roznásobím N
ten samý s tím samým makra tady nemám tu normalizační konstantu
jo to znamená bude to ten _e nenormovaná energie nebo o prostě tady ta šestka
to bude
jo takže R nula _e ve spočítání rovná se šest
pro ty pro který to bylo moc rychle tak je to prostě suma vod nuly
do N mínus jedna
X N krátkých N
což není nic jinýho než S každýho vzorku vezmu _e druhou mocninu a mám to
tak teďka _e ten autokorelační koeficient R jedna
ten vznikne jako X N _e X
N plus jedna
takže si budeme muset _e vzít ten náš signálek a posunout ho
_e v o jeden vzorek říkám doleva nebo doprava
doleva ale ono je to jedno že jo protože
jestli ho posouvám do jednoho doleva nebo doprava
to je mě celkem fuk
ono to totiž
pokaždé vyjde úplně stejně jo takže tady tento signál no moment X do možná nakreslím
o něco slušněji
_e tento signál
posunu
o jeden vzorek doleva že to bude takhle
_e
tak a zkusíme si počítat ty vzorky které jsou nad sebou
a psací kolik _e kolik jinde
tak tady je
toto mě nezajímá tady se to násobí nulou to je taky vpohodě tady mě vyjde
_e nula celá sedum set sedum
takže
nula celá sedum se sedum víte co udělám tak v hospodě o budeme po to
dá dělat takhle čárky prostě
_e dá další vzorek bude _e tenleten taky nula celá sedum se sedum tak další
čárku
tady bude nula tak to nic nula celá sedum se sedum dalších čárka či bude
nula celá sedum další čárka tady nula celá sedum set sedum a nula celá sedum
se sedum tak to bylo docela dobrý
protože jsem zjistil že to bude šestkrát nula celá sedum set sedum
_e kolik to je
se budou se podívat do řešení to že moc složité
čtyry celé dvacet čtyři dobrý
tak _e
a teď by to chtělo eště R dvojku
no a tam bych ten _e signál měl posunou
o dva vzorečky doleva
takže pojďme na to
nula
nula sedum set sedum
jedna
no sense
sedum
_e
no a
mínus nula celá sedum s
sedum
mínus jedna
mínus nula celá sedum s
nula
takle
dle
a
takhle
tak a
tak _e poďme se zase započítat
všude samý nuly tady to bude nula celá sedum set sedum na druhou to je
jedna polovina
takže jedna polovina
budeme si k ní dělat zase čar K hospodě
_e
další polovina
a není
další polovina
tady nic další polovina
tady nic
a
další polovina tak je možný že to je pět polovin
prosím
a
no jo
máte pravdu děkuju mockrát takže znova
to bylo tak soborský jo _e vektory
červeně budou značit kladný poloviny a modře budu začli záporný poloviny jo
op
op
a
no bude ještě tepla
_e řeky tesla modrá studena tak je to asi teda plus jedna polovina
naštěstí máme k dispozici referenční řešení
jo
výborný
tak a teď prosím máme řešit takovoule soustavu rovnic
kde _e vlastně do
levé matice koeficientu
dosadíme nula jedna nula
pak sou tam _e
hledané hodnoty koeficienty A jedna dva
a na pravé straně jsou _e mínus autokorelační koeficienty tady jedna
R dva
tak teďka tady tohleto soustava rovnic se dál vyřešit
_e asi vás matematice učili
nějaké metody jako metodu kofaktorů a podobně já jsem se na ně když jsem vyráběl
tady tohle za D toho řešení nemohl vzpomenout access byl pěkně ručně odvodil
a _e kdybychom to počítali tak prostě dostaneme jako řešení
nějaké hodnoty koeficientů mínus jedna celá dvě stě devadesát sedum a dva se rovná nula
celá osumdesát čtyři _e zatím to berte tak
že _e že běžným řešením soustavy rovnic
o dvou neznámých nám tady tyhlety hodnoty vyšly
já si tady schválně zkopíruju
vysloveně kde měli protože
je to nebudeme _e to nebudem řešit obyčejnými
obyčejným zadáním
ale neobyčejnými
pomocí
levinsona darby
tak _e tohle to vyšlo standardním postupem
ovšem my máme za úkol
_e použít _e pro tento výpočet _e metodu pánů levinsona dá by na která vlastně
iterativně zvyšuje krát _e zvyšuje krát
prediktoru dycky v o jedničku
a dopočítává koeficienty toho příslušného prediktoru teda ne délky to znamená my začneme na prediktoru
řádu nula
co si myslíte že _e že prediktoru řádu nula
který Z
nula předchozích vzorků
má předpovídat současný vzorek
dyž nemáte žádnou informaci a máte předpovědět co se teďka co bude tento vzorek
a máte teda jako
aspoň ponětí vo tom že řečový signál by neměl by stejnosměrnou složku tak jaká je
nejlepší předpověď
nula správně
_e
když byste měli
dyž my sme měli prediktor
řádu jedna
to znamená předpovídali sme z minulýho vzorku
tak tam _e
si myslíte že by to bylo jaká předpověď zhruba
tak ten samý no dvojnásobná hodnota tady vám z hlavy neodpovím zase to spočítat uvidíme
jo
a _e když _e budeme předpovídat pomocí dvou vzorků
tak už budou mít koeficientíky Á jedna Á dva který si optimálně na ladím tak
jak _e tak jak mají být
tak poďme se podívat na to jak ta _e metoda těch dvou plánu
vypadá
tady tohle dycky vypadá jako strašně složitě jo tady prostě jako _e takový balík rovnic
který nikdo moc nechce rozumět
tak
to pojďme ukázat
když to není zas taková
to není zas taková hrůza hrůzoucí
no
no
_e dobrý
jedeme prosím
je tam na trošku vidět aspoň rovnice
vidíme jo
_e jedeme
nebo to mám ještě zvětšit klidně
tak jo
tak jedeme o T prediktoru řádu nula
který nám vlastně říká když budu předpovídat takovýmhle prediktorem
to téčko znamená energií chybového signálu do jaká bude energie toho signálu které jsme řeknu
schválně kolik myslíte že to bude pro prediktoru řádu nula
když nevím nic nebudu říkat pořád je nula odhad je nula odhad je nula
pak otto odhadů budou odečítat ten skutečný signál
a budu počítat jeho energii kolik to bude
tomto vole nultej autokorelační koeficient že jo protože _e prostě to bude ten původní signál
který nebude vůbec nějak změněny
jo takže _e
tomto případě _e nula se rovná nultý autokorelační koeficient tedy šest
_e další počítání
je _e počítání vlastně nejvyššího koeficientu
_e
prediktoru
řádu jedna jo takže poďme
ne na to
tady si _e
tady si nastavím T se rovná jedna
a počítám teďka prediktoru řádu jedna jo to znamená jeden koeficientík který bude
násobit minulý vzorek aby z něho dostal nebo předpověděl ten _e ten současný vzorek
a metody hrozně složitý _e vzorek
který mě říká jedna se bude rovnat mínus dlouhá vošklivá za rok závorka
autokorelační koeficient jedna
plus
a teďka suma _e ale u té sumy si prosím pozorně prohlídněte její meze vono
to jede vod jedničky
do Í mínus jedničky takže do nuly to znamená že tady tato _e suma nebude
mít vůbec žádný členy
takže tam nebude
jo takže suma
bude nic
lomeno
_e je mínus jedna
a to je předchozí hodnota kterou sem _e kterou sem měl tady takže
šestka jo
takže si pěkně dosadím
a bude to hodnota čtyry celé dvacet čtyři
mínus čtyry celé dvacet čtyři
děleno šesti
a
to bych to tady doufám mám někde spočítáno
mínus nula celá sedum set sedum zajímavá hodnota že jo
jo takže mám prosím vás teďka spočítaný prediktor
_e prediktoru řádu jedna
ještě tak _e takovou taková lipova poznámka když bych trestním predikoval tak tady ten koeficient
_e tam bude s kladným znaménkem nebo se záporným
jo i intuitivně prosím vás višně pojede nějaký signál pojede mě sinusovka
a říkám mně to že _e současný vzorek toho minulýho dostanu pomocí hodnoty mínus nula
celá sedum set sedum
já by tam by se znaménkem je nutno plus
já bych teda si tipnul že plus
takže poďme se raději podívat _e zpět _m do přednášky
jak že to vlastně bylo s těmi prediktory
_e
no tak skutečně do takže
ten predikovaný signál
je _e je tady tvořený vlastně filtrem jedna mínus A Z jo to znamená pokud
bych vám chtěl _e takhle vopravdu vyrábět
tak tam ten koeficient musí být se záporným znamínkem
jo takže
potvrzuje toto sme říkali já jsem tady měl návrhy jako že současný vzorek budete minulý
nebo to bude polovina z minulýho nebo dvojnásobek minulýho
tak to bude nula celá sedum se sedum minulýho a tady toto bude pro tento
signál optimálního dat
současnýho vzorku
dobře tak poďme dál
_e poďme to teďka prodloužit a poďme na prediktoru řádu dvě
ji rovná se dvě
ne pardon mi to ještě nemáme dopočítány omlouvám se
tak _e do valili sme tady ten koeficient K jedna
a _e
z toho koeficientu K jedna vypočítám nejvyšší koeficient prediktoru řádu jedna akorát že vone tam
jenom jeden chudáček
takže _e to bude mínus nula celá
sedum set sedum a je to koeficient a
jedna jo nejvyšší koeficient první generace prediktoru kterej se vypočítá
takže _e jedna
jedna
bude
mínus nula celá sedum set sedum
tak teďka tam máme zase rovně složitý vzorec
prosím na výpočet dalších koeficientu tady tohodle filtru
sou nějaký
nejsou pořád je jedna já jsem počítal koeficient jedna žádný další sany další nemusím
poslední věc která mě zbývá je tady ten závěr kdysi pro tenhleten hřát prediktoru spočtu
chybu výslednýho _e že teda energii výslednýho chybový ho signál
jo takže C jedna
rovná se
jedna mínus
_e teďka tam bude nula celá sedum se sedum na druhou
Z té předchozí energie krát šest
takže to bude _e jedna mínus jedna polovina krát šest tedy tři
jo dokázali bychom si skutečně ten signál chybový vypočítat
a vyhodnotit si tady tuhletu energii chyby a zjistíme že oproti minulým u se nám
dvakrát zmenšila to je docela úspěch jo prostě pro úplně blbý prediktor který neumí nic
ten který odhaduje jenom z jednoho minulýho vzorkovat dvakrát nižší chybu _e slušně
tak poďme dál
poďme na _e Í
rovná se dva
tak _e
zase počítáme hodnotu K Í která je
mínus
_e
R dva
víte co já tam o tom budu ty rovno ty hodnoty rovnou psát
takže mínus _e R dva
to bylo nula celá a
pět
tak teďka je tam vošklivá suma
a pozor ta suma už teďka nebude prázdná ale to bude obsahovat
obsahuje vlastně _e si
koeficienty prediktoru s předchozí generace že jo
toto sem vypočítal tady
a já to mám jenom jedinej
a ten je mínus nula celá sedum se sedum a lehčího budu násobit
jednu sumou vo ty jedničky do
dva mínus jedna tedy zase do jedničky
jo takže jedinej člen sumy bude pro je se rovná jedna
tady je dva mínus jedna
takže by měl násobit _e autokorelační koeficient R jedna
to _e by to mělo být
mínus nula celá sedum nula sedum
krát _e autokorelační koeficient můj drahý
N jedna bylo čtyry celé dvacet čtyři
čtyry celé dvacet čtyři
_e děleno
předchozí energií a ta předchozí energie dva tři
tak tady tohle kdy se na možná z hlavy počítalo trochu hůře tak sedum podívám
do reference
do to bude
za to bude dobrý
a měl by to být nula celá osum tři
_e tím pádem sem vypočítal
tenhleten chlíveček
_e
nejvyšší
koeficient tohodle řádu prediktoru kterej bude nula celá osum tři
a musím k němu dopočítat ještě ty který mě chybí a chybí mě jediny
a to první koeficient tady tohodle prediktoru jo to znamená
teďka _e počítám s prediktoru téhleté délky koeficient a jedna
a podívám se jak že to má být no je to ten _e toho samýho
čísla z minule generace tedy a jedna
kdy by měl být tady tenhle
_e že rovná se mínus nula celá sedum set sedum
a eště _e musím vzít
ten současný koeficient kálí který sem teďka vypočítal takže nula celá osum tři
plus nula celá
osum
tři
krát to
dva
mínus jedna
je jedna
dva mínus jedna takže zase
ten sami
ten samý koeficient _e
z minula
mínus nula celá
sedum nula sedum
_e kdybychom potom počítali _e prediktory vyšších řádů tak byste viděli
že vlastně tady
tenleten tahleta část výrazu je zodpovědná za to že bereme _e že bereme
vždycky
no
jak to říct že pro výpočet jezdí ho koeficientu to znamená koeficientech který počítám jedu
vodspoda nahoru a tady
tato část indexování mínus jemně spolu způsobuje že jedou vlastně z těch starej koeficientech shora
dolů
jo ale teďka to nemusíme řešit
_e mám
tady tento předpis pro výpočet _e
druhýho koeficientu a mělo by to být mínus jedna ceva
dvě stě
devadesát pět
mínus jedna celá dva mezi pět
jo takže prosím tady zastavíme
u levinsona darby na by to bylo všechno jenom se podíváme se jsme spočítali ty
samý hodnoty jako je jako prostým řešením soustavy rovnic o dvou neznámých
spočítali
oukej
jo takže
prosím teďka máme k dispozici filtr
který nám vlastně modelujete náš signál
a ten filtr
bude následující bude to _e Z
se rovná jedna lomeno
_e
jedna
plus
jedna celá dvě stě devadesát pět
Z na mínus prvou
_e
moment
sorry mínus
plus _e nula celá
osum tři
Z na mínus druhou
tak _e
kdyby co kdybysme chtěli _e toto je filtr který bychom použili vlastně modelování řeči lze
kdybysme chtěli udělat prediktor
tedy větu řeč bral pro ustála predikoval skutečně z těch minulej vzorku
ten _e ten současnej dokázali byste měřítek jak by vypadal ten
jo tady je to je prostě řeč
tady mám vyleze prý predikce
a aby chtěl vědět jak to bude vypadat
tak _e
asi by to mělo
byly tam dvě zpožďovací
linky že jo
dva zpožďovací o budky
tak tady s toho pole za predikce a mně teďka řekněte co mám napsat s
tím trojúhelníčku
bacha nekreslím strukturu tady tohoto filtru jo tento filtr by byl jakej T jíra nebo
sýr
toto by byl here
teďka sem nakreslil sýr
který by měl jenom predikovat
dyž to vezmu podle přednášky tak tady tenhleten fire by měl být jedna
_e mínus
o pardon to je tedy _e ten filtr by se měl jmenovat podle mě jinak