extrakce informací řeči jaké informace máme v řeči
zkuste popřemýšlet co vás všechno napadne
no
jejich celkem lasice
já to vemu po směru hodinových ručiček pět se budeme bavit o zem tomu že
sme tady pavla datová analytika vykryta
takže se budeme bavit o jakoby záznamech a potom záznamu nějakém řečovém záznamu kohokoliv
je schovaná identita toho člověka znamená můžeme ho porovnávat pohlaví nějaký obsah to znamená
vlastně kdybyste to před do textu
se věk je tam schovaných pokud by šlo telefonní záznamy nějakým způsobem je tam schopnost
dost a třeba i kudy to šlo nějaký kodeky
čím to bylo nahráno prostředí kterým to za nahrávka vznikla a jazyk třeba kterým se
tam je a tak dál
je tam spousta informaci
a mám velmi krátký čas takže já se jenom lehce zmíním o tady vlastně přepisu
do textu to znamená převodu toho jako řečového signálu textu a pak bych spíš vám
říkal něco obecnějšího
co by se mohlo hodit jako datový datovým analytikům to znamená dát nějaké klasifikátory a
tady tyhlety obecnější věci
tak jak vlastně sou udělána nějaká ta mašinka která vám převede řeč do textu
podstatě vy když neboli teďka já sem nahrávanej mám tady mikrofon a ten převádějte můj
hlas tedy produkuj u řečovým ústrojím nějaký elektrický signál a ten si někam nahrává dostanete
s toho
když se to potom podívat na počítači dostanete tady takový signály to by von se
tomu říká
ano s
tenleten bych vám odpovídá větě anglické větě ty trubice pět
ano
ten problém je že v reálném světě vlastně
my máme řeky máme nekonečně mnoho realizaci toho signál
tou teď opět může říct někdo jiný může tady být nějaký randall okolo já to
musí s pomalu rychle a těch variací je tolik že v podstatě že nekonečně mnoho
a vy těch ten prostor ten nekonečný prostor nějakým způsobem vtom rozpoznávač rozpoznávače řeči
potřebujete namapoval do takového krát krátkého krásného prostoru počítači to budete mi několik desítek bytů
tedy jsou reprezentovány tady písmenka madridu bit a to je celý den to prostě mapování
v podstatě nekonečních nekonečno množství realizaci do nějakého krásného omezeného prostoru
v tom rozpoznávači jsou
dvě taková dvě důležité komponenty jedna z nich je akustický model a druhá z nich
jazykovým ten akustický model ten vpodstatě slouží k tomu že se snaží
vzít sto audio a vlastně
přepsat nebo nějakým způsobem k tomu audio u dodat
takové základní jednotky těm říkáme fonémy asi poznáte se systém filozofické fakulty
a
v podstatě vám to jenom říká že fajn tady tahleta část vlastně toho signálu který
pak převedeme do nějakého spektra odpovídá von do tady pak vedle von i a tak
dále a tak dále
toto je
akustický model a ten jakoby dělá tu velkou černou práci že mapuje ten nekonečným no
mnoho realizaci signálu do nějakých těch diskrétních jednotek
pak je tam mezi tím jaký slovník ten není až tak důležitý ten napomáhání s
těch fonémů dostat nějaký slova no a nakonec jazykový model
a ten nějakým způsobem řídí a nějakým způsobem usměrňovala ten akustický model protože tak jak
my mluvíme když to přepíšeme vlastně píšeme text nebo se podáte do knihy tak ta
slova nejdou za sebou tak jak
se nám líbí ale prostě máte nějaké má to nějaká pravidla máme tam jako gramatiku
co v češtině zkujňování a tak dále takže ta jazykový model tomu dává jakýsi smysl
dybysme to přepsali čistě do fonémů tak se vtom úplně tolik nepozná úplně se vtom
tak nevyznáte jo kdybyste si to přečetli tak vám to suchem dojde ale jako vyloženě
číslem chemické přepis není úplně fajn
takže k tomu je tam potom tento jazykových model no a výstupem toho celého je
teda
buď text to znamená máte nějaký vlastně vás nějakým časováním z nějakým a potom čísel
tam o co sou nějaký pravděpodobnosti likelihood
to je z toho důvodu že ten rozpoznávač si není jistý
prostě vám dá vždycky to nejlepší co si myslí ale to nemusí být zdaleka pravda
takže
datové analytice vždycky minimálně ste řečové je dobré přemýšlet na tím
to co sem dostali to nejlepší co si myslíte rozpoznávače dvou můžu dostat víc můžu
dostat třeba nějaké paralelní hypotézy nebo něco takového samozřejmě to jde
a potom
se to dá třeba i převést nějak do nějakého rozumného grafu kdy pro nějakou nahrávku
můžete mít nějaké časové linie a pro každý ten by můžete mít seznam
co s nějakýma pravděpodobnostma a pak
to můžete využít k tomu že případě že rozpoznávač udělá někde chybu tak vy stejně
jako by to sou tam bylo řečeno zjistíte protože to může být na druhé nebo
třetí pravděpodobné jako třetí pravděpodobně přenosu
tak tady bych
skončil něco řeči a spíš trošku obecný
jak sem říkal nebo možná sem říkal akustický model to je to statě to klasifikátory
to jakási mašinka
kterou vy naučíte aby vám klasifikoval nějaké objekty v našem případě to je nějak spektrum
ale to můžete mašinku která vás kterou na učitelovi vám klasifikoval aby to rozpoznal se
to čtvereček
no a potom vy jako mašinku naučíte taky dáváte ty objekty a ptáte se to
je to čtvereček ano s proto čtvereček roce tady toto to neví
jako to sem třeba neviděl během trénování dodržet toto je klasifikátor
praktického pohledu
v řeči tam máme teďka dva jakési druhy klasifikátorů ten
starší historicky jsou nějaké skryté markovovy modely víceméně de o to že každý ten von
s toho slova větru pět that
je reprezentován ničím takovýmto je skrytý markovův model a uvnitř jsou potom nějaké gaussovky to
znamená nějaké pravděpodobnostní rozložení tady těch příznaků s toho spektra které bereme jako ustupte kvůli
tomu že respektujeme
jak funguje lidském vlastně u lidi osle která vám převádí ten signál a převádí do
nějakých do nějakých frekvenčních při support jdou potom tím nervem do mozku a bitů o
tom dozvíte
takže to sou skryté markovovy modely a jenom abyste měli představu úplně vememe nejjednodušší případ
nejednodušší úlohu a to je detekce pohlaví svědčí to znamená
budeme mít nahrávku a my chcem říct mluvil ta pluk nebo tam
jak to udělám
je tam ještě nádherných potřebujeme dat za námi potřebujeme roman nahrávek odchylku
a
hromadu nahrávek od nuly
tak
a tečka
potřebujeme si zvolit nějaký příznak potřebu nebo jaké příznaky něco na základě čeho vlastně co
budem sypal toto klasifikátor
no a to nejen odrušit co asi můžeme vzít je že vezmeme celou tu nahrávku
toho jednoho řečníka a spočítáme průměrnou hodnotu základního tom frekvence základního tónu a to je
takový rozumí příznak protože víme že kluci prostě miluje tím hlubokým hlasem zatímco holky mojí
vysokým hláskem
a
to sou prostě dvě jakási čísla která mohou být krásně separovatelná a můžeme vlastně ten
klasifikátor na to dobře naučit
totiž vememe si data od kluku
a tady vlastně ta frekvence toho základního tónu to jedno číslo ste nahrávky no a
když bysme to hodina nějakou hromadu tak zjistíme že nám se toto podivu vypadá jako
gaussovka
a potom to vlastně můžeme
můžeme vlastně přepočítat do nějakého pravděpodobnostního rozložení
a to sami uděláme pro holky
a skončíme vlastně s nějakým
rozložení pro kluky rozložení pro holky potom když nám přide neznáma nahrávkami potřebujem zjistit kluk
holka tak si zase spočítáme z tu frekvenci základního tónu průměrnou dostaneme to jednu tato
to jedno číslo podíváme se na osu x a zjistíme tak modelu klukovi tomu se
to nelíbí to je tady
malá věrohodnost ale pro model holky to celkem sedí takže nula nahrávce udělal
to je ta nejtriviálnější asi případ nějakého takového klasifikátoru postaveného vlastně na gaussovských
druhý
jo takle ještě do takle dyž bysme měli trošku dvojrozměrný prostor tak potom ta vlastně
ty třídy dvě můžou vypadat třeba takto tady nějaká ta separační linie těch model
tak a
druhý klasifikátoru druhý typ klasifikátoru kterým dnešní době zaznamenává velký boom a služeb tady po
mně michal tomu bude ještě trošku mluvit jsou umělé neuronové sítě je to zase jakýsi
aparát
který je inspirován biologickými neurony to znamená jsou tam nějaké prvky které berou nějaké vstupy
tak jak neuron uvnitř se potom nějak rozhodnout a se rozhodnout tak zase to posílají
dal do dalších neuronů
dybysme to vlastně namalovali nějak technický tak ta měla neuronová síť nebo klasifikátor postaveny na
umělých neuronových sítích může vypadat takto
kdy tady máme modrý vstup co šije vlastně
v tomto případě pěti dimenzionální pěti dimenzionální nějaký vektor to znamená máte pět nějakých čísel
ano
toto je jakoby nějaká první vrstva
druhá vrstva tady nějaký výstup
tady ta velká kulička to je ten jeden umělý neuron a on dělá vpodstatě to
že
veme ty vstupy
všechny nejdřív se ty vstupy na váhují tady nějakými vahami to znamená vynásobí se nějakým
číslem
vleze toto místo toho neuronů tam je sčítačka všechno se sečte pak se aplikuje na
nějaký bias to není podstatné a u místa neuronu ještě nelinearita já tam je lineární
funkce pro nás stačí třeba může tam je takzvaná sigmoida to znamená je to funkce
která je mínus nekonečna tady takle třeba na mínus jedničce a pak tam někde
tak to je tam takové kopeček nahoru a pak to zas do nekonečna jede třeba
značce
a to je vlastně to místo kde se dělá to rozhodnutí na té na ten
linearitě no a to rozhodnutí vlastně ten výstup ste funkce se propaguje dal do další
vrstvy a tak dále hash dostanete nějaký výstup
a to je pak otázka co vy si řeknete že chcete aby byl ten výstup
nebo tady víc mluvit o tom jak se to trénuje kdyby vás to zajímá sou
to měl přednášku simoně howard imports a to můžete
podívat
a pojďme sebrat spíš na nějaký příklad
mám tady
nějaký datový se to dvourozměrný kde máme červenou třídu která bude nám reprezentovat na výstup
takovéto sítě nebo této sítě jedničku a modrou třídu době třeba ty
kluci tady no bude na výstupu deseti reprezentovaný a vstupte sítě x jedna x dva
do toho dvou tady tyhlety čísla vlastně s ty souřadný s těch souřadnic který tady
máme cyrila a dijkstra
a teďka co uděláme vezmeme
tato data a budeme ty sítě trénovat problém se dívat co se může ty
se zeptat jestli bude fungovat
jinak rozdíl je že tady nahoře máme síť která má
tři neurony a tady máme si která má třicet neuronů ve skryté vrstvě
ano
pustíme trénování teďka vlastně obezitě sypeme ta data vstupní
a tak jak se to vy máte vždycky po nějakým s a před udělat já
nevím potřeba postup prvcích teď jak se to zastaví tak to znamená skončila jedna epocha
a jedna epocha je že sme s propagoval i všechny data přes tu síť
a
toto je vlastně výstup
ten neuronové sítě pro tenleten prostor kdy černá barva znamená jako by ten y je
nula a ta bílá barva znamená že ten vypsal ten výstupy cílem je aby vlastně
ta jednička pokrývala tady tuhletu červen třídu a zbytek
to černý to nula pokrývala to budou tři
tak vidíte vlastně ta kuš po nějaký třech čtyřech iteracích ta neuronová síť je došlo
zhruba co se po ní chce a chtěla naučila tady krásný klasifikovat červených červený body
vám tady říkala hele tam je jednička ta je také
co je možná
dobré zmínit ještě
jo to posunutá lištou skončí to trénování po nějaký dvaceti epochách takto skončí takhle
pokuď budete dělat machine learning k a budete vlastně pracovat klasifikátory je dobré si uvědomit
že ty klasifikátory můžou mít někdy problém zaprvé s přetrénováním když máte
velký model kterým a sobě moc parametrů moc neuronů ale máte malou dát tak potom
může dojít k něčemu takovýmu
jo
prostě to vypadá jako přetrénované a mimoto některé třeba klasifikátory nebo obecně tylety myšlený přístupy
můžou mít problémy z ne viděnými daty
na tak krásně klasifikuje tady vlastně ty ta data která jste toto dali ale já
pokud bych vzal tato který nikdy úplně mimo
tak se
datum že krásně trefit vlastně vidíte tak tady asi nějaká taková základní je to pokračuje
a to neuronová síť na tomletom okamžiku klidně může říct jo to je prostě červená
třída přitom jako člověk se na to podíváte na čtverci no tak data to si
nejsem zrovna jistej protože teda to který se mění
a jako tak to trošku odvážně tohleto takže pozor na to
toto s může se vám stát
ano
vy když budete pracovat vlastně s těmi by kdy tango pracujete s datovou analytickou
a používáte tam nějaké takže to rozpoznávače řeči cokoliv může to by ta je rozpoznávače
obrazu
s number vždycky v těch algoritmech jako říkala nám vždycky tě algoritmech se snažíte dosahovat
nějakou accuracy
že to mišule to znamená máte nějaká trénovací data na tom na trénujete nějakou tu
vaši mašinku a chcete abyste dosáhli co největší accuracy co největší přesnosti
no jak toho dosáhl můžete toho dosáhnout tím že budete to sypat více a více
a více dat
tak jak
říkal před deseti lety měli já nevím deset na sedmou tak mají deset na čtrnáct
tu pixelů
přidáváte data přidáváním dát dostáváte prostě větší úspěšný
jedna možnost
problém bývá
že vy ty data nemůže teče a přidává do nekonečna protože někdy ty data s
se draze platit pro nás třeba v řeči pokud bychom chtěli pokud bychom chtěli opravdu
jako vážně konkurovat udělat bysme museli mi to že to byl prostě milióny a milióny
dolarů
za to jenom nakoupit ta data která člověk přepíše aby my sme to mohli něco
natrénovat
takže dřív nebo později se možná dostanete do místa kde jako by končíte protože na
to nemáte by
pak vám nezbyde nic jinýho dyž nemáte svaly musíte mít
mozek to znamená musíte zati přemýšlet a musíte začít vymýšlet lepší algoritmy lepší klasifikátory robustnější
a samozřejmě jako jestli získáte taky tím že budete mít lepší algoritmy
no a my nejlepší je
standardu
nejlepší je když to spojte takže budete mít i ty svaly ten mozek a
získáte asi s toho
poznámka ještě
ta závislost
úspěšnosti na datech je většinou silně nelineární to znamená vy na to abyste získali
zase nějaké další jedno procento třeba musíte zdvojnásobit množství trénovacích dat nebo zdesetinásobí a tak
dál takže pozor na to sou věci které vás můžou čekat
a
pokud byste si chtěli hrát třeba
zpracování řeči nebo si zkoušet nějaký takovýdle klasifikátory z něčeho takového
tak
data
musíte si koupit působí databáze který se dají stánku normo
musíte mít někoho nebo musíte mít ty znalosti vědět jak na to a třetí asi
důležitá věc potřebujete nějaký nástroje tohleto celé stavět si je
ne zrovna efektivní když sednete a začnete to všechno vypsat nějakým sečku sice je to
fajn protože se všechno dozvíte spoustu věcí tím že si to opravdu můžeme implementujete na
druhou stranu když se někam dostanete tak byly může uběhnout x let
takže je dobré používat nějaké nástroje na toto
já tady zmíním nástroj pro právě to řeči řečový tu tito kaluby je to je
s na které se tady spolupodílí jako universita na vývoji a to používají lidi microsoftu
googlu
amazonu a tak dále všichní všechny tyhle velký firmy během posledních dvou tří let dělali
velký boom řeči však všichni kdo máte mobilita koš víte že tam máte nějaký diktování
a nějaký tady tyhlety věci takže ten pokrok vlastně se tady teďka stal
není to není to tak dávno ještě před pěti lety sme mluvili jako že to
co tady děláme tak to ani hubu neumí tak to funguje i
a
telete nástroje velmi vlastně ten toolkit je velmi dobrý vtom že stáhnete making stal pustíte
a u si můžete ráznější takže
pokud byste chtěli doporučuji
na závěr
bych se zmínil radko
využití vlastně třemu ta
ze nasedejte řečové technologie sou dobré
v současné době je tady passwords aspoň vtom našemu vtom naše řečové světě a to
je speech analytik to znamená vytěžovat ní jakékoliv informace z řečových nahrávek které nějakým způsobem
tou ve firmách nebo kdekoliv okolo vás
a jako je to jednen příkladu může být deset tohleto dá pěkně aplikovat sou call
centra limit jedno z vás měl tu možnost být jako brigádník nebo jako zaměstnanec operátor
který centru
jsou takoví ti lidi co sedí s těma mikrofon a má sluchátkama lidským počítačů útočí
číslování se představí a teďka posluchače volají a snaží se vám něco vnutit nebo zas
vytáhnu nějak informace
a třeba call centra je vlastně takový byznys kde
samozřejmě potřebujete zvyšovat efektivitu snižovat náklady a tak dále tak jak to platí všude
a je tlak na operátory aby prostě uzavírali co nejvíc já nevím se mu zjistili
co nejvíc informaci o těch lidí
a pokud operátor není efektivní taky
obvykle se to když tam nejsou zapojení ty řečové technologie děje takže nějaký manažer
prostě si poslouchá třeba nahrávky nebo to nějak od obou zjišťuje samozřejmě momentě kdy na
tedy nasadíme řečové technologie tak všechno nějakým způsobem de přes počítač a počítačová krásně vyhodnotí
fajn tenleten operátor
tomletom hovorů
se nepředstavil protože oni má nějaký skripty a je možný přepisem řeči nebo detektorem klíčových
slov zkontrolovat jestli on dodržuje ten daný skript je možné zkontrolovat jestli neskáče do řeči
tomu komu volá nebo jestli třeba dlouho neva když někdo něco řekne na druhé straně
tak teďka zaražený a ty neví
deset pět vteřin přemýšlí suma odpovědět špatně to by se mu nemělo stát
jestli tam vypadají sprostá slova jestli tam jsou nějaké moc se a tak dále a
tak dál takže t všechna vlastně mašina toto všechno zjisti vyplivne manažerovi tenleten na ten
operátor na tom není dobře se na to podívá pošle na přeškolení nebo
takže
jeden z příkladu bude deset
na s
aplikovat řečová mantic
tak na závěr
vytěžovat ani informaci z řeči je přesně ten případ
nebo ideální případ proto to sou právě ty kdy ta je to hromada nějakýho se
na nebo hromada prostě informaci který máte aby se vtom nevyznáte a potřebujete
té hromadě najít ty čtyři pět kousíčku utracené informace
tak toto je místo kde řečový technologie v současné době mají své jasné uplatnění a
push tam uplatňování jsou
pořád sem trošku skepticky k tomu že dnešní době bych si dovolil mít nějaký řečově
ovládaného robota který bude někoho někde někoho někde operovat anebo řečové ovládané auto nebo kokpit
protože pořád jsou to technologie jsou to automatické stroje i s i jiné dělají chyby
to znamená ne vždycky všem už je rozumíte
a ta úspěšnost jakoby těchto aplikacích si myslím že ještě taková aby
pokud de o život aby tam to nasazení bylo nicméně bitrate řečové technologie sou jednoznačně
v současné době
dobré
děkuji
lidi bucka řekněme za extrémně zajímavou přednášku já se musím přiznat čili že
co se týče neuronových sítí tak jo vím přesně to co dal eště jsem nikdy
nevěděl tak krásně umělecký ztvárnění
takže máme do ten obrázek bylo to je úžasnej do si zobrazení asi sme čekali
tu otázku tři kreslíš nám moč graphic ten tupesy prosím sami proč emisemi chce vyrábět
sledy power pointu tak je to rychlejší to namalovat fixl úzkému
když bychom neuhodit nekreslím
a teď naprosto otázky s publika
dotaz byl že s jestli se používají nějaké koupit to informace a používají se kontextové
informace to všechno je jazykové modelu to znamená pokuď bysme přepisovali třeba přednášky nebo něco
takového tak samozřejmě chceme adaptovat jazykovým ona na přednášky aby tam byla ta slova to
pokrytí toho slovníku
a jiné to budou přednášek na lékařské fakultě jinde na ty jak na právech
a mimo to zase v dnešní době začínají se aplikovat neuronové sítě i v jazykových
modelech s tím že sou rekurentní to znamená my si třeba nějakým způsobem pamatuji jakoby
minulost kontexty v nich zpětná vazba a tím pádem nejsou schopni dopředu jakoby predikovat ta
slova a usměrňovat n jazykový model na základě toho
jak to
věta začala a jak ta věta vlastně se dozví včas se co řečeno ty standardní
model jako nějaké statistické trigramy nedělali
takže určitě kontext cokoliv jakákoliv informace o a pro adaptaci na řečníka jazyk na téma
kterou do toho strčíte také užitečná a používá se
zdravím další dotaz
ta čeština má vždycky a bude mít asi hendikep tom že mám inflexní jazyk takže
máme prostě měl nejsou něco šardičtí ale
když na minulé slovních se tam vyšším ještě neviděl
a
druhá věc se máme málo dat je nás deset milionů aby anglicky mluvících prostě máte
to máte
jestli stovky by ale prostě těch
těch dát je tam řádově víc takže angličtina budem vždycky náskok
tomto jo za předpokladu že bysme měli
data měli bysme tak můžeme dohnala ale tak prostě inflexní ono zase závisí co znamená
jako by nepřesnost l jestli vám to slovo to jako znáte hře jako kořen ale
budete mít jinou koncovkou tak jestli to berete jako chybu nebo ne pokud uvedete jako
chybu ano prostě ty rozpoznávači vtom lety chybovat budou
pokud řeknete fajtem kořeny dobře tak tam chyby je tam i na koncovka tak můžeme
se tvářit jako že by to mohlo by se máte místo čtyři
pozitivní negativní emoce vám to řeknu takto pokuď
my máme a jako jsou dostupné robustní dobré
algoritmy a tady ty na šílených nástroje na to abysme něco takového vyrobili zásadní problém
s touto je že vy potřebujete rána data
a tady je problém v tom že kdykoliv kdokoli zkoušel trénovat detektor emocí tak databáze
byly od hertz
to jsou reálná data
ona vám to krásně rozpozná když pak tam pustíte nějakej film nebo pustíte něco takovýho
herci hrajou ty jsou naštvaní
bude to perfektní fungovat prostě vtom reálu je to jinak a ta je nejhorší dostat
i ta data anotovaný data mít ty kvanta těch telefonní hovor u třeba vtom koncentruju
někdo musí poslouchat tady musí rozhodnout tak ty ten člověk je naštvaný
a teď není ty na tom natrénovat pak to bude fungovat ale pokavaď máte ten
mismatch akože máte měli data herců jako že vám tam předstírají že sou naštvaný takto
auto moc
tak já mockrát děkuju tak je to budeme těžko vyčerpat a myslím si že to
zvládneme třeba večer
tam
jsem řádek dat