extrakce informací řeči jaké informace máme v řeči

zkuste popřemýšlet co vás všechno napadne

no

jejich celkem lasice

já to vemu po směru hodinových ručiček pět se budeme bavit o zem tomu že

sme tady pavla datová analytika vykryta

takže se budeme bavit o jakoby záznamech a potom záznamu nějakém řečovém záznamu kohokoliv

je schovaná identita toho člověka znamená můžeme ho porovnávat pohlaví nějaký obsah to znamená

vlastně kdybyste to před do textu

se věk je tam schovaných pokud by šlo telefonní záznamy nějakým způsobem je tam schopnost

dost a třeba i kudy to šlo nějaký kodeky

čím to bylo nahráno prostředí kterým to za nahrávka vznikla a jazyk třeba kterým se

tam je a tak dál

je tam spousta informaci

a mám velmi krátký čas takže já se jenom lehce zmíním o tady vlastně přepisu

do textu to znamená převodu toho jako řečového signálu textu a pak bych spíš vám

říkal něco obecnějšího

co by se mohlo hodit jako datový datovým analytikům to znamená dát nějaké klasifikátory a

tady tyhlety obecnější věci

tak jak vlastně sou udělána nějaká ta mašinka která vám převede řeč do textu

podstatě vy když neboli teďka já sem nahrávanej mám tady mikrofon a ten převádějte můj

hlas tedy produkuj u řečovým ústrojím nějaký elektrický signál a ten si někam nahrává dostanete

s toho

když se to potom podívat na počítači dostanete tady takový signály to by von se

tomu říká

ano s

tenleten bych vám odpovídá větě anglické větě ty trubice pět

ano

ten problém je že v reálném světě vlastně

my máme řeky máme nekonečně mnoho realizaci toho signál

tou teď opět může říct někdo jiný může tady být nějaký randall okolo já to

musí s pomalu rychle a těch variací je tolik že v podstatě že nekonečně mnoho

a vy těch ten prostor ten nekonečný prostor nějakým způsobem vtom rozpoznávač rozpoznávače řeči

potřebujete namapoval do takového krát krátkého krásného prostoru počítači to budete mi několik desítek bytů

tedy jsou reprezentovány tady písmenka madridu bit a to je celý den to prostě mapování

v podstatě nekonečních nekonečno množství realizaci do nějakého krásného omezeného prostoru

v tom rozpoznávači jsou

dvě taková dvě důležité komponenty jedna z nich je akustický model a druhá z nich

jazykovým ten akustický model ten vpodstatě slouží k tomu že se snaží

vzít sto audio a vlastně

přepsat nebo nějakým způsobem k tomu audio u dodat

takové základní jednotky těm říkáme fonémy asi poznáte se systém filozofické fakulty

a

v podstatě vám to jenom říká že fajn tady tahleta část vlastně toho signálu který

pak převedeme do nějakého spektra odpovídá von do tady pak vedle von i a tak

dále a tak dále

toto je

akustický model a ten jakoby dělá tu velkou černou práci že mapuje ten nekonečným no

mnoho realizaci signálu do nějakých těch diskrétních jednotek

pak je tam mezi tím jaký slovník ten není až tak důležitý ten napomáhání s

těch fonémů dostat nějaký slova no a nakonec jazykový model

a ten nějakým způsobem řídí a nějakým způsobem usměrňovala ten akustický model protože tak jak

my mluvíme když to přepíšeme vlastně píšeme text nebo se podáte do knihy tak ta

slova nejdou za sebou tak jak

se nám líbí ale prostě máte nějaké má to nějaká pravidla máme tam jako gramatiku

co v češtině zkujňování a tak dále takže ta jazykový model tomu dává jakýsi smysl

dybysme to přepsali čistě do fonémů tak se vtom úplně tolik nepozná úplně se vtom

tak nevyznáte jo kdybyste si to přečetli tak vám to suchem dojde ale jako vyloženě

číslem chemické přepis není úplně fajn

takže k tomu je tam potom tento jazykových model no a výstupem toho celého je

teda

buď text to znamená máte nějaký vlastně vás nějakým časováním z nějakým a potom čísel

tam o co sou nějaký pravděpodobnosti likelihood

to je z toho důvodu že ten rozpoznávač si není jistý

prostě vám dá vždycky to nejlepší co si myslí ale to nemusí být zdaleka pravda

takže

datové analytice vždycky minimálně ste řečové je dobré přemýšlet na tím

to co sem dostali to nejlepší co si myslíte rozpoznávače dvou můžu dostat víc můžu

dostat třeba nějaké paralelní hypotézy nebo něco takového samozřejmě to jde

a potom

se to dá třeba i převést nějak do nějakého rozumného grafu kdy pro nějakou nahrávku

můžete mít nějaké časové linie a pro každý ten by můžete mít seznam

co s nějakýma pravděpodobnostma a pak

to můžete využít k tomu že případě že rozpoznávač udělá někde chybu tak vy stejně

jako by to sou tam bylo řečeno zjistíte protože to může být na druhé nebo

třetí pravděpodobné jako třetí pravděpodobně přenosu

tak tady bych

skončil něco řeči a spíš trošku obecný

jak sem říkal nebo možná sem říkal akustický model to je to statě to klasifikátory

to jakási mašinka

kterou vy naučíte aby vám klasifikoval nějaké objekty v našem případě to je nějak spektrum

ale to můžete mašinku která vás kterou na učitelovi vám klasifikoval aby to rozpoznal se

to čtvereček

no a potom vy jako mašinku naučíte taky dáváte ty objekty a ptáte se to

je to čtvereček ano s proto čtvereček roce tady toto to neví

jako to sem třeba neviděl během trénování dodržet toto je klasifikátor

praktického pohledu

v řeči tam máme teďka dva jakési druhy klasifikátorů ten

starší historicky jsou nějaké skryté markovovy modely víceméně de o to že každý ten von

s toho slova větru pět that

je reprezentován ničím takovýmto je skrytý markovův model a uvnitř jsou potom nějaké gaussovky to

znamená nějaké pravděpodobnostní rozložení tady těch příznaků s toho spektra které bereme jako ustupte kvůli

tomu že respektujeme

jak funguje lidském vlastně u lidi osle která vám převádí ten signál a převádí do

nějakých do nějakých frekvenčních při support jdou potom tím nervem do mozku a bitů o

tom dozvíte

takže to sou skryté markovovy modely a jenom abyste měli představu úplně vememe nejjednodušší případ

nejednodušší úlohu a to je detekce pohlaví svědčí to znamená

budeme mít nahrávku a my chcem říct mluvil ta pluk nebo tam

jak to udělám

je tam ještě nádherných potřebujeme dat za námi potřebujeme roman nahrávek odchylku

a

hromadu nahrávek od nuly

tak

a tečka

potřebujeme si zvolit nějaký příznak potřebu nebo jaké příznaky něco na základě čeho vlastně co

budem sypal toto klasifikátor

no a to nejen odrušit co asi můžeme vzít je že vezmeme celou tu nahrávku

toho jednoho řečníka a spočítáme průměrnou hodnotu základního tom frekvence základního tónu a to je

takový rozumí příznak protože víme že kluci prostě miluje tím hlubokým hlasem zatímco holky mojí

vysokým hláskem

a

to sou prostě dvě jakási čísla která mohou být krásně separovatelná a můžeme vlastně ten

klasifikátor na to dobře naučit

totiž vememe si data od kluku

a tady vlastně ta frekvence toho základního tónu to jedno číslo ste nahrávky no a

když bysme to hodina nějakou hromadu tak zjistíme že nám se toto podivu vypadá jako

gaussovka

a potom to vlastně můžeme

můžeme vlastně přepočítat do nějakého pravděpodobnostního rozložení

a to sami uděláme pro holky

a skončíme vlastně s nějakým

rozložení pro kluky rozložení pro holky potom když nám přide neznáma nahrávkami potřebujem zjistit kluk

holka tak si zase spočítáme z tu frekvenci základního tónu průměrnou dostaneme to jednu tato

to jedno číslo podíváme se na osu x a zjistíme tak modelu klukovi tomu se

to nelíbí to je tady

malá věrohodnost ale pro model holky to celkem sedí takže nula nahrávce udělal

to je ta nejtriviálnější asi případ nějakého takového klasifikátoru postaveného vlastně na gaussovských

druhý

jo takle ještě do takle dyž bysme měli trošku dvojrozměrný prostor tak potom ta vlastně

ty třídy dvě můžou vypadat třeba takto tady nějaká ta separační linie těch model

tak a

druhý klasifikátoru druhý typ klasifikátoru kterým dnešní době zaznamenává velký boom a služeb tady po

mně michal tomu bude ještě trošku mluvit jsou umělé neuronové sítě je to zase jakýsi

aparát

který je inspirován biologickými neurony to znamená jsou tam nějaké prvky které berou nějaké vstupy

tak jak neuron uvnitř se potom nějak rozhodnout a se rozhodnout tak zase to posílají

dal do dalších neuronů

dybysme to vlastně namalovali nějak technický tak ta měla neuronová síť nebo klasifikátor postaveny na

umělých neuronových sítích může vypadat takto

kdy tady máme modrý vstup co šije vlastně

v tomto případě pěti dimenzionální pěti dimenzionální nějaký vektor to znamená máte pět nějakých čísel

ano

toto je jakoby nějaká první vrstva

druhá vrstva tady nějaký výstup

tady ta velká kulička to je ten jeden umělý neuron a on dělá vpodstatě to

že

veme ty vstupy

všechny nejdřív se ty vstupy na váhují tady nějakými vahami to znamená vynásobí se nějakým

číslem

vleze toto místo toho neuronů tam je sčítačka všechno se sečte pak se aplikuje na

nějaký bias to není podstatné a u místa neuronu ještě nelinearita já tam je lineární

funkce pro nás stačí třeba může tam je takzvaná sigmoida to znamená je to funkce

která je mínus nekonečna tady takle třeba na mínus jedničce a pak tam někde

tak to je tam takové kopeček nahoru a pak to zas do nekonečna jede třeba

značce

a to je vlastně to místo kde se dělá to rozhodnutí na té na ten

linearitě no a to rozhodnutí vlastně ten výstup ste funkce se propaguje dal do další

vrstvy a tak dále hash dostanete nějaký výstup

a to je pak otázka co vy si řeknete že chcete aby byl ten výstup

nebo tady víc mluvit o tom jak se to trénuje kdyby vás to zajímá sou

to měl přednášku simoně howard imports a to můžete

podívat

a pojďme sebrat spíš na nějaký příklad

mám tady

nějaký datový se to dvourozměrný kde máme červenou třídu která bude nám reprezentovat na výstup

takovéto sítě nebo této sítě jedničku a modrou třídu době třeba ty

kluci tady no bude na výstupu deseti reprezentovaný a vstupte sítě x jedna x dva

do toho dvou tady tyhlety čísla vlastně s ty souřadný s těch souřadnic který tady

máme cyrila a dijkstra

a teďka co uděláme vezmeme

tato data a budeme ty sítě trénovat problém se dívat co se může ty

se zeptat jestli bude fungovat

jinak rozdíl je že tady nahoře máme síť která má

tři neurony a tady máme si která má třicet neuronů ve skryté vrstvě

ano

pustíme trénování teďka vlastně obezitě sypeme ta data vstupní

a tak jak se to vy máte vždycky po nějakým s a před udělat já

nevím potřeba postup prvcích teď jak se to zastaví tak to znamená skončila jedna epocha

a jedna epocha je že sme s propagoval i všechny data přes tu síť

a

toto je vlastně výstup

ten neuronové sítě pro tenleten prostor kdy černá barva znamená jako by ten y je

nula a ta bílá barva znamená že ten vypsal ten výstupy cílem je aby vlastně

ta jednička pokrývala tady tuhletu červen třídu a zbytek

to černý to nula pokrývala to budou tři

tak vidíte vlastně ta kuš po nějaký třech čtyřech iteracích ta neuronová síť je došlo

zhruba co se po ní chce a chtěla naučila tady krásný klasifikovat červených červený body

vám tady říkala hele tam je jednička ta je také

co je možná

dobré zmínit ještě

jo to posunutá lištou skončí to trénování po nějaký dvaceti epochách takto skončí takhle

pokuď budete dělat machine learning k a budete vlastně pracovat klasifikátory je dobré si uvědomit

že ty klasifikátory můžou mít někdy problém zaprvé s přetrénováním když máte

velký model kterým a sobě moc parametrů moc neuronů ale máte malou dát tak potom

může dojít k něčemu takovýmu

jo

prostě to vypadá jako přetrénované a mimoto některé třeba klasifikátory nebo obecně tylety myšlený přístupy

můžou mít problémy z ne viděnými daty

na tak krásně klasifikuje tady vlastně ty ta data která jste toto dali ale já

pokud bych vzal tato který nikdy úplně mimo

tak se

datum že krásně trefit vlastně vidíte tak tady asi nějaká taková základní je to pokračuje

a to neuronová síť na tomletom okamžiku klidně může říct jo to je prostě červená

třída přitom jako člověk se na to podíváte na čtverci no tak data to si

nejsem zrovna jistej protože teda to který se mění

a jako tak to trošku odvážně tohleto takže pozor na to

toto s může se vám stát

ano

vy když budete pracovat vlastně s těmi by kdy tango pracujete s datovou analytickou

a používáte tam nějaké takže to rozpoznávače řeči cokoliv může to by ta je rozpoznávače

obrazu

s number vždycky v těch algoritmech jako říkala nám vždycky tě algoritmech se snažíte dosahovat

nějakou accuracy

že to mišule to znamená máte nějaká trénovací data na tom na trénujete nějakou tu

vaši mašinku a chcete abyste dosáhli co největší accuracy co největší přesnosti

no jak toho dosáhl můžete toho dosáhnout tím že budete to sypat více a více

a více dat

tak jak

říkal před deseti lety měli já nevím deset na sedmou tak mají deset na čtrnáct

tu pixelů

přidáváte data přidáváním dát dostáváte prostě větší úspěšný

jedna možnost

problém bývá

že vy ty data nemůže teče a přidává do nekonečna protože někdy ty data s

se draze platit pro nás třeba v řeči pokud bychom chtěli pokud bychom chtěli opravdu

jako vážně konkurovat udělat bysme museli mi to že to byl prostě milióny a milióny

dolarů

za to jenom nakoupit ta data která člověk přepíše aby my sme to mohli něco

natrénovat

takže dřív nebo později se možná dostanete do místa kde jako by končíte protože na

to nemáte by

pak vám nezbyde nic jinýho dyž nemáte svaly musíte mít

mozek to znamená musíte zati přemýšlet a musíte začít vymýšlet lepší algoritmy lepší klasifikátory robustnější

a samozřejmě jako jestli získáte taky tím že budete mít lepší algoritmy

no a my nejlepší je

standardu

nejlepší je když to spojte takže budete mít i ty svaly ten mozek a

získáte asi s toho

poznámka ještě

ta závislost

úspěšnosti na datech je většinou silně nelineární to znamená vy na to abyste získali

zase nějaké další jedno procento třeba musíte zdvojnásobit množství trénovacích dat nebo zdesetinásobí a tak

dál takže pozor na to sou věci které vás můžou čekat

a

pokud byste si chtěli hrát třeba

zpracování řeči nebo si zkoušet nějaký takovýdle klasifikátory z něčeho takového

tak

data

musíte si koupit působí databáze který se dají stánku normo

musíte mít někoho nebo musíte mít ty znalosti vědět jak na to a třetí asi

důležitá věc potřebujete nějaký nástroje tohleto celé stavět si je

ne zrovna efektivní když sednete a začnete to všechno vypsat nějakým sečku sice je to

fajn protože se všechno dozvíte spoustu věcí tím že si to opravdu můžeme implementujete na

druhou stranu když se někam dostanete tak byly může uběhnout x let

takže je dobré používat nějaké nástroje na toto

já tady zmíním nástroj pro právě to řeči řečový tu tito kaluby je to je

s na které se tady spolupodílí jako universita na vývoji a to používají lidi microsoftu

googlu

amazonu a tak dále všichní všechny tyhle velký firmy během posledních dvou tří let dělali

velký boom řeči však všichni kdo máte mobilita koš víte že tam máte nějaký diktování

a nějaký tady tyhlety věci takže ten pokrok vlastně se tady teďka stal

není to není to tak dávno ještě před pěti lety sme mluvili jako že to

co tady děláme tak to ani hubu neumí tak to funguje i

a

telete nástroje velmi vlastně ten toolkit je velmi dobrý vtom že stáhnete making stal pustíte

a u si můžete ráznější takže

pokud byste chtěli doporučuji

na závěr

bych se zmínil radko

využití vlastně třemu ta

ze nasedejte řečové technologie sou dobré

v současné době je tady passwords aspoň vtom našemu vtom naše řečové světě a to

je speech analytik to znamená vytěžovat ní jakékoliv informace z řečových nahrávek které nějakým způsobem

tou ve firmách nebo kdekoliv okolo vás

a jako je to jednen příkladu může být deset tohleto dá pěkně aplikovat sou call

centra limit jedno z vás měl tu možnost být jako brigádník nebo jako zaměstnanec operátor

který centru

jsou takoví ti lidi co sedí s těma mikrofon a má sluchátkama lidským počítačů útočí

číslování se představí a teďka posluchače volají a snaží se vám něco vnutit nebo zas

vytáhnu nějak informace

a třeba call centra je vlastně takový byznys kde

samozřejmě potřebujete zvyšovat efektivitu snižovat náklady a tak dále tak jak to platí všude

a je tlak na operátory aby prostě uzavírali co nejvíc já nevím se mu zjistili

co nejvíc informaci o těch lidí

a pokud operátor není efektivní taky

obvykle se to když tam nejsou zapojení ty řečové technologie děje takže nějaký manažer

prostě si poslouchá třeba nahrávky nebo to nějak od obou zjišťuje samozřejmě momentě kdy na

tedy nasadíme řečové technologie tak všechno nějakým způsobem de přes počítač a počítačová krásně vyhodnotí

fajn tenleten operátor

tomletom hovorů

se nepředstavil protože oni má nějaký skripty a je možný přepisem řeči nebo detektorem klíčových

slov zkontrolovat jestli on dodržuje ten daný skript je možné zkontrolovat jestli neskáče do řeči

tomu komu volá nebo jestli třeba dlouho neva když někdo něco řekne na druhé straně

tak teďka zaražený a ty neví

deset pět vteřin přemýšlí suma odpovědět špatně to by se mu nemělo stát

jestli tam vypadají sprostá slova jestli tam jsou nějaké moc se a tak dále a

tak dál takže t všechna vlastně mašina toto všechno zjisti vyplivne manažerovi tenleten na ten

operátor na tom není dobře se na to podívá pošle na přeškolení nebo

takže

jeden z příkladu bude deset

na s

aplikovat řečová mantic

tak na závěr

vytěžovat ani informaci z řeči je přesně ten případ

nebo ideální případ proto to sou právě ty kdy ta je to hromada nějakýho se

na nebo hromada prostě informaci který máte aby se vtom nevyznáte a potřebujete

té hromadě najít ty čtyři pět kousíčku utracené informace

tak toto je místo kde řečový technologie v současné době mají své jasné uplatnění a

push tam uplatňování jsou

pořád sem trošku skepticky k tomu že dnešní době bych si dovolil mít nějaký řečově

ovládaného robota který bude někoho někde někoho někde operovat anebo řečové ovládané auto nebo kokpit

protože pořád jsou to technologie jsou to automatické stroje i s i jiné dělají chyby

to znamená ne vždycky všem už je rozumíte

a ta úspěšnost jakoby těchto aplikacích si myslím že ještě taková aby

pokud de o život aby tam to nasazení bylo nicméně bitrate řečové technologie sou jednoznačně

v současné době

dobré

děkuji

lidi bucka řekněme za extrémně zajímavou přednášku já se musím přiznat čili že

co se týče neuronových sítí tak jo vím přesně to co dal eště jsem nikdy

nevěděl tak krásně umělecký ztvárnění

takže máme do ten obrázek bylo to je úžasnej do si zobrazení asi sme čekali

tu otázku tři kreslíš nám moč graphic ten tupesy prosím sami proč emisemi chce vyrábět

sledy power pointu tak je to rychlejší to namalovat fixl úzkému

když bychom neuhodit nekreslím

a teď naprosto otázky s publika

dotaz byl že s jestli se používají nějaké koupit to informace a používají se kontextové

informace to všechno je jazykové modelu to znamená pokuď bysme přepisovali třeba přednášky nebo něco

takového tak samozřejmě chceme adaptovat jazykovým ona na přednášky aby tam byla ta slova to

pokrytí toho slovníku

a jiné to budou přednášek na lékařské fakultě jinde na ty jak na právech

a mimo to zase v dnešní době začínají se aplikovat neuronové sítě i v jazykových

modelech s tím že sou rekurentní to znamená my si třeba nějakým způsobem pamatuji jakoby

minulost kontexty v nich zpětná vazba a tím pádem nejsou schopni dopředu jakoby predikovat ta

slova a usměrňovat n jazykový model na základě toho

jak to

věta začala a jak ta věta vlastně se dozví včas se co řečeno ty standardní

model jako nějaké statistické trigramy nedělali

takže určitě kontext cokoliv jakákoliv informace o a pro adaptaci na řečníka jazyk na téma

kterou do toho strčíte také užitečná a používá se

zdravím další dotaz

ta čeština má vždycky a bude mít asi hendikep tom že mám inflexní jazyk takže

máme prostě měl nejsou něco šardičtí ale

když na minulé slovních se tam vyšším ještě neviděl

a

druhá věc se máme málo dat je nás deset milionů aby anglicky mluvících prostě máte

to máte

jestli stovky by ale prostě těch

těch dát je tam řádově víc takže angličtina budem vždycky náskok

tomto jo za předpokladu že bysme měli

data měli bysme tak můžeme dohnala ale tak prostě inflexní ono zase závisí co znamená

jako by nepřesnost l jestli vám to slovo to jako znáte hře jako kořen ale

budete mít jinou koncovkou tak jestli to berete jako chybu nebo ne pokud uvedete jako

chybu ano prostě ty rozpoznávači vtom lety chybovat budou

pokud řeknete fajtem kořeny dobře tak tam chyby je tam i na koncovka tak můžeme

se tvářit jako že by to mohlo by se máte místo čtyři

pozitivní negativní emoce vám to řeknu takto pokuď

my máme a jako jsou dostupné robustní dobré

algoritmy a tady ty na šílených nástroje na to abysme něco takového vyrobili zásadní problém

s touto je že vy potřebujete rána data

a tady je problém v tom že kdykoliv kdokoli zkoušel trénovat detektor emocí tak databáze

byly od hertz

to jsou reálná data

ona vám to krásně rozpozná když pak tam pustíte nějakej film nebo pustíte něco takovýho

herci hrajou ty jsou naštvaní

bude to perfektní fungovat prostě vtom reálu je to jinak a ta je nejhorší dostat

i ta data anotovaný data mít ty kvanta těch telefonní hovor u třeba vtom koncentruju

někdo musí poslouchat tady musí rozhodnout tak ty ten člověk je naštvaný

a teď není ty na tom natrénovat pak to bude fungovat ale pokavaď máte ten

mismatch akože máte měli data herců jako že vám tam předstírají že sou naštvaný takto

auto moc

tak já mockrát děkuju tak je to budeme těžko vyčerpat a myslím si že to

zvládneme třeba večer

tam

jsem řádek dat