Expert Stuff: Google Mike Cohen
Manager Google ræðu Technologies Mike Cohen skilur ræðu á vettvangi flest okkar ekki að hugsa um. Hann skilur það á grunn stigi hljóð samsetningar og samhengi vísbendingum. Hann hefur til að - hann er í umsjá deild á Google sem vinnur á ræðu-orðstír tækni
Kennsla í tölvu til að viðurkenna tal er erfiður.. Til að skilja ensku, það eru margar hindranir einn verður að sigrast á. Enska hefur mikið homonyms - orð sem hljóðfræðilega hljóð sama en þýtt mismunandi hluti. Hugsaðu um " að, " " tveir " og " líka. " Fólk sem talar með hreim eða í svæðisbundnum mállýskum kann dæma orð á þann hátt sem er verulega frábrugðið venjulegu framburð. Og svo eru orð eins og " leið " sem hafa varamaður pronunciations - þú getur sagt " rót " eða " rout " og bæði eru rétt.
Hvernig gera þú kenna tölvu til að gera þessar greinarmun? Hvernig getur vél skilið það sem við segjum og bregðast á viðeigandi hátt? Þetta eru viðfangsefni Cohen og lið hans andlit á Google. Við töluðum við Cohen og bað hann að gefa nánari upplýsingar um störf hans í ræðu-orðstír rannsóknir og forrit.
Á hverri síðu sérðu spurningum okkar í titli og viðbrögð Cohen í líkamanum. Við byrjuðum með grunnatriði mál orðstír tækni, eins og þú sérð á næstu síðu.
Hvernig talgreining tækni vinna á grunn stigi?
OK, svo grundvallaratriðum, hvernig sem á sviði hefur farið yfir síðustu tvo áratugi er meira og meira í átt gögn-ekin eða tölfræðilegar-líkan nálgun. Það sem ég meina með því sem er frekar en að hafa fólk að fara í og reyna að forrita allar þessar reglur eða allar þessar lýsingar á því hvernig tungumálið virkar, reyndum við að byggja módel þar sem við gætum fæða fullt og fullt af gögnum til módel og líkön vilja læra um uppbyggingu ræðu frá gögnum. Svo gögn-ekin nálgun eru aðferðir sem byggjast á að byggja upp stór tölfræðileg líkön í tungumálinu með því að fóðra það mikið af gögnum.
Það er frumregla, og að hreyfing í átt vél nám, eða gögn-ekið eða tölfræðilegar aðferðir var í raun einn af mikilvægustu framfarir í sögu ræðu-orðstír sviði. Og svo spurningin verður hvaða fyrirmynd ættum við að byrja með að við getum þá fæða þessi gögn til að svo við getum fengið góða frammistöðu út úr ræðu Recognizer? Það sem við gerum er að við höfum í rauninni líkan sem hefur þrjú grundvallaratriði hluti til þess að líkan mismunandi þ