Takk
Fyrir þessa grein, talaði við John Garofolo, Speech Group Manager á upplýsingatækni Laboratory National Institute of Standards og tækni. Við vil líka þakka Joshua Senecal fyrir aðstoð hans við þessa grein.
Speech að gögn
Til að breyta ræðu á skjánum texta eða tölvu stjórn, tölva þarf að fara í gegnum nokkur flókin skref . Þegar þú talar, getur þú búið titring í loftinu. The flaumi-til-stafrænn breytir (ADC) þýðir þetta flaumi bylgja í stafrænum gögnum sem tölvan getur skilið. Til að gera þetta, það sýni, eða digitizes, hljóð með því að taka nákvæmar mælingar á öldu með stuttu millibili. Kerfið filters stafrænu hljóð til að fjarlægja óæskileg hávaða, og stundum að skilja það í mismunandi hljómsveitum tíðni (tíðni er bylgjulengd hljóðbylgjur, heyrði af mönnum sem mismunandi vellinum). Það normalizes einnig hljóð, eða lagar það til stöðugri hljóðstyrk. Það kann einnig að vera tímabundið takt. Fólk er ekki alltaf að tala á sama hraða, svo hljóðið verður að aðlaga að passa hraða á sniðmát hljóð sýnum þegar geymdar í kerfi minni er.
Næsta merki er skipt í litla hluti eins stutt og nokkrar hundruðustu úr sekúndu, eða jafnvel thousandths í tilviki plosive consonant hljóðum - consonant Stops framleidd af torveldað loftstreymi í söngvara svæði - eins " p " eða ". T " The program passar þá þessar hluti þekktum phonemes á viðeigandi tungumáli. A fónemi er minnsti þáttur tungumál - framsetning hljóð sem við tökum og setja saman til að mynda þroskandi tjáning. Það eru um það bil 40 phonemes í ensku (mismunandi málfræðingar hafa mismunandi skoðanir á nákvæmlega fjölda), en önnur tungumál hafa fleiri eða færri phonemes.
Næsta skref virðist einfalt, en það er í raun mest erfitt að ná og er er áhersla flestra mál orðstír rannsóknir. The program skoðar phonemes í samhengi við aðra phonemes í kringum þá. Það keyrir samhengi fónemi lóð gegnum flókið reiknilíkan og saman þá að miklu safni þekkt orð, orðasambönd og setningar. The program þá ákveður hvað notandinn var líklega að segja og annaðhvort framleiðsla það eins texta eða málefni tölva stjórn.
Við munum taka a loka líta á nákvæmlega hvernig það virkar þetta næst.
Talgreiningu og tölfræðilegar Modeling
Early talgreiningu kerfi reynt að beita setja af málfræði og syntactical reglur til ræðu. Ef orð töluð passa í ákveðnum reglum, the program geta ákveðið hvaða orð v