A beszéd a leggyakoribb kommunikációs eszköz az egész világon. A világ lakosságának többsége a beszédre támaszkodik az egymással való kommunikáció során. Tegyük fel, hogy modellt építünk, és írásos megközelítés helyett azt akarjuk, hogy rendszerünk reagáljon a beszédre, ez meglehetősen nehézzé válik, és sok adat feldolgozását igényli. A beszédfelismerő rendszer ezt a korlátot legyőzi a beszéd szöveggé történő fordításával. Ebben a blogban a beszédfelismerésen megyünk keresztül modul a pythonban . Itt található a felsorolás:
- Hogyan működik a beszédfelismerés?
- Hogyan telepítsük a beszédfelismerést a Pythonba?
- Bevitel átvétele a mikrofonokból
- Hogyan telepítsük a Pyaudio programot a Pythonba?
- Use Case
Hogyan működik a beszédfelismerés?
A beszédfelismerő rendszer alapvetően a beszédes kimondásokat szöveggé fordítja. A beszédfelismerő rendszernek számos valós példája van. Például a siri, amely a beszédet bevitelnek tekinti és szöveggé alakítja.
A beszédfelismerő rendszer használatának előnye, hogy legyőzi az írástudás gátját. A beszédfelismerési modell írástudatlan és írástudatlan közönséget is szolgálhat, mivel a beszélt szólásokra összpontosít.
Beszédfelismerő rendszer segítségével leltárt készíthetünk a világ minden veszélyeztetett nyelvéről. Bár elég érdekesnek tűnik és egyáltalán nem összetett, a beszédfelismerő rendszer sok kihívással néz szembe a készítés során.
A beszédfelismerés előtt álló kihívások Rendszer
A beszédfelismerő rendszert nehéz megalkotni, mert a beszéd terén nagyon sokféle variációs forrás áll rendelkezésünkre.
Beszédstílus
Minden embernek változatos a beszédstílusa, beleértve az ékezeteket is. Mint mindannyian tudjuk, az angol nyelvtudáshoz is különféle akcentusunk van. Van amerikai angol, brit angol és még sok más akcentus, amikor a világ leggyakoribb nyelvéről beszélünk. A kiejtés szintén megnehezíti a beszédfelismerési rendszer teljes lefordítását.
Környezet
A környezet sok háttérzajt ad a rendszerbe is. A nézőtérhez képest elkülönített helyiség a változó háttérzajokhoz vezet. Még a visszhang is sok zajt adhat a rendszerben.
A hangszóró jellemzői
Lehet, hogy egy idős ember hangja nem azonos a csecsemő hangjával. A személy beszédének jellemzői sok tényezőtől függenek, beleértve a keménységet és az egyértelműséget is.
Nyelvi korlátok
Lehetséges, hogy egyes beszélt mondásoknak nincs életképes jelentése, amikor a fordításról van szó.
E kihívások leküzdése után minden beszédfelismerő rendszer számára meglehetősen elérhető a szöveg beszédre fordítása. Most, hogy tudjuk, hogyan működik a beszédfelismerés, vessünk egy pillantást másokra amelyek elérhetőek a beszédfelismeréshez a pythonban.
Beszédfelismerésre pythonban elérhető csomagok
apiai
Beszédfelismerés
Google_speech_cloud
assemblyai
Pocketsphinx
Watson_developer_cloud
fehér
Ebben a blogban áttekintjük a SpeechRecognition csomag részleteit, és egy pillantást vethetünk a memóriasávra is, hogy megértsük, hogyan fejlődtek a beszédfelismerő rendszerek az évek során.
karakterlánc a java felhasználási dátumig
A beszédfelismerés legelső prototípusa valójában egy játék volt, a neve rádió rex ami 1920-as évek körül jött. Egy kutya ült egy kutyaházban, amely előbukkan, amint valaki kimondja a rex szót.
A modell egyetlen problémája az volt, hogy a rugót egy elektromágneshez erősítették, amely érzékeny volt az 500 Hz körüli energiára. Tisztán frekvenciaérzékelő lévén, távolról nevezhető beszédfelismerési modellnek.
1962-ben az IBM előállt a cipősdoboz modell, amely képes volt elkülönített szavakat felismerni, és néhány számtani műveletet is végrehajtott.
Aztán jött HÁRPIA a CMU-tól, amely képes volt összekapcsolt beszédet felismerni 1000 szavas szókincsből. Az 1980-as évek körül az emberek elkezdték használni a statisztikai modelleket, és az egyik leggyakrabban használt gépi tanulási paradigma a rejtett markov modell volt.
A mély neurális hálózatok bevezetése után a legtöbb beszédfelismerési modell az ideghálózatokon dolgozik. A lehetőségek elképzelhetetlenek a neurális hálózatoknál, a szókincs akár 10 ezer szóra is képes.
A SpeechRecognition telepítése a Pythonba?
A SpeechRecognition csomag python telepítéséhez futtassa a következő parancsot a terminálban, és telepítésre kerül a rendszerére.
különbség az agilis és a devops között
Ennek másik megközelítése lehet a csomag hozzáadása a projekt tolmácsától, ha használja
A csomagnak van egy Recognizer osztálya, amely alapvetően itt történik. Ez alapvetően egy osztály, amelyet a beszéd felismerésére használnak. Az alábbiakban hét olyan módszer olvasható, amelyek különféle audio források olvasására képesek különböző API-k segítségével.
- felismerni_bing ()
- felismerni_google ()
- felismerni_google_felhő ()
- felismerni_houndify ()
- felismerni_ibm ()
- felismerni_wit ()
- felismerni_sphinx ()
Most a felismerés_sphinx használható a beszédfelismerő rendszer offline futtatására is. Megköveteli a Pocketsphinx telepítését.
beszédfelismerés importálása sr # a felismerő osztály r = sr.Recognizer ()
Bevitel átvétele a mikrofonokból
A mikrofonok használatához telepítenünk kell a pyaudio modult is. A mikrofon osztályt használjuk arra, hogy a bemeneti beszédet a mikrofonról kapjuk, bármilyen más beviteli módszer, például audio fájl helyett.
A legtöbb projekt esetében az alapértelmezett mikrofonokat használhatjuk. De ha nem akarja az alapértelmezett mikrofont használni,a mikrofonnevek listáját a list_mikrofon_nevek módszerrel szerezheti be.
A mikrofonról érkező bemenet rögzítéséhez hallgatási módszert használunk.
beszédfelismerés importálása srr = sr.Recognizer () névvel sr.Microphone () forrásként: audio = sr.listen (forrás)
Hogyan telepítsük a Pyaudio programot a Pythonba?
A Pyaudio pythonba történő telepítéséhez futtassa a következő parancsot a terminálban, vagy ha pycharm-ot használ, adja hozzá a csomagot a projektértelmezőtől a beállításokba.
Use Case
Programot készítünk a python beszédfelismerő modul segítségével a beszéd felismerésére és a következők végrehajtására:
- konvertálja a beszédet szöveggé
- nyisson meg egy URL-t a webböngésző modul használatával
- adjon le egy lekérdezést a beszédfelismerés segítségével, hogy keresést végezzen az URL-ben
Az alábbiakban bemutatjuk a fenti problémamegállapítás programját:
beszéd_felismerés importálása importálja a webböngészőt wb-ként r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () és sr.Microphone () forrásként: print ('[keresés edureka: keresés a youtube-on]') print ('speak now') audio = r3.listen (source) if 'edureka' in r2.recognize_google (audio): r2 = sr.Recognizer () url = 'https://www.edureka.co/' with sr .Mikrofon () forrásként: print ('keresés a lekérdezésben') audio = r2.hallgatás (forrás) próbálkozás: get = r2.recognize_google (audio) print (get) wb.get (). Open_new (url + get) kivéve sr.UnknownValueError: print ('error'), kivéve sr.RequestError e-ként: print ('sikertelen.formátum (e)), ha' video 'az r1.recognize_google (audio) fájlban: r1 = sr.Recognizer () url =' https://www.youtube.com/results?search_query= 'sr.Microphone () forrásként: print (' videó keresése ') audio = r2.hallgatás (forrás) try: get = r1.recognize_google (audio) ) print (get) wb.get (). open_new (url + get), kivéve az sr.UnknownValueError: print ('nem tudtam megérteni'), kivéve az sr.RequestError as e: print (nem sikerült eredményeket kapni. formátum (e) )
A kimenetet úgy kapja meg, ahogy a képen látható. Ha azt mondja, hogy edureka, akkor arra kéri, hogy mondja ki azt a lekérdezést, amelyet keresni szeretne az edureka URL-ben, amelyet az url változóba írtunk. Ha azt mondod, hogy python, akkor a következő weblap nyílik meg a böngészőben.
Ebben a blogban megvitattuk, hogyan használhatjuk a beszédfelismerést a pythonban a beszéd szöveggé történő fordításához a beszédfelismerő csomag segítségével. órává vált olyan fogalmakra, mint a beszédfelismerés vagy a tárgylejtés, a elképzelhetetlen lehetőségeket kínálnak a beszédfelismerő rendszerek számára, ahol óriási beszédadatokat képezhetünk és tesztelhetünk egy rendszer felépítéséhez. Beiratkozhat a a mély neurális hálózatok számára, hogy elsajátítsák képességeit és elindítsák a tanulást.
van kérdése? említsd meg őket a megjegyzésekben, mi visszajövünk.