Prepoznavanje govora z uporabo Google Speech API in Python: 4 koraki

Kazalo:

Korak: ReSpeaker USB 4-Mic Array
2. korak: Namestite potrebne knjižnice
3. korak: Pretvorba besedila v govor v Pythonu s knjižnico Pyttsx3
4. korak: Združite vse: ustvarjanje prepoznavanja govora s Pythonom z uporabo Googlovega API -ja za prepoznavanje govora in knjižnice Pyttsx3

👤 Avtor John Day 📧 [email protected].
⏱ Public 2024-01-30 12:04.
🖍 Nazadnje spremenjeno 2025-01-23 15:08.

Prepoznavanje govora

Prepoznavanje govora je del obdelave naravnega jezika, ki je podpolje umetne inteligence. Preprosto povedano, prepoznavanje govora je sposobnost računalniške programske opreme, da prepozna besede in besedne zveze v govorjenem jeziku in jih pretvori v besedilo, ki ga lahko bere človek. Uporablja se v več aplikacijah, kot so sistemi glasovnih asistentov, avtomatizacija doma, glasovni klepetalniki, glasovno interaktivni robot, umetna inteligenca itd.

Za prepoznavanje govora obstajajo različni API -ji (Application Programming Interface). Ponujajo brezplačne ali plačljive storitve. To so:

CMU Sfinga
Googlovo prepoznavanje govora
Google Cloud Speech API
Wit.ai
Prepoznavanje glasu Microsoft Bing
Houndify API
IBM -ov govor v besedilo
Snowboy Hotword Detection

Tukaj bomo uporabljali Googlovo prepoznavanje govora, saj ne potrebuje nobenega ključa API. Namen te vadnice je predstaviti, kako uporabljati knjižnico Google za prepoznavanje govora na Pythonu s pomočjo zunanjega mikrofona, kot je ReSpeaker USB 4-Mic Array iz Seeed Studio. Čeprav uporaba zunanjega mikrofona ni obvezna, lahko uporabite tudi vgrajen mikrofon prenosnika.

Korak: ReSpeaker USB 4-Mic Array

ReSpeaker USB Mic je štiri-mikrofonska naprava, zasnovana za AI in glasovne aplikacije, ki jo je razvil Seeed Studio. Ima 4 visokozmogljive, vgrajene vsesmerne mikrofone, namenjene pobiranju vašega glasu od koder koli v sobi in 12 programabilnih LED indikatorjev RGB. Mikrofon ReSpeaker USB podpira operacijske sisteme Linux, macOS in Windows. Podrobnosti najdete tukaj.

USB mikrofon ReSpeaker je v lepi embalaži, ki vsebuje naslednje elemente:

Navodila za uporabo
Polje mikrofona za zvočnik USB
Kabel mikro USB v USB

Tako smo pripravljeni na začetek.

2. korak: Namestite potrebne knjižnice

Za to vadbo predvidevam, da uporabljate Python 3.x.

Namestimo knjižnice:

pip3 namestite SpeechRecognition

Za macOS morate najprej namestiti PortAudio z Homebrew, nato pa namestiti PyAudio s pip3:

brew namestite portaudio

Zaženemo spodnji ukaz za namestitev pyaudio

pip3 namestite pyaudio

Za Linux lahko namestite PyAudio z apt:

sudo apt-get install python-pyaudio python3-pyaudio

Za Windows lahko PyAudio namestite s pipom:

pip namestite pyaudio

Ustvarite novo datoteko python

nano get_index.py

Prilepite na get_index.py pod delček kode:

uvoz pyaudio

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') za i v obsegu (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i). Cent ('max '))> 0: print ("ID vhodne naprave", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' ime '))

Zaženite naslednji ukaz:

python3 get_index.py

V mojem primeru ukaz na zaslon prikaže naslednje rezultate:

ID vhodne naprave 1 - niz mikrofonov ReSpeaker 4 (UAC1.0)

ID vhodne naprave 2 - MacBook Air mikrofon

Spremenite device_index v indeksno številko po vaši izbiri v spodnjem delčku kode.

uvoz govora_prepoznavanje kot sr

r = sr. Recognizer () govor = sr. Mikrofon (device_index = 1) z govorom kot virom: print ("recite nekaj! …") audio = r.adjust_for_ambient_noise (vir) audio = r.listen (vir) poskusite: prepoznati = r.recognize_google (audio, language = 'en-US') print ("Rekli ste:" + prepoznati), razen sr. UnknownValueError: print ("Google Prepoznavanje govora ni razumelo zvoka"), razen sr. RequestError kot e: print ("Ni mogoče zahtevati rezultatov od Googlove storitve za prepoznavanje govora; {0}". Format (e))

Indeks naprave je bil izbran 1, ker bo glavni vir ReSpeaker 4.

3. korak: Pretvorba besedila v govor v Pythonu s knjižnico Pyttsx3

Za pretvorbo besedila v govor v pythonu je na voljo več API -jev. Eden takih API-jev je pyttsx3, ki je po mojem mnenju najboljši razpoložljivi paket za pretvorbo besedila v govor. Ta paket deluje v sistemih Windows, Mac in Linux. Kako se to naredi, preverite v uradni dokumentaciji.

Namestitev paketa Za namestitev paketa uporabite pip.

pip namestite pyttsx3

Če uporabljate Windows, boste potrebovali dodaten paket pypiwin32, ki ga bo potreboval za dostop do domačega API -ja za govor Windows.

pip namestite pypiwin32

Pretvorite besedilo v govor python script Spodaj je delček kode za besedilo v govor z uporabo pyttsx3:

uvoz pyttsx3

engine = pyttsx3.init ()

engine.setProperty ('rate', 150) # Odstotek hitrosti

engine.setProperty ('volume', 0.9) # zvezek 0-1

engine.say ("Pozdravljeni, svet!")

engine.runAndWait ()

4. korak: Združite vse: ustvarjanje prepoznavanja govora s Pythonom z uporabo Googlovega API -ja za prepoznavanje govora in knjižnice Pyttsx3

Spodnja koda je odgovorna za prepoznavanje človeškega govora z Google Prepoznavanjem govora in pretvorbo besedila v govor s knjižnico pyttsx3.

uvoz govora_prepoznavanje kot sr

uvoz pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () govor = sr. Mikrofon (device_index = 1) z govorom kot virom: audio = r.adjust_for_ambient_noise (vir) audio = r.listen (vir) poskus: priznanje = r.recognize_google (zvok, jezik = 'en-ZDA') print ("Rekel si:" + prepoznati) engine.say (" Rekli ste: " + prepoznati" engine.runAndWait () razen sr. UnknownValueError: engine.say ("Google Prepoznavanje govora ne more razumeti zvoka") engine.runAndWait () razen sr. RequestError kot e: engine.say ("Ne morem zahtevajte rezultate od Googlove storitve za prepoznavanje govora; {0} ". format (e)) engine.runAndWait ()

Natisne izhod na terminalu. Prav tako se bo pretvoril v govor.

Rekli ste: London je glavno mesto Velike Britanije

Upam, da ste zdaj bolje razumeli, kako prepoznavanje govora deluje na splošno in kar je najpomembneje, kako to implementirati z Googlovim API -jem za prepoznavanje govora s Pythonom.

Če imate kakršna koli vprašanja ali povratne informacije? Spodaj pustite komentar. Ostani na vezi!

Priporočena:

Umetna inteligenca in prepoznavanje slik z uporabo HuskyLens: 6 korakov (s slikami)

Umetna inteligenca in prepoznavanje slike z uporabo HuskyLens: Hej, kaj se dogaja, fantje! Akarsh tukaj iz CETech -a. V tem projektu bomo pogledali HuskyLens iz DFRobota. To je modul kamere, ki poganja umetno inteligenco in je sposoben izvesti več operacij umetne inteligence, kot je prepoznavanje obrazov

Prepoznavanje govora z Arduinom (Bluetooth + LCD + Android): 6 korakov

Prepoznavanje govora z Arduinom (Bluetooth + LCD + Android): V tem projektu bomo prepoznali govor z Arduinom, modulom Bluetooth (HC-05) in LCD-jem. izdelajmo svojo napravo za prepoznavanje govora

Prepoznavanje obrazov in identifikacija - Arduino Face ID z uporabo OpenCV Python in Arduino .: 6 korakov

Prepoznavanje obrazov in identifikacija | Arduino Face ID z uporabo OpenCV Python in Arduino .: Prepoznavanje obraza AKA Face ID je ena najpomembnejših značilnosti mobilnih telefonov danes. Tako sem imel vprašanje " ali lahko dobim ID obraza za svoj projekt Arduino " in odgovor je pritrdilen … Moje potovanje se je začelo na naslednji način: 1. korak: Dostop do nas

MQ7-SPREMEMBENJE OGANJENJA Z UPORABO GOVORA IN NODEMCU: 4 koraki

SPREMLJANJE OKOLJENJA MQ7 Z UPORABO GOVORA IN NODEMCU: Onesnaževanje je glavni problem našega današnjega sveta. Kako pa lahko spremljamo naše onesnaževanje v bližini, je zdaj zelo enostavno. ZAčnimO:

Kako povezati aplikacijo Android z AWS IOT in razumeti API za prepoznavanje glasu: 3 koraki

Kako povezati aplikacijo Android z AWS IOT in razumeti API za prepoznavanje glasu: Ta vadnica uči uporabnika, kako povezati aplikacijo Android s strežnikom AWS IOT in kako razumeti API za prepoznavanje glasu, ki nadzoruje aparat za kavo. Glasovna storitev, vsaka aplikacija je c

Prepoznavanje govora z uporabo Google Speech API in Python: 4 koraki

Kazalo:

Prepoznavanje govora

Korak: ReSpeaker USB 4-Mic Array

2. korak: Namestite potrebne knjižnice

3. korak: Pretvorba besedila v govor v Pythonu s knjižnico Pyttsx3

4. korak: Združite vse: ustvarjanje prepoznavanja govora s Pythonom z uporabo Googlovega API -ja za prepoznavanje govora in knjižnice Pyttsx3

Priporočena:

Umetna inteligenca in prepoznavanje slik z uporabo HuskyLens: 6 korakov (s slikami)

Prepoznavanje govora z Arduinom (Bluetooth + LCD + Android): 6 korakov

Prepoznavanje obrazov in identifikacija - Arduino Face ID z uporabo OpenCV Python in Arduino .: 6 korakov

MQ7-SPREMEMBENJE OGANJENJA Z UPORABO GOVORA IN NODEMCU: 4 koraki

Kako povezati aplikacijo Android z AWS IOT in razumeti API za prepoznavanje glasu: 3 koraki

Učna krivulja bele LED!: 5 korakov

Digitalni senzor nagiba z uporabo LM358: 3 koraki

Kako Facebooku preprečiti samodejno predvajanje videoposnetkov v sistemu Android !!: 10 korakov

Visokonapetostni napajalnik za Marxov generator: 8 korakov

Lepo videti, poceni svetilka LED Shop: 5 korakov

Kako narediti LED stikalo proti muham: 8 korakov

Žvečilni gumi USB !!: 7 korakov (s slikami)

Collegg'tible - Zbirateljska jajca z navodili: 3 koraki (s slikami)

Dodajanje prostora na trdem disku prenosnemu računalniku: 4 koraki

Odstranjevanje LED optičnih vlaken: 5 korakov

Kako narediti prenosni sistem iger: 39 korakov (s slikami)

Pretvorite pokvarjen predvajalnik DVD -jev v ohišje dodatne opreme za računalnik za domači kino: 10 korakov

Zvočnik Bluetooth iz obnovljene bambusove škatle: 4 koraki (s slikami)

Ročni stabilizator kamere: 13 korakov (s slikami)

Žarnica žarilne nitke Joule Thief: 3 koraki

Kako narediti programerja PIC - PicKit 2 'klon': 4 koraki (s slikami)