راههای زیادی برای راه اندازی یک سیستم تشخیص صدا با رزبری پای وجود دارد و من فکر میکنم که بهترین روش برای ما استفاده از سرویس Speech to Text گوگل است. این سرویس به کاربرانش این اجازه را میدهد که صدایی را که ضبط کردهاند را به متن تبدیل کنند (سپس این متن را ترجمه خواهیم کرد)
سورس این پروژه روی گیتهاب آپلود شده است. آن را دانلود کرده و از حالت فشرده خارج کنید:
wget https://github.com/dconroy/PiTranslate/archive/master.zip unzip master.zip cd PiTranslate-master
نکته: این برنامه ترکیبی از اسکریپت های پایتون و بش است.
برای استفاده از این برنامه باید یکی از فایلهای آن را قابل اجرا کنیم:
sudo chmod +x stt.sh
به منظور استفاده از API سیستم تشخیص صدای گوگل (Google’s speech recognition) باید برای آن ثبت نام کنید در حالی که در اکانت گوگل خود لاگین کردهاید، مراحل زیر را دنبال کنید:
به این لینک بروید و روی ”Create Project” کلیک کنید و یک نام به آن بدهید. مثلاً ”My Universal Translator” و روی دکمه ی Create کلیک کنید.
تب دیگری در مرورگر خود باز کنید و با رفتن به این لینک در گروه ”Chromium-dev” عضو شوید تا بتوانید به Speach API دسترسی داشته باشید.
به تب ساخت پروژه گوگل خود برگردید. اگر پروسه ی ساخت پروژه به پایان رسیده، باید داشبور پروژه را ببینید. روی ”“APIS & AUTH”در سمت چپ داشبور و سپس روی “APIs” کلیک کنید. به پایین صفحه اسکرول کنید و API را روشن کنید.
از داشبور خارج نشوید و در همان سمت چپ داشبور روی “Credentials” کلیک کنید، به ترتیب روی گزینه های “Create new Key” و “Browser Key.” کلیک کنید و در آنجا یکی کلید جدید برای API خود ایجاد کنید، این کلید در داشبور نشان داده خواهد شد.
در رزبری و در فایل text-to-translate.py خطی را پیدا کنید که چنین چیزی دارد:
key = "xxx"
کلید API که ساختید را با xxx در فایل ذکر شده جایگزین کنید. برای راحتتر کردن این کار میتوانید محیط گرافیکی را روی رزبری بالا آورده و با مرورگر آن به اکانت گوگل خود وارد شده و سپس کلید را کپی کنید. راه دیگر کپی کردن کلید و ذخیره ی آن در یک فایل و فرستادن فایل با استفاده از SFTP است.
نکته: این سرویس گوگل فقط برای ۵۰ در خواست در روز رایگان است.
این سرویس گوگل عالی است اما ما از سرویس مایکروسافت استفاده خواهیم کرد ، چون رایگان است. با اکانت مایکروسافت خود در Microsoft’s Azure Marketplace لاگین کنید.
برای ساخت برنامه جدید روی دکمه ی REGISTER کلیک کنید.
فرم را پر کرده و دکمه ی Create را بزنید.
Client ID و Client Secret داده را در جای مخصوصشان در فایلPiTranslate.py ذخیره کنید.
خوب حالا برنامه آماده شده، هدست را به رزبری وصل کرده و زدن کامند زیر شروع به ضبط صدای خود کنید:
./stt.sh
پس از تمام شدن صحبتتان دکمه های Ctrl+C را بزنید. ترجمه را در هدست خود خواهید شنید و فیدبک ها هم در ترمینال نشان داده میشوند.
زبان ترجمه به صورت پیشفرض انگلیسی به اسپانیایی است اما در خطوط آخر فایل text-to-translate.py میتوانید آنها را تغییر دهید. لذت ببرید 🙂
فوق العاده هستید
دمتون گرم ، واقعا تشکر
با سلام خدمت شما
برای پردازش گفتار فارسی و ارسال کامند مثل راه اندازی موتور میشه یک ویدیوی آموزشی قرار بدی ممنون و متشکر بابت آموزش خوبتون
مهدی
با سلام
ضمن تشکر ازتوجه شما، درخواست شما در یک آموزش قرار نمیگیرد. همچنین اولویت با آموزشهایی است که بیشترین تقاضا را دارند، در این خصوص حتما بررسی خواهم کرد.
سلام،در حال حاضر این سرویسMicrosoft’s Azure Marketplace وجود داره؟
با سلام
کاربر گرامی لطفا منظورتان را دقیق اعلام کنید. تا بتوانم راهنمایی کنم.
سلام،من میخواستم از یکی از سرویس های گوگل یا مایکروسافت که نحوه ثبت نام انها اموزش داده شده استفاده کنم ولی وجود ندارند.ادرس لینکی هم که دادید در حال حاضر وجود نداره.میشه لطفا راهنمایی کنید یا لینکی برای ثبت نام در این سرویس ها به من بدید؟
به علت اینکه این آموزش مربوط به چند سال پیش است، برخی از موارد به احتمال زیاد تغییر کردهاند. از اینرو موارد به روز را نمیدانم که راهنمایی کنم. از دیگر کاربران که در این خصوص تجربه دارند تقاضا دارم تا در این بحث شرکت کنند. همچنین از شما خواهش دارم که تجربه کاریتان را از همین طریق برای دیگر کاربران به اشتراک بگذارید.