تا چند سال پیش، اگر میخواستید یک ویدئوی آموزشی بسازید یا پادکست تولید کنید، دو راه داشتید: یا خودتان جلوی میکروفون بنشینید، یا یک گوینده حرفهای استخدام کنید. ElevenLabs راه سومی باز کرده: متن بنویسید، صدای انسانی واقعی تحویل بگیرید — با لحن، مکث، احساس و کیفیتی که از صدای رباتهای قدیمی Google Translate فرسنگها فاصله دارد.
در این راهنما توضیح میدهیم ElevenLabs دقیقاً چیست، چه تفاوتی با سرویسهای قدیمی text-to-speech دارد، و چطور میتوانید از آن برای کارهای واقعی استفاده کنید.
ElevenLabs دقیقاً چیست
ElevenLabs یک پلتفرم تولید صدا با هوش مصنوعی است که در ۲۰۲۲ توسط دو مهندس سابق Google و Palantir تأسیس شد. محصول اصلی آن تبدیل متن به گفتار (Text-to-Speech) است، ولی فراتر از آن رفته و امروز شامل:
- Text-to-Speech — تبدیل هر متنی به صدای طبیعی انسانی
- Voice Cloning — کپی صدای شما (یا هر کسی با اجازه) و استفاده از آن برای خواندن متنهای جدید
- Voice Design — ساخت صدای کاملاً جدید با مشخصات دلخواه (سن، جنسیت، لهجه، تن)
- Speech-to-Speech — تغییر صدای ضبطشده به صدای دیگر (مثل دوبله)
- Dubbing — دوبله خودکار ویدئو به ۲۹ زبان با حفظ لحن و تایمینگ
- Sound Effects — تولید افکت صوتی از توضیح متنی
- Audio Isolation — جداسازی صدای انسان از نویز پسزمینه
تفاوت اصلی ElevenLabs با سرویسهای قدیمی TTS: طبیعی بودن. صدای خروجی ElevenLabs آنقدر واقعی است که در تستهای کور، شنوندگان در ۴۰٪ موارد نمیتوانند تشخیص دهند صدا AI است یا انسان واقعی.
چه کسانی از ElevenLabs استفاده میکنند
- تولیدکنندگان محتوا — برای ساخت ویدئوی YouTube/Instagram بدون ضبط صدا
- پادکسترها — برای تبدیل مقالات به اپیزود پادکست
- ناشران — برای تولید نسخه صوتی کتابها
- شرکتهای آموزشی — برای ساخت دورههای آنلاین با صدای حرفهای
- بازیسازان — برای دیالوگ شخصیتهای بازی
- استارتاپها — برای voice assistant و IVR تلفنی
- افراد کمبینا — برای شنیدن مقالات و کتابها با صدای طبیعی
- دوبلورها — برای دوبله سریع محتوا به زبانهای مختلف
شروع کار — گام به گام
۱. ساخت اکانت
به elevenlabs.io بروید و با ایمیل ثبتنام کنید. نسخه رایگان ۱۰,۰۰۰ کاراکتر در ماه میدهد (حدود ۱۰ دقیقه صدا) — برای امتحان کافی است.
۲. پلنها
- Free — ۱۰,۰۰۰ کاراکتر/ماه، ۳ صدای سفارشی، بدون حق تجاری
- Starter ($5/ماه) — ۳۰,۰۰۰ کاراکتر، ۱۰ صدا، حق تجاری
- Creator ($22/ماه) — ۱۰۰,۰۰۰ کاراکتر، ۳۰ صدا، Professional Voice Cloning
- Pro ($99/ماه) — ۵۰۰,۰۰۰ کاراکتر، ۱۶۰ صدا، ۴۴.۱ kHz خروجی
- Scale ($330/ماه) — ۲,۰۰۰,۰۰۰ کاراکتر، برای شرکتها
برای کاربر ایرانی، پرداخت مستقیم ممکن نیست. از طریق راها با تومان یا تتر اشتراک بگیرید.
۳. اولین تبدیل متن به صدا
در داشبورد ElevenLabs:
- متن خود را در کادر تایپ کنید (یا paste کنید)
- صدا را انتخاب کنید — کتابخانهای از صدهای آماده وجود دارد
- دکمه Generate را بزنید
- ۵-۱۰ ثانیه صبر کنید
- فایل MP3 آماده دانلود است
همین. واقعاً همینقدر ساده است.
انتخاب صدای مناسب
ElevenLabs کتابخانهای با ۱۰۰۰+ صدای آماده دارد. برای انتخاب درست:
صداهای پیشفرض
هر صدا مشخصات دارد: جنسیت، سن تقریبی، لهجه، و «شخصیت» (رسمی، دوستانه، خبری، داستانی). میتوانید قبل از انتخاب، نمونه ۱۰ ثانیهای هر صدا را بشنوید.
صداهای محبوب:
- Rachel — زن، آمریکایی، لحن آرام و حرفهای. مناسب ویدئوی آموزشی.
- Adam — مرد، بریتانیایی، لحن روایتی. مناسب داکیومنتری و پادکست.
- Bella — زن، جوان، لحن انرژیک. مناسب محتوای شبکه اجتماعی.
- Antoni — مرد، آمریکایی، لحن گرم. مناسب تبلیغات و برندینگ.
Voice Cloning — کپی صدای خودتان
اگر میخواهید محتوا با صدای خودتان تولید شود ولی وقت ضبط ندارید:
- ۳۰ ثانیه تا ۳ دقیقه از صدای خود ضبط کنید (هر چه بیشتر، کیفیت بهتر)
- فایل را آپلود کنید
- ElevenLabs مدل صدای شما را میسازد
- از این به بعد، هر متنی بنویسید با صدای خودتان خوانده میشود
کیفیت clone با ۳ دقیقه نمونه صدا بسیار بالاست — لحن، سرعت و ویژگیهای منحصربهفرد صدای شما حفظ میشود.
Voice Design — ساخت صدای جدید
اگر صدای خاصی در ذهن دارید که در کتابخانه نیست:
- جنسیت، سن و لهجه را مشخص کنید
- ویژگیها را تنظیم کنید (stability, similarity, style)
- ElevenLabs صدای کاملاً جدیدی میسازد که متعلق به هیچ انسان واقعی نیست
تنظیمات پیشرفته صدا
هر صدا در ElevenLabs چهار پارامتر قابل تنظیم دارد:
Stability (پایداری) — مقدار بالا = صدای یکنواختتر و قابل پیشبینیتر. مقدار پایین = تنوع بیشتر در لحن (مناسب داستانگویی). برای محتوای آموزشی ۷۰-۸۰٪ توصیه میشود.
Similarity (شباهت) — چقدر خروجی به صدای اصلی شبیه باشد. برای voice clone بالا بگذارید (۸۰-۹۰٪). برای صداهای عمومی ۵۰-۷۰٪ کافی است.
Style Exaggeration (اغراق سبک) — لحن و احساس را تقویت میکند. برای داستانگویی و تبلیغات بالا بگذارید. برای خبر و آموزش پایین.
Speaker Boost — وضوح و حضور صدا را افزایش میدهد. برای پادکست و ویدئو روشن بگذارید.
قابلیتهای پیشرفته
Dubbing — دوبله خودکار ویدئو
یکی از قویترین قابلیتهای ElevenLabs. ویدئوی خود را آپلود کنید و زبان مقصد را انتخاب کنید. ElevenLabs:
- گفتار را از ویدئو استخراج میکند (transcription)
- متن را ترجمه میکند
- با صدایی مشابه گوینده اصلی، متن ترجمهشده را میخواند
- تایمینگ را با حرکات لب هماهنگ میکند
- صدای جدید را روی ویدئو قرار میدهد
نتیجه: ویدئوی شما به ۲۹ زبان دوبله میشود — با صدایی که شبیه خود شماست ولی به زبان دیگر صحبت میکند.
Projects — کتاب صوتی و محتوای بلند
برای متنهای طولانی (کتاب، مقاله بلند، اسکریپت)، بخش Projects طراحی شده:
- متن را به فصلها تقسیم کنید
- برای هر فصل صدای متفاوت انتخاب کنید (مثلاً راوی + شخصیتها)
- مکثها و تأکیدها را دستی تنظیم کنید
- خروجی نهایی یک فایل صوتی پیوسته است
API — ادغام در محصول شما
اگر توسعهدهنده هستید، API قوی ElevenLabs امکان ادغام در هر محصولی را میدهد:
- Voice assistant برای اپلیکیشن
- خواندن مقالات در وبسایت خبری
- IVR هوشمند برای مرکز تماس
- NPC های بازی با صدای داینامیک
- Accessibility — خواندن محتوا برای کاربران کمبینا
Sound Effects
با یک توضیح متنی، افکت صوتی بسازید:
Rain falling on a tin roof, thunder in the distance
Busy Iranian bazaar, people talking, metal clanking
Spaceship engine humming, quiet beeps from control panel
مناسب برای پادکست، ویدئو، بازی و هر محتوایی که به صدای محیطی نیاز دارد.
ElevenLabs در مقابل رقبا
| ویژگی | ElevenLabs | Google TTS | Amazon Polly | Murf AI | Speechify |
|---|---|---|---|---|---|
| کیفیت صدا | عالی | خوب | خوب | خوب | متوسط |
| طبیعی بودن | بسیار بالا | متوسط | متوسط | بالا | متوسط |
| Voice Cloning | بله | خیر | خیر | بله | خیر |
| دوبله ویدئو | بله | خیر | خیر | خیر | خیر |
| فارسی | بله (کیفیت متوسط) | بله | بله | خیر | خیر |
| API | بله | بله | بله | بله | خیر |
| قیمت شروع | $5/ماه | Pay-per-use | Pay-per-use | $23/ماه | $139/سال |
خلاصه: ElevenLabs بهترین کیفیت صدا و بیشترین قابلیتها را دارد. اگر فقط TTS ساده میخواهید و بودجه محدود است، Google TTS با پرداخت بهازای مصرف ارزانتر است. اگر voice cloning و dubbing میخواهید، ElevenLabs تنها گزینه جدی است.
پشتیبانی از زبان فارسی
ElevenLabs از زبان فارسی پشتیبانی میکند، ولی با چند نکته:
- کیفیت صدای فارسی از انگلیسی پایینتر است (مدل کمتر آموزش دیده)
- لهجه خروجی گاهی «عربیمآب» است — تلفظ برخی حروف دقیق نیست
- برای محتوای فارسی حرفهای، voice clone از صدای فارسیزبان بهترین نتیجه را میدهد
- صداهای انگلیسی کتابخانه برای محتوای انگلیسی عالی هستند
اگر محتوای شما انگلیسی است (مثلاً ویدئوی آموزشی برنامهنویسی)، کیفیت خروجی ElevenLabs از گوینده متوسط بهتر است.
کاربردهای عملی برای کاربر ایرانی
ساخت ویدئوی YouTube بدون ضبط صدا
بسیاری از یوتیوبرهای ایرانی که محتوای انگلیسی تولید میکنند، از ElevenLabs استفاده میکنند. مزیت: کیفیت صدای ثابت، بدون نیاز به استودیو، و امکان تولید ۱۰ ویدئو در روز بهجای ۱.
تبدیل مقاله به پادکست
اگر وبلاگ یا خبرنامه دارید، میتوانید هر مقاله را به اپیزود صوتی تبدیل کنید. خوانندگانی که وقت خواندن ندارند، در ماشین یا هنگام ورزش گوش میدهند.
دوبله محتوای آموزشی
اگر دوره آنلاین فارسی دارید و میخواهید به بازار عربی یا ترکی هم بفروشید، Dubbing خودکار ElevenLabs هزینه دوبله حرفهای (که برای یک دوره ۱۰ ساعته ممکن است ۵۰-۱۰۰ میلیون تومان باشد) را به کسری از آن کاهش میدهد.
کتاب صوتی
ناشران ایرانی که میخواهند نسخه صوتی کتابها را تولید کنند، با ElevenLabs میتوانند یک کتاب ۳۰۰ صفحهای را در چند ساعت به کتاب صوتی تبدیل کنند — بهجای چند هفته ضبط استودیویی.
Voice Assistant برای اپلیکیشن
استارتاپهای ایرانی که اپلیکیشن با قابلیت صوتی میسازند (مثل دستیار هوشمند، اپ آموزش زبان، یا chatbot صوتی) از API استفاده میکنند.
نکات مهم و محدودیتها
۱. اخلاق و قانون. Voice cloning فقط با اجازه صاحب صدا مجاز است. ElevenLabs هنگام clone کردن، تأییدیه میخواهد. استفاده برای جعل هویت صوتی غیرقانونی است.
۲. کاراکتر ≠ کلمه. حساب ElevenLabs بر اساس کاراکتر است، نه کلمه. یک کلمه فارسی متوسط ۵-۶ کاراکتر دارد. ۱۰۰,۰۰۰ کاراکتر ≈ ۱۵,۰۰۰-۲۰,۰۰۰ کلمه ≈ ۹۰-۱۲۰ دقیقه صدا.
۳. فرمت خروجی. MP3 (پیشفرض)، WAV، OGG. برای پادکست MP3 128kbps کافی است. برای ویدئوی حرفهای WAV 44.1kHz توصیه میشود (فقط پلن Pro به بالا).
۴. Latency. برای real-time (مثل voice assistant)، ElevenLabs streaming API دارد با latency ~300ms. برای batch processing (کتاب صوتی)، latency مهم نیست.
۵. VPN. سایت ElevenLabs برای IP ایرانی محدودیت ندارد (در زمان نگارش). ولی برای اطمینان، VPN توصیه میشود.
شروع کنید
اگر هر نوع محتوای صوتی تولید میکنید — ویدئو، پادکست، دوره آموزشی، کتاب صوتی — ElevenLabs ابزاری است که کیفیت خروجی شما را بالا میبرد و زمان تولید را به کسری کاهش میدهد.
با نسخه رایگان (۱۰,۰۰۰ کاراکتر) شروع کنید و کیفیت صدا را خودتان بشنوید. اگر قانع شدید، پلن Starter ($5/ماه) برای شروع کافی است.
برای خرید اشتراک ElevenLabs از ایران، به صفحه ElevenLabs در راها مراجعه کنید. فعالسازی روی اکانت خودتان، با گارانتی تا پایان دوره.




