Fish Audio Studio

TTS · Voice Cloning · Fish S2 Pro

LIVE
🧠 Model TTS: Sẵn sàng Hot-swap: chỉ 1 model trong VRAM
🎙 Giọng Nói Giọng mặc định
Giọng mặc định của S2 Pro — model tự động nhận diện ngôn ngữ và phát âm.
Để có giọng tự nhiên, hấp dẫn hơn, dùng tab Voice Cloning để upload/thu âm giọng mẫu, hoặc chọn từ Voice Library đã lưu.
🎤
Kéo thả hoặc click để chọn file âm thanh mẫu
WAV · MP3 · FLAC · M4A · Nên 5–30 giây · Tối đa 10 MB
Chưa nhập transcript
⚠️ Quan trọng: Fish S2 Pro cần cả audio + transcript khớp 100% để clone giọng. Nếu bạn không nhập transcript, model chỉ học được pitch/timbre cơ bản → giọng output không giống bạn. Dùng nút Auto-transcribe (chỉ Chrome/Edge, hỗ trợ tiếng Việt) hoặc gõ tay từng chữ. Audio mẫu phải là 1 người nói duy nhất, không nhạc nền, không echo, mono 16kHz+.
🇻🇳 Tối ưu Clone Tiếng Việt
Fish S2 Pro train chủ yếu trên tiếng Anh/Trung. Với tiếng Việt cần: language=vi, temp 0.55, top_p 0.85, chunk 130, 3-5 references.
📚 Multi-Reference (3-5 clips) · cải thiện accent tiếng Việt mạnh nhất
Chưa có extra reference. Clip chính dùng ở trên. Nên thêm 2-4 clip với prosody khác nhau: câu kể, câu hỏi, câu cảm thán.
🔍 Reference Quality Check
Bấm "Check quality" để phân tích: độ dài, SNR, peak, clipping, tones tiếng Việt trong transcript.
🎓 Voice Training Pipeline
Ghi 5 mẫu đa dạng → auto-merge thành Super-Voice
🔗 Pipeline Integration (Video Production)
Bấm "Tải danh sách" để xem reference voices đã lưu trên server.
Chưa có voice nào. Hãy upload hoặc thu âm ở tab ✨ Clone giọng rồi bấm Lưu vào Library.

💡 Bấm một trong các nút tạo giọng mẫu bên trên để tạo ngay bộ giọng chuyên nghiệp cho lĩnh vực của bạn:
🎬 YouTube · 🎓 Giáo dục · 💼 Kinh doanh · 🏥 Sức khỏe · 🎭 Giải trí
📝 Văn Bản Muốn Đọc
0 ký tự · 0 từ · ~0 chunk · ⏱ 0s Ctrl + Enter để tạo
▶ Tags nhanh (nhịp, cảm xúc, âm lượng)
⏱ Nhịp: [pause] [short pause] [long pause] … dừng — em dash , pause ngắn ⏎ xuống dòng ⏎⏎ đoạn mới
😂 Phản ứng: [laugh] [chuckle] [giggle] [sigh] [gasp] [inhale] [exhale] [clears throat] [cry]
😊 Cảm xúc: [happy] vui [sad] buồn [excited] hào hứng [calm] bình thản [warm] ấm áp [sarcastic] mỉa mai [curious] tò mò [hesitant] ngập ngừng [serious] nghiêm túc
🔊 Âm lượng & nhấn: [whisper] thì thầm [quietly] nói nhỏ [shouting] nói to [soft tone] nhẹ [emphasis] nhấn ↕ Bọc selection A↑ CAPS selection 🎭 Xem tất cả tags →
🇻🇳 Tag Việt: [vui] [buồn] [giận] [hứng] [bình thản] [tò mò] [xúc động] [thì thầm] [nhấn] [cười] [thở dài] [dừng] auto-dịch sang English trước TTS
🔤 Normalize: Số → chữ · viết tắt → đầy đủ · dấu câu chuẩn
🇻🇳 Công cụ tiếng Việt Mở phần cần dùng
📝 Xử lý văn bản — chunk, tone, pause, viết tắt, tên riêng
⏸ Chèn pause tự động
📒 Từ điển phát âm tên riêng
🎬 Chế độ tạo — vùng miền, A/B, dialog, long-form, batch
🗣 Giọng vùng miền (preset)
🎚 Xử lý audio — fade, speed, trim, subtitle
🎚 Hiệu ứng (áp dụng lên audio vừa tạo)
▶ Tạo Giọng Nói & Tải Về
Sắp tạo giọng nói với: 🤖 Giọng mặc định DEFAULT
⚙️ CÔNG CỤ NÂNG CAO
⚙️ Cài Đặt (tùy chọn — dùng mặc định cũng được)
💪 Robust — ổn định, ít biến đổi 🎯 Natural — khuyến nghị (mặc định) 🎨 Creative — biểu cảm, đa dạng
💡 Natural phù hợp 90% use-case. Creative tốt cho kịch/kể chuyện có cảm xúc. Robust cho quảng cáo/giáo dục cần đọc đều.
Ổn địnhSáng tạo
Tập trungĐa dạng
0.5x2x
⚙️ Advanced Sampling (Fish S2 Pro native params)
Giữ seed giống → generate ra audio giống
Lặp nhiềuTránh lặp
~4 tokens = 1s audio · 512 = ~2 phút gen tối đa
Server-side chunking
Generate nhiều phiên bản, chọn best
Generate song song để so sánh
🎭 Audio Tags — Điều khiển giọng điệu
Fish Audio S2 Pro chính thức hỗ trợ [bracket] syntax với mô tả tự nhiên (English works best). Model học implicit mapping từ training data → bạn có thể dùng tự do mọi mô tả như [whispers sweetly], [laughing nervously], không bị giới hạn list cố định. Cue có thể đặt ở bất kỳ vị trí nào: "I can't believe it [gasp] you actually did it [laugh]". Combine pause-marker (... ) và CHỮ HOA để có hiệu ứng chắc chắn nhất.
😊 Basic Emotions (24 — official S1/S2 list)
[happy] vui [sad] buồn [angry] tức giận [excited] hào hứng [calm] bình thản [nervous] lo lắng [confident] tự tin [surprised] ngạc nhiên [satisfied] [delighted] [scared] sợ [worried] [upset] [frustrated] [depressed] [empathetic] [embarrassed] [disgusted] [moved] [proud] [relaxed] [grateful] biết ơn [curious] tò mò [sarcastic] mỉa mai
🎭 Advanced Emotions (25 — official)
[disdainful] [unhappy] [anxious] [hysterical] [indifferent] thờ ơ [uncertain] [doubtful] nghi ngờ [confused] bối rối [disappointed] [regretful] [guilty] [ashamed] [hopeful] [optimistic] [pessimistic] [nostalgic] [lonely] [bored] chán [contemptuous] [sympathetic] thương cảm [compassionate] [determined] quyết tâm [resigned] cam chịu [envious] [jealous]
😂 Audio Effects (10 — official paralinguistic)
[laughing] cười [laugh] cười (ngắn) [chuckling] cười khẽ [sobbing] khóc nức nở [crying loudly] [cry] [sighing] thở dài [sigh] [groaning] rên [panting] hổn hển [gasping] hít sâu [gasp] [yawning] ngáp [snoring] ngáy [inhale] [exhale] [clears throat]
🔊 Tone Markers (5 — official volume/pacing)
[whispering] thì thầm [whisper] [soft tone] nhẹ [quietly] nói nhỏ [shouting] hét [screaming] gào [in a hurry tone] vội [emphasis] nhấn
⏱ Pause / Nhịp (combine với dấu câu cho hiệu quả tốt nhất)
[pause] [short pause] [long pause] [break] (S1 official) [long-break] (S1) … dừng dài — em dash , pause ngắn
💡 Pause chắc chắn nhất: dùng ... hoặc xuống đoạn (⏎⏎). Tag [pause] là natural-language hint cho S2.
🎬 Free-form Style (S2 đặc biệt — natural language tự do)
[whispers sweetly] [laughing nervously] [speaking softly] [said with a smile] [in a dramatic voice] [matter-of-fact tone] [childlike] trẻ con [elderly tone] [narrator] [mysterious] [friendly] [professional] [apologetic] [encouraging] [playful] tinh nghịch [stuttering] lắp bắp [speaking slowly] [speaking quickly]
💡 S2 Pro hiểu được bất kỳ mô tả nào trong [brackets]. Cứ tự sáng tạo: [in a sleepy voice], [crying while talking]...
💥 Special Effects (official S2 — đám đông/môi trường)
[audience laughing] [crowd laughing] [background laughter] [applause] vỗ tay
⚠ Các SFX khác (gunshot, explosion...) không trong official list — có thể bị đọc literal. Hậu kỳ trong DAW/video editor sẽ an toàn hơn.
🌍 Accent (S2 free-form — đáng tin nhất khi reference voice match)
[American accent] [British accent] [Australian accent] [Indian accent] [Northern VN] giọng Bắc [Southern VN] giọng Nam [Central VN] giọng Trung
💡 Accent chỉ đáng tin khi dùng reference voice cloning của accent tương ứng. Chỉ dùng tag không thường yếu.
🎬 Multi-voice dialogue (cần switch voice trong Library)
<VOICE_A> </VOICE_A> <VOICE_B> </VOICE_B>
💡 Fish Audio chưa auto-switch giọng — bạn cần tách đoạn, generate từng giọng riêng rồi ghép (dùng feature concat sẵn có).
📖 Từ điển Phát âm · Fix đọc sai tên riêng, thuật ngữ EN
Fish Audio hay đọc sai các từ tiếng Anh trong câu tiếng Việt (vd: AI đọc thành "ai" thay vì "ây ai"). Khai báo thay thế ở đây — sẽ áp dụng trước khi gửi API (không đổi text gốc trong ô).
🎨 Job Templates · 1-click apply (voice + settings + filename)
🎭 Multi-voice Dialogue · Mỗi nhân vật giọng riêng
Viết kịch bản hội thoại theo cú pháp [Tên] đầu mỗi câu. Mỗi nhân vật được map sang 1 voice trong Library. Audio sẽ được render tuần tự (giọng A → silence → giọng B...) và ghép thành 1 file.
Ví dụ:
[Alice] Chào Bob, dạo này thế nào?
[Bob] Cảm ơn Alice, vẫn ổn. Còn cậu?
[Alice] Mình cũng tốt. Tối nay đi cà phê nhé?
🗂 Batch Mode · Generate nhiều file cùng lúc
Paste script nhiều dòng — mỗi dòng là một file audio riêng. Phù hợp để làm voice-over cho video nhiều đoạn, dubbing hội thoại, tạo audio lesson. Sẽ dùng voice + settings hiện tại (cloning / library / mặc định).
💡 Ví dụ: text = Xin chào {{name}}, hôm nay là {{day}}! + var name=An,Bình,Cường + day=Thứ Hai,Thứ Ba,Thứ Tư → 3 files cá nhân hoá. Bỏ trống để tắt.
💡 POST JSON: {prefix, total, success, failed, elapsed_sec, items:[{idx,filename,size,text,error?}]}. Để trống = tắt.
{prefix} {seq} {seq2} (zero-pad) {date} 2026-04-21 {datetime} {voice} {lang} {slug} (đầu dòng) {ext}
→ voice_01.mp3
🎛 Nâng Cao · Background music, Webhook
🎵
Click để chọn nhạc nền (MP3/WAV)
⚙️ Advanced Production Tools · 10 tính năng hỗ trợ video production
Sẵn sàng · Nói câu đa dạng âm
Mỗi chapter = 1 item (giữ tên chapter trong metadata)
YouTube cần server proxy (endpoint /api/yt-extract)
Tắt
Auto-save sau mỗi gen thành công
📋 Queue System · Xếp hàng tạo nhiều nội dung · serial/parallel · drag-drop
Drag items để đổi thứ tự · Click ⬆⬇ để di chuyển · ✏ sửa text · 🎙 đổi voice · ▶ chạy 1 item · ❌ xóa
🎭 Emotion Presets & Post-FX · Cảm xúc · Noise gate · Compressor · De-esser
🚀 Pipeline · Test Suite · Analytics
Dùng voice đang chọn · gồm câu ngắn, dài, số, tên riêng, câu hỏi
💼 Project · Voice Blend · Clipboard
Bao gồm: text, settings, voice library, queue, scenes, pronunciation dict
Tắt
Mỗi lần copy text mới → auto thêm vào Queue · Cần bật focus tab (Chrome yêu cầu user gesture cho clipboard API)
🪄 Voice Enhance · Preprocess reference audio để clone chính xác hơn
Xử lý file mẫu trước khi clone: trim silence, chuẩn hóa volume, cắt ngắn về 15-25s (sweet spot). Audio input dùng ở Clone tab hoặc Library voice đang chọn.
🎬 Script Studio · Multi-scene video script (intro → body → outro)
Chia script thành nhiều scene, mỗi scene có voice/tone/pause riêng. Xuất ra 1 file audio liền mạch + SRT subtitles.
🎧 Audio Mix Studio · Trộn voice + BGM với ducking
Upload nhạc nền, tự động ducking (giảm BGM khi có voice), fade-in/out, export master.
🕐 Lịch Sử Xóa lịch sử

Chưa có lịch sử.