Fish Audio S2 Pro - TTS Studio

🎙 Giọng Nói Giọng mặc định

Giọng mặc định của S2 Pro — model tự động nhận diện ngôn ngữ và phát âm.
Để có giọng tự nhiên, hấp dẫn hơn, dùng tab Voice Cloning để upload/thu âm giọng mẫu, hoặc chọn từ Voice Library đã lưu.

🎤

Kéo thả hoặc click để chọn file âm thanh mẫu

WAV · MP3 · FLAC · M4A · Nên 5–30 giây · Tối đa 10 MB

📝 Lời thoại CHÍNH XÁC trong file mẫu ⚠ BẮT BUỘC để clone giọng đúng

Chưa nhập transcript

⚠️ Quan trọng: Fish S2 Pro cần cả audio + transcript khớp 100% để clone giọng. Nếu bạn không nhập transcript, model chỉ học được pitch/timbre cơ bản → giọng output không giống bạn. Dùng nút Auto-transcribe (chỉ Chrome/Edge, hỗ trợ tiếng Việt) hoặc gõ tay từng chữ. Audio mẫu phải là 1 người nói duy nhất, không nhạc nền, không echo, mono 16kHz+.

🇻🇳 Tối ưu Clone Tiếng Việt

Fish S2 Pro train chủ yếu trên tiếng Anh/Trung. Với tiếng Việt cần: language=vi, temp 0.55, top_p 0.85, chunk 130, 3-5 references.

📚 Multi-Reference (3-5 clips) · cải thiện accent tiếng Việt mạnh nhất

Chưa có extra reference. Clip chính dùng ở trên. Nên thêm 2-4 clip với prosody khác nhau: câu kể, câu hỏi, câu cảm thán.

🔍 Reference Quality Check

Bấm "Check quality" để phân tích: độ dài, SNR, peak, clipping, tones tiếng Việt trong transcript.

🎓 Voice Training Pipeline

Ghi 5 mẫu đa dạng → auto-merge thành Super-Voice

🔗 Pipeline Integration (Video Production)

Bấm "Tải danh sách" để xem reference voices đã lưu trên server.

⚙️ Cài đặt vào Pipeline — thêm vào /workspace/.env trên Vast.ai:

Chưa có voice nào. Hãy upload hoặc thu âm ở tab ✨ Clone giọng rồi bấm Lưu vào Library.

💡 Bấm một trong các nút tạo giọng mẫu bên trên để tạo ngay bộ giọng chuyên nghiệp cho lĩnh vực của bạn:
🎬 YouTube · 🎓 Giáo dục · 💼 Kinh doanh · 🏥 Sức khỏe · 🎭 Giải trí

📝 Văn Bản Muốn Đọc

Ngôn ngữ đầu ra

Auto-split (> 500 ký tự)

0 ký tự · 0 từ · ~0 chunk · ⏱ 0s Ctrl + Enter để tạo

▶ Tags nhanh (nhịp, cảm xúc, âm lượng)

⏱ Nhịp: [pause] [short pause] [long pause] … dừng — em dash , pause ngắn ⏎ xuống dòng ⏎⏎ đoạn mới

😂 Phản ứng: [laugh] [chuckle] [giggle] [sigh] [gasp] [inhale] [exhale] [clears throat] [cry]

😊 Cảm xúc: [happy] vui [sad] buồn [excited] hào hứng [calm] bình thản [warm] ấm áp [sarcastic] mỉa mai [curious] tò mò [hesitant] ngập ngừng [serious] nghiêm túc

🔊 Âm lượng & nhấn: [whisper] thì thầm [quietly] nói nhỏ [shouting] nói to [soft tone] nhẹ [emphasis] nhấn ↕ Bọc selection A↑ CAPS selection 🎭 Xem tất cả tags →

🇻🇳 Tag Việt: [vui] [buồn] [giận] [hứng] [bình thản] [tò mò] [xúc động] [thì thầm] [nhấn] [cười] [thở dài] [dừng] auto-dịch sang English trước TTS

🔤 Normalize: Auto khi generate Số → chữ · viết tắt → đầy đủ · dấu câu chuẩn

🇻🇳 Công cụ tiếng Việt Mở phần cần dùng

📝 Xử lý văn bản — chunk, tone, pause, viết tắt, tên riêng

⏸ Chèn pause tự động

Sau dấu phẩy Sau dấu chấm Sau !/? Trước dialog

📒 Từ điển phát âm tên riêng

🎬 Chế độ tạo — vùng miền, A/B, dialog, long-form, batch

🗣 Giọng vùng miền (preset)

🎚 Xử lý audio — fade, speed, trim, subtitle

🎚 Hiệu ứng (áp dụng lên audio vừa tạo)

Fade-in: s Fade-out: s Speed: Trim silence Normalize

▶ Tạo Giọng Nói & Tải Về

⚙️ Cài Đặt (tùy chọn — dùng mặc định cũng được) ▶

Stability Preset (1-click map sang Temperature + Top-P)

💪 Robust — ổn định, ít biến đổi 🎯 Natural — khuyến nghị (mặc định) 🎨 Creative — biểu cảm, đa dạng

💡 Natural phù hợp 90% use-case. Creative tốt cho kịch/kể chuyện có cảm xúc. Robust cho quảng cáo/giáo dục cần đọc đều.

Định dạng output

Temperature: 0.7

Ổn địnhSáng tạo

Top-P: 0.8

Tập trungĐa dạng

Tốc độ phát: 1.0x

0.5x2x

⚙️ Advanced Sampling (Fish S2 Pro native params)

Seed · reproducible

Giữ seed giống → generate ra audio giống

Repetition Penalty: 1.1

Lặp nhiềuTránh lặp

Max tokens: 512

~4 tokens = 1s audio · 512 = ~2 phút gen tối đa

Chunk length: 200

Server-side chunking

🎯 Multi-take (chọn take tốt nhất)

Generate nhiều phiên bản, chọn best

🔀 A/B Compare

Generate song song để so sánh

🎭 Audio Tags — Điều khiển giọng điệu

▶

✅ Fish Audio S2 Pro chính thức hỗ trợ [bracket] syntax với mô tả tự nhiên (English works best). Model học implicit mapping từ training data → bạn có thể dùng tự do mọi mô tả như [whispers sweetly], [laughing nervously], không bị giới hạn list cố định. Cue có thể đặt ở bất kỳ vị trí nào: "I can't believe it [gasp] you actually did it [laugh]". Combine pause-marker (... —) và CHỮ HOA để có hiệu ứng chắc chắn nhất.

📖 Từ điển Phát âm · Fix đọc sai tên riêng, thuật ngữ EN

▶

Fish Audio hay đọc sai các từ tiếng Anh trong câu tiếng Việt (vd: AI đọc thành "ai" thay vì "ây ai"). Khai báo thay thế ở đây — sẽ áp dụng trước khi gửi API (không đổi text gốc trong ô).

🎨 Job Templates · 1-click apply (voice + settings + filename)

▶

🎭 Multi-voice Dialogue · Mỗi nhân vật giọng riêng

▶

Viết kịch bản hội thoại theo cú pháp [Tên] đầu mỗi câu. Mỗi nhân vật được map sang 1 voice trong Library. Audio sẽ được render tuần tự (giọng A → silence → giọng B...) và ghép thành 1 file.

Ví dụ:

[Alice] Chào Bob, dạo này thế nào?
[Bob] Cảm ơn Alice, vẫn ổn. Còn cậu?
[Alice] Mình cũng tốt. Tối nay đi cà phê nhé?

Kịch bản hội thoại (0 dòng · 0 nhân vật)

Khoảng nghỉ giữa câu (giây)

⚡ Concurrency

Output

🗂 Batch Mode · Generate nhiều file cùng lúc

▶

Paste script nhiều dòng — mỗi dòng là một file audio riêng. Phù hợp để làm voice-over cho video nhiều đoạn, dubbing hội thoại, tạo audio lesson. Sẽ dùng voice + settings hiện tại (cloning / library / mặc định).

Cách phân tách dòng

Tên file prefix (token: {prefix})

⚡ Concurrency

♻️ Resume sau crash

🔊 Loudness Normalize (peak ~-3dB)

🔪 Trim silence (đầu/cuối, ngưỡng -45dB)

🔁 Auto-retry khi lỗi

🔀 Variables / Mail-merge (dùng {{var}} trong text → expand thành N file)

💡 Ví dụ: text = Xin chào {{name}}, hôm nay là {{day}}! + var name=An,Bình,Cường + day=Thứ Hai,Thứ Ba,Thứ Tư → 3 files cá nhân hoá. Bỏ trống để tắt.

🪝 Webhook on done (POST tới n8n/Make/Zapier khi batch xong)

💡 POST JSON: {prefix, total, success, failed, elapsed_sec, items:[{idx,filename,size,text,error?}]}. Để trống = tắt.

📝 Filename Template (tokens click để chèn)

{prefix} {seq} {seq2} (zero-pad) {date} 2026-04-21 {datetime} {voice} {lang} {slug} (đầu dòng) {ext}

→ voice_01.mp3

📊 CSV format: hàng đầu là header. Cột bắt buộc: text. Cột tùy chọn: voice (id voice trong Library hoặc tên), language (vi/en/auto...), format (mp3/wav...), temperature, top_p, filename (override template).
Ví dụ:

text,voice,language
"Xin chào",Alice,vi
"Hello world",Bob,en

Script batch (0 items)

🎛 Nâng Cao · Background music, Webhook

▶

🎵 Nhạc nền (tùy chọn · trộn vào audio cuối)

🎵

Click để chọn nhạc nền (MP3/WAV)

Âm lượng nhạc nền: 20%

Fade in/out

🔗 n8n Webhook (gửi audio sau khi tạo xong)

Method

Auto-send sau khi tạo

⚙️ Advanced Production Tools · 10 tính năng hỗ trợ video production

▶

🎙️ One-click Record Studio · thu → trim → normalize → auto-transcribe → save trong 1 nút

Sẵn sàng · Nói câu đa dạng âm

💬 Dialog Mode · hội thoại 2 người, mỗi dòng dùng [A]: hoặc [B]:

Voice A

Voice B

Pause giữa dòng

📖 Long-form Chapter Splitter · tự tách ###, Chapter N, Phần N, ===

Mỗi chapter = 1 item (giữ tên chapter trong metadata)

🎯 Voice Consistency Checker · phát hiện chunk nào drift quá xa reference

Bật check tự động

Threshold drift (%)

🌊 Crossfade giữa chunks · overlap-add tránh click/pop nối chunk

Bật crossfade

Thời gian (ms)

Silence giữa câu (ms)

🎬 Clone giọng từ URL (YouTube / MP3 link) · yt-dlp proxy · auto clip 20s giữa file

Start (s)

Duration (s)

YouTube cần server proxy (endpoint /api/yt-extract)

🤖 AI Script Cleaner · chuẩn hóa dấu câu, số, viết tắt cho TTS

🔔 Webhook & Desktop Notification · khi queue/gen xong → Slack/Discord/n8n + browser notification

Webhook URL (Slack/Discord/n8n)

Browser notif

⏰ Scheduled Queue Run · chạy queue vào giờ GPU rỗi / off-peak

Chạy lúc

Mode khi chạy

Trạng tháiTắt

💾 Output Version History · giữ 10 lần gen gần nhất, phục hồi nhanh

Auto-save sau mỗi gen thành công

📋 Queue System · Xếp hàng tạo nhiều nội dung · serial/parallel · drag-drop

▶

⚡ Chế độ chạy

👷 Số worker (parallel)

🔁 Auto-retry khi lỗi

📦 Sau khi xong

Drag items để đổi thứ tự · Click ⬆⬇ để di chuyển · ✏ sửa text · 🎙 đổi voice · ▶ chạy 1 item · ❌ xóa

🎭 Emotion Presets & Post-FX · Cảm xúc · Noise gate · Compressor · De-esser

▶

🎭 Insert emotion marks vào text:

🎚 Post-processing (sau khi TTS xong)

Noise Gate (dB threshold)

Compressor (ratio)

De-esser (s/sh)

Normalize peak

🚀 Pipeline · Test Suite · Analytics

▶

📝 Content Pipeline (Hook → Body → CTA)

Hook (3-7s)

Body (30-60s)

CTA (3-5s)

🧪 Voice Test Suite (5 câu mẫu để đánh giá voice)

Dùng voice đang chọn · gồm câu ngắn, dài, số, tên riêng, câu hỏi

📊 Usage Analytics

💼 Project · Voice Blend · Clipboard

▶

💾 Project Save/Load (.fap)

Bao gồm: text, settings, voice library, queue, scenes, pronunciation dict

🎚 Voice Blend (trộn 2 reference voices)

Voice A

Voice B

Blend (% B)

📋 Clipboard Monitor (Auto-paste & Queue)

Tắt

Mỗi lần copy text mới → auto thêm vào Queue · Cần bật focus tab (Chrome yêu cầu user gesture cho clipboard API)

🪄 Voice Enhance · Preprocess reference audio để clone chính xác hơn

▶

Xử lý file mẫu trước khi clone: trim silence, chuẩn hóa volume, cắt ngắn về 15-25s (sweet spot). Audio input dùng ở Clone tab hoặc Library voice đang chọn.

✂️ Auto-trim silence đầu/cuối

🔊 Normalize peak (-3dB)

✂️ Crop về (giây)

🎚 High-pass (bỏ bass rumble)

🎬 Script Studio · Multi-scene video script (intro → body → outro)

▶

Chia script thành nhiều scene, mỗi scene có voice/tone/pause riêng. Xuất ra 1 file audio liền mạch + SRT subtitles.

🎧 Audio Mix Studio · Trộn voice + BGM với ducking

▶

Upload nhạc nền, tự động ducking (giảm BGM khi có voice), fade-in/out, export master.

🎵 Nhạc nền (upload)

Voice source

Voice volume: 1.0

BGM volume: 0.3

Ducking (giảm BGM khi voice): -12dB

Fade in/out (giây)

🕐 Lịch Sử Xóa lịch sử

Chưa có lịch sử.

Fish Audio Studio