KhanhTTS π£οΈπ₯
KhanhTTS lΓ mΓ΄ hΓ¬nh Text-to-Speech (TTS) dα»±a trΓͺn OmniVoice, Δược fine-tune Δα» tα»ng hợp giα»ng nΓ³i tiαΊΏng Viα»t vΓ tiαΊΏng Anh, hα» trợ voice cloning.
π§ ThΓ΄ng tin huαΊ₯n luyα»n
- Base model: k2-fsa/OmniVoice
- Dataset: ~1500 giα» audio tiαΊΏng Viα»t + Anh
- Steps: ~500.000
- Mα»₯c tiΓͺu:
- PhΓ‘t Γ’m tiαΊΏng Viα»t + Anh tα»± nhiΓͺn
- Voice cloning α»n Δα»nh vα»i reference ngαΊ―n
β Ủng hα» dα»± Γ‘n nΓ y
Viα»c huαΊ₯n luyα»n cΓ‘c mΓ΄ hΓ¬nh TTS chαΊ₯t lượng cao ΔΓ²i hα»i tΓ i nguyΓͺn GPU ΔΓ‘ng kα». NαΊΏu bαΊ‘n thαΊ₯y mΓ΄ hΓ¬nh nΓ y hα»―u Γch, vui lΓ²ng xem xΓ©t hα» trợ quΓ‘ trΓ¬nh phΓ‘t triα»n:
Mα»i sα»± α»§ng hα» cα»§a cΓ‘c bαΊ‘n lΓ niα»m Δα»ng lα»±c giΓΊp mΓ¬nh phΓ‘t triα»n cΓ‘c mΓ΄ hΓ¬nh tα»t hΖ‘n trong tΖ°Ζ‘ng lai β€οΈ
π¦ Sample
Reference Voice (Speaker Example):
Input Text:
ΔΓͺm ΔΓ³, anh xoΓ‘ sα» cΓ΄ khα»i danh bαΊ‘.
NhΖ°ng khi mΓ n hΓ¬nh tα»i Δi, anh vαΊ«n nhα» rαΊ₯t rΓ΅β¦ sα» αΊ₯y nαΊ±m α» ΔΓ’u trong tim mΓ¬nh.NgoΓ i cα»a sα», giΓ³ thα»i khαΊ½.
CΓ³ nhα»―ng thα»© ΔΓ£ rα»i Δi rα»i,
nhΖ°ng cαΊ£m giΓ‘c thΓ¬ α» lαΊ‘i lΓ’u hΖ‘n ta tΖ°α»ng.
Generated Output (Cloned Voice):
π CΓ i ΔαΊ·t & chαΊ‘y inference
1. CΓ i ΔαΊ·t mΓ΄i trΖ°α»ng
pip install omnivoice
2. Load model & Inference
from omnivoice import OmniVoice
import soundfile as sf
import torch
# Load the model
model = OmniVoice.from_pretrained(
"kjanh/KhanhTTS-OmniVoice",
device_map="cuda:0",
dtype=torch.float16
)
audio = model.generate(
text="Xin chΓ o cΓ‘c bαΊ‘n.",
# ref_audio="refvoice.wav",
# ref_text="cΓ³ ngΖ°α»i tα»«ng nΓ³i vα»i cΓ΄, ΔΓ³ lΓ hΖ‘i thα» cα»§a mΓΉa ΔΓ΄ng, hΖ‘i thα» cα»§a ΔαΊ₯t trα»i, hΖ‘i thα» cα»§a tΓ¬nh yΓͺu.",
) # audio is a list of `np.ndarray` with shape (T,) at 24 kHz.
sf.write("out.wav", audio[0], 24000)
β οΈ Miα» n trα»« trΓ‘ch nhiα»m & KhuyαΊΏn cΓ‘o sα» dα»₯ng (TTS)
MΓ΄ hΓ¬nh Text-to-Speech (TTS) nΓ y Δược cung cαΊ₯p chα» nhαΊ±m phα»₯c vα»₯ mα»₯c ΔΓch nghiΓͺn cα»©u, thα» nghiα»m vΓ phΓ‘t triα»n cΓ΄ng nghα». Mα»i nα»i dung Γ’m thanh do mΓ΄ hΓ¬nh tαΊ‘o ra khΓ΄ng phαΊ£n Γ‘nh, ΔαΊ‘i diα»n hay ngα»₯ Γ½ giα»ng nΓ³i, danh tΓnh, quan Δiα»m hoαΊ·c sα»± chαΊ₯p thuαΊn cα»§a bαΊ₯t kα»³ cΓ‘ nhΓ’n hay tα» chα»©c cΓ³ thαΊt nΓ o. TΓ‘c giαΊ£ vΓ cΓ‘c bΓͺn liΓͺn quan khΓ΄ng chα»u bαΊ₯t kα»³ trΓ‘ch nhiα»m phΓ‘p lΓ½ nΓ o Δα»i vα»i cΓ‘c hΓ nh vi sα» dα»₯ng sai mα»₯c ΔΓch, vi phαΊ‘m phΓ‘p luαΊt, xΓ’m phαΊ‘m quyα»n riΓͺng tΖ°, quyα»n nhΓ’n thΓ’n, quyα»n sα» hα»―u trΓ tuα», hoαΊ·c cΓ‘c thiα»t hαΊ‘i trα»±c tiαΊΏp hay giΓ‘n tiαΊΏp phΓ‘t sinh tα»« viα»c sα» dα»₯ng mΓ΄ hΓ¬nh nΓ y.
NgΖ°α»i dΓΉng chα»u hoΓ n toΓ n trΓ‘ch nhiα»m phΓ‘p lΓ½ Δα»i vα»i viα»c triα»n khai, phΓ’n phα»i vΓ sα» dα»₯ng mΓ΄ hΓ¬nh. NghiΓͺm cαΊ₯m sα» dα»₯ng mΓ΄ hΓ¬nh cho cΓ‘c hΓ nh vi mαΊ‘o danh, sao chΓ©p hoαΊ·c mΓ΄ phα»ng giα»ng nΓ³i cΓ‘ nhΓ’n khi chΖ°a cΓ³ sα»± Δα»ng Γ½ hợp phΓ‘p, tαΊ‘o nα»i dung gΓ’y hiα»u lαΊ§m, lα»«a ΔαΊ£o, thao tΓΊng dΖ° luαΊn hoαΊ·c bαΊ₯t kα»³ hΓ nh vi nΓ o trΓ‘i vα»i quy Δα»nh phΓ‘p luαΊt hiα»n hΓ nh. Khi sα» dα»₯ng hoαΊ·c chia sαΊ» Γ’m thanh Δược tαΊ‘o ra, khuyαΊΏn nghα» bαΊ―t buα»c phαΊ£i cΓ΄ng bα» rΓ΅ rΓ ng rαΊ±ng nα»i dung lΓ Γ’m thanh Δược tαΊ‘o bα»i trΓ tuα» nhΓ’n tαΊ‘o (AI), Δα»ng thα»i tuΓ’n thα»§ ΔαΊ§y Δα»§ cΓ‘c quy Δα»nh phΓ‘p luαΊt, chΓnh sΓ‘ch nα»n tαΊ£ng vΓ chuαΊ©n mα»±c ΔαΊ‘o Δα»©c cΓ³ liΓͺn quan.
MαΊ«u mΓ΄ hΓ¬nh nΓ y Δược phΓ‘t hΓ nh chα» cho mα»₯c ΔΓch nghiΓͺn cα»©u vΓ phΓ‘t triα»n. ChΓΊng tΓ΄i khΓ΄ng khuyαΊΏn khΓch viα»c sα» dα»₯ng trong mΓ΄i trΖ°α»ng sαΊ£n xuαΊ₯t hoαΊ·c cho mα»₯c ΔΓch thΖ°Ζ‘ng mαΊ‘i nαΊΏu chΖ°a trαΊ£i qua quy trΓ¬nh thα» nghiα»m, ΔΓ‘nh giΓ‘ rα»§i ro vΓ kiα»m Δα»nh an toΓ n mα»t cΓ‘ch nghiΓͺm ngαΊ·t. Vui lΓ²ng sα» dα»₯ng mΓ΄ hΓ¬nh mα»t cΓ‘ch cΓ³ trΓ‘ch nhiα»m.
Doanh nghiα»p hoαΊ·c tα» chα»©c cΓ³ nhu cαΊ§u sα» dα»₯ng cho mα»₯c ΔΓch thΖ°Ζ‘ng mαΊ‘i cΓ³ thα» liΓͺn hα» Δα» trao Δα»i hợp tΓ‘c: https://www.facebook.com/khanh20204569/
π TrΓch dαΊ«n (Citation)
NαΊΏu bαΊ‘n sα» dα»₯ng mΓ΄ hΓ¬nh nΓ y hoαΊ·c dα»±a trΓͺn OmniVoice cho nghiΓͺn cα»©u/sαΊ£n phαΊ©m, vui lΓ²ng trΓch dαΊ«n bΓ i OmniVoice gα»c:
@article{zhu2026omnivoice,
title={OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models},
author={Zhu, Han and Ye, Lingxuan and Kang, Wei and Yao, Zengwei and Guo, Liyong and Kuang, Fangjun and Han, Zhifeng and Zhuang, Weiji and Lin, Long and Povey, Daniel},
journal={arXiv preprint arXiv:2604.00688},
year={2026}
}
- Downloads last month
- 3,989