KhanhTTS πŸ—£οΈπŸ”₯

KhanhTTS lΓ  mΓ΄ hΓ¬nh Text-to-Speech (TTS) dα»±a trΓͺn OmniVoice, được fine-tune để tα»•ng hợp giọng nΓ³i tiαΊΏng Việt vΓ  tiαΊΏng Anh, hα»— trợ voice cloning.

🧠 ThΓ΄ng tin huαΊ₯n luyện

  • Base model: k2-fsa/OmniVoice
  • Dataset: ~1500 giờ audio tiαΊΏng Việt + Anh
  • Steps: ~500.000
  • Mα»₯c tiΓͺu:
    • PhΓ‘t Γ’m tiαΊΏng Việt + Anh tα»± nhiΓͺn
    • Voice cloning α»•n Δ‘α»‹nh vα»›i reference ngαΊ―n

β˜• Ủng hα»™ dα»± Γ‘n nΓ y

Việc huαΊ₯n luyện cΓ‘c mΓ΄ hΓ¬nh TTS chαΊ₯t lượng cao Δ‘Γ²i hỏi tΓ i nguyΓͺn GPU Δ‘Γ‘ng kể. NαΊΏu bαΊ‘n thαΊ₯y mΓ΄ hΓ¬nh nΓ y hα»―u Γ­ch, vui lΓ²ng xem xΓ©t hα»— trợ quΓ‘ trΓ¬nh phΓ‘t triển:

Buy Me a Coffee

Mọi sα»± α»§ng hα»™ cα»§a cΓ‘c bαΊ‘n lΓ  niềm Δ‘α»™ng lα»±c giΓΊp mΓ¬nh phΓ‘t triển cΓ‘c mΓ΄ hΓ¬nh tα»‘t hΖ‘n trong tΖ°Ζ‘ng lai ❀️


🦜 Sample

Reference Voice (Speaker Example):

Input Text:

ĐΓͺm Δ‘Γ³, anh xoΓ‘ sα»‘ cΓ΄ khỏi danh bαΊ‘.
NhΖ°ng khi mΓ n hΓ¬nh tα»‘i Δ‘i, anh vαΊ«n nhα»› rαΊ₯t rá… sα»‘ αΊ₯y nαΊ±m ở Δ‘Γ’u trong tim mΓ¬nh.

NgoΓ i cα»­a sα»•, giΓ³ thα»•i khαΊ½.
CΓ³ nhα»―ng thα»© Δ‘Γ£ rời Δ‘i rα»“i,
nhưng cảm giÑc thì ở lẑi lÒu hƑn ta tưởng.

Generated Output (Cloned Voice):

πŸš€ CΓ i Δ‘αΊ·t & chαΊ‘y inference

1. CΓ i Δ‘αΊ·t mΓ΄i trường

pip install omnivoice

2. Load model & Inference

from omnivoice import OmniVoice
import soundfile as sf
import torch

# Load the model
model = OmniVoice.from_pretrained(
    "kjanh/KhanhTTS-OmniVoice",
    device_map="cuda:0",
    dtype=torch.float16
)
audio = model.generate(
    text="Xin chΓ o cΓ‘c bαΊ‘n.",
    # ref_audio="refvoice.wav",
    # ref_text="cΓ³ người tα»«ng nΓ³i vα»›i cΓ΄, Δ‘Γ³ lΓ  hΖ‘i thở cα»§a mΓΉa Δ‘Γ΄ng, hΖ‘i thở cα»§a Δ‘αΊ₯t trời, hΖ‘i thở cα»§a tΓ¬nh yΓͺu.",
) # audio is a list of `np.ndarray` with shape (T,) at 24 kHz.

sf.write("out.wav", audio[0], 24000)

⚠️ Miα»…n trα»« trΓ‘ch nhiệm & KhuyαΊΏn cΓ‘o sα»­ dα»₯ng (TTS)

MΓ΄ hΓ¬nh Text-to-Speech (TTS) nΓ y được cung cαΊ₯p chỉ nhαΊ±m phα»₯c vα»₯ mα»₯c Δ‘Γ­ch nghiΓͺn cα»©u, thα»­ nghiệm vΓ  phΓ‘t triển cΓ΄ng nghệ. Mọi nα»™i dung Γ’m thanh do mΓ΄ hΓ¬nh tαΊ‘o ra khΓ΄ng phαΊ£n Γ‘nh, Δ‘αΊ‘i diện hay ngα»₯ Γ½ giọng nΓ³i, danh tΓ­nh, quan Δ‘iểm hoαΊ·c sα»± chαΊ₯p thuαΊ­n cα»§a bαΊ₯t kα»³ cΓ‘ nhΓ’n hay tα»• chα»©c cΓ³ thαΊ­t nΓ o. TΓ‘c giαΊ£ vΓ  cΓ‘c bΓͺn liΓͺn quan khΓ΄ng chα»‹u bαΊ₯t kα»³ trΓ‘ch nhiệm phΓ‘p lΓ½ nΓ o Δ‘α»‘i vα»›i cΓ‘c hΓ nh vi sα»­ dα»₯ng sai mα»₯c Δ‘Γ­ch, vi phαΊ‘m phΓ‘p luαΊ­t, xΓ’m phαΊ‘m quyền riΓͺng tΖ°, quyền nhΓ’n thΓ’n, quyền sở hα»―u trΓ­ tuệ, hoαΊ·c cΓ‘c thiệt hαΊ‘i trα»±c tiαΊΏp hay giΓ‘n tiαΊΏp phΓ‘t sinh tα»« việc sα»­ dα»₯ng mΓ΄ hΓ¬nh nΓ y.

Người dΓΉng chα»‹u hoΓ n toΓ n trΓ‘ch nhiệm phΓ‘p lΓ½ Δ‘α»‘i vα»›i việc triển khai, phΓ’n phα»‘i vΓ  sα»­ dα»₯ng mΓ΄ hΓ¬nh. NghiΓͺm cαΊ₯m sα»­ dα»₯ng mΓ΄ hΓ¬nh cho cΓ‘c hΓ nh vi mαΊ‘o danh, sao chΓ©p hoαΊ·c mΓ΄ phỏng giọng nΓ³i cΓ‘ nhΓ’n khi chΖ°a cΓ³ sα»± Δ‘α»“ng Γ½ hợp phΓ‘p, tαΊ‘o nα»™i dung gΓ’y hiểu lαΊ§m, lα»«a Δ‘αΊ£o, thao tΓΊng dΖ° luαΊ­n hoαΊ·c bαΊ₯t kα»³ hΓ nh vi nΓ o trΓ‘i vα»›i quy Δ‘α»‹nh phΓ‘p luαΊ­t hiện hΓ nh. Khi sα»­ dα»₯ng hoαΊ·c chia sαΊ» Γ’m thanh được tαΊ‘o ra, khuyαΊΏn nghα»‹ bαΊ―t buα»™c phαΊ£i cΓ΄ng bα»‘ rΓ΅ rΓ ng rαΊ±ng nα»™i dung lΓ  Γ’m thanh được tαΊ‘o bởi trΓ­ tuệ nhΓ’n tαΊ‘o (AI), Δ‘α»“ng thời tuΓ’n thα»§ Δ‘αΊ§y Δ‘α»§ cΓ‘c quy Δ‘α»‹nh phΓ‘p luαΊ­t, chΓ­nh sΓ‘ch nền tαΊ£ng vΓ  chuαΊ©n mα»±c Δ‘αΊ‘o Δ‘α»©c cΓ³ liΓͺn quan.

MαΊ«u mΓ΄ hΓ¬nh nΓ y được phΓ‘t hΓ nh chỉ cho mα»₯c Δ‘Γ­ch nghiΓͺn cα»©u vΓ  phΓ‘t triển. ChΓΊng tΓ΄i khΓ΄ng khuyαΊΏn khΓ­ch việc sα»­ dα»₯ng trong mΓ΄i trường sαΊ£n xuαΊ₯t hoαΊ·c cho mα»₯c Δ‘Γ­ch thΖ°Ζ‘ng mαΊ‘i nαΊΏu chΖ°a trαΊ£i qua quy trΓ¬nh thα»­ nghiệm, Δ‘Γ‘nh giΓ‘ rα»§i ro vΓ  kiểm Δ‘α»‹nh an toΓ n mα»™t cΓ‘ch nghiΓͺm ngαΊ·t. Vui lΓ²ng sα»­ dα»₯ng mΓ΄ hΓ¬nh mα»™t cΓ‘ch cΓ³ trΓ‘ch nhiệm.

Doanh nghiệp hoαΊ·c tα»• chα»©c cΓ³ nhu cαΊ§u sα»­ dα»₯ng cho mα»₯c Δ‘Γ­ch thΖ°Ζ‘ng mαΊ‘i cΓ³ thể liΓͺn hệ để trao Δ‘α»•i hợp tΓ‘c: https://www.facebook.com/khanh20204569/

πŸ“š TrΓ­ch dαΊ«n (Citation)

NαΊΏu bαΊ‘n sα»­ dα»₯ng mΓ΄ hΓ¬nh nΓ y hoαΊ·c dα»±a trΓͺn OmniVoice cho nghiΓͺn cα»©u/sαΊ£n phαΊ©m, vui lΓ²ng trΓ­ch dαΊ«n bΓ i OmniVoice gα»‘c:

@article{zhu2026omnivoice,
      title={OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models},
      author={Zhu, Han and Ye, Lingxuan and Kang, Wei and Yao, Zengwei and Guo, Liyong and Kuang, Fangjun and Han, Zhifeng and Zhuang, Weiji and Lin, Long and Povey, Daniel},
      journal={arXiv preprint arXiv:2604.00688},
      year={2026}
}
Downloads last month
3,989
Safetensors
Model size
0.6B params
Tensor type
I64
Β·
F32
Β·
Inference Providers NEW
This model isn't deployed by any Inference Provider. πŸ™‹ Ask for provider support

Model tree for kjanh/KhanhTTS-OmniVoice

Finetuned
Qwen/Qwen3-0.6B
Finetuned
k2-fsa/OmniVoice
Finetuned
(29)
this model

Spaces using kjanh/KhanhTTS-OmniVoice 5

Paper for kjanh/KhanhTTS-OmniVoice