You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

PL-BERT Valenciano

Modelo PL-BERT entrenado para síntesis de voz en valenciano/catalán, diseñado para uso con StyleTTS2.

Descripción

Este modelo es un AlbertModel entrenado con arquitectura dual:

  • Encoder: AlbertModel (este modelo)
  • mask_predictor: Predicción de fonemas enmascarados (descartado tras entrenamiento)
  • word_predictor: Predicción de palabras con RoBERTa-ca (descartado tras entrenamiento)

Configuración

Parámetro Valor
vocab_size 178
hidden_size 768
num_hidden_layers 12
num_attention_heads 12
intermediate_size 2048
embedding_size 128 (default AlbertModel)

Entrenamiento

  • Dataset: Corts Valencianes (~89,331 muestras)
  • Steps: 50000
  • Batch size: 32
  • Supervisión semántica: RoBERTa-ca (projecte-aina/roberta-base-ca-v2)

Métricas

Métrica Valor
Perplexity 5.93
Word Accuracy Top-1 97.23%
Word Accuracy Top-5 99.18%

Uso con StyleTTS2

from transformers import AlbertModel, AlbertConfig

class CustomAlbert(AlbertModel):
    def forward(self, *args, **kwargs):
        outputs = super().forward(*args, **kwargs)
        return outputs.last_hidden_state

# Cargar modelo
model = CustomAlbert.from_pretrained("javiimts/plbert-valenciano")
model.eval()

Licencia

Apache 2.0

Downloads last month
4
Safetensors
Model size
6.29M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support