Spaces:

Sid26Roy
/

speech_emotion

Sleeping

Sid26Roy commited on Nov 22

Commit

2991b9b

verified ·

1 Parent(s): 996ab19

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -20,16 +20,11 @@ id2label = {
     "7": "Surprised"
 }
-def classify_audio(audio):
-    if audio is None:
-        return {"error": "No audio received. Please upload a file."}
-    # audio = (numpy_array, sample_rate)
-    speech, sample_rate = audio
-    # Make sure sample rate is a Python int
-    sample_rate = int(sample_rate)
-    # Process audio for HF model
     inputs = processor(
         speech,
         sampling_rate=sample_rate,
@@ -39,19 +34,23 @@ def classify_audio(audio):
     with torch.no_grad():
         outputs = model(**inputs)
-        probs = torch.softmax(outputs.logits, dim=1).squeeze().tolist()
-    return {id2label[str(i)]: round(probs[i], 3) for i in range(len(probs))}
 # Gradio Interface
 iface = gr.Interface(
     fn=classify_audio,
-    inputs = gr.Audio(type="numpy", label="Upload Audio"),
     outputs=gr.Label(num_top_classes=8, label="Emotion Classification"),
     title="Speech Emotion Classification",
     description="Upload an audio clip to classify the speaker's emotion from voice signals."
 )
 if __name__ == "__main__":
-    iface.launch(share=False, debug=False, ssr_mode=False)

     "7": "Surprised"
 }
+def classify_audio(audio_path):
+    # Load and resample audio to 16kHz
+    speech, sample_rate = librosa.load(audio_path, sr=16000)
+    # Process audio
     inputs = processor(
         speech,
         sampling_rate=sample_rate,
     with torch.no_grad():
         outputs = model(**inputs)
+        logits = outputs.logits
+        probs = torch.nn.functional.softmax(logits, dim=1).squeeze().tolist()
+    prediction = {
+        id2label[str(i)]: round(probs[i], 3) for i in range(len(probs))
+    }
+    return prediction
 # Gradio Interface
 iface = gr.Interface(
     fn=classify_audio,
+    inputs=gr.Audio(type="filepath", label="Upload Audio (WAV, MP3, etc.)"),
     outputs=gr.Label(num_top_classes=8, label="Emotion Classification"),
     title="Speech Emotion Classification",
     description="Upload an audio clip to classify the speaker's emotion from voice signals."
 )
 if __name__ == "__main__":
+    iface.launch()