Spaces:

sawadogosalif
/

MooreFRCollections-Annotations

Runtime error

App Files Files Community

Salif SAWADOGO commited on Dec 4, 2024

Commit

8086e8b

1 Parent(s): 4b8802f

first commit

Browse files

Files changed (21) hide show

.gitignore +8 -0
Dockerfile +15 -0
app/__init__.py +0 -0
app/app.py +16 -0
app/assets/assets/segment_6.mp3 +0 -0
app/assets/assets/segment_7.mp3 +0 -0
app/assets/assets/segment_8.mp3 +0 -0
app/assets/assets/segment_9.mp3 +0 -0
app/assets/flavicon.png +0 -0
app/assets/logo.png +0 -0
app/index.py +77 -0
app/pages/Annotations/__init__.py +6 -0
app/pages/Annotations/callbacks.py +0 -0
app/pages/Annotations/layout.py +152 -0
app/pages/Contributeurs/__init__.py +6 -0
app/pages/Contributeurs/layout.py +12 -0
app/pages/Home/__init__.py +6 -0
app/pages/Home/layout.py +90 -0
app/pages/__init__.py +3 -0
app/utils.py +63 -0
requirements.txt +0 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,8 @@

+.venv
+**__pycache__**
+**.pyc**
+**/env/**
+**/.venv/**
+**/*.egg-info
+**/*parquet
+build/

Dockerfile ADDED Viewed

	@@ -0,0 +1,15 @@

+FROM python:3.11
+RUN useradd -m -u 1000 user
+USER user
+ENV PATH="/home/user/.local/bin:$PATH"
+WORKDIR /app
+COPY --chown=user ./requirements.txt requirements.txt
+RUN pip install --no-cache-dir --upgrade -r requirements.txt
+COPY --chown=user . /app
+CMD ["uvicorn", "app.app:app", "--host", "0.0.0.0", "--port", "7860"]

app/__init__.py ADDED Viewed

File without changes

app/app.py ADDED Viewed

	@@ -0,0 +1,16 @@

+import os
+import dash
+import dash_bootstrap_components as dbc
+route_preffix = os.environ.get("EXTRAPATH", "") + "/"
+app_name = "MooreFRCollection"
+app = dash.Dash(
+    __name__,
+    title=app_name,
+    suppress_callback_exceptions=True,
+    external_stylesheets=[dbc.themes.BOOTSTRAP],
+    routes_pathname_prefix=route_preffix,
+)
+app._favicon = "logo.png"  # chang dash favicon to the project logo

app/assets/assets/segment_6.mp3 ADDED Viewed

Binary file (10.4 kB). View file

app/assets/assets/segment_7.mp3 ADDED Viewed

Binary file (8.3 kB). View file

app/assets/assets/segment_8.mp3 ADDED Viewed

Binary file (14.1 kB). View file

app/assets/assets/segment_9.mp3 ADDED Viewed

Binary file (14.4 kB). View file

app/assets/flavicon.png ADDED Viewed

app/assets/logo.png ADDED Viewed

app/index.py ADDED Viewed

	@@ -0,0 +1,77 @@

+import base64
+from dash.dependencies import Input, Output
+from dash import dcc, html
+import dash_bootstrap_components as dbc
+from app import app, app_name
+from pages import page_list, Home as home
+# Define styles as constants
+CONTENT_STYLE = {
+    "margin-left": "2rem",
+    "margin-right": "2rem",
+    "padding": "2rem 1rem",
+}
+TOPBAR_STYLE = {
+    "padding": "1rem 1rem",
+}
+# Load and encode the logo image
+with open("assets/logo.png", "rb") as image_file:
+    encoded_logo = base64.b64encode(image_file.read()).decode()
+logo = html.Img(src=f"data:image/jpg;base64,{encoded_logo}", height="40px")
+# Branding component with logo and app name
+branding = dbc.Row(
+    [dbc.Col(logo), dbc.Col(dbc.NavbarBrand("MooreFRCollection", className="ms-2"))],
+    align="center",
+    className="g-0",
+)
+# Dynamically create navigation links from the page list
+nav_links = [
+    dbc.NavLink(page.name, href=page.path, id=f"navlink_{page.id_}", active="exact")
+    for page in page_list
+]
+# Navbar component with dynamic pages and branding
+navbar = dbc.Navbar(
+    [
+        html.A(branding, href=home.path, id=home.id_, style={"textDecoration": "none"}),
+        dbc.Nav(
+            nav_links,
+            navbar=True,
+            className="ml-auto",
+            style={"font-size": "18px"},
+            pills=True,
+        ),
+    ],
+    color="#000080",
+    dark=True,
+    sticky="top",
+    style=TOPBAR_STYLE,
+)
+# Callback to control page content based on the URL
+@app.callback(Output("page-content", "children"), [Input("url", "pathname")])
+def display_page(pathname):
+    matched_page = next((page for page in page_list if pathname == page.path), None)
+    return matched_page.layout if matched_page else home.layout
+# App layout definition
+app.layout = html.Div(
+    [dcc.Location(id="url"), navbar, html.Div(id="page-content", style=CONTENT_STYLE)],
+    style={
+        "backgroundColor": "#f8f9fa",
+    },
+)
+# Define the WSGI server application
+application = app.server
+# Entry point for running the app
+if __name__ == "__main__":
+    application.run(debug=True, port=8080, host="0.0.0.0")

app/pages/Annotations/__init__.py ADDED Viewed

	@@ -0,0 +1,6 @@

+from .layout import layout
+from app import route_preffix
+id_ = __name__.split(".")[1]
+name = id_.replace("_", " ").capitalize()
+path = route_preffix + id_

app/pages/Annotations/callbacks.py ADDED Viewed

File without changes

app/pages/Annotations/layout.py ADDED Viewed

	@@ -0,0 +1,152 @@

+from pathlib import Path
+import dash
+import dash_bootstrap_components as dbc
+from dash import dcc, html, Input, Output, callback, State
+import datetime
+from utils import get_audio_paths, load_data, load_persistent_data, save_persistent_data
+from app import app
+# Initialisation de l'application Dash
+# Configuration du dossier des fichiers audio
+AUDIO_FOLDER = Path("./assets/assets")
+PERSIST_FILE = "results.json"
+DATA_FILE = "C:/Users/sawal/OneDrive/Bureau/Projets X/datasets/datasets/bible_data_moore.parquet/page=S%C9%A9ngre%2F1"
+# Chargement initial des fichiers audio et des suggestions
+audio_paths = get_audio_paths(AUDIO_FOLDER)
+possible_values = load_data(DATA_FILE)
+print(111111111111)
+print(audio_paths[0])
+def create_layout(audio_paths, possible_values):
+    """Crée et renvoie le layout principal de l'application."""
+    return dbc.Container([
+        dbc.Row([
+            dbc.Col(html.H1("Outil de transcription audio", className="text-center my-4 text-primary"), width=12)
+        ]),
+        dbc.Row([
+            dbc.Col([
+                dbc.Input(
+                    id="user-info",
+                    placeholder="Entrez votre email, pseudonyme ou nom pour qu'on vous crédite",
+                    type="text",
+                    className="mb-3"
+                ),
+                dbc.Button("Démarrer", id="start-button", color="primary", className="w-100")
+            ], width=12)
+        ]),
+        dbc.Row(
+            id="transcription-section",
+            style={'display': 'none'},
+            children=[
+                dbc.Col([
+                    dbc.Card([
+                        dbc.CardHeader("Lecture audio"),
+                        dbc.CardBody([
+                            html.Audio(
+                                id="audio-player",
+                                src=audio_paths[0] if audio_paths else "",
+                                controls=True,
+                                autoPlay=False,
+                                className="w-100"
+                            )
+                        ])
+                    ], className="mb-4 shadow")
+                ], width=12),
+                dbc.Col([
+                    dbc.Card([
+                        dbc.CardHeader("Suggestions de transcriptions"),
+                        dbc.CardBody([
+                            dcc.Checklist(
+                                id="suggestion-checklist",
+                                options=[{"label": t, "value": t} for t in possible_values[:6]],
+                                value=[],
+                                style={"columns": "3", "column-gap": "1rem"}
+                            )
+                        ])
+                    ], className="mb-4 shadow")
+                ], width=12),
+                dbc.Col([
+                    dbc.Button(
+                        "Soumettre",
+                        id="submit-button",
+                        n_clicks=0,
+                        color="secondary",
+                        className="w-100",
+                        style={"marginTop": "20px"}
+                    )
+                ], width=12),
+                dbc.Col([
+                    html.Div(id="confirmation-message", className="text-success text-center mt-3")
+                ], width=12)
+            ]
+        )
+    ])
+layout = create_layout(audio_paths, possible_values)
+@app.callback(
+    Output("transcription-section", "style"),
+    Input("start-button", "n_clicks"),
+    State("user-info", "value")
+)
+def start_transcription(n_clicks, user_info):
+    """Affiche la section de transcription lorsque l'utilisateur démarre."""
+    if n_clicks is not None and n_clicks > 0 and user_info:
+        return {'display': 'block'}
+    return {'display': 'none'}
+@app.callback(
+    [Output("audio-player", "src"),
+     Output("suggestion-checklist", "options"),
+     Output("confirmation-message", "children")],
+    [Input("submit-button", "n_clicks")],
+    [State("suggestion-checklist", "value"),
+     State("user-info", "value"),
+     State("audio-player", "src")]
+)
+def update_transcription(n_clicks, selected_transcriptions, user_info, current_audio):
+    """Gère l'enregistrement des transcriptions et la navigation dans les fichiers audio."""
+    global audio_paths, possible_values
+    if n_clicks > 0 and audio_paths:
+        print(selected_transcriptions)
+        # Enregistrer les résultats
+        timestamp = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
+        entry = {
+            "segment_path": current_audio,
+            "transcriptions": selected_transcriptions,
+            "timestamp": timestamp,
+            "user_id": "current_user"
+        }
+        persistent_data = load_persistent_data(PERSIST_FILE)
+        persistent_data.append(entry)
+        save_persistent_data(persistent_data, PERSIST_FILE)
+        # Charger le fichier audio suivant
+        audio_paths.pop(0)
+        next_audio = audio_paths[0] if audio_paths else ""
+        # Mettre à jour les suggestions
+        for value in selected_transcriptions:
+            if value in possible_values:
+                possible_values.remove(value)
+        next_options = [{"label": t, "value": t} for t in possible_values[:6]]
+        # Message de confirmation
+        confirmation_message = (
+            f"Transcriptions sélectionnées : {', '.join(selected_transcriptions)}"
+            if selected_transcriptions else "Aucune transcription sélectionnée."
+        )
+        return next_audio, next_options, confirmation_message
+    return dash.no_update, dash.no_update, "Tous les fichiers ont été traités !" if not audio_paths else dash.no_update

app/pages/Contributeurs/__init__.py ADDED Viewed

	@@ -0,0 +1,6 @@

+from .layout import layout
+from app import route_preffix
+id_ = __name__.split(".")[1]
+name = id_.replace("_", " ").capitalize()
+path = route_preffix + id_

app/pages/Contributeurs/layout.py ADDED Viewed

	@@ -0,0 +1,12 @@

+from dash import dcc, html, Input, Output, callback
+import dash_bootstrap_components as dbc
+layout = dbc.Container(
+    [
+        dcc.Markdown(
+            f"""
+        Ceci est un example
+        """
+        )
+    ]
+)

app/pages/Home/__init__.py ADDED Viewed

	@@ -0,0 +1,6 @@

+from .layout import layout
+from app import route_preffix
+id_ = __name__.split(".")[1]
+name = id_.replace("_", " ").capitalize()
+path = route_preffix + id_

app/pages/Home/layout.py ADDED Viewed

	@@ -0,0 +1,90 @@

+from dash import dcc, html, Input, Output, callback
+import dash_bootstrap_components as dbc
+layout = dbc.Container(
+    [
+        dcc.Markdown(
+            f"""
+# MooreFRCollection
+**MooreFRCollection** est un projet collaboratif et ouvert visant à construire un corpus bilingue **Mooré-Français** pour soutenir la recherche et le développement de technologies linguistiques adaptées au contexte burkinabé.
+L'objectif principal est de fournir des données essentielles pour entraîner, tester et affiner des modèles de traduction et d'autres outils d'intelligence artificielle (IA) en lien avec la langue **Mooré**, une des langues nationales du Burkina Faso.
+---
+## **Construction de la version audio**
+Actuellement, nous nous concentrons sur la **partie audio** du projet. Cette phase implique la collecte, le traitement et l'alignement des segments audio et textuels pour produire un corpus riche et diversifié.
+Les données audio sont collectées à partir de :
+1. **Textes bibliques de JW.ORG** :
+   Les contenus ont été extraits efficacement grâce à l'outil [jwsoup](https://pypi.org/project/jwsoup/). Les segments textuels et leurs correspondances audio sont alignés pour fournir une ressource précieuse pour le traitement automatique des langues.
+2. **Alignement et segmentation audio** :
+   Les fichiers audio sont traités et segmentés en unités exploitables, accompagnées de transcriptions bilingues (Mooré-Français). Chaque segment est soigneusement vérifié pour garantir sa qualité et son utilité dans des applications variées.
+---
+## **Applications**
+Le corpus **MooreFRCollection** ouvre la voie à une multitude d'applications :
+1. 🔤 **Traduction automatique**
+Développement et évaluation de systèmes de traduction automatiques, permettant la conversion fluide du Mooré vers le Français et inversement.
+2. 🧠 **Recherche linguistique**
+Analyse approfondie des structures syntaxiques, lexicales et phonétiques spécifiques au Mooré, pour enrichir les études linguistiques.
+3. 📊 **Apprentissage supervisé**
+Entraînement de modèles d'apprentissage machine sur des tâches variées, comme la reconnaissance vocale ou l'analyse sentimentale en Mooré.
+4.  📚 **Applications éducatives**
+Soutien aux enseignants, étudiants, et locuteurs natifs pour explorer les interactions linguistiques entre le Mooré et le Français.
+---
+## **Appel à contributions**
+Nous invitons toute personne intéressée à contribuer au développement de **MooreFRCollections**. Votre aide peut prendre plusieurs formes :
+- **Partager des données** : Soumettez des textes ou fichiers audio en Mooré, ou des données bilingues Mooré-Français.
+- **Participer à l’annotation** : Aidez-nous à valider et enrichir les transcriptions et traductions existantes.
+- **Suggérer des idées** : Proposez de nouvelles approches pour la collecte, le traitement ou les usages potentiels du corpus.
+---
+### **Contribuer via HuggingFace**
+Pour apporter vos contributions directement au dépôt du projet sur HuggingFace, suivez ces étapes simples :
+1. **Configurer votre environnement Git** :
+   - Lisez le [guide sur la dépréciation des mots de passe Git](https://huggingface.co/blog/password-git-deprecation).
+   - Configurez [Git SSH](https://huggingface.co/docs/hub/security-git-ssh) pour des connexions sécurisées.
+2. **Changer l'URL distante** pour utiliser le dépôt HuggingFace :
+   ```bash
+   git remote set-url origin [email protected]:datasets/sawadogosalif/MooreFRCollections/
+   ```
+3. **Créer une nouvelle branche** pour vos contributions :
+   ```bash
+   git checkout -b nom-de-votre-branche
+   ```
+4. **Soumettre vos modifications** :
+   Faites un push de vos changements et créez une demande de fusion pour qu'elle soit examinée.
+Nous vous encourageons également à demander l'accès à la branche de développement pour collaborer plus directement sur les améliorations.
+---
+Merci de faire partie de cette initiative visant à promouvoir les langues locales par la technologie ! **Votre participation fait la différence.**
+"""
+        )
+    ]
+)

app/pages/__init__.py ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ from . import Home, Annotations, Contributeurs
2	+
3	+ page_list = [Home, Annotations, Contributeurs]

app/utils.py ADDED Viewed

	@@ -0,0 +1,63 @@

+from pathlib import Path
+import pandas as pd
+import re
+import datetime
+import json
+import os
+def get_audio_paths(folder: Path) -> list[str]:
+    """Récupère et trie les chemins des fichiers audio dans le dossier spécifié."""
+    def extract_number(file_path):
+        match = re.search(r"segment_(\d+)", file_path)
+        return int(match.group(1)) if match else float('inf')  # Trier les fichiers sans numéros en dernier
+    audio_paths = list(folder.glob("*.mp3"))
+    # Supprimer les deux premiers fichiers
+    audio_paths = [f"{audio_path.as_posix()}" for audio_path in audio_paths[2:]]
+    print(audio_paths)
+    return  sorted(audio_paths, key=extract_number)
+def clean_text(text: str) -> str:
+    """Nettoie les caractères indésirables dans une chaîne de texte."""
+    text = re.sub(r"\+\s*\.", ".", text)
+    text = re.sub(r"\*\s*\+\s*;", ";", text)
+    text = re.sub(r"\*\s*\+", "", text)
+    text = text.replace(" + ", " ").replace(" * ", " ").replace("+", " ")
+    text = re.sub(r'["“”]', '', text)
+    return text.strip()
+def splitter(text: str) -> list[str]:
+    """Divise une chaîne en segments basés sur des séparateurs spécifiques."""
+    return re.split(r"[,:;.]", clean_text(text))
+def flatten_nested_values(nested_values: pd.Series) -> list[str]:
+    """Aplati une liste imbriquée de valeurs textuelles en une liste simple."""
+    flattened = []
+    for group in nested_values:
+        for item in group:
+            cleaned_item = re.sub(r"^\d+\s*", "", item).strip()
+            if cleaned_item:
+                flattened.append(cleaned_item)
+    return flattened
+def load_data(file_path: str) -> list[str]:
+    """Charge les données textuelles et génère une liste de suggestions."""
+    data = pd.read_parquet(file_path, engine="pyarrow")
+    possible_values = data["verse_text"].apply(splitter)
+    return flatten_nested_values(possible_values)
+# Charger les données persistantes existantes
+def load_persistent_data(file):
+    if os.path.exists(file):
+        with open(file, 'r', encoding='utf-8') as f:
+            return json.load(f)
+    return []
+# Sauvegarder les données persistantes
+def save_persistent_data(data, file):
+    with open(file, 'w', encoding='utf-8') as f:
+        json.dump(data, f, ensure_ascii=False, indent=2)

requirements.txt ADDED Viewed

Binary file (1.41 kB). View file