Extract evaluation results from README

This commit adds structured evaluation results to the model card. The results are formatted using the model-index specification and will be displayed in the model card's evaluation widget.

Files changed (1) hide show

README.md +96 -0

README.md CHANGED Viewed

@@ -3,6 +3,102 @@ library_name: transformers
 license: apache-2.0
 license_link: https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507/blob/main/LICENSE
 pipeline_tag: text-generation
 ---
 # Qwen3-235B-A22B-Thinking-2507

 license: apache-2.0
 license_link: https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507/blob/main/LICENSE
 pipeline_tag: text-generation
+model-index:
+- name: Qwen3-235B-A22B-Thinking-2507
+  results:
+  - task:
+      type: text-generation
+    dataset:
+      name: Benchmarks
+      type: benchmark
+    metrics:
+    - name: MMLU-Pro (Deepseek-R1-0528)
+      type: mmlu-pro
+      value: 85.0
+    - name: MMLU-Redux (Deepseek-R1-0528)
+      type: mmlu-redux
+      value: 93.4
+    - name: GPQA (Deepseek-R1-0528)
+      type: gpqa
+      value: 81.0
+    - name: SuperGPQA (Deepseek-R1-0528)
+      type: supergpqa
+      value: 61.7
+    - name: AIME25 (Deepseek-R1-0528)
+      type: aime25
+      value: 87.5
+    - name: HMMT25 (Deepseek-R1-0528)
+      type: hmmt25
+      value: 79.4
+    - name: LiveBench 20241125 (Deepseek-R1-0528)
+      type: livebench_20241125
+      value: 74.7
+    - name: HLE (OpenAI O3)
+      type: hle
+      value: 20.3
+    - name: LiveCodeBench v6 (25.02-25.05) (Deepseek-R1-0528)
+      type: livecodebench_v6_(25.02-25.05)
+      value: 68.7
+    - name: CFEval (Deepseek-R1-0528)
+      type: cfeval
+      value: 2099.0
+    - name: OJBench (Deepseek-R1-0528)
+      type: ojbench
+      value: 33.6
+    - name: IFEval (Deepseek-R1-0528)
+      type: ifeval
+      value: 79.1
+    - name: Arena-Hard v2$ (Deepseek-R1-0528)
+      type: arena-hard_v2$
+      value: 72.2
+    - name: Creative Writing v3 (Deepseek-R1-0528)
+      type: creative_writing_v3
+      value: 86.3
+    - name: WritingBench (Deepseek-R1-0528)
+      type: writingbench
+      value: 83.2
+    - name: BFCL-v3 (Deepseek-R1-0528)
+      type: bfcl-v3
+      value: 63.8
+    - name: TAU1-Retail (Deepseek-R1-0528)
+      type: tau1-retail
+      value: 63.9
+    - name: TAU1-Airline (OpenAI O4-mini)
+      type: tau1-airline
+      value: 49.2
+    - name: TAU2-Retail (Deepseek-R1-0528)
+      type: tau2-retail
+      value: 64.9
+    - name: TAU2-Airline (Deepseek-R1-0528)
+      type: tau2-airline
+      value: 60.0
+    - name: TAU2-Telecom (Deepseek-R1-0528)
+      type: tau2-telecom
+      value: 33.3
+    - name: MultiIF (Deepseek-R1-0528)
+      type: multiif
+      value: 63.5
+    - name: MMLU-ProX (Deepseek-R1-0528)
+      type: mmlu-prox
+      value: 80.6
+    - name: INCLUDE (Deepseek-R1-0528)
+      type: include
+      value: 79.4
+    - name: PolyMATH (Deepseek-R1-0528)
+      type: polymath
+      value: 46.9
+    - name: Qwen3-235B-A22B (Thinking) (Acc avg)
+      type: qwen3-235b-a22b_(thinking)
+      value: 82.9
+    - name: Qwen3-235B-A22B-Thinking-2507 (Full Attention) (Acc avg)
+      type: qwen3-235b-a22b-thinking-2507_(full_attention)
+      value: 95.4
+    - name: Qwen3-235B-A22B-Thinking-2507 (Sparse Attention) (Acc avg)
+      type: qwen3-235b-a22b-thinking-2507_(sparse_attention)
+      value: 95.5
+    source:
+      name: Model README
+      url: https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507
 ---
 # Qwen3-235B-A22B-Thinking-2507