LLM evals and benchmark datasets
updated
Viewer
• Updated • 8.11k • 8.42k
• 107
Viewer
• Updated • 164 • 300k
• 388
Viewer
• Updated • 541 • 121k
• 150
Viewer
• Updated • 7.79k • 486k
• 345
Viewer
• Updated • 81.4k • 247k
• 81
Benchmark
• Updated • 12.1k • 166k
• 476
Viewer
• Updated • 231k • 552k
• 748
Viewer
• Updated • 1.63k • 104k
• 280
Benchmark
• Updated • 17.6k • 954k
• 1.33k
Viewer
• Updated • 60k • 301k
• 176
Updated • 32.7k
• 65
HuggingFaceH4/mt_bench_prompts
Viewer
• Updated • 80 • 8.69k
• 25
Viewer
• Updated • 34.6k • 1.69k
• 118
Viewer
• Updated • 95.4k • 4.84k
• 113
Viewer
• Updated • 4.05k • 836
• 13
Viewer
• Updated • 393k • 11.4k
• 522