Benchmarks sao avaliacoes usadas para comparar modelos, sistemas e metodos de IA. Esta categoria explica metricas, rankings, datasets, limites de interpretacao e boas praticas para usar resultados de benchmark com cautela.
- Rankings e tabelas de avaliacao.
- Datasets e tarefas usadas em testes.
- Diferencas entre benchmark academico, benchmark publico e avaliacao interna.
- Limites de reproducibilidade e risco de overfitting.
- Dados estatisticos relevantes para o mercado de IA.
- Benchmarks de LLMs
- MMLU
- HumanEval
- SWE-bench
- Arena de modelos