Evaluation Metrics

Semi-hands-on evaluation notes + commands (perplexity, exact-match, task probes). Ghi chú & lệnh chạy đánh giá.

Plan

lm-eval-harness basic runs.
Tiny custom probes (math/code snippets).
Compare base vs LoRA checkpoints (later).

Quick Start (conceptual)

pip install lm-eval
lm-eval --model hf \
  --model_args pretrained=meta-llama/Llama-3-8B-Instruct \
  --tasks hellaswag,boolq \
  --device cuda:0 --batch_size 4

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
probes		probes
results		results
scripts		scripts
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
harness_commands.md		harness_commands.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Evaluation Metrics

Plan

Quick Start (conceptual)

About

Uh oh!

Releases

Packages

Languages

License

Blue-No1/evaluation-metrics-v2

Folders and files

Latest commit

History

Repository files navigation

Evaluation Metrics

Plan

Quick Start (conceptual)

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages