Evaluation - Trelis Studio

Model Evaluation

Run Evaluation

Model to Evaluate

HuggingFace Dataset Upload Parquet File Store

Dataset

Split

Max Samples

Limited to 50 samples. Sign in for more.

Max Audio Duration (seconds)

Samples longer than this are skipped. Default 30s (Whisper/Moonshine limit). Increase for models that support longer audio.

Router Max Concurrency

Max parallel requests to Trelis Router. Lower this if your Router API key has a low requests-per-minute limit. Only applies to Router models.

Language

Auto-detect works for Whisper, Qwen, VibeVoice, Voxtral, and Router models. OmniASR requires an explicit language. MedASR is English-only (language ignored). Showing 20 common languages.

Text Normalizer (WER/CER)

Controls text normalization for WER/CER computation. Auto selects based on language.

HuggingFace Token (optional)

Required for private datasets or pushing results. Get token

Push results to HuggingFace as dataset

Saves predictions and WER for each sample (requires token with write access)

Current Job

No job

No evaluation running. Submit a job to see progress here.

Job ID:

Model:

Dataset:

Status:

Evaluation Logs

No logs yet...

Evaluation History

Time	Model	Dataset	Samples	WER	Base WER	CER	CMER	Base CER	Results	Status
No evaluations yet

Model Evaluation

Run Evaluation

Current Job

Error

Evaluation History