Mixture of Formats Training on Wikipedia and Arxiv

## Description

This experiment compares different mixtures of data formats(markdownified and unmarkdownified) for training language models. We evaluate four scenarios:

1. Baseline: Using the standard Dolma dataset mixture
2. ArXiv Mixture: Adding markdownified ArXiv data alongside the original Dolma ArXiv data
3. Wikipedia Mixture: Adding markdownified Wikipedia data alongside the original Dolma Wikipedia data
4. Wiki and Arxiv Mixture: Adding markdownified Wikipedia and ArXiv data alongside the original Dolma Wikipedia and ArXiv data

The goal is to determine if exposing models to multiple formats of the same content source improves model performance.

### Links

* WandB Report: [(link)](https://wandb.ai/marin-community/marin/reports/818-Mixture-of-Formats--VmlldzoxMTg4MzU0NA)
* Experiment JSON: [(link)](https://console.cloud.google.com/storage/browser/_details/marin-us-central2/experiments/exp818_mixture_of_formats_training-f68b68.json;tab=live_object?authuser=0&hl=en&project=hai-gcp-models)

## Results

No major difference observed, switch to @Helw150's annealing setup for evaluations.



Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Mixture of Formats Training on Wikipedia and Arxiv #818

Description

Links

Results

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Mixture of Formats Training on Wikipedia and Arxiv #818

Description

Description

Links

Results

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions