Question 1

What is the Shitao/MLDR dataset?

Accepted Answer

Dataset Summary

MLDR is a Multilingual Long-Document Retrieval dataset built on Wikipeida, Wudao and mC4, covering 13 typologically diverse languages. Specifically, we sample lengthy articles from Wikipedia, Wudao and mC4 datasets and randomly ...

Question 2

Is Shitao/MLDR a benchmark?

Accepted Answer

Shitao/MLDR is a dataset for training or evaluation; it isn't tracked as a standard LLM benchmark in our catalog.

Question 3

Where can I download Shitao/MLDR?

Accepted Answer

Shitao/MLDR is available at its source: https://huggingface.co/datasets/Shitao/MLDR.

Shitao/MLDR

About Shitao/MLDR

Details

Related Text Retrieval datasets

FAQ