Question 1

What is the jingyaogong/minimind-v_dataset dataset?

Accepted Answer

Ⅰ 数据集

本轮训练用到的图文数据全部来自 ALLaVA-4V 系列。
相比以往从几份 LLaVA 衍生集拼接得到的数据，ALLaVA-4V 的质量更整齐、中英双语原生对照，细粒度描述也更充分。
它由两个子源构成：一份是 LAION 里挑出来的高质量图片（自然图像为主），一份是 VFLAN 指令流里挑出来的图片（文档、图表、合成场景居多）。

Pretrain（pretrain_i2t.parquet，约 127 万条 / ~64 万张唯一图像）

ALLaVA-Caption-LA...

Question 2

Is jingyaogong/minimind-v_dataset a benchmark?

Accepted Answer

jingyaogong/minimind-v_dataset is a dataset for training or evaluation; it isn't tracked as a standard LLM benchmark in our catalog.

Question 3

Where can I download jingyaogong/minimind-v_dataset?

Accepted Answer

jingyaogong/minimind-v_dataset is available at its source: https://huggingface.co/datasets/jingyaogong/minimind-v_dataset.

Question 4

What license is jingyaogong/minimind-v_dataset released under?

Accepted Answer

jingyaogong/minimind-v_dataset is distributed under the apache-2.0 license.

jingyaogong/minimind-v_dataset

About jingyaogong/minimind-v_dataset

Details

Related Visual Question Answering datasets

FAQ