Kris Bailey PRO

krisbailey

AI & ML interests

quantization, optimization, novel model architectures, model architecture research and development, dataset construction, apple silicon optimizations

Organizations

None yet

Posts 1

Post

493

While doing various projects I kept running into situations where I wanted to be able to have representative samples of some of the current large SOTA datasets that were smaller so I didn't need to worry about slicing or anything else at runtime. So, I created sub datasets making sure to keep the same ratios of data sources. Each dataset card provides info for what's in it.
100M token datasets:
RedPajama v2 100M
Falcon RefinedWeb 100M
Cosmopedia 100M

1B token datasets:
Fineweb-edu 1B
RedPajama v1 1B
RedPajama v2 1B (use this one)
Cosmopedia 1B

10B token datasets:
RedPajama v1 10B
Cosmopedia 10B

Collection here:
https://huggingface.co/collections/krisbailey/bite-size-data

Kris Bailey PRO

AI & ML interests

Organizations

Posts 1

Collections 1

krisbailey/fineweb-edu-1B

krisbailey/falcon-refinedweb-1B

krisbailey/cosmopedia-1b

krisbailey/cosmopedia-10B

krisbailey/fineweb-edu-1B

krisbailey/falcon-refinedweb-1B

krisbailey/cosmopedia-1b

krisbailey/cosmopedia-10B

models 0

datasets 10

krisbailey/fineweb-edu-1B

krisbailey/RedPajama-Data-V2-1B

krisbailey/RedPajama-Data-V2-100M

krisbailey/falcon-refinedweb-1B

krisbailey/falcon-refinedweb-100M

krisbailey/cosmopedia-10B

krisbailey/cosmopedia-1b

krisbailey/cosmopedia-100M

krisbailey/RedPajama-10B-Weighted

krisbailey/RedPajama-1B-Weighted

Kris Bailey PRO

AI & ML interests

Organizations

Posts 1

Collections 1

models 0

datasets 10 Sort: Recently updated

datasets 10