Haq Nawaz Malik, Nahfid Nissar

ks-pret-5m: a 5 million word, 12 million token kashmiri pretraining dataset

Haq Nawaz Malik, Nahfid Nissar / April 14, 2026

arXiv:2604.11066v1 Announce Type: new
Abstract: We present KS-PRET-5M, the largest publicly available pretraining dataset for the Kashmiri language, comprising 5,090,244 (5.09M) words, 27,692,959 (27.6M) characters, and a vocabulary of 295,433 (295.4K…

Author name: Haq Nawaz Malik, Nahfid Nissar

ks-pret-5m: a 5 million word, 12 million token kashmiri pretraining dataset