Latin Sanskrit top syllables
ṁ 953
ta 729
sa 705
a 692
m 659
ḥ 654
na 622
ya 584
ma 478
va 478
i 408
ca 372
ka 366
pa 335
vi 334
te 321
ra 308
u 278
ti 238
pra 236
ha 224
ga 202
yo 198
r 197
e 192
ni 176
bha 169
da 163
ja 143
rma 142
śa 132
rva 123
t 121
d 115
s 114
sya 111
la 106
ṇa 92
pu 89
vya 89
dha 88
de 86
si 85
me 84
ś 83
yu 81
hi 81
pi 79
kta 78
ṣa 75
Syllable distribution for Hindi
के 2887
में 2860
है 2172
की 2160
का 1981
से 1437
को 906
और 889
ने 864
किस 667
हैं 659
पर 630
था 577
भारत 540
किया 432
कौन 424
जाता 413
एक 377
भी 375
हुआ 362
कब 340
किसने 330
एवं 277
नदी 253
कहाँ 249
सबसे 246
गया 245
इस 239
ई. 236
दिल्ली 231
लिए 228
क्या 219
थे 213
गंगा 211
थी 195
ही 194
भारतीय 194
यह 193
नाम 192
स्थित 189
तथा 189
व 187
कहा 185
कर 185
राय 183
राज्य 179
कि 175
हुई 174
द्वारा 165
स्थापना 162
Usage of script
Code.py
usage: code.py [-h] [--corpus corpus] [--terminals TERMINALS_FILE]
[--topN TOPN]
optional arguments:
-h, --help show this help message and exit
--corpus corpus Language corpus to use. File .txt is used as
source of the corpus
--terminals TERMINALS_FILE
file containing syllable terminals (vowels) for the
language (one per line)
--topN TOPN Number of syllables to print stats for
Example:
code.py --corpus Hindi --terminals HindiTerminals.txt --topN 1000
code.py --corpus English --terminals EnglishTerminals.txt --topN 1000
code.py --corpus latinDevangSansk --terminals latinDevangSanskTerminals.txt --topN 1000
Hindi Corpus
Code and Corpus zip