[Code]
The Corpus :
The corpus consists of Sanskrit hymns from the Rig Veda. It contains Book 1 and Books 7-10. The text file if available [here]. It is 1.8MB in size.
The Plot :
Most frequent syllables:
त 10056 |
व 9730 |
म 9561 |
य 9457 |
र 8976 |
न 7458 |
स 6178 |
प 5536 |
वा 5278 |
द 4591 |
या 3833 |
मा 3571 |
रा 3435 |
अ 3104 |
वि 3048 |
ना 3015 |
ति 2893 |
ते 2833 |
ता 2823 |
ष 2453 |
Complete list
[here]
Most frequent bigrams:
पर 1648 |
तम 648 |
परि 595 |
तवा 584 |
देवा 553 |
यत 552 |
यम 513 |
सोम 475 |
वान 422 |
यद 421 |
तव 407 |
नम 404 |
सव 392 |
विश्वा 392 |
इन्द्र 391 |
नाम 390 |
तये 389 |
देव 383 |
तस 381 |
तस्य 373 |
Complete list
[here]
Results on Second Language (hindi)(hwiki.txt) :
Most frequent syllables:
र 2209 |
न 1199 |
क 1107 |
त 1078 |
य 935 |
ल 843 |
के 802 |
स 748 |
का 701 |
ग 657 |
में 610 |
है 571 |
प 550 |
की 534 |
म 534 |
व 501 |
या 491 |
ज 432 |
ह 412 |
से 384 |
Complete list
[here]
Most frequent bigrams:
और 343 |
कर 262 |
तर 178 |
देश 167 |
हिन्दी 148 |
इस 146 |
उत्त 142 |
रेल 132 |
ताहै 129 |
प्रदे 128 |
भार 123 |
रप्र 118 |
पर 118 |
पुर 112 |
रण 111 |
रत 111 |
भाषा 95 |
केलि 91 |
यह 91 |
धिक 88 |
Complete list
[here]