Assignment 1


Avi Singh
12177
{avisingh@iitk.ac.in}



[Code]

The Corpus :

The corpus consists of Sanskrit hymns from the Rig Veda. It contains Book 1 and Books 7-10. The text file if available [here]. It is 1.8MB in size.

The Plot :

Log Frequency Plot of 1000 Most Frequent Syllables
Most frequent syllables:

त 10056 व 9730 म 9561 य 9457 र 8976 न 7458 स 6178 प 5536 वा 5278 द 4591
या 3833 मा 3571 रा 3435 अ 3104 वि 3048 ना 3015 ति 2893 ते 2833 ता 2823 ष 2453

Complete list [here]

Most frequent bigrams:

पर 1648 तम 648 परि 595 तवा 584 देवा 553 यत 552 यम 513 सोम 475 वान 422 यद 421
तव 407 नम 404 सव 392 विश्वा 392 इन्द्र 391 नाम 390 तये 389 देव 383 तस 381 तस्य 373

Complete list [here]

Results on Second Language (hindi)(hwiki.txt) :


Log Frequency Plot of 791 Syllables
Most frequent syllables:

र 2209 न 1199 क 1107 त 1078 य 935 ल 843 के 802 स 748 का 701 ग 657
में 610 है 571 प 550 की 534 म 534 व 501 या 491 ज 432 ह 412 से 384

Complete list [here]

Most frequent bigrams:

और 343 कर 262 तर 178 देश 167 हिन्दी 148 इस 146 उत्त 142 रेल 132 ताहै 129 प्रदे 128
भार 123 रप्र 118 पर 118 पुर 112 रण 111 रत 111 भाषा 95 केलि 91 यह 91 धिक 88

Complete list [here]