Assignment 1

Anadi Chaman
Roll no:12105

Corpus :

A hindi language text has been used as a corpus. The text corresponds to a Hindi novel. The text file is available [here]

Plot of syllable frequency vs syllable index for Hindi Language :

Plot of bigram frequency vs syllable index for Hindi Language :

Most frequently occuring syllables:

उ 3253 अ 2874 ए 2376 आ 2220 या 1988 से 1870 है 1721 का 1626

हो 1609 मे 1598 के 1488 ने 1400 की 1358 था 1342 कि 1315 औ 1287

Most frequently occuring bigrams:

जॉन 768 देख 599 क्य 509 प्र 503 नेक 452 कुछ 445 बोल 424 फिर 386

जान 384 लेक 383 तुम 346 स्त 315 किय 301 हूव 299 किस 290 मेर 287

Results on Second Language-Sanskrit:

The corporus can be found [here]

Plot of syllable frequency vs syllable index for Sanskrit Language Text:

Most popular syllables:

अ 680 त 646 या 546 वा 414 ष 378 वि 375 र 371 ना 357

ता 320 ति 316 रा 294 उ 287 पा 267 क 243 न 210 नि 198

Plot of bigram frequency vs syllable index for Sanskrit Language Text:

Most popular bigrams:

त्र 371 र्व 287 स्य 274 त्य 207 क्ष 201 न्त 195 याय 168 त्त 164

ष्ट 151 त्व 134 क्त 129 ध्य 125 श्र 112 न्य 112 वान 102 ण्ड 99

The code for finding syllables can be found [here]
The code for finding bigrams can be found [here]

उ 3253	अ 2874	ए 2376	आ 2220	या 1988	से 1870	है 1721	का 1626
हो 1609	मे 1598	के 1488	ने 1400	की 1358	था 1342	कि 1315	औ 1287

जॉन 768	देख 599	क्य 509	प्र 503	नेक 452	कुछ 445	बोल 424	फिर 386
जान 384	लेक 383	तुम 346	स्त 315	किय 301	हूव 299	किस 290	मेर 287

अ 680	त 646	या 546	वा 414	ष 378	वि 375	र 371	ना 357
ता 320	ति 316	रा 294	उ 287	पा 267	क 243	न 210	नि 198

त्र 371	र्व 287	स्य 274	त्य 207	क्ष 201	न्त 195	याय 168	त्त 164
ष्ट 151	त्व 134	क्त 129	ध्य 125	श्र 112	न्य 112	वान 102	ण्ड 99

Assignment 1

Anadi ChamanRoll no:12105

Anadi Chaman
Roll no:12105