natural language processing · 2. शब्द-बेद ननधाटयण-सॊऻा,...
TRANSCRIPT
आर्टस ्अँड कॉभसट कॉरेज, आष्र्ाअध्माऩक का नाभ- विश्िास ननितृ्ती ऩार्ीर
फी. ए. बाग-3
बाषा विऻान
बायत भें भहत ्बाषा-विविधता
बाषा एिॊ बावषमों की सॊख्मा
बाषा जनसखं्मा (2001 की जनगणना के आधाय ऩय; रगबग)
हहॊदी 450, 000, 000
भयाठी 72, 000, 000
कोंकणी 7, 000, 000
सॊस्कृत 6000
नेऩारी 13, 000, 000
बाषा एिॊ बावषमों की सॊख्मा (क्रभश्)
बाषा जनसखं्मा (2001 की जनगणना के आधाय ऩय; रगबग)
कश्भीयी 5, 000, 000
आसाभी 13, 000, 000
तमभर 60, 000, 000
भरमारभ 33, 000, 000
फोडो 1, 000, 000
भणणऩुयी 1, 000, 000
प्रभुख बाषा प्रक्रक्रमा ऩहर
• भुख्मत् सयकाय की ओय से : सूचना एिॊ प्रौद्मोगगकी भॊत्रारम, भानि सॊसाधन एिॊ विकास भॊत्रारम, विऻान एिॊ तकनीकी विबाग
• हार भें औद्मोगगक सॊस्थानों द्िाया अत्मगधक रुझान : बायतीम बाषाओॊ ऩय कें हित प्रा.बा.प्र.(एनएरऩी) का प्रमास – गूगर – भाइक्रोसाफ्ट – आईफीएभ शोध प्रमोगशारा – माहू – टीसीएस
प्राकृततक बाषा प्रक्रक्रमा (एन.एर.ऩी.), बा.प्रौ.सॊ. भुॊफई शोध-दर, सयकाय औय औद्मोगगक सॊस्थानों द्िाया अत्मगधक सभगथित
हहन्दी शब्दतन्त्र
• शब्दतॊत्र – एक शाब्ब्दक आॉकडासॊचम • हहॊदी शब्दतॊत्र – अॊगे्रजी शब्दतॊत्र द्िाया पे्ररयत • सॊकल्ऩना के आधाय ऩय तनमभित • ऩमािम-सभूह – शब्दतन्त्र के भुख्म आधाय • विमबन्न िाक्मगत िगों के मरए विमबन्न व्मिस्था मसद्ाॊत
हहन्दी शब्दतन्त्र की सॊयचना
1. ऩमाटम-सभूह गाम,गऊ, गैमा, धेनु व्माख्मा (उदाहयण सहहत) सीॊगिारा एक शाकाहायी भादा चौऩामा
हहन्द ूरोग गाम को गो भाता कहते हैं । 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशषेण, क्रक्रमा-विशषेण । 3. सत्ता-भीभांसा ननधाटयण
ऩमाटम-सभूह ननभाटण संफंधी ससद्ांत
• संक्षऺप्तता – कभ से कभ ऩमािम-शब्दों के प्रमोग से सॊकल्ऩना की एकाथिता का स्ऩष्टीकयण
• व्माऩकता – सॊकल्ऩना की एकाथिता को दशािनेिारे सबी ऩमािम-शब्दों को क्रभ से उनकी फाय
म्फायता के आधाय ऩय ऩमािमिाची-सभूह भें प्रविब्ष्ट • प्रनतस्थाऩनीमता
– ऩमािम-सभूह भें आए हुए अगधकतय शब्दों का उदाहयण-िाक्म भें बफना अथि ऩरयितिन के प्रततस्थाऩना सॊबि
– घय, गहृ, भकान, सदन, शारा, आरम, धाभ, तनकेतन, िास्तु, ऩण-भनुष्मों का छामा हुआ िह स्थान,जो दीिायों से घेयकय फनामा जाता है "इस घय भें ऩाॉच कभये हैं "
शब्दतॊत्र भें सॊफॊध
• ऩमािमिाची (Synonymy)• अगधिाची (Hypernymy) / अधोिाची (Hyponymy) • विरोभाथी (Antonymy) • अॊगिाची (Meronymy) / अॊगीिाची (Holonymy) • शे्रणीकयण (Gradation) • अऩरयहामितािाची (Entailment)• प्रकायिाची (Troponymy)
संऻा-येखाचित्र
गाम, गऊ
फैर काभधेनु भैनी गाम
थन
ऩूॉछ अगधिाची
गुण
अधोिाची विरोभाथी
(मरॊग)
अॊगिाची
आॊतय ्मोग्मता तनदेशी क्रक्रमा
चौऩामा,ऩशु
शाकाहायी
ऩगुयाना
सीॊगिारा एक शाकाहायी
भादा चौऩामा
आँकडे
ऩमािम-सभूह 33500
एकभेि शब्द 80400
सॊफॊधमुक्त ऩमािम-सभूह
33500
हहॊदी-अॊगे्रजी मोब्जत ऩमािम-सभूह
13000
खोजे गए शब्द 260000
प्रबाि, उऩमोगगता एिॊ प्रत्मऺता
• उऩमोग के मरए आनराइन उऩरब्ध (तन्शुल्क) • शोध कामि हेतु तन्शुल्क डाउनरोड की सवुिधा • बाषाविऻान आॉकडा सॊघ (LDC), ऩेंमसरिेतनमा विश्िविद्मा
रम, अभयीका द्िाया साििबौमभक उऩरब्धता • बायतीम बाषा खोज इॊब्जन ऩय काभ कयने के मरए गगूर
द्िाया क्रीत व्मािसातमक अनुऻाऩत्र• मूयोऩीम बाषा सॊसाधन सॊगठन (ELRA) द्िाया जल्द उऩरब्ध:
मूयोऩ का बाषा आॉकडा कोश • बायतीम बाषाविऻान आॉकडा सॊघ द्िाया उऩरब्ध
प्रबाि, उऩमोगगता एिॊ प्रत्मऺता (क्रभश्) • विश्िबय से दैतनक उल्रेख • सन ्2006 से 2.5 राख से अगधक शब्द-खोज • 4600 से अगधक डाउनरोड • कई बायतीम बाषाओॊ के शब्दतॊत्र का कें िबफ ॊद ु• बायतीम बाषा अनुिाद, सॊऺेऩण, बाषाओॊ के भध्म खोज के मरए कई शोधकतािओॊ द्िाया आधायबूत सॊसाधन के रूऩ भें प्रमुक्त
हहॊदी शब्दतॊत्र
िविड बाषा शब्दतॊत्र
उत्तय-ऩूििबाषाशब्दतॊत्र भयाठी
शब्दतॊत्र
सॊस्कृत शब्दतॊत्र
अॊगे्रजी शब्दतॊत्र
फॊगारी शब्दतॊत्र
ऩॊजाफी शब्दतॊत्र
कोंकणी शब्दतॊत्र
अन्म बायतीम बाषाओॊ के शब्दतॊत्रों की धुयी
सॊरग्न शब्दतॊत्र • अऩरयमभत शब्द सॊसाधन • माॊबत्रक अनिुाद, बाषा के भध्म खोज के मरए फहुत ही राबका
यी • बाषा-अध्माऩन, प्रमशऺण, तुरनात्भक बाषाविऻान के मरए फहु
त उऩमोगी • मूयोशब्दतॊत्र के सभान ऩयॊतु विमशष्ट बायतीम बाषा अमबराऺ
णणकता के कायण सभीऺात्भक अॊतय
शब्दतॊत्र ऩय आधारयत भानक अणखर बायतीम शब्दकोश
शब्दाथि हहॊदी भयाठी फॊगारी उडडमा तमभर (W1, W2, W3, W4, W5, W6 )
(W1, W2, W3, W4, W5, W6 )
(W1, W2, W3) (W1, W2 , W3) (W1, W2, W3, W4)
(W1, W2, W3)
(sun) (सूमट, सूयज, बान,ु बास्कय, प्रबाकय, हदनकय, अशंुभान, अंशुभारी)
(सूमट, बान,ु हदिाकय, बास्कय, यवि, हदनेश, हदनभणी)
... ... ...
(cub, lad, laddie, sonny, sonny boy)
(रडका, फारक, फच्िा, छोकडा, छोया)
(भुरगा, ऩोयगा, ऩोय, ऩोयगे) … … …
(son, boy) (ऩुत्र,फेर्ा,रडका,रार,सुत,फच्िा,सूत,नंदन,नन्दन,ऩूत,तनम)
(भुरगा, ऩुत्र, रेक, चियंजीि, तनम ) … … …
सम्भान
• ऩी.के. ऩटिधिन प्रौद्मोगगकी विकास ऩुयस्काय, 2008 • हहॊदी शब्दतॊत्र ऩय आधारयत फहुबाषीम आॉकडासॊचम तनभािण के मरए भाइक्रो साफ्ट शोध बायत के द्िाया शोध अनुदान
• हहॊदी शब्दतॊत्र का घटक के रूऩ भें अव्मिब्स्थत सूचना प्रफॊधन के मरए आईफीएभ बायत शोध अनुदान
अतंयाटष्रीम सािटबौसभक शब्दतंत्र सम्भेरन, 31 जनियी से 4 पयियी, 2010
हहॊदी शब्दतॊत्र की सपरता के कायण बा.प्रौ.सॊ. भुॊफई को अनुदत्त एक प्रभुख अॊतयािष्रीम कामिक्रभ