Close Menu
  • Home
  • Features
    • View All On Demos
  • Uncategorized
  • Buy Now

Subscribe to Updates

Get the latest creative news from FooBar about art, design and business.

What's Hot

भारत निर्मित ऐप बिगड़ी हुई बोली को वास्तविक समय में स्पष्ट वाणी में बदल देता है

रमज़ान 2026: तिरुवनंतपुरम की मस्जिदों में ‘नोम्बू कांजी’ तैयार करने वाले कुछ रसोइयों से मिलें

राज्यसभा चुनाव: बीजद, कांग्रेस ने विधायकों से 16 मार्च तक भुवनेश्वर नहीं छोड़ने को कहा

Facebook X (Twitter) Instagram YouTube
Friday, March 13
Facebook X (Twitter) Instagram
NI 24 INDIA
  • Home
  • Features
    • View All On Demos
  • Uncategorized

    रेणुका सिंह, स्मृति मंधाना के नेतृत्व में भारत ने वनडे सीरीज के पहले मैच में वेस्टइंडीज के खिलाफ रिकॉर्ड तोड़ जीत हासिल की

    December 22, 2024

    ‘क्या यह आसान होगा…?’: ईशान किशन ने दुलीप ट्रॉफी के पहले मैच से बाहर होने के बाद एनसीए से पहली पोस्ट शेयर की

    September 5, 2024

    अरशद वारसी के साथ काम करने के सवाल पर नानी का LOL जवाब: “नहीं” कल्कि 2 पक्का”

    August 29, 2024

    हुरुन रिच लिस्ट 2024: कौन हैं टॉप 10 सबसे अमीर भारतीय? पूरी लिस्ट देखें

    August 29, 2024

    वीडियो: गुजरात में बारिश के बीच वडोदरा कॉलेज में घुसा 11 फुट का मगरमच्छ, पकड़ा गया

    August 29, 2024
  • Buy Now
Subscribe
NI 24 INDIA
Home»राष्ट्रीय»भारत निर्मित ऐप बिगड़ी हुई बोली को वास्तविक समय में स्पष्ट वाणी में बदल देता है
राष्ट्रीय

भारत निर्मित ऐप बिगड़ी हुई बोली को वास्तविक समय में स्पष्ट वाणी में बदल देता है

By ni24indiaMarch 13, 20260 Views
Facebook Twitter WhatsApp Pinterest LinkedIn Email Telegram Copy Link
Follow Us
Facebook Instagram YouTube
Google Preferred Source
Share
Facebook Twitter WhatsApp Telegram Copy Link

एक फुसफुसाहट. कुछ अस्पष्ट शब्द. जो लोग डिसरथ्रिया, मोटर स्पीच डिसऑर्डर से पीड़ित हैं, उनके लिए बुनियादी संचार एक चुनौती है, जो उनके पेशेवर और व्यक्तिगत जीवन दोनों को अमिट रूप से प्रभावित करता है। लेकिन अब कृत्रिम बुद्धिमत्ता (एआई) पर आधारित और भारत में विकसित एक नया आविष्कार जीवन बदलने वाला हो सकता है।

अंतर्राष्ट्रीय सूचना प्रौद्योगिकी संस्थान (आईआईआईटी), हैदराबाद के एसोसिएट प्रोफेसर विनीत गांधी के नेतृत्व में एक टीम ने एक सरल ऐप विकसित किया है जो लोगों को बात करने में मदद कर सकता है क्योंकि ऑडियो अनुवाद वक्ता की आवाज़ को लगभग वास्तविक समय में परिवर्तित कर देता है। ऐप या तो अस्पष्ट भाषण को स्पष्ट, प्राकृतिक-ध्वनि वाले भाषण में परिवर्तित कर सकता है या समझदार भाषण उत्पन्न करने के लिए होंठों की गति और सूक्ष्म गले के कंपन का विश्लेषण करने के लिए कैमरे का उपयोग कर सकता है।

जबकि वर्तमान परियोजना अंग्रेजी में चलती है, टीम का अगला उद्देश्य इन तकनीकों को हिंदी, तेलुगु और तमिल सहित क्षेत्रीय भाषाओं में ले जाना है, क्योंकि देश भर में कई लोगों के पास पहुंच-केंद्रित एआई मॉडल से लाभ उठाने के साधन नहीं हैं। इस कार्य के लिए, श्री गांधी ने 2026 में अनुसंधान नेशनल रिसर्च फाउंडेशन (एएनआरएफ) पुरस्कार जीता।

एक साक्षात्कार के अंश:

आपको इस मानवीय एआई परियोजना पर काम शुरू करने के लिए किसने प्रेरित किया?

मेरा शोध हमेशा एक सरल प्रश्न से प्रेरित रहा है: प्रौद्योगिकी किस वास्तविक समस्या को हल करने में मदद कर सकती है?

जबकि मेरा शैक्षणिक प्रशिक्षण मुख्य रूप से कंप्यूटर विज़न में है, लगभग चार साल पहले, मुझे भाषण अनुसंधान में उभरती रोमांचक संभावनाएं दिखाई देने लगीं और मैंने इस क्षेत्र को और अधिक गहराई से तलाशने का फैसला किया। मैं कई व्यक्तियों के सामने आने वाली चुनौतियों के बारे में तेजी से जागरूक हो गया हूं जो चिकित्सा स्थितियों के कारण बोलने की क्षमता खो देते हैं: इस हानि का प्रभाव संचार से कहीं आगे तक फैलता है – यह स्वतंत्रता, पहचान और कनेक्शन को प्रभावित करता है।

इस आवश्यकता को पहचानने से मुझे भाषण को बहाल करने या सक्षम करने के लिए डिज़ाइन की गई पहुंच-संचालित तकनीकों पर अपना काम केंद्रित करने के लिए प्रेरित किया गया, जिसका लक्ष्य लोगों को उनकी आवाज़ वापस पाने में मदद करना है।

क्या आप बता सकते हैं कि ऐप बोलने में अक्षम लोगों के लिए कैसे काम करता है?

ऐप को केवल कुछ सौ मिलीसेकंड की देरी के साथ ख़राब या विकृत भाषण को स्पष्ट, प्राकृतिक-ध्वनि वाले भाषण में बदलने के लिए डिज़ाइन किया गया है। एक उपयोगकर्ता बस अपनी आवाज में बोलता है, और सिस्टम श्रोता के लिए समझदार भाषण उत्पन्न करने के लिए इसे संसाधित करता है।

हम एक पूरक लिप-टू-स्पीच क्षमता भी विकसित कर रहे हैं, जहां कोई व्यक्ति चुपचाप अपने होंठ हिला सकता है और सिस्टम संबंधित भाषण उत्पन्न करता है।

एक प्रमुख पहलू जिस पर हम ध्यान केंद्रित कर रहे हैं वह वैयक्तिकरण है, जहां उपयोगकर्ता ऐप पर कुछ मिनट के पाठ को पढ़कर एप्लिकेशन को अपनी आवाज के अनुसार कैलिब्रेट और परिष्कृत कर सकते हैं।

हमारा लक्ष्य है कि इन तकनीकों को वेब-आधारित कॉलिंग एप्लिकेशन जैसे सामान्य संचार प्लेटफार्मों में एकीकृत किया जाए, जिससे बोलने में अक्षम लोगों के लिए रोजमर्रा का संचार आसान हो सके।

आपका लक्ष्य इस तकनीक को क्षेत्रीय भारतीय भाषाओं तक विस्तारित करना भी है। आप इसे कैसे हासिल करने की उम्मीद करते हैं?

वर्तमान में, वैश्विक भाषण प्रौद्योगिकी पारिस्थितिकी तंत्र का अधिकांश भाग मुख्य रूप से अंग्रेजी के लिए डिज़ाइन किया गया है, और हमारे प्रारंभिक प्रयोग स्वाभाविक रूप से उसी प्रक्षेपवक्र का अनुसरण करते हैं। हालाँकि, हमारे शोध का एक प्रमुख लक्ष्य इन क्षमताओं को क्षेत्रीय भारतीय भाषाओं तक विस्तारित करना है, जहाँ सुलभ भाषण प्रौद्योगिकियाँ समान रूप से महत्वपूर्ण हैं।

इसे प्राप्त करने के लिए, हम भारतीय भाषाओं में भाषण डेटा एकत्र करने और कम-संसाधन परिदृश्यों के लिए उपयुक्त डेटा-कुशल मॉडल विकसित करने की योजना बना रहे हैं। हमारे दृष्टिकोण में डेटा संवर्द्धन और पूर्व-प्रशिक्षित मॉडलों की कुशल फ़ाइन-ट्यूनिंग शामिल है।

हमने पहले ही आशाजनक परिणामों के साथ हिंदी में प्रारंभिक प्रयोग किए हैं, और अनुसंधान नेशनल रिसर्च फाउंडेशन के समर्थन से, हमारा लक्ष्य इस काम को अतिरिक्त भारतीय भाषाओं में और बढ़ाना और विस्तारित करना है।

आपका मानना ​​है कि भारत में एआई अनुसंधान के लिए “पहुंच और भाषाई विविधता” महत्वपूर्ण हैं। क्या आप विस्तार से बता सकते हैं?

भारत में एआई अनुसंधान के लिए पहुंच और भाषाई विविधता मौलिक विचार हैं। यूरोप में कई साल बिताने के बाद, मैंने देखा कि वहां सार्वजनिक बुनियादी ढांचे और डिजिटल सेवाओं में पहुंच कहीं अधिक व्यवस्थित रूप से एकीकृत है।

इसके विपरीत, भारत में अभी भी महत्वपूर्ण कमियां हैं, यहां तक ​​कि रेलवे स्टेशनों जैसे सार्वजनिक स्थानों पर भी, जहां बुनियादी पहुंच प्रावधान अक्सर सीमित होते हैं। यह उन प्रौद्योगिकियों को डिज़ाइन करने की व्यापक आवश्यकता पर प्रकाश डालता है जिनमें सचेत रूप से विकलांग लोगों को शामिल किया गया है।

वहीं, भारत की भाषाई विविधता एक और महत्वपूर्ण आयाम प्रस्तुत करती है। देश के कई हिस्सों में, विशेष रूप से ग्रामीण क्षेत्रों में, बातचीत बातचीत का सबसे स्वाभाविक और प्राथमिक तरीका बनी हुई है। ऐसे संदर्भों में टेक्स्ट-भारी या टाइपिंग-आधारित इंटरफ़ेस हमेशा व्यावहारिक या समावेशी नहीं हो सकते हैं। इसलिए, भारत के लिए डिज़ाइन किए गए एआई सिस्टम को भाषण-आधारित बातचीत को प्राथमिकता देनी चाहिए और कई क्षेत्रीय भाषाओं का समर्थन करना चाहिए।

कुल मिलाकर, यदि डिजिटल प्रौद्योगिकियों को वास्तव में समावेशी और देश भर में व्यापक रूप से उपयोग करने योग्य बनाना है तो भाषाई विविधता के लिए सार्थक पहुंच और मजबूत समर्थन आवश्यक है।

WHO ने कहा है कि “स्वास्थ्य सेवा का भविष्य डिजिटल है”…

विश्व स्वास्थ्य संगठन ने इस बात पर जोर दिया है कि स्वास्थ्य सेवा का भविष्य तेजी से डिजिटल होगा। भारत जैसे देश में, टेलीमेडिसिन एक परिवर्तनकारी भूमिका निभा सकता है, खासकर जब स्थानीय स्तर पर बुनियादी नैदानिक ​​बुनियादी ढांचे द्वारा समर्थित हो, जो अधिक सटीक दूरस्थ परामर्श सक्षम बनाता है।

एक अन्य महत्वपूर्ण दिशा एआई-सहायता प्राप्त डायग्नोस्टिक्स है, जहां मशीन लर्निंग सिस्टम प्रारंभिक बीमारी का पता लगाने और भविष्यवाणी का समर्थन करने के लिए चिकित्सा छवियों, भाषण या स्वास्थ्य रिकॉर्ड का विश्लेषण करते हैं।

व्यावहारिक समाधान पहले से ही उभर रहे हैं। उदाहरण के लिए, वाधवानी एआई द्वारा विकसित ‘शिशु मापन’ मोबाइल फोटो से नवजात शिशु के वजन और आकार को मापने में मदद करता है और इसे आशा कार्यकर्ताओं जैसे फ्रंटलाइन स्वास्थ्य कार्यकर्ताओं द्वारा अपनाया जा रहा है।

डिजिटल उपकरण सहायक स्वास्थ्य देखभाल प्रौद्योगिकियों को भी सक्षम कर रहे हैं, जिनमें बोलने की क्षमता खो चुके व्यक्तियों के लिए भाषण बहाली प्रणाली और पहनने योग्य उपकरण शामिल हैं जो लगातार स्वास्थ्य मापदंडों की निगरानी करते हैं और डॉक्टरों को संभावित विसंगतियों के प्रति सचेत करते हैं। ये विकास बताते हैं कि कैसे डिजिटल नवाचार स्वास्थ्य सेवा को अधिक सुलभ और स्केलेबल बना सकता है।

एआई-जनरेटेड भाषण की एक आम आलोचना यह है कि हालांकि यह समझदार है, यह अक्सर वक्ता की अद्वितीय ताल को पकड़ने में विफल रहता है। डिसरथ्रिया से पीड़ित किसी व्यक्ति की आवाज़ बहाल करते समय, आप उपयोगकर्ता के व्यक्तिगत मानवीय सार को संरक्षित करने की आवश्यकता के साथ स्पष्ट संचार की आवश्यकता को कैसे संतुलित करते हैं?

यह एक महत्वपूर्ण चिंता का विषय है. यदि डिसरथ्रिया की शुरुआत से पहले वक्ता की मूल आवाज की रिकॉर्डिंग उपलब्ध है, तो आधुनिक आवाज क्लोनिंग तकनीकें कम से कम 10 सेकंड के भाषण के साथ उस आवाज को फिर से बना सकती हैं। इसलिए किसी व्यक्ति की मुखर पहचान को संरक्षित करना आज तकनीकी रूप से संभव है, और इस क्षमता को प्रदर्शित करने वाले पर्याप्त शोध मौजूद हैं। हालाँकि, हमारा वर्तमान ऐप मुख्य रूप से सामग्री की सुगमता को बहाल करने पर केंद्रित है, यह सुनिश्चित करते हुए कि उपयोगकर्ता जो कहना चाहता है वह स्पष्ट रूप से बताया गया है। अभी के लिए, उत्पन्न भाषण वैयक्तिकृत के बजाय सामान्य आवाज़ का उपयोग करता है।

जैसा कि कहा गया है, टेक्स्ट-टू-स्पीच सिस्टम तेजी से प्राकृतिक होते जा रहे हैं, इस हद तक कि अब उन्हें कई पारंपरिक ग्राहक सेवा अनुप्रयोगों की जगह संवादी बॉट में एकीकृत किया जा रहा है। भावनात्मक बारीकियां अधिक चुनौतीपूर्ण बनी हुई हैं, जैसा कि हमने सहानुभूतिपूर्ण भाषण निर्माण पर अपने पहले के काम में चर्चा की थी, लेकिन प्रगति तेजी से हो रही है।

जब उपयोगकर्ता एक व्यस्त भारतीय सड़क पर नेविगेट करता है तो मॉडल खराब भाषण और शोर पृष्ठभूमि के बीच अंतर कैसे करता है?

यह वास्तव में भारत में एक महत्वपूर्ण चुनौती है, जहां वास्तविक दुनिया का वातावरण बेहद अराजक हो सकता है। जिस किसी ने भी यहां सेल्फ-ड्राइविंग कारों को तैनात करने के बारे में सोचा है, उसे जल्द ही एहसास हो जाता है कि हमारी सड़कें कितनी अप्रत्याशित हो सकती हैं: ट्रैफिक पैटर्न, हॉर्न बजाना, पैदल यात्री, और वाहन सभी अत्यधिक गतिशील तरीकों से बातचीत करते हैं। भाषण प्रौद्योगिकी को समान स्तर की जटिलता का सामना करना पड़ता है।

हमारे प्रयोगों में, हम शोर वृद्धि का उपयोग करके मजबूती में सुधार करते हैं, जहां हम प्रशिक्षण के दौरान विभिन्न शोर वाले वातावरण का अनुकरण करते हैं ताकि मॉडल पृष्ठभूमि ध्वनियों को संभालना सीख सके। अंततः, सबसे प्रभावी समाधान शोर-शराबे वाली सेटिंग से अधिक वास्तविक दुनिया के डेटा को एकत्र करना और प्रशिक्षित करना है। फिर भी, प्रदर्शन में कुछ गिरावट अपरिहार्य है क्योंकि बिगड़े हुए भाषण को भारी पृष्ठभूमि शोर से अलग करना मूल रूप से एक कठिन समस्या है।

दिव्य.गांधी@thehindu.co.in

Share. Facebook Twitter WhatsApp Pinterest LinkedIn Email Telegram Copy Link
ni24india
  • Website

Related News

रमज़ान 2026: तिरुवनंतपुरम की मस्जिदों में ‘नोम्बू कांजी’ तैयार करने वाले कुछ रसोइयों से मिलें

राज्यसभा चुनाव: बीजद, कांग्रेस ने विधायकों से 16 मार्च तक भुवनेश्वर नहीं छोड़ने को कहा

नदी पुनर्जीवन पर तेलंगाना के मुख्यमंत्री की प्रस्तुति से पहले मुसी जन आंदोलन कार्यकर्ता को नजरबंद किया गया

तमिलनाडु के मुख्यमंत्री स्टालिन ने जल जीवन मिशन की लंबित धनराशि जारी करने के लिए पीएम मोदी से हस्तक्षेप की मांग की

पश्चिम एशिया संघर्ष से भारत के लिए मजबूत हवाई रक्षा उपाय: पूर्व वायुसेना प्रमुख

भारतीय परमाणु रिएक्टरों के लिए हेल्यू-थ ईंधन पर विशेषज्ञों में टकराव

Leave A Reply Cancel Reply

Stay In Touch
  • Facebook
  • Twitter
  • Pinterest
  • Instagram
  • YouTube
  • Vimeo
Latest

भारत निर्मित ऐप बिगड़ी हुई बोली को वास्तविक समय में स्पष्ट वाणी में बदल देता है

एक फुसफुसाहट. कुछ अस्पष्ट शब्द. जो लोग डिसरथ्रिया, मोटर स्पीच डिसऑर्डर से पीड़ित हैं, उनके…

रमज़ान 2026: तिरुवनंतपुरम की मस्जिदों में ‘नोम्बू कांजी’ तैयार करने वाले कुछ रसोइयों से मिलें

राज्यसभा चुनाव: बीजद, कांग्रेस ने विधायकों से 16 मार्च तक भुवनेश्वर नहीं छोड़ने को कहा

नदी पुनर्जीवन पर तेलंगाना के मुख्यमंत्री की प्रस्तुति से पहले मुसी जन आंदोलन कार्यकर्ता को नजरबंद किया गया

Subscribe to Updates

Get the latest creative news from SmartMag about art & design.

NI 24 INDIA

We're accepting new partnerships right now.

Email Us: info@example.com
Contact:

भारत निर्मित ऐप बिगड़ी हुई बोली को वास्तविक समय में स्पष्ट वाणी में बदल देता है

रमज़ान 2026: तिरुवनंतपुरम की मस्जिदों में ‘नोम्बू कांजी’ तैयार करने वाले कुछ रसोइयों से मिलें

राज्यसभा चुनाव: बीजद, कांग्रेस ने विधायकों से 16 मार्च तक भुवनेश्वर नहीं छोड़ने को कहा

Subscribe to Updates

Facebook X (Twitter) Instagram YouTube
  • Home
  • Buy Now
© 2026 All Rights Reserved by NI 24 INDIA.

Type above and press Enter to search. Press Esc to cancel.