वीडियो डीपफेक का मतलब है कि आप जो कुछ भी देखते हैं उस पर भरोसा नहीं कर सकते। अब, ऑडियो डीपफेक का मतलब हो सकता है कि आप अब अपने कानों पर भरोसा नहीं कर सकते। क्या वास्तव में राष्ट्रपति कनाडा पर युद्ध की घोषणा कर रहे थे? क्या वास्तव में आपके पिताजी ने फोन पर अपना ईमेल पासवर्ड मांगा है?
सूची में एक और अस्तित्वगत चिंता जोड़ें कि कैसे हमारे अपने पति को अनिवार्य रूप से हमें नष्ट कर सकता है। रीगन युग के दौरान, एकमात्र वास्तविक तकनीकी जोखिम परमाणु, रासायनिक और जैविक युद्ध का खतरा था।
बाद के वर्षों में, हमें नैनोटेक के ग्रे गू और वैश्विक महामारियों के बारे में जानने का अवसर मिला। अब, हमारे पास गहरी समानताएं हैं - लोग अपनी समानता या आवाज पर नियंत्रण खो रहे हैं।
एक ऑडियो डीपफेक क्या है?
हममें से ज्यादातर लोगों ने देखा है वीडियो गहरा जिसमें किसी व्यक्ति की समानता के साथ एक व्यक्ति को बदलने के लिए डीप-लर्निंग एल्गोरिदम का उपयोग किया जाता है। सबसे अच्छा अनावश्यक रूप से यथार्थवादी हैं, और अब यह ऑडियो की बारी है। एक ऑडियो डीपफेक तब होता है जब "क्लोन" आवाज जो वास्तविक व्यक्ति से संभावित रूप से अप्रभेद्य होती है, सिंथेटिक ऑडियो उत्पन्न करने के लिए उपयोग की जाती है।
"यह वॉइस के लिए फ़ोटोशॉप पसंद है," ज़ोहैब अहमद के सीईओ ने कहा ऐ से मिलता जुलता उनकी कंपनी की आवाज-क्लोनिंग तकनीक के बारे में।
हालांकि, खराब फ़ोटोशॉप नौकरियों को आसानी से डिबंक किया जाता है। एक सुरक्षा फर्म, जिसके बारे में हमने कहा है कि लोग आमतौर पर केवल अनुमान लगाते हैं कि ऑडियो डीपफेक असली या नकली है, जिसमें लगभग 57 प्रतिशत सटीकता है - सिक्का फ्लिप से बेहतर नहीं।
इसके अतिरिक्त, क्योंकि बहुत सारे वॉयस रिकॉर्डिंग कम-गुणवत्ता वाले फोन कॉल (या शोर स्थानों में दर्ज) हैं, ऑडियो डीपफेक को और भी अधिक अप्रभेद्य बनाया जा सकता है। ध्वनि की गुणवत्ता जितनी खराब होती है, उतने ही कठिन होते हैं कि वे उन संकेत संकेतों को उठाते हैं जो वास्तविक नहीं हैं।
लेकिन किसी को भी आवाज़ के लिए फ़ोटोशॉप की आवश्यकता क्यों होगी, वैसे भी?
सिंथेटिक ऑडियो के लिए सम्मोहक मामला
वास्तव में सिंथेटिक ऑडियो की भारी मांग है। अहमद के अनुसार, "आरओआई बहुत तत्काल है।"
यह विशेष रूप से सच है जब यह गेमिंग की बात आती है। अतीत में, भाषण एक खेल में एक घटक था जिसे ऑन-डिमांड बनाना असंभव था। यहां तक कि वास्तविक समय में प्रदान किए गए सिनेमा-गुणवत्ता वाले दृश्यों के साथ इंटरैक्टिव शीर्षक में, नॉनप्लेइंग पात्रों के साथ मौखिक बातचीत हमेशा अनिवार्य रूप से स्थिर होती है।
अब, हालांकि, प्रौद्योगिकी ने पकड़ लिया है। स्टूडियो में किसी अभिनेता की आवाज़ को क्लोन करने और टेक्स्ट-टू-स्पीच इंजन का उपयोग करने की क्षमता होती है, ताकि पात्र वास्तविक समय में कुछ भी कह सकें।
विज्ञापन, और तकनीक और ग्राहक सहायता में अधिक पारंपरिक उपयोग भी हैं। यहां, एक आवाज़ जो प्रामाणिक रूप से मानव लगती है और मानव इनपुट के बिना व्यक्तिगत और प्रासंगिक रूप से प्रतिक्रिया करती है, जो महत्वपूर्ण है।
वॉयस-क्लोनिंग कंपनियां भी चिकित्सा अनुप्रयोगों को लेकर उत्साहित हैं। बेशक, दवा में आवाज प्रतिस्थापन कोई नई बात नहीं है - स्टीफन हॉकिंग ने 1985 में अपनी खुद की हार के बाद एक रोबोट संश्लेषित आवाज का इस्तेमाल किया था। हालांकि, आधुनिक वॉयस क्लोनिंग कुछ बेहतर का वादा करती है।
2008 में, सिंथेटिक आवाज कंपनी, CereProc , दिवंगत फिल्म समीक्षक, रोजर एबर्ट ने कैंसर के बाद अपनी आवाज वापस ले ली। CereProc ने एक वेब पेज प्रकाशित किया था, जो लोगों को ऐसे संदेश टाइप करने की अनुमति देता था जो तब पूर्व राष्ट्रपति जॉर्ज बुश की आवाज में बोले जाते थे।
"Ebert ने देखा और सोचा,, ठीक है, अगर वे बुश की आवाज़ की नकल कर सकते हैं, तो उन्हें मेरी नकल करने में सक्षम होना चाहिए," CereProc के मुख्य वैज्ञानिक अधिकारी मैथ्यू आइलेट ने कहा। एबर्ट ने तब कंपनी से एक रिप्लेसमेंट वॉयस बनाने को कहा, जो उन्होंने वॉयस रिकॉर्डिंग की एक बड़ी लाइब्रेरी को प्रोसेस करके किया।
"यह पहली बार था जब किसी ने कभी ऐसा किया था और यह एक वास्तविक सफलता थी," आइलेट ने कहा।
हाल के वर्षों में, कई कंपनियों (CereProc सहित) के साथ काम किया है ALS एसोसिएशन पर प्रोजेक्ट रिविस ALS से पीड़ित लोगों को सिंथेटिक आवाज प्रदान करना।
कैसे सिंथेटिक ऑडियो काम करता है
वॉयस क्लोनिंग अभी एक पल की हो रही है, और कंपनियों का एक समूह उपकरण विकसित कर रहा है। ऐ से मिलता जुलता तथा descript ऑनलाइन डेमो है कोई भी मुफ्त में कोशिश कर सकता है। आप बस उन वाक्यांशों को रिकॉर्ड करते हैं जो ऑनस्क्रीन दिखाई देते हैं और, कुछ ही मिनटों में, आपकी आवाज़ का एक मॉडल बनाया जाता है।
आप विशेष रूप से एआई को धन्यवाद दे सकते हैं, डीप-लर्निंग एल्गोरिदम पाठ के लिए रिकॉर्ड किए गए भाषण को मेल करने में सक्षम होने के लिए घटक स्वरों को समझने के लिए जो आपकी आवाज़ बनाते हैं। इसके बाद परिणामी भाषाई बिल्डिंग ब्लॉक्स का उपयोग लगभग उन शब्दों के लिए होता है, जो आपने नहीं सुने हैं।
बुनियादी तकनीक कुछ समय के लिए आस-पास रही है, लेकिन जैसा कि एलेट ने बताया, उसे कुछ मदद की आवश्यकता थी।
"आवाज को कॉपी करना पेस्ट्री बनाने की तरह था," उन्होंने कहा। "यह करना बहुत कठिन था और इसे काम में लाने के लिए कई तरह से आपको इसे हाथ से मोड़ना पड़ा।"
निष्क्रिय परिणाम प्राप्त करने के लिए डेवलपर्स को भारी मात्रा में रिकॉर्ड किए गए वॉइस डेटा की आवश्यकता होती है। फिर, कुछ साल पहले, बाढ़ के मैदान खुल गए। कंप्यूटर दृष्टि के क्षेत्र में अनुसंधान महत्वपूर्ण साबित हुआ। वैज्ञानिकों ने पहली बार अतिरिक्त डेटा बनाने और मौजूदा आंकड़ों के आधार पर भविष्यवाणियां करने के लिए जनरेशनल एडवरसरी नेटवर्क (जीएएन) विकसित किया।
"एक कंप्यूटर के बजाय एक घोड़े की तस्वीर देखने और कहने के लिए a यह एक घोड़ा है," मेरा मॉडल अब एक ज़ेबरा में एक घोड़ा बना सकता है, "आइलेट ने कहा। "तो, भाषण संश्लेषण में विस्फोट अब कंप्यूटर की दृष्टि से शैक्षणिक कार्य के लिए धन्यवाद है।"
वॉइस क्लोनिंग में सबसे बड़े नवाचारों में से एक यह है कि एक आवाज बनाने के लिए कच्चे डेटा की कितनी कमी है। अतीत में, सिस्टम को दर्जनों या यहां तक कि सैकड़ों घंटे के ऑडियो की आवश्यकता होती थी। अब, हालांकि, सक्षम आवाज़ें केवल कुछ मिनट की सामग्री से उत्पन्न की जा सकती हैं।
सम्बंधित: एआई के साथ समस्या: मशीनें चीजें सीख रही हैं, लेकिन उन्हें समझ नहीं सकते
किसी भी चीज पर भरोसा न करने की मौजूदा आशंका
परमाणु ऊर्जा, नैनोटेक, 3 डी प्रिंटिंग और सीआरआईएसपीआर के साथ यह तकनीक एक साथ रोमांचकारी और भयानक है। आखिरकार, पहले से ही लोगों द्वारा वॉइस क्लोन से नकल किए जाने की खबरें आ रही हैं। 2019 में, U.K की एक कंपनी ने दावा किया था कि यह था एक ऑडियो deepfake द्वारा धोखा दिया अपराधियों को पैसा भेजने में फोन।
आपको आश्चर्यजनक रूप से आश्वस्त करने वाले ऑडियो फेक खोजने के लिए बहुत दूर नहीं जाना पड़ेगा। यूट्यूब चैनल स्वर संश्लेषण जाने-माने लोगों को वे बातें कहते हैं जो उन्होंने कभी नहीं कहा, जैसे जॉर्ज डब्ल्यू बुश 50 सेंट द्वारा "इन दा क्लब" पढ़ रहे हैं । इस पर हाजिर है।
YouTube पर कहीं भी, आप पूर्व-राष्ट्रपतियों का झुंड सुन सकते हैं, जिसमें शामिल हैं ओबामा, क्लिंटन, और रीगन, NWA के रैपिंग । संगीत और पृष्ठभूमि ध्वनियों से स्पष्ट रोबोट चमक में से कुछ को छिपाने में मदद मिलती है, लेकिन इस अपूर्ण स्थिति में भी, क्षमता स्पष्ट है।
हमने औजारों पर प्रयोग किया ऐ से मिलता जुलता तथा descript और आवाज क्लोन बनाया। डेस्क्रिप्ट एक आवाज-क्लोनिंग इंजन का उपयोग करता है जिसे मूल रूप से लियरबर्ड कहा जाता था और विशेष रूप से प्रभावशाली था। हम गुणवत्ता पर हैरान थे। अपनी खुद की आवाज सुनकर आप जिन चीजों को जानते हैं वे कहते हैं कि आप कभी भी बेकार नहीं हैं।
भाषण के लिए निश्चित रूप से एक रोबोट की गुणवत्ता है, लेकिन एक आकस्मिक सुनने पर, ज्यादातर लोगों को यह नकली होने के बारे में सोचने का कोई कारण नहीं होगा।
हम भी एअर इंडिया के सदृश थे। यह आपको कई आवाज़ों के साथ वार्तालाप बनाने और संवाद की अभिव्यक्ति, भावना और पेसिंग को बदलने के लिए उपकरण देता है। हालाँकि, हमें नहीं लगता कि आवाज़ मॉडल ने हमारे द्वारा उपयोग की जाने वाली आवाज़ के आवश्यक गुणों को कैप्चर किया है। वास्तव में, यह किसी को मूर्ख बनाने की संभावना नहीं थी।
एक ऐम्बे एआई प्रतिनिधि ने हमें बताया कि "यदि वे इसे सही तरीके से करते हैं तो ज्यादातर लोग परिणाम से उड़ा जाते हैं।" हमने समान परिणामों के साथ दो बार एक आवाज मॉडल बनाया। इसलिए, जाहिर है, वॉइस क्लोन बनाना हमेशा आसान नहीं होता है, जिसका उपयोग आप डिजिटल हिस्ट को खींचने के लिए कर सकते हैं।
फिर भी, Lyrebird (जो अब Descript का हिस्सा है) के संस्थापक कुंदन कुमार को लगता है कि हम पहले ही उस सीमा को पार कर चुके हैं।
कुमार ने कहा, "कुछ प्रतिशत मामलों के लिए, यह पहले से ही है।" "अगर मैं एक भाषण में कुछ शब्दों को बदलने के लिए सिंथेटिक ऑडियो का उपयोग करता हूं, तो यह पहले से ही इतना अच्छा है कि आपके पास जानने के लिए एक कठिन समय होगा।"
हम यह भी मान सकते हैं कि यह तकनीक केवल समय के साथ बेहतर होती जाएगी। मॉडल बनाने के लिए सिस्टम को कम ऑडियो की आवश्यकता होगी, और तेज प्रोसेसर वास्तविक समय में मॉडल का निर्माण करने में सक्षम होंगे। होशियार एआई सीखेंगे कि कैसे काम करने के लिए एक उदाहरण के बिना मानव की तरह ताल और भाषण पर जोर दिया जाए।
जिसका अर्थ है कि हम अनायास आवाज की क्लोनिंग की व्यापक उपलब्धता के करीब हो सकते हैं।
द एथिक्स ऑफ़ पेंडोरा बॉक्स
इस स्थान पर काम करने वाली अधिकांश कंपनियां सुरक्षित, जिम्मेदार तरीके से प्रौद्योगिकी को संभालने के लिए तैयार लगती हैं। उदाहरण के लिए, AI जैसा दिखता है अपनी वेबसाइट पर एक संपूर्ण "नैतिकता" अनुभाग , और निम्नलिखित अंश उत्साहजनक है:
"हम एक कठोर प्रक्रिया के माध्यम से कंपनियों के साथ काम करते हैं, यह सुनिश्चित करने के लिए कि वे जिस आवाज़ की क्लोनिंग कर रहे हैं, वह उनके द्वारा प्रयोग करने योग्य है और आवाज़ अभिनेताओं के साथ उचित सहमति है।"
इसी तरह, कुमार ने कहा कि लियरबर्ड शुरू से ही दुरुपयोग के बारे में चिंतित था। यही कारण है कि अब, डिस्क्रिप्ट के एक भाग के रूप में, यह केवल लोगों को अपनी आवाज का क्लोन बनाने की अनुमति देता है। वास्तव में, दोनों सदृश और डेसस्क्रिप्ट की आवश्यकता होती है कि लोग अपने नमूनों को गैर-असंगत आवाज-क्लोनिंग को रोकने के लिए रिकॉर्ड करते हैं।
यह खुशी की बात है कि प्रमुख वाणिज्यिक खिलाड़ियों ने कुछ नैतिक दिशानिर्देश लगाए हैं। हालाँकि, इन कंपनियों को इस तकनीक के द्वारपाल के रूप में याद रखना महत्वपूर्ण है। जंगली में पहले से ही कई ओपन-सोर्स टूल हैं, जिनके लिए कोई नियम नहीं हैं। हेनरी अजदर के अनुसार, खतरे की खुफिया प्रमुख Deeptrace , इसका दुरुपयोग करने के लिए आपको उन्नत कोडिंग ज्ञान की भी आवश्यकता नहीं है।
अजदर ने कहा, "अंतरिक्ष में काफी प्रगति पहले प्रकाशित अकादमिक पत्रों के ओपन-सोर्स कार्यान्वयन का उपयोग करते हुए, गीथहब जैसी जगहों पर सहयोगी कार्य के माध्यम से हुई है।" "इसका उपयोग किसी ऐसे व्यक्ति द्वारा किया जा सकता है जिसे कोडिंग में मध्यम दक्षता प्राप्त है।"
सुरक्षा पेशेवरों ने यह सब पहले देखा है
वॉयस क्लोनिंग संभव होने से बहुत पहले ही अपराधियों ने फोन से पैसे चुराने की कोशिश की है और सुरक्षा विशेषज्ञ हमेशा इसका पता लगाने और इसे रोकने के लिए कॉल करते रहे हैं। सुरक्षा कंपनी सुई का गिरना यदि कोई कॉल करने वाला व्यक्ति ऑडियो से होने का दावा करता है, तो यह सत्यापित करके बैंक धोखाधड़ी को रोकने की कोशिश करता है। अकेले 2019 में, पिंड्रोप ने 1.2 बिलियन वॉयस इंटरैक्शन का विश्लेषण किया है और धोखाधड़ी के प्रयासों में $ 470 मिलियन को रोका है।
वॉइस क्लोनिंग से पहले, धोखाधड़ी करने वालों ने कई अन्य तकनीकों की कोशिश की। निशान के बारे में व्यक्तिगत जानकारी के साथ सरलतम कहीं और से कॉल कर रहा था।
", हमारे ध्वनिक हस्ताक्षर हमें यह निर्धारित करने की अनुमति देते हैं कि वास्तव में ध्वनि विशेषताओं के कारण नाइजीरिया में एक स्काइप फोन से कॉल आ रहा है," पिंड्रॉप के सीईओ, विजय बालासुब्रमण्यन ने कहा। "तो, हम तुलना कर सकते हैं कि ग्राहक को जानना अटलांटा में एक एटी एंड टी फोन का उपयोग करता है।"
कुछ अपराधियों ने बैकिंग ध्वनियों का उपयोग करके बैंकिंग रेप्स को फेंकने के लिए करियर बनाया है।
बालासुब्रमण्यन ने कहा, "एक धोखेबाज को हमने चिकन मैन कहा, जिसके पास पृष्ठभूमि में हमेशा घूमने वाले लोग थे"। "और एक महिला है जिसने कॉल सेंटर एजेंट्स को अनिवार्य रूप से समझाने के लिए पृष्ठभूमि में रोते हुए एक बच्चे का इस्तेमाल किया, जो कि हे, मैं सहानुभूति प्राप्त करने के लिए कठिन समय से गुजर रहा हूं।"
और फिर ऐसे पुरुष अपराधी हैं जो महिलाओं के बैंक खातों के बाद जाते हैं।
बालसुब्रमण्यन ने बताया, "वे अपनी आवाज़ की आवृत्ति बढ़ाने के लिए तकनीक का इस्तेमाल करते हैं, ताकि अधिक स्त्रैण ध्वनि उत्पन्न हो सके।" ये सफल हो सकते हैं, लेकिन "कभी-कभी, सॉफ्टवेयर गड़बड़ा जाता है और वे एल्विन और चिपमंक्स की तरह बजते हैं।"
बेशक, वॉइस क्लोनिंग इस कभी-कभी बढ़ते युद्ध में नवीनतम विकास है। सुरक्षा फर्मों ने पहले ही कम से कम एक स्पीयरफिशिंग हमले में सिंथेटिक ऑडियो का उपयोग करते हुए धोखेबाजों को पकड़ा है।
"सही लक्ष्य के साथ, पेआउट बड़े पैमाने पर हो सकता है," बालासुब्रमण्यन ने कहा। "तो, यह सही व्यक्ति के संश्लेषित आवाज बनाने के लिए समय समर्पित करने के लिए समझ में आता है।"
क्या कोई बता सकता है कि क्या कोई आवाज नकली है?
जब यह पहचानने की बात आती है कि क्या आवाज फेक दी गई है, तो अच्छी और बुरी दोनों तरह की खबरें हैं। बुरा यह है कि हर दिन वॉयस क्लोन बेहतर हो रहे हैं। डीप-लर्निंग सिस्टम होशियार हो रहे हैं और अधिक प्रामाणिक आवाजें पैदा कर रहे हैं जिन्हें बनाने के लिए कम ऑडियो की आवश्यकता होती है।
जैसा की आप इस क्लिप से बता सकते हैं राष्ट्रपति ओबामा ने एमसी रेन को स्टैंड लेने के लिए कहा , हम पहले से ही उस बिंदु पर पहुंच गए हैं, जहां एक उच्च निष्ठा, ध्यान से निर्मित आवाज मॉडल मानव कान के लिए बहुत आश्वस्त हो सकता है।
ध्वनि क्लिप जितनी लंबी होती है, उतनी ही अधिक संभावना होती है कि आप वहां कुछ एमिस नोटिस कर सकें। छोटी क्लिप के लिए, हालांकि, आप इसे सिंथेटिक नहीं देख सकते हैं - खासकर अगर आपके पास इसकी वैधता पर सवाल उठाने का कोई कारण नहीं है।
ध्वनि की गुणवत्ता को साफ़ करना, ऑडियो डीपफेक के संकेतों को नोटिस करना आसान है। यदि कोई सीधे स्टूडियो-क्वालिटी माइक्रोफोन में बोल रहा है, तो आप निकट से सुन पाएंगे। लेकिन एक खराब-गुणवत्ता वाले फोन कॉल रिकॉर्डिंग या शोर पार्किंग में हैंडहेल्ड डिवाइस पर कैप्चर की गई बातचीत का मूल्यांकन करना बहुत कठिन होगा।
अच्छी खबर यह है कि भले ही इंसानों को असली को नकली से अलग करने में परेशानी हो, लेकिन कंप्यूटर की सीमाएँ समान नहीं हैं। सौभाग्य से, आवाज सत्यापन उपकरण पहले से मौजूद हैं। पिंड्रोप में एक है जो एक-दूसरे के खिलाफ गहरी-सीखने की प्रणाली को गड्ढ़ा करता है। यह पता लगाने के लिए दोनों का उपयोग करता है कि ऑडियो नमूना वह व्यक्ति है जिसे यह माना जाता है। हालांकि, यह भी जांचता है कि क्या मानव नमूने में सभी ध्वनियों को भी बना सकता है।
ऑडियो की गुणवत्ता के आधार पर, भाषण के हर दूसरे में 8,000-50,000 डेटा नमूने होते हैं, जिनका विश्लेषण किया जा सकता है।
बालासुब्रमण्यन ने कहा, "जिन चीजों की हम आमतौर पर तलाश कर रहे हैं, वे मानव विकास के कारण भाषण में बाधक हैं।"
उदाहरण के लिए, दो मुखर ध्वनियों में एक दूसरे से न्यूनतम संभव अलगाव होता है। ऐसा इसलिए है क्योंकि जिस गति के साथ आपके मुंह और मुखर डोरियों में मांसपेशियां खुद को पुन: कॉन्फ़िगर कर सकती हैं, उन्हें तेजी से कहना संभव नहीं है।
"जब हम संश्लेषित ऑडियो को देखते हैं," बालासुब्रमण्यन ने कहा, "हम कभी-कभी चीजों को देखते हैं और कहते हैं," यह कभी भी एक मानव द्वारा उत्पन्न नहीं किया जा सकता था क्योंकि एकमात्र व्यक्ति जो इस उत्पन्न कर सकता था उसके पास सात फुट लंबी गर्दन होनी चाहिए। "
ध्वनि का एक वर्ग भी है जिसे "फ्रिकेटिव" कहा जाता है। जब आप f, s, v, और z जैसे अक्षरों का उच्चारण करते हैं तो वायु आपके गले में एक संकीर्ण अवरोध से गुजरती है। विशेष रूप से गहरी-सीखने की प्रणालियों के लिए मास्टर करने के लिए फ्रिकेटिव कठिन हैं क्योंकि सॉफ्टवेयर को शोर से अलग करने में परेशानी होती है।
तो, कम से कम अब के लिए, आवाज-क्लोनिंग सॉफ्टवेयर इस तथ्य से ठोकर खाई है कि मनुष्य मांस के बैग हैं जो बात करने के लिए अपने शरीर में छेद के माध्यम से हवा का प्रवाह करते हैं।
बालासुब्रमण्यन ने कहा, "मैं मजाक कर रहा हूं कि डीपफेक बहुत भद्दा है।" उन्होंने बताया कि एल्गोरिदम के लिए रिकॉर्डिंग में पृष्ठभूमि शोर से शब्दों के सिरों को भेदना बहुत कठिन है। इसका परिणाम भाषण के साथ कई आवाज मॉडल में होता है जो मनुष्यों की तुलना में अधिक ट्रेल्स करते हैं।
बालासुब्रमण्यन ने कहा, "जब एक एल्गोरिथ्म ऐसा होता है, तो देखते हैं," सांख्यिकीय रूप से, यह अधिक आश्वस्त हो जाता है कि यह ऑडियो है जो मानव के विपरीत उत्पन्न हुआ है। "
Resemble AI एक ओपन-सोर्स डीप-लर्निंग टूल Resemblyzer के साथ हेड-ऑन का पता लगाने की समस्या से भी जूझ रहा है GitHub पर उपलब्ध है । यह नकली आवाज़ों का पता लगा सकता है और स्पीकर सत्यापन कर सकता है।
यह सतर्कता लेता है
यह अनुमान लगाना हमेशा कठिन होता है कि भविष्य क्या हो सकता है, लेकिन यह तकनीक लगभग निश्चित रूप से बेहतर होगी। इसके अलावा, कोई भी संभावित रूप से एक पीड़ित हो सकता है - न केवल हाई-प्रोफाइल व्यक्तियों, जैसे निर्वाचित अधिकारियों या बैंकिंग सीईओ।
बालासुब्रमण्यम ने कहा, "मुझे लगता है कि हम पहले ऑडियो उल्लंघन की कगार पर हैं, जहां लोगों की आवाजें चोरी हो जाती हैं।"
हालांकि, ऑडियो डीपफेक से वास्तविक दुनिया का जोखिम कम है। पहले से ही ऐसे उपकरण हैं जो सिंथेटिक वीडियो का पता लगाने का एक बहुत अच्छा काम करते हैं।
साथ ही, अधिकांश लोगों को हमले का खतरा नहीं है। अजमेर के अनुसार, मुख्य वाणिज्यिक खिलाड़ी "विशिष्ट ग्राहकों के लिए पहले से ही समाधान पर काम कर रहे हैं, और अधिकांश के पास काफी अच्छे नैतिक दिशानिर्देश हैं कि वे किसके साथ काम करेंगे और क्या नहीं करेंगे।"
असली खतरा आगे है, हालांकि, जैसा कि अजदर समझाने गया था:
"भानुमती का पिटारा तेजी से उपयोगकर्ता के अनुकूल, सुलभ ऐप या सेवाओं में तकनीक के खुले स्रोत के कार्यान्वयन को एक साथ करने वाले लोग होंगे जो इस प्रकार की नैतिक परत की छानबीन करते हैं जो इस समय वाणिज्यिक समाधान करते हैं।"
यह शायद अपरिहार्य है, लेकिन सुरक्षा कंपनियां पहले से ही नकली ऑडियो डिटेक्शन को अपने टूलकिट में रोल कर रही हैं। फिर भी, सुरक्षित रहकर सतर्कता की आवश्यकता है।
"हमने अन्य सुरक्षा क्षेत्रों में ऐसा किया है," अजदर ने कहा। "उदाहरण के लिए, अगले शून्य-दिन की भेद्यता क्या है, यह समझने के लिए बहुत सारे संगठन बहुत समय बिताते हैं। सिंथेटिक ऑडियो बस अगली सीमा है। ”
सम्बंधित: एक डीपफेक क्या है, और क्या मुझे चिंतित होना चाहिए?