Audio mélyhamisítások: Meg tudja mondani valaki, hogy hamisak?

BETŰTELEN TARTALOM

A videó mélyhamisításai azt jelentik, hogy nem bízhatsz mindenben, amit látsz. Most az audio mélyhamisítások azt jelenthetik, hogy már nem bízhatsz a füledben. Valóban az elnök hadat üzent Kanadának? Tényleg az apád telefonon kéri az e-mail jelszavát?

Vegyen fel még egy egzisztenciális aggodalmat a listába, hogy miként ronthatnak el minket a saját hubrink. A Reagan-korszakban az egyetlen valódi technológiai kockázat a nukleáris, vegyi és biológiai hadviselés veszélye volt.

Az elkövetkező években alkalmunk nyílt megszállni a nanotechnológia szürkeségét és a globális járványokat. Most mély hamisítványaink vannak - az emberek elveszítik uralmukat a hasonlóságuk vagy a hangjuk felett.

Mi az audio mélyhamisítás?

Legtöbben láttuk a videó mélyhamisítás , amelyben mélytanulási algoritmusokat használnak arra, hogy egy embert helyettesítsenek más hasonlóságával. A legjobbak idegentelenül reálisak, és most a hangon a sor. Az audio mélyhamisítás az, amikor egy „klónozott” hangot, amely potenciálisan nem különböztethető meg a valós embertől, szintetikus hang előállítására használják.

"Olyan, mint a Photoshop for voice" - mondta Zohaib Ahmed, a vezérigazgató Hasonlítson az AI-re , cége hangklónozó technológiájáról.

A rossz Photoshop-munkák azonban könnyedén törlésre kerülnek. Egy biztonsági cég, akivel beszéltünk, azt mondta, hogy az emberek általában csak azt hiszik, hogy a hanghamisítás valódi vagy hamis, körülbelül 57 százalékos pontossággal - nem jobb, mint egy érmefordítás.

Ezen túlmenően, mivel nagyon sok hangfelvétel alacsony minőségű telefonhívásokról szól (vagy zajos helyeken rögzítik), az audio mélyhamisítások még megkülönböztethetetlenebbé tehetők. Minél rosszabb a hangminőség, annál nehezebb felvenni azokat az árulkodó jeleket, amelyek szerint a hang nem valóságos.

De miért kellene valakinek mindenképpen Photoshop a hangokhoz?

A kényszeres eset a szintetikus hang számára

A szintetikus hangokra valójában óriási igény van. Ahmed szerint "a megtérülés nagyon azonnali."

Különösen igaz ez a játék terén. A múltban a beszéd volt az egyetlen összetevője egy játéknak, amelyet lehetetlen igény szerint létrehozni. Még a valós időben készített mozi minőségű jelenetekkel rendelkező interaktív címekben is a nem játszott karakterekkel folytatott verbális interakciók mindig statikusak.

Most azonban a technológia felzárkózott. A stúdiók képesek klónozni egy színész hangját, és szövegfelolvasó motorokat használni, hogy a karakterek bármit valós időben elmondhassanak.

A reklámozásban, valamint a technikai és az ügyfélszolgálatban is vannak hagyományosabb felhasználási módok. Itt az a hang fontos, amely autentikusan emberi módon hangzik, és személyesen és kontextusban reagál emberi hozzájárulás nélkül.

A hangklónozó cégek is izgatottak az orvosi alkalmazások miatt. Természetesen a hangcsere nem újdonság az orvostudományban - Stephen Hawking híresen robotikus szintetizált hangot használt, miután 1985-ben elvesztette sajátját. A modern hangklónozás azonban még ennél is jobbat ígér.

2008-ban a szintetikus hangtársaság, CereProc , kései filmkritikusnak, Roger Ebertnek adta vissza a hangját, miután a rák elvette. A CereProc közzétett egy weboldalt, amely lehetővé tette az emberek számára, hogy olyan üzeneteket írjanak, amelyeket aztán George Bush volt elnök hangján fognak elmondani.

"Ebert ezt látta, és arra gondolt:" Nos, ha meg tudják másolni Bush hangját, akkor képesnek kell lenniük az enyém másolására "- mondta Matthew Aylett, a CereProc tudományos főtisztviselője. Ebert ezután felkérte a társaságot, hogy hozzon létre egy helyettesítő hangot, amelyet egy nagy hangfelvétel-könyvtár feldolgozásával tettek meg.

"Ez volt az első olyan alkalom, amikor bárki ezt valaha megtette, és ez igazi siker volt" - mondta Aylett.

Az elmúlt években számos vállalat (beleértve a CereProc-ot is) dolgozott a programmal ALS Egyesület tovább Revoice projekt szintetikus hangokat adni azoknak, akik ALS-ben szenvednek.

Hogyan működik a szintetikus hang

A hangklónozásnak pillanatnyilag van egy pillanata, és számos társaság fejleszt eszközeket. Hasonlítson az AI-re és Leírás online demókkal rendelkezik, bárki kipróbálhatja ingyen. Csak rögzíti a képernyőn megjelenő kifejezéseket, és néhány perc alatt elkészül a hangjának modellje.

Köszönheti az AI-t - konkrétan, mély tanulási algoritmusok - azért, hogy a rögzített beszédet szöveggé tudja illeszteni, hogy megértsük a hangját alkotó komponens fonémákat. Ezután a kapott nyelvi építőelemeket felhasználja azoknak a szavaknak a közelítésére, amelyeket még nem hallott.

Az alaptechnológia egy ideje létezik, de amint Aylett rámutatott, némi segítségre volt szüksége.

"A hangmásolás egy kicsit olyan volt, mint a péksütemény" - mondta. "Valahogy nehéz volt megtenni, és különféle módokon kellett kézzel csípnie, hogy működjön."

A fejlesztőknek óriási mennyiségű rögzített hangadatra volt szükségük ahhoz, hogy elérhető eredményeket érjenek el. Aztán néhány évvel ezelőtt kinyíltak a kilincsek. A számítógépes látás területén végzett kutatás kritikusnak bizonyult. A tudósok generatív kontradiktórius hálózatokat (GAN) fejlesztettek ki, amelyek első alkalommal képesek extrapolálni és jóslatokat tenni a meglévő adatok alapján.

"Ahelyett, hogy egy számítógép megnézne egy ló képét, és azt mondaná, hogy" ez egy ló ", a modellem most egy zebrává teheti a lovat" - mondta Aylett. "Tehát a beszédszintézis robbanása most a számítógépes látásból származó tudományos munkának köszönhető."

A hangklónozás egyik legnagyobb újítása az volt, hogy összességében csökkentették a nyers adatok mennyiségét a hang létrehozásához. Korábban a rendszereknek több tucat vagy akár több száz órányi hangra volt szükségük. Most azonban kompetens hangok generálhatók perceknyi tartalomból.

ÖSSZEFÜGGŐ: Az AI problémája: A gépek megtanulják a dolgokat, de nem értik őket

A semmiben sem bízó egzisztenciális félelem

Ez a technológia az atomenergia, a nanotechnológia, a 3D nyomtatás és a CRISPR mellett egyszerre izgalmas és rémisztő. Hiszen a hírekben már előfordultak olyan esetek, amikor a hangklónok becsapják az embereket. 2019-ben az Egyesült Királyság egyik vállalata azt állította, hogy az volt egy audio mélyhamisítás által becsapva telefonhívás a pénz eljuttatásában a bűnözők felé

A meglepően meggyőző hanghamisítványok megtalálásához sem kell messzire menni. YouTube-csatorna Énekszintézis ismert emberek mutatnak be olyanokat, amiket soha nem mondtak George W. Bush az 50 Cent „In Da Club” című könyvét olvasta . Rajta van.

A YouTube-on máshol hallhat egy sor exelnököt, köztük Obama, Clinton és Reagan az NWA-t rappelve . A zene és a háttérhangok segítenek leplezni a nyilvánvaló robothibákat, de ebben a tökéletlen állapotban is nyilvánvaló a potenciál.

Kísérleteztünk az eszközökkel Hasonlítson az AI-re és Leírás és létrehozta a hang klónját. A Descript egy hangklónozó motort használ, amelyet eredetileg Lyrebirdnek hívtak, és amely különösen lenyűgöző volt. Megdöbbentünk a minőségtől. A saját hangját hallva olyan dolgokat mond, amelyeket soha nem mondott, idegesítő.

A beszédnek mindenképpen van egy robotikája, de alkalmi hallgatás esetén a legtöbb embernek nem lenne oka azt hinni, hogy hamisítvány.

Még nagyobb reményeket fűztünk a Resemble AI-hoz. Ez megadja azokat az eszközöket, amelyekkel több hangú beszélgetést hozhat létre, és megváltoztathatja a párbeszéd expresszivitását, érzelmét és ütemét. Nem gondoltuk azonban, hogy a hangmodell megragadja az általunk használt hang alapvető tulajdonságait. Valójában nem valószínű, hogy bárkit is becsapna.

A Resemble AI munkatársa azt mondta nekünk, hogy "az eredményeket a legtöbb ember elfújja, ha helyesen csinálják". Kétszer építettünk hangmodellt, hasonló eredménnyel. Tehát nyilvánvaló, hogy nem mindig könnyű olyan hangklónt készíteni, amellyel felhúzhatja a digitális heist.

Ennek ellenére a Lyrebird (amely most a Descript része) alapítója, Kundan Kumar úgy érzi, hogy már túlléptük ezt a küszöböt.

"Az esetek kis százalékában már ott van" - mondta Kumar. "Ha szintetikus hangot használok néhány szó megváltoztatására egy beszédben, az már annyira jó, hogy nehezen tudja megtudni, mi változott."

Azt is feltételezhetjük, hogy ez a technológia idővel csak jobb lesz. A rendszereknek kevesebb hangra lesz szükségük a modell létrehozásához, és a gyorsabb processzorok képesek lesznek valós időben elkészíteni a modellt. Az intelligensebb mesterséges intelligencia megtanulja, hogyan lehet meggyőzőbb ember-szerű kadenciát és hangsúlyt fektetni a beszédre anélkül, hogy erre lenne példa.

Ami azt jelenti, hogy közelebb kúszhatunk az erőfeszítés nélküli hangklónozás széles körű elérhetőségéhez.

A Pandora dobozának etikája

Úgy tűnik, hogy az ezen a területen dolgozó legtöbb vállalat készen áll a technológia biztonságos és felelősségteljes kezelésére. Például hasonlítson az AI-hez honlapján egy teljes „Etikai” rész , és a következő részlet biztató:

"A vállalatokkal szigorú folyamaton keresztül dolgozunk annak biztosítása érdekében, hogy az általuk klónozott hang használható legyen számukra, és hogy a hangos szereplőkkel megfelelő beleegyezés legyen."

Hasonlóképpen, Kumar szerint a Lyrebird már a kezdetektől fogva aggódik a visszaélések miatt. Éppen ezért most, a Descript részeként, ez csak az emberek számára teszi lehetővé a saját hangjuk klónozását. Valójában mind a hasonló, mind a leírás megköveteli, hogy az emberek élőben rögzítsék a mintáikat, hogy megakadályozzák a nem konszenzuális hangklónozást.

Örvendetes, hogy a nagy kereskedelmi szereplők előírtak néhány etikai irányelvet. Fontos azonban megjegyezni, hogy ezek a vállalatok nem őrzik ezt a technológiát. Számos nyílt forráskódú eszköz létezik már a vadonban, amelyekre nincsenek szabályok. Henry Ajder, a Deeptrace , a visszaéléshez nincs szükség fejlett kódolási ismeretekre sem.

"Az űrben elért előrelépések nagy része olyan együttműködések révén valósult meg, mint például a GitHub, a korábban publikált tudományos cikkek nyílt forráskódú megvalósításainak felhasználásával" - mondta Ajder. "Bárki használhatja, aki közepesen jártas a kódolásban."

A biztonsági profik mindezt látták korábban

A bűnözők már jóval azelőtt megpróbáltak pénzt ellopni telefonon, hogy a hangklónozás lehetővé vált volna, és a biztonsági szakértők mindig ügyeletesek voltak annak felderítésére és megakadályozására. Biztonsági társaság Pindrop megpróbálja megállítani a banki csalást annak igazolásával, hogy a hívó fél hangja alapján állítja-e magát. Csak 2019-ben a Pindrop azt állítja, hogy 1,2 milliárd hanginterakciót elemzett, és megakadályozta a mintegy 470 millió dolláros csalási kísérleteket.

A hangklónozás előtt a csalók számos más technikát kipróbáltak. A legegyszerűbb az volt, ha csak máshonnan hívtak, személyes információkkal a védjegyről.

"Akusztikus aláírásunk lehetővé teszi annak megállapítását, hogy a hangjellemzők miatt valóban hívás érkezik egy nigériai Skype-telefonról" - mondta Vijay Balasubramaniyan, a Pindrop vezérigazgatója. "Ezután összehasonlíthatjuk, hogy tudva, hogy az ügyfél egy AT&T telefont használ Atlantában."

Egyes bűnözők karriert hoztak létre abból is, hogy háttérhangokat használtak a banki képviselők eldobására.

"Van egy csaló, akit Csirkeembernek hívtunk, és akinek mindig kakói jártak a háttérben" - mondta Balasubramaniyan. "És van egy hölgy, aki a háttérben síró csecsemőt használva lényegében meggyőzte a telefonos ügynököket arról, hogy" hé, nehéz időszakot élek át ", hogy szimpátiát szerezzek."

És akkor ott vannak a férfi bűnözők, akik a nők bankszámláit követik.

"A technológiát használják, hogy növeljék hangjuk frekvenciáját, nőiesebben szóljanak" - magyarázta Balasubramaniyan. Ezek sikeresek lehetnek, de „időnként a szoftver összezavarodik, és úgy hangzik, mint Alvin és a mókusok”.

Természetesen a hangklónozás csak a legújabb fejlemény ebben az egyre fokozódó háborúban. A biztonsági cégek legalább egy lándzsás horgászat során már elkapták a szintetikus hangot használó csalókat.

"Megfelelő céllal a kifizetés hatalmas lehet" - mondta Balasubramaniyan. "Tehát van értelme időt szánni a megfelelő egyén szintetizált hangjának létrehozására."

Meg tudja valaki mondani, hogy hamis a hang?

Amikor felismerjük, hogy egy hang hamis volt-e, vannak jó és rossz hírek is. A rossz az, hogy a hangklónok minden nap javulnak. A mélyen tanuló rendszerek egyre okosabbak és hitelesebb hangokat adnak, amelyek létrehozásához kevesebb hangra van szükség.

Amint a klipből megtudhatja Obama elnök azt mondta MC Rennek, hogy foglaljon állást , már eljutottunk oda is, hogy a nagy hűségű, gondosan felépített hangmodell elég meggyőzően szólhat az emberi fül számára.

Minél hosszabb egy hangklip, annál valószínűbb, hogy észreveszi, hogy valami baj van. Rövidebb klipek esetében azonban előfordulhat, hogy nem veszi észre, hogy szintetikus - különösen, ha nincs okod megkérdőjelezni annak legitimitását.

Minél tisztább a hangminőség, annál könnyebb észrevenni az audio mélyhamisítás jeleit. Ha valaki közvetlenül stúdió minőségű mikrofonba beszél, akkor alaposan hallgathatja. De egy rossz minőségű telefonhívás-felvételt vagy egy zajos parkolóházban kézi eszközön rögzített beszélgetést sokkal nehezebb értékelni.

A jó hír az, hogy még akkor is, ha az embereknek gondjai vannak a valódi és a hamis elválasztásával, a számítógépeknek nincsenek azonos korlátai. Szerencsére a hangellenőrzési eszközök már léteznek. A Pindropnak van egy, amely szembe állítja a mélytanulási rendszereket. Mindkettőt felhasználja annak kiderítésére, hogy egy hangminta az a személy, akinek állítólag lennie kell. Azt is megvizsgálja azonban, hogy egy ember képes-e akár a minta összes hangját kiadni.

A hang minőségétől függően a beszéd minden másodpercében 8 000-50 000 elemezhető adatminta található.

"Azok a dolgok, amelyeket általában keresünk, korlátozzák a beszédet az emberi evolúció miatt" - magyarázta Balasubramaniyan.

Például két vokális hang minimálisan elkülönül egymástól. Ez azért van, mert fizikailag nem lehet gyorsabban kimondani őket a száj izmai és a hangszálak izmainak átkonfigurálási sebessége miatt.

"Amikor a szintetizált hangot nézzük - mondta Balasubramaniyan -, néha látunk dolgokat és azt mondjuk:" ezt soha nem generálhatta egy ember, mert az egyetlen embernek, aki ezt létrehozhatta, egy hét láb hosszú nyakkal kell rendelkeznie. ”

Van egy hangzásosztály is, amelyet „fricatíváknak” neveznek. Akkor alakulnak ki, amikor a levegő áthalad a keskeny szűkületen a torkodban, amikor ejtesz f, s, v és z betűket. A mélyen tanuló rendszerek számára a fricikat különösen nehéz elsajátítani, mert a szoftvernek nehézségei vannak megkülönböztetni őket a zajtól.

Tehát legalább egyelőre a hangklónozó szoftvereket megbotlik az a tény, hogy az emberek olyan húszsákok, amelyek levegőt áramolnak a testük lyukain keresztül, hogy beszéljenek.

"Folyton viccelődök, hogy a mélyhamisítások nagyon nyafognak" - mondta Balasubramaniyan. Kifejtette, hogy az algoritmusoknak nagyon nehéz megkülönböztetniük a szavak végét a felvételtől a háttérzajtól. Ez sok olyan hangmodellt eredményez, amelynek beszéde jobban visszavonul, mint az ember.

"Amikor egy algoritmus sokat látja, hogy ez történik" - mondta Balasubramaniyan, "statisztikailag bizakodóbbá válik, hogy a hangot az emberrel ellentétben állítják elő."

A Resemblezer egy nyílt forráskódú mélytanulási eszközzel is a Resemblezer-lel foglalkozik a felismerési problémával elérhető a GitHub oldalon . Felismerheti a hamis hangokat és elvégezheti a hangszóró ellenőrzését.

Éberességet igényel

Mindig nehéz kitalálni, mit hozhat a jövő, de ez a technológia szinte biztosan csak jobb lesz. Emellett bárki potenciálisan áldozat lehet - nemcsak magas rangú személyek, például megválasztott tisztviselők vagy banki vezérigazgatók.

"Azt hiszem, az első hangtörés szélén vagyunk, ahol az emberek hangját ellopják" - jósolta Balasubramaniyan.

Jelenleg azonban az audio mélyhamisítások valós kockázata alacsony. Vannak olyan eszközök, amelyek a jelek szerint nagyon jó munkát végeznek a szintetikus videók felderítésében.

Ráadásul a legtöbb embert nem fenyegeti a támadás. Ajder szerint a fő kereskedelmi szereplők „egyedi ügyfelek számára kidolgozott megoldásokon dolgoznak, és a legtöbbjüknek meglehetősen jó etikai irányelvei vannak azzal kapcsolatban, hogy kivel működnének együtt és nem.

Az igazi fenyegetés azonban előttünk áll, amint Ajder kifejtette:

"A Pandora's Box olyan emberek lesznek, akik a technológia nyílt forráskódú megvalósításait egyre felhasználóbarátabb, hozzáférhetőbb alkalmazásokká vagy szolgáltatásokká alakítják, amelyek nem rendelkeznek olyan etikai vizsgálati réteggel, mint a kereskedelmi megoldások."

Ez valószínűleg elkerülhetetlen, de a biztonsági cégek már hamis hangfelismerést gördítenek eszközkészleteikbe. Ennek ellenére a biztonság megőrzése éberséget igényel.

"Megtettük ezt más biztonsági területeken is" - mondta Ajder. „Sok szervezet sok időt tölt azzal, hogy megértse, mi például a következő nulla napos biztonsági rés. A szintetikus hang egyszerűen a következő határ. ”

ÖSSZEFÜGGŐ: Mi a mélyhamisítás, és aggódnom kell-e?

.entry-tartalom .entry-footer

Audio mélyhamisítások: Meg tudja mondani valaki, hogy hamisak?

Mi az audio mélyhamisítás?

A kényszeres eset a szintetikus hang számára

Hogyan működik a szintetikus hang

A semmiben sem bízó egzisztenciális félelem

A Pandora dobozának etikája

A biztonsági profik mindezt látták korábban

Meg tudja valaki mondani, hogy hamis a hang?

Éberességet igényel

Audio Deepfakes: Can Anyone Tell If They’re Fake?

What Are Deepfakes?

Deepfakes: What Happens When You Can’t Trust Your Own Eyes? | NBCLX

Deepfakes, Part I Of IV: What Are Deepfakes?

Deepfakes: Can You Spot A Phony Video? | Above The Noise

Did You Know About Deepfakes And Shallow Fakes?

It’s Getting Harder To Spot A Deep Fake Video

Introduction To Deepfakes

Adatvédelem és biztonság - Most Popular Articles

A többtényezős hitelesítés kikényszerítése az Office 365-előfizetés összes felhasználója számára

A MacOS 10.13 High Sierra újdonságai, elérhető most

Bizonyos alkalmazások letiltása (vagy engedélyezése) a felhasználók számára a Windows rendszerben

Az automatikus rendszerfrissítések engedélyezése az Ubuntuban

Az Ubuntu fejlesztői szerint a Linux Mint nem biztonságos. Igazuk van?

Hogyan lehet eltávolítani az Antivirus Live és más Rogue / Fake Antivirus malware programokat

Biztonságos Gmail-fiókját SSL-titkosítással, anélkül, hogy megszakítaná a Gmail Értesítőt

Biztonsági másolat készítése vagy visszaállítás a mentett hálózati felhasználói hitelesítő adatokról a Windows Vista rendszerben

Kategóriák