Hluboké falešné zvuky: Může někdo zjistit, zda jsou falešné?

NEBEZPEČNÝ OBSAH

Hluboké podvody videa znamenají, že nemůžete věřit všemu, co vidíte. Nyní mohou hluboké falešné zvuky znamenat, že už nemůžete věřit svým uším. Byl to skutečně prezident, který vyhlásil válku Kanadě? Je to opravdu váš otec, který telefonuje a žádá o jeho e-mailové heslo?

Přidejte další existenciální starosti na seznam toho, jak by nás naše arogance mohla nevyhnutelně zničit. Během Reaganovy éry byla jediným skutečným technologickým rizikem hrozba jaderné, chemické a biologické války.

V následujících letech se nám naskytla příležitost posednout nanotechnologickými šedými skvrnami a globálními pandemiemi. Nyní máme hluboké podvody - lidi, kteří ztrácejí kontrolu nad svou podobou nebo hlasem.

Co je to zvuk Deepfake?

Většina z nás viděla a deepfake videa , ve kterých se algoritmy hlubokého učení používají k nahrazení jedné osoby podobností někoho jiného. Nejlepší jsou nervózně realistická a nyní je řada na zvuku. Hlubinou zvuku je, když se k výrobě syntetického zvuku použije „klonovaný“ hlas, který je potenciálně k nerozeznání od skutečné osoby.

"Je to jako Photoshop pro hlas," řekl Zohaib Ahmed, generální ředitel společnosti Připomínají AI o technologii klonování hlasu jeho společnosti.

Špatné úlohy aplikace Photoshop jsou však snadno odhaleny. Bezpečnostní firma, s níž jsme hovořili, řekla, že lidé obvykle hádají pouze to, zda je hlubinný zvuk skutečný nebo falešný s přesností asi 57 procent - nic lepšího než házení mincí.

Navíc, protože tolik hlasových záznamů pochází z nekvalitních telefonních hovorů (nebo je nahráváno na hlučných místech), je možné zvukové hloubky ještě více rozeznat. Čím horší je kvalita zvuku, tím těžší je zachytit výmluvné známky toho, že hlas není skutečný.

Ale proč by někdo vlastně potřeboval Photoshop pro hlasy?

Působivé pouzdro pro syntetický zvuk

Ve skutečnosti je enormní poptávka po syntetickém zvuku. Podle Ahmeda je „návratnost investic velmi okamžitá.“

To platí zejména, pokud jde o hraní her. V minulosti byla řeč jednou součástí hry, kterou nebylo možné vytvořit na vyžádání. I v interaktivních titulech se scénami v kvalitě kina vykreslenými v reálném čase jsou verbální interakce s nehrajícími postavami vždy v zásadě statické.

Nyní však technologie dohnala. Studia mají potenciál klonovat hlas herce a používat motory převodu textu na řeč, takže postavy mohou v reálném čase říkat cokoli.

Existují také tradičnější použití v reklamě a technické a zákaznické podpoře. Zde je důležitý hlas, který zní autenticky lidsky a reaguje osobně a kontextově bez lidského zásahu.

Společnosti zabývající se hlasovým klonováním jsou také nadšené z lékařských aplikací. Nahrazení hlasu není v medicíně samozřejmě nic nového - Stephen Hawking skvěle používal robotický syntetizovaný hlas poté, co ztratil svůj vlastní v roce 1985. Moderní klonování hlasu však slibuje něco ještě lepšího.

V roce 2008 syntetická hlasová společnost CereProc , dal pozdní filmový kritik Roger Ebert, jeho hlas zpět po rakovině ho vzal. CereProc zveřejnil webovou stránku, která lidem umožňovala psát zprávy, které by pak byly vysloveny hlasem bývalého prezidenta George Bushe.

"Ebert to viděl a myslel si:" No, kdyby dokázali kopírovat Bushův hlas, měli by být schopni kopírovat ten můj, "řekl Matthew Aylett, hlavní vědecký pracovník CereProc. Ebert poté požádal společnost, aby vytvořila náhradní hlas, což provedli zpracováním velké knihovny hlasových záznamů.

"Bylo to jedno z prvních případů, kdy to někdo udělal, a byl to skutečný úspěch," řekla Aylett.

V posledních letech řada společností (včetně CereProc) spolupracovala s Sdružení ALS na Projekt Revoice poskytovat syntetické hlasy těm, kteří trpí ALS.

Jak funguje syntetický zvuk

Hlasové klonování má právě teď chvilku a řada společností vyvíjí nástroje. Připomínají AI a Popis mít online ukázky, které si může kdokoli vyzkoušet zdarma. Stačí nahrát fráze, které se objeví na obrazovce, a během několika minut se vytvoří model vašeho hlasu.

Můžete poděkovat AI - konkrétně algoritmy hlubokého učení —Pro schopnost spojit zaznamenanou řeč s textem, aby bylo možné porozumět komponentním fonémům, které tvoří váš hlas. Poté použije výsledné jazykové stavební bloky k přiblížení slov, která neslyšela, že mluvíte.

Základní technologie už nějakou dobu existuje, ale jak zdůraznila Aylett, vyžadovala nějakou pomoc.

"Kopírování hlasu bylo něco jako výroba pečiva," řekl. "Bylo to trochu těžké udělat a bylo mnoho různých způsobů, jak to musíte ručně vyladit, aby to fungovalo."

Aby vývojáři dosáhli přijatelných výsledků, vývojáři potřebovali enormní množství zaznamenaných hlasových dat. Poté, před několika lety, se stavidla otevřela. Výzkum v oblasti počítačového vidění se ukázal jako kritický. Vědci vyvinuli generativní kontradiktorní sítě (GAN), které by mohly poprvé extrapolovat a vytvářet předpovědi na základě stávajících dat.

"Místo toho, aby počítač viděl obrázek koně a řekl:" toto je kůň, "můj model by nyní mohl udělat z koně zebra," řekla Aylett. "Takže exploze syntézy řeči je nyní díky akademické práci z počítačového vidění."

Jednou z největších inovací v hlasovém klonování bylo celkové snížení množství surových dat potřebných k vytvoření hlasu. V minulosti systémy potřebovaly desítky nebo dokonce stovky hodin zvuku. Nyní však lze generovat kompetentní hlasy z pouhých minut obsahu.

PŘÍBUZNÝ: Problém s AI: Stroje se učí věci, ale nemohou jim porozumět

Existenční strach z nedůvěřování ničemu

Tato technologie je spolu s jadernou energií, nanotechnologií, 3D tiskem a CRISPR současně vzrušující a děsivá. Koneckonců, ve zprávách již byly případy, kdy byli lidé podvedeni hlasovými klony. V roce 2019 společnost ve Velké Británii tvrdila, že tomu tak je podveden hlubokým zvukem telefonní hovor do zapojení peněz zločincům.

Nemusíte chodit daleko, abyste našli překvapivě přesvědčivé zvukové podvody. Kanál YouTube Vokální syntéza obsahuje známé lidi, kteří říkají věci, které nikdy neřekli George W. Bush, čtení „In Da Club“ od 50 Cent . Je to na místě.

Na YouTube můžete kdekoli slyšet hejno bývalých prezidentů, včetně Obama, Clinton a Reagan rapují NWA . Hudba a zvuky pozadí pomáhají maskovat některé zjevné robotické závady, ale i v tomto nedokonalém stavu je potenciál zřejmý.

Experimentovali jsme se zapnutými nástroji Připomínají AI a Popis a vytvořil hlasový klon. Descript používá klonování hlasu, které se původně nazývalo Lyrebird a bylo obzvláště působivé. Byli jsme šokováni kvalitou. Slyšení vlastního hlasu říkat věci, které víte, že jste nikdy neřekli, je znervózňující.

Řeč má určitě robotickou kvalitu, ale při příležitostném poslechu by většina lidí neměla důvod si myslet, že to byl falešný.

Do Resemble AI jsme měli ještě větší naděje. Poskytne vám nástroje k vytvoření konverzace s více hlasy a ke změně expresivity, emocí a rychlosti dialogu. Mysleli jsme si však, že hlasový model nezachytil základní kvality hlasu, který jsme použili. Ve skutečnosti bylo nepravděpodobné, že by někdo někoho oklamal.

Zástupce AI s názvem Resemble nám řekl: „Většina lidí je ohromena výsledky, pokud to udělají správně.“ Postavili jsme hlasový model dvakrát s podobnými výsledky. Zjevně tedy není vždy snadné vytvořit hlasový klon, pomocí kterého můžete vytáhnout digitální loupež.

I přesto se zakladatel Lyrebird (který je nyní součástí Descript), Kundan Kumar, domnívá, že jsme tuto hranici již překročili.

"U malého procenta případů to tam už je," řekl Kumar. "Pokud použiji syntetický zvuk ke změně několika slov v řeči, je to už tak dobré, že budete jen těžko vědět, co se změnilo."

Můžeme také předpokládat, že se tato technologie postupem času bude jen zlepšovat. Systémy budou k vytvoření modelu potřebovat méně zvuku a rychlejší procesory budou schopny model sestavit v reálném čase. Chytřejší AI se naučí, jak přidat přesvědčivější kadenci podobnou člověku a důraz na řeč, aniž by měl příklad, z něhož by bylo možné pracovat.

Což znamená, že bychom se mohli plazit blíže k rozšířené dostupnosti klonování hlasu bez námahy.

Etika Pandořiny skříňky

Většina společností pracujících v tomto prostoru se zdá být připravena bezpečně a zodpovědně zacházet s technologií. Například se podobá AI celou sekci „Etika“ na svých webových stránkách a následující výňatek je povzbudivý:

"Spolupracujeme se společnostmi prostřednictvím přísného procesu, abychom se ujistili, že hlas, který klonují, je pro ně použitelný a že máme náležitý souhlas s hlasovými herci."

Stejně tak Kumar řekl, že Lyrebird byl od začátku znepokojen zneužitím. Proto nyní jako součást Descriptu umožňuje lidem pouze klonovat svůj vlastní hlas. Ve skutečnosti Resemble i Descript vyžadují, aby lidé zaznamenávali své vzorky naživo, aby nedocházelo k nedobrovolnému klonování hlasu.

Je povzbudivé, že hlavní komerční hráči zavedli určité etické pokyny. Je však důležité si uvědomit, že tyto společnosti nejsou strážci této technologie. Ve volné přírodě již existuje řada nástrojů s otevřeným zdrojovým kódem, pro které neexistují žádná pravidla. Podle Henryho Ajdera, vedoucího zpravodajství o hrozbách v Deeptrace , také nepotřebujete pokročilé znalosti kódování, abyste je mohli zneužít.

"K velkému pokroku v prostoru došlo díky spolupráci na místech, jako je GitHub, s využitím open-source implementací dříve publikovaných akademických prací," řekl Ajder. "Může ho použít kdokoli, kdo má střední znalosti kódování."

Bezpečnostní profesionálové toto všechno již viděli

Zločinci se pokoušeli ukrást peníze telefonem dlouho předtím, než bylo možné klonovat hlas, a bezpečnostní experti vždy byli v pohotovosti, aby je odhalili a zabránili jim. Bezpečnostní společnost Pindrop se snaží zastavit bankovní podvody ověřením, zda je volající tím, kým podle jeho tvrzení je ze zvuku. Jen v roce 2019 Pindrop tvrdí, že analyzoval 1,2 miliardy hlasových interakcí a zabránil pokusům o podvod přibližně 470 milionů dolarů.

Před hlasovým klonováním podvodníci vyzkoušeli řadu dalších technik. Nejjednodušší bylo jen volat odjinud s osobními údaji o značce.

"Náš akustický podpis nám umožňuje určit, že hovor ve skutečnosti přichází z telefonu Skype v Nigérii kvůli zvukovým charakteristikám," řekl generální ředitel společnosti Pindrop, Vijay Balasubramaniyan. "Pak můžeme porovnat, že vědění, že zákazník používá telefon AT&T v Atlantě."

Někteří zločinci také udělali kariéru tím, že pomocí zvuků na pozadí vyhodili bankovní zástupce.

"Existuje jeden podvodník, kterému jsme říkali Chicken Man, který vždy měl kohouty v pozadí," řekl Balasubramaniyan. "A je tu jedna dáma, která pomocí dítěte pláčecího v pozadí v podstatě přesvědčila agenty call centra, že" hej, prožívám těžké období ", abych získala soucit."

A pak jsou tu zločinci, kteří jdou po bankovních účtech žen.

"Používají technologii ke zvýšení frekvence svého hlasu, aby zněli více žensky," vysvětlil Balasubramaniyan. Mohou být úspěšné, ale „software se občas pokazí a zní to jako Alvin a Chipmunkové“.

Hlasové klonování je samozřejmě jen nejnovějším vývojem v této neustále se stupňující válce. Bezpečnostní firmy již zachytily podvodníky využívající syntetický zvuk při nejméně jednom útoku na kopí.

"Se správným cílem může být výplata obrovská," řekl Balasubramaniyan. "Takže má smysl věnovat čas vytvoření syntetizovaného hlasu správného jedince."

Může někdo zjistit, zda je hlas falešný?

Pokud jde o rozpoznání, zda byl hlas předstíraný, existují dobré i špatné zprávy. Špatné je, že hlasové klony se každým dnem zlepšují. Systémy hlubokého učení jsou chytřejší a vytvářejí autentičtější hlasy, jejichž tvorba vyžaduje méně zvuku.

Jak můžete zjistit z tohoto klipu Prezident Obama říká MC Renovi, aby zaujal stanovisko , také jsme se již dostali do bodu, kdy vysoce věrný a pečlivě konstruovaný hlasový model může znít pro lidské ucho docela přesvědčivě.

Čím delší je zvukový klip, tím větší je pravděpodobnost, že si všimnete, že je něco špatně. U kratších klipů si však možná nevšimnete, že je syntetický - zejména pokud nemáte důvod zpochybňovat jeho legitimitu.

Čím jasnější je kvalita zvuku, tím snáze si všimnete známek hlubokého zvuku. Pokud někdo mluví přímo do mikrofonu studiové kvality, budete moci pozorně poslouchat. Ale nekvalitní záznam telefonního hovoru nebo konverzace zachycená na ručním zařízení v hlučné garáži bude mnohem těžší vyhodnotit.

Dobrá zpráva je, že i když mají lidé problém oddělit skutečné od falešných, počítače nemají stejná omezení. Nástroje na ověřování hlasu naštěstí již existují. Pindrop má jeden, který staví systémy hlubokého učení proti sobě. Obě využívá k zjištění, zda je zvukový vzorek osobou, kterou by měl být. Rovněž však zkoumá, zda člověk může dokonce vydat všechny zvuky ve vzorku.

V závislosti na kvalitě zvuku obsahuje každá sekunda řeči 8 000–50 000 vzorků dat, které lze analyzovat.

"To, co obvykle hledáme, jsou omezení řeči v důsledku lidské evoluce," vysvětlil Balasubramaniyan.

Například dva vokální zvuky mají minimální možné vzájemné oddělení. Důvodem je, že není fyzicky možné je říci rychleji, a to kvůli rychlosti, s jakou se svaly v ústech a hlasivkách mohou překonfigurovat.

"Když se podíváme na syntetizovaný zvuk," řekl Balasubramaniyan, "někdy vidíme věci a říkáme," toto by člověk nikdy nemohl vygenerovat, protože jediný člověk, který to mohl vygenerovat, musí mít sedm stop dlouhý krk. “

Existuje také třída zvuku zvaná „fricatives“. Vznikají, když vzduch prochází úzkým zúžením v krku, když vyslovujete písmena jako f, s, v a z. Fricatives je obzvláště těžké zvládnout pro systémy hlubokého učení, protože software má potíže s jejich rozlišením od šumu.

Takže přinejmenším prozatím software pro klonování hlasu naráží na skutečnost, že lidé jsou pytle s masem, které proudí vzduch otvory v těle, aby mohli mluvit.

"Stále žertuji, že hluboké podvody jsou velmi kňouravé," řekl Balasubramaniyan. Vysvětlil, že pro algoritmy je velmi těžké rozlišit v záznamu konce slov od šumu pozadí. To má za následek mnoho hlasových modelů s řečí, které se odvíjejí více než lidé.

"Když algoritmus vidí, že se to hodně děje," řekl Balasubramaniyan, "statisticky se stává jistější, že jde o zvuk, který byl generován na rozdíl od člověka."

Resemble AI také čelí problému s detekcí čelně pomocí nástroje Resemblyzer, což je open-source nástroj pro hluboké učení k dispozici na GitHubu . Dokáže detekovat falešné hlasy a provést ověření mluvčího.

Vyžaduje to bdělost

Vždy je těžké uhodnout, co by mohla přinést budoucnost, ale tato technologie se téměř jistě jen zlepší. Obětí by také mohl být potenciálně kdokoli - nejen vysoce postavení jednotlivci, jako jsou volení úředníci nebo bankovní ředitelé.

"Myslím, že jsme na pokraji prvního narušení zvuku, kde jsou ukradeny hlasy lidí," předpověděl Balasubramaniyan.

V tuto chvíli je ale riziko reálného světa z hlubokých zvuků zvuku nízké. Již existují nástroje, které zřejmě dělají docela dobrou práci při detekci syntetického videa.

Většina lidí navíc není vystavena riziku útoku. Podle Ajdera hlavní komerční hráči „pracují na zakázkových řešeních pro konkrétní klienty a většina z nich má celkem dobré etické zásady, s kým by a kde nepracovali.“

Skutečná hrozba však leží před námi, jak Ajder dále vysvětlil:

„Pandora's Box budou lidé sdružující open-source implementace této technologie do stále uživatelsky přívětivějších a přístupnějších aplikací nebo služeb, které v současné době nemají takovou etickou úroveň kontroly, jakou komerční řešení dělají.“

To je pravděpodobně nevyhnutelné, ale bezpečnostní společnosti již zavádějí falešné detekce zvuku do svých nástrojů. Přesto zůstat v bezpečí vyžaduje bdělost.

"Udělali jsme to v jiných bezpečnostních oblastech," řekl Ajder. "Spousta organizací tráví spoustu času například pokusem pochopit, co je další zranitelností nultého dne." Syntetický zvuk je prostě další hranice. “

PŘÍBUZNÝ: Co je to Deepfake a měl bych se toho obávat?

.vstupní obsah .vstup do zápatí

Hluboké falešné zvuky: Může někdo zjistit, zda jsou falešné?

Co je to zvuk Deepfake?

Působivé pouzdro pro syntetický zvuk

Jak funguje syntetický zvuk

Existenční strach z nedůvěřování ničemu

Etika Pandořiny skříňky

Bezpečnostní profesionálové toto všechno již viděli

Může někdo zjistit, zda je hlas falešný?

Vyžaduje to bdělost

Audio Deepfakes: Can Anyone Tell If They’re Fake?

What Are Deepfakes?

Deepfakes: What Happens When You Can’t Trust Your Own Eyes? | NBCLX

Deepfakes, Part I Of IV: What Are Deepfakes?

Deepfakes: Can You Spot A Phony Video? | Above The Noise

Did You Know About Deepfakes And Shallow Fakes?

It’s Getting Harder To Spot A Deep Fake Video

Introduction To Deepfakes

Soukromí a bezpečnost - Nejoblíbenější články

Co je „zabezpečená enkláva“ společnosti Apple a jak chrání můj iPhone nebo Mac?

Jak nastavit, vyladit a používat hodinky Android Wear

Jak se zbavit oznámení společnosti McAfee a přiloženého softwaru

Jak posílat zprávy Self-Destruction iMessages se svěřením

Jak vymazat historii procházení aplikace Internet Explorer

Bezpečnostní otázky nejsou bezpečné: Jak chránit své účty

Zabezpečte bezdrátový směrovač: 8 věcí, které můžete udělat hned teď

Vydán Internet Explorer 9: Zde je vše, co potřebujete vědět

Kategorie