Audio Deepfakes: Kan nogen fortælle, om de er falske?

UCACHED INDHOLD

Video deepfakes betyder, at du ikke kan stole på alt, hvad du ser. Nu kan lydforkæmpelser muligvis betyde, at du ikke længere kan stole på dine ører. Var det virkelig præsidenten, der erklærede Canada krig? Er det virkelig din far i telefonen, der beder om sin e-mail-adgangskode?

Føj endnu en eksistentiel bekymring til listen over, hvordan vores egen hubris uundgåeligt kan ødelægge os. I løbet af Reagan-æraen var de eneste reelle teknologiske risici truslen om nuklear, kemisk og biologisk krigsførelse.

I de følgende år har vi haft mulighed for at besætte nanotechs grå goo og globale pandemier. Nu har vi dybe forfalskninger - folk mister kontrol over deres lighed eller stemme.

Hvad er en Audio Deepfake?

De fleste af os har set en video dyb forfalskning , hvor dyb læringsalgoritmer bruges til at erstatte en person med andres lighed. De bedste er unødvendigt realistiske, og nu er det lyds tur. En lyd dyb forfalskning er, når en "klonet" stemme, der potentielt ikke kan skelnes fra den virkelige persons, bruges til at producere syntetisk lyd.

"Det er som Photoshop for stemme," sagde Zohaib Ahmed, administrerende direktør for Ligner AI , om hans virksomheds stemmekloningsteknologi.

Imidlertid er dårlige Photoshop-job let afskåret. Et sikkerhedsfirma, vi talte med, sagde, at folk normalt kun gætter på, om en dybfalske lyd er ægte eller falsk med cirka 57 procents nøjagtighed - ikke bedre end en møntklap.

Yderligere, fordi så mange stemmeoptagelser er af telefonopkald af lav kvalitet (eller optaget på støjende steder), kan dybfalske lyd gøres endnu mere skelnes. Jo dårligere lydkvaliteten er, desto sværere er det at opfange disse tydelige tegn på, at en stemme ikke er ægte.

Men hvorfor skulle nogen alligevel have brug for en Photoshop for stemmer?

Den overbevisende sag til syntetisk lyd

Der er faktisk en enorm efterspørgsel efter syntetisk lyd. Ifølge Ahmed er "ROI meget øjeblikkelig."

Dette gælder især når det kommer til spil. Tidligere var tale den eneste komponent i et spil, der var umuligt at skabe on-demand. Selv i interaktive titler med scener i biografkvalitet gengivet i realtid er verbale interaktioner med ikke-spillende figurer i det væsentlige statiske.

Nu er teknologien dog fanget. Studios har potentialet til at klone en skuespillers stemme og bruge tekst-til-tale-motorer, så tegn kan sige noget i realtid.

Der er også mere traditionelle anvendelser inden for reklame og teknisk support og kundesupport. Her er en stemme, der lyder autentisk menneskelig og reagerer personligt og sammenhængende uden menneskelig input, hvad der er vigtigt.

Stemmeklonende virksomheder er også begejstrede for medicinske applikationer. Selvfølgelig er stemmeskift ikke noget nyt inden for medicin - Stephen Hawking brugte berømt en syntetisk robotstemme efter at have mistet sin egen i 1985. Moderne stemmekloning lover dog noget endnu bedre.

I 2008, syntetisk stemmefirma, CereProc , gav sen filmkritiker, Roger Ebert, sin stemme tilbage efter kræft tog den væk. CereProc havde offentliggjort en webside, der gjorde det muligt for folk at skrive beskeder, som derefter blev talt med den tidligere præsident George Bushs stemme.

"Ebert så det og tænkte," ja, hvis de kunne kopiere Bushs stemme, skulle de være i stand til at kopiere min, "" sagde Matthew Aylett, CereProc's videnskabelige chef. Ebert bad derefter virksomheden om at oprette en erstatningsstemme, hvilket de gjorde ved at behandle et stort bibliotek med stemmeoptagelser.

”Det var en af de første gange nogen nogensinde havde gjort det, og det var en reel succes,” sagde Aylett.

I de senere år har en række virksomheder (herunder CereProc) arbejdet med ALS Association på Projekt Revoice at give syntetiske stemmer til dem, der lider af ALS.

Sådan fungerer syntetisk lyd

Stemmekloning har et øjeblik lige nu, og en lang række virksomheder udvikler værktøjer. Ligner AI og Beskrivelse have online demoer, som alle kan prøve gratis. Du optager bare de sætninger, der vises på skærmen, og på få minutter oprettes en model af din stemme.

Du kan takke AI - specifikt, dyblærende algoritmer —For at være i stand til at matche optaget tale med tekst for at forstå de komponentfonemer, der udgør din stemme. Derefter bruger de resulterende sproglige byggesten til at tilnærme ord, det ikke har hørt dig tale.

Den grundlæggende teknologi har eksisteret i et stykke tid, men som Aylett påpegede, krævede det lidt hjælp.

”Kopiering af stemme var lidt som at lave bagværk,” sagde han. "Det var lidt svært at gøre, og der var forskellige måder, du skulle tilpasse det i hånden for at få det til at arbejde."

Udviklere havde brug for enorme mængder optagede stemmedata for at få godkendte resultater. Så for et par år siden åbnede flodportene. Forskning inden for computersyn viste sig at være kritisk. Forskere udviklede generative adversarial netværk (GAN'er), som for første gang kunne ekstrapolere og forudsige baseret på eksisterende data.

”I stedet for at en computer ser et billede af en hest og siger 'dette er en hest', kunne min model nu gøre en hest til en zebra," sagde Aylett. "Så eksplosionen i talesyntese er nu takket være det akademiske arbejde fra computersyn."

En af de største innovationer inden for stemmekloning har været den samlede reduktion i, hvor meget rådata der er behov for for at skabe en stemme. Tidligere havde systemer brug for snesevis eller endda hundreder af timers lyd. Nu kan der imidlertid genereres kompetente stemmer ud fra kun få minutters indhold.

RELATEREDE: Problemet med AI: Maskiner lærer ting, men kan ikke forstå dem

Den eksisterende frygt for ikke at stole på noget

Denne teknologi sammen med kernekraft, nanoteknologi, 3D-udskrivning og CRISPR er samtidig spændende og skræmmende. Der har trods alt allerede været tilfælde i nyheden om, at folk bliver narret af stemmekloner. I 2019 hævdede et firma i Storbritannien, at det var narret af en dyb falsk lyd telefonopkald til at forbinde penge til kriminelle.

Du behøver heller ikke gå langt for at finde overraskende overbevisende lydfalsker. YouTube-kanal Vokalsyntese har kendte mennesker, der siger ting, som de aldrig sagde, som George W. Bush læser "In Da Club" af 50 Cent . Det er perfekt.

Andetsteds på YouTube kan du høre en flok tidligere præsidenter, herunder Obama, Clinton og Reagan, der rapper NWA . Musik og baggrundslyde hjælper med at skjule noget af den åbenlyse robotglitchiness, men selv i denne ufuldkomne tilstand er potentialet indlysende.

Vi eksperimenterede med værktøjerne på Ligner AI og Beskrivelse og skabte stemmeklon. Descript bruger en stemmekloning-motor, der oprindeligt blev kaldt Lyrebird og var særligt imponerende. Vi blev chokeret over kvaliteten. At høre din egen stemme sige ting, du ved, du aldrig har sagt, er foruroligende.

Der er bestemt en robotkvalitet ved talen, men på en afslappet lytning ville de fleste mennesker ikke have nogen grund til at tro, at det var en falsk.

Vi havde endnu større forhåbninger om at ligne AI. Det giver dig værktøjerne til at skabe en samtale med flere stemmer og variere dialogens udtryksevne, følelser og tempo. Vi troede imidlertid ikke, at stemmemodellen fangede de væsentlige kvaliteter af den stemme, vi brugte. Faktisk var det usandsynligt at narre nogen.

En ligner AI-rep fortalte os, "de fleste mennesker bliver blæst væk af resultaterne, hvis de gør det korrekt." Vi byggede en stemmemodel to gange med lignende resultater. Så det er åbenbart ikke altid let at lave en stemmeklon, som du kan bruge til at trække en digital heist ud.

Alligevel føler Lyrebird (som nu er en del af Descript) grundlægger, Kundan Kumar, at vi allerede har passeret denne tærskel.

”I en lille procentdel af sagerne er den allerede der,” sagde Kumar. "Hvis jeg bruger syntetisk lyd til at ændre et par ord i en tale, er det allerede så godt, at du har svært ved at vide, hvad der ændrede sig."

Vi kan også antage, at denne teknologi kun bliver bedre med tiden. Systemer har brug for mindre lyd for at oprette en model, og hurtigere processorer vil være i stand til at opbygge modellen i realtid. Smartere AI vil lære at tilføje mere overbevisende menneskelig kadence og vægt på tale uden at have et eksempel at arbejde fra.

Hvilket betyder, at vi muligvis kryber tættere på den udbredte tilgængelighed af ubesværet stemmekloning.

Etikken i Pandoras æske

De fleste virksomheder, der arbejder i dette rum, synes at være klar til at håndtere teknologien på en sikker, ansvarlig måde. Ligner AI har for eksempel en hel sektion om "Etik" på dens hjemmeside , og følgende uddrag er opmuntrende:

"Vi arbejder sammen med virksomheder gennem en streng proces for at sikre, at den stemme, de kloner, kan bruges af dem og have det rette samtykke på plads med stemmeaktører."

Ligeledes sagde Kumar, at Lyrebird var bekymret over misbrug fra starten. Derfor tillader det nu, som en del af Descript, kun folk at klone deres egen stemme. Faktisk kræver både Resemble og Descript, at folk optager deres prøver live for at forhindre ikke-konsensuel stemmekloning.

Det er glædeligt, at de store kommercielle aktører har pålagt nogle etiske retningslinjer. Det er dog vigtigt at huske, at disse virksomheder ikke er gatekeepers for denne teknologi. Der er en række open source-værktøjer allerede i naturen, som der ikke er nogen regler for. Ifølge Henry Ajder, chef for trussel efterretning ved Deeptrace , har du heller ikke brug for avanceret kodningskendskab for at misbruge den.

”Meget af fremskridtene i rummet er kommet gennem samarbejde på steder som GitHub ved hjælp af open source-implementeringer af tidligere offentliggjorte akademiske artikler,” sagde Ajder. "Det kan bruges af alle, der har moderat færdighed i kodning."

Sikkerhedsmænd har set alt dette før

Kriminelle har forsøgt at stjæle penge telefonisk længe før stemmekloning var mulig, og sikkerhedseksperter har altid været på vagt for at opdage og forhindre det. Sikkerhedsfirma Pindrop forsøger at stoppe banksvindel ved at kontrollere, om en opkalder er den, han eller hun hævder at være fra lyden. Alene i 2019 hævder Pindrop at have analyseret 1,2 milliarder stemmeinteraktioner og forhindret omkring 470 millioner dollars i svindelforsøg.

Før stemmekloning prøvede svindlere en række andre teknikker. Den enkleste var bare at ringe andre steder med personlig info om mærket.

”Vores akustiske signatur giver os mulighed for at bestemme, at et opkald faktisk kommer fra en Skype-telefon i Nigeria på grund af lydegenskaberne,” sagde Pindrops administrerende direktør, Vijay Balasubramaniyan. "Derefter kan vi sammenligne det at vide, at kunden bruger en AT & T-telefon i Atlanta."

Nogle kriminelle har også lavet karriere ved at bruge baggrundslyde til at smide bankrepræsentanter.

”Der er en svindler, vi kaldte Chicken Man, der altid havde hane i baggrunden,” sagde Balasubramaniyan. "Og der er en dame, der brugte en baby, der græd i baggrunden, for i det væsentlige at overbevise callcenteragenterne, at" hej, jeg går igennem en hård tid "for at få sympati."

Og så er der de mandlige kriminelle, der følger kvindernes bankkonti.

”De bruger teknologi til at øge hyppigheden af deres stemme, til at lyde mere feminin,” forklarede Balasubramaniyan. Disse kan være vellykkede, men "lejlighedsvis messer softwaren og de lyder som Alvin og jordegernet."

Selvfølgelig er stemmekloning kun den seneste udvikling i denne stadigt eskalerende krig. Sikkerhedsfirmaer har allerede fanget svindlere, der bruger syntetisk lyd i mindst et spydfiskeangreb.

”Med det rigtige mål kan udbetalingen være massiv,” sagde Balasubramaniyan. "Så det giver mening at afsætte tiden til at skabe en syntetiseret stemme fra det rette individ."

Kan nogen vide, om en stemme er falsk?

Når det kommer til at genkende, om en stemme er blevet forfalsket, er der både gode og dårlige nyheder. Det dårlige er, at stemmekloner bliver bedre hver dag. Deep-learning-systemer bliver smartere og giver mere autentiske stemmer, der kræver mindre lyd for at skabe.

Som du kan se fra dette klip af Præsident Obama bad MC Ren om at tage stillingen , vi er også allerede kommet til det punkt, hvor en højtidelighed, omhyggeligt konstrueret stemmemodel kan lyde ret overbevisende for det menneskelige øre.

Jo længere et lydklip er, jo mere sandsynligt er du at bemærke, at der er noget galt. For kortere klip bemærker du dog muligvis ikke, at det er syntetisk - især hvis du ikke har nogen grund til at sætte spørgsmålstegn ved dets legitimitet.

Jo klarere lydkvalitet, jo lettere er det at bemærke tegn på en dyb falsk lyd. Hvis nogen taler direkte i en mikrofon i studiekvalitet, kan du lytte nøje. Men en ringe optagelse af ringe kvalitet eller en samtale fanget på en håndholdt enhed i en støjende parkeringshus vil være meget sværere at evaluere.

Den gode nyhed er, at selvom mennesker har problemer med at adskille ægte fra falske, har computere ikke de samme begrænsninger. Heldigvis findes der allerede stemmebekræftelsesværktøjer. Pindrop har en, der stiller dybdelæringssystemer mod hinanden. Den bruger begge til at finde ud af, om en lydeksempel er den person, den skal være. Det undersøger dog også, om et menneske endda kan lave alle lydene i prøven.

Afhængigt af lydkvaliteten indeholder hvert tales tal mellem 8.000-50.000 dataprøver, der kan analyseres.

”De ting, vi typisk leder efter, er begrænsninger i tale på grund af menneskelig udvikling,” forklarede Balasubramaniyan.

For eksempel har to vokale lyde mindst mulig adskillelse fra hinanden. Dette skyldes, at det ikke er fysisk muligt at sige dem hurtigere på grund af den hastighed, hvormed musklerne i munden og stemmebåndene kan omkonfigurere sig selv.

”Når vi ser på syntetiseret lyd,” sagde Balasubramaniyan, “vi nogle gange ser ting og siger,” dette kunne aldrig have været genereret af et menneske, fordi den eneste person, der kunne have genereret dette, skal have en syv fod lang hals. ”

Der er også en klasse af lyd kaldet "frikativer". De dannes, når luft passerer gennem en smal indsnævring i halsen, når du udtaler bogstaver som f, s, v og z. Frikativer er især vanskelige for deep-learning-systemer at mestre, fordi softwaren har problemer med at skelne dem fra støj.

Så i det mindste for øjeblikket snubles stemmekloning-software af det faktum, at mennesker er poser med kød, der strømmer luft gennem hullerne i deres krop for at tale.

”Jeg holder sjov med, at deepfakes er meget whiney,” sagde Balasubramaniyan. Han forklarede, at det er meget svært for algoritmer at skelne enderne af ord fra baggrundsstøj i en optagelse. Dette resulterer i mange stemmemodeller med tale, der sporer mere end mennesker gør.

"Når en algoritme ser dette ske meget," sagde Balasubramaniyan, "statistisk bliver det mere selvsikker, at det er lyd, der er genereret i modsætning til menneskelig."

Ligner AI tackler også detektionsproblemet head-on med Resemblyzer, et open-source dyb-læringsværktøj tilgængelig på GitHub . Det kan registrere falske stemmer og udføre højttalerverifikation.

Det tager årvågenhed

Det er altid svært at gætte, hvad fremtiden kan rumme, men denne teknologi vil næsten helt sikkert kun blive bedre. Enhver kan også potentielt være et offer - ikke kun højt profilerede enkeltpersoner, som valgte embedsmænd eller bank-administrerende direktører.

"Jeg tror, vi er på randen af det første lydbrud, hvor folks stemmer bliver stjålet," forudsagde Balasubramaniyan.

I øjeblikket er den virkelige verdens risiko ved dybfalsning af lyd imidlertid lav. Der er allerede værktøjer, der ser ud til at gøre et ret godt stykke arbejde med at opdage syntetisk video.

Plus, de fleste mennesker er ikke i fare for et angreb. Ifølge Ajder arbejder de vigtigste kommercielle aktører “på skræddersyede løsninger til specifikke kunder, og de fleste har ret gode etiske retningslinjer for, hvem de vil og ikke vil arbejde med."

Den virkelige trussel ligger imidlertid foran, da Ajder fortsatte med at forklare:

"Pandora's Box vil være folk, der samler open source-implementeringer af teknologien i mere og mere brugervenlige, tilgængelige apps eller tjenester, der ikke har den slags etiske lag af kontrol, som kommercielle løsninger gør i øjeblikket."

Dette er sandsynligvis uundgåeligt, men sikkerhedsselskaber ruller allerede falsk lyddetektion ind i deres værktøjssæt. At være sikker kræver stadig årvågenhed.

”Vi har gjort dette i andre sikkerhedsområder,” sagde Ajder. ”Mange organisationer bruger meget tid på at forstå, hvad der f.eks. Er den næste nul-dags sårbarhed. Syntetisk lyd er simpelthen den næste grænse. ”

RELATEREDE: Hvad er en dyb forfalskning, og skal jeg være bekymret?

.indgangsindhold .indgangsfod

Audio Deepfakes: Kan nogen fortælle, om de er falske?

Hvad er en Audio Deepfake?

Den overbevisende sag til syntetisk lyd

Sådan fungerer syntetisk lyd

Den eksisterende frygt for ikke at stole på noget

Etikken i Pandoras æske

Sikkerhedsmænd har set alt dette før

Kan nogen vide, om en stemme er falsk?

Det tager årvågenhed

Audio Deepfakes: Can Anyone Tell If They’re Fake?

What Are Deepfakes?

Deepfakes: What Happens When You Can’t Trust Your Own Eyes? | NBCLX

Deepfakes, Part I Of IV: What Are Deepfakes?

Deepfakes: Can You Spot A Phony Video? | Above The Noise

Did You Know About Deepfakes And Shallow Fakes?

It’s Getting Harder To Spot A Deep Fake Video

Introduction To Deepfakes

Privatliv og sikkerhed - Mest populære artikler

Sådan stopper du HomePod fra at læse dine tekstbeskeder til andre mennesker

Tab aldrig et foto igen: Den komplette guide til skudsikker fotobackups

Sådan nulstilles dine HomeKit-enheder og konfiguration

Hvad skal jeg gøre, når du mister din smartphone

Sådan oprettes en PDF-fil på en Mac

Sådan får du vist en liste over udvidelser, der er installeret i alle dine browsere

Sådan tømmes papirkurven sikkert i OS X

Sådan logger du automatisk på OS X Yosemite uden adgangskode

Kategorier