זיוף עמוק באודיו: מישהו יכול לדעת אם הם מזויפים?

תוכן ללא הכנסה

פירוק של זיוף עמוק בווידאו אינך יכול לסמוך על כל מה שאתה רואה. כעת, זיוף עמוק באודיו עשוי להיות שאינך יכול עוד לסמוך על האוזניים שלך. האם זה באמת היה הנשיא שהכריז מלחמה על קנדה? האם זה באמת אבא שלך בטלפון שמבקש את סיסמת הדוא"ל שלו?

הוסף דאגה קיומית נוספת לרשימת האופן שבו ההיבריס שלנו עשוי להרוס אותנו בהכרח. בתקופת רייגן, הסיכונים הטכנולוגיים האמיתיים היחידים היו האיום של מלחמה גרעינית, כימית וביולוגית.

בשנים שלאחר מכן, הזדמן לנו לאובססיה לגבי האפור האפור של ננוטק ומגפות עולמיות. עכשיו, יש לנו זיוף עמוק - אנשים מאבדים שליטה על הדמיון או הקול שלהם.

מה זה זיוף עמוק באודיו?

רובנו ראינו א זיוף עמוק בווידיאו , בהם משתמשים באלגוריתמים של למידה עמוקה להחלפת אדם אחד בדמיונו של מישהו אחר. הטובים ביותר הם מציאותיים להפליא, ועכשיו תור האודיו. זיוף עמוק באודיו הוא כאשר משתמשים בקול "משובט" שלא ניתן להבחין בו מזו של האדם האמיתי להפקת שמע סינתטי.

"זה כמו פוטושופ לקול", אמר זוהייב אחמד, מנכ"ל דומה ל- AI , על טכנולוגיית השיבוט הקולי של החברה שלו.

עם זאת, עבודות גרועות בפוטושופ מפוגמות בקלות. חברת אבטחה ששוחחנו איתה אמרה שאנשים בדרך כלל מנחשים רק אם זיוף עמוק שמע הוא אמיתי או מזויף עם כ -57 אחוז דיוק - לא טוב יותר מהטבע מטבע.

בנוסף, מכיוון שהקלטות קוליות כה רבות הן של שיחות טלפון באיכות נמוכה (או שהוקלטו במיקומים רועשים), ניתן להבדיל בין זיופים עמוקים לאודיו. ככל שאיכות הצליל גרועה יותר, קשה יותר להרים את הסימנים המסמנים האלה שקול אינו אמיתי.

אבל למה שמישהו יזדקק לפוטושופ בשביל קולות?

המקרה המשכנע לאודיו סינטטי

יש למעשה ביקוש עצום לאודיו סינטטי. לדברי אחמד, "ההחזר על ההשקעה הוא מיידי מאוד."

זה נכון במיוחד כשמדובר במשחקים. בעבר הדיבור היה המרכיב היחיד במשחק שאי אפשר היה ליצור לפי דרישה. גם בכותרות אינטראקטיביות עם סצנות באיכות קולנוע המוצגות בזמן אמת, אינטראקציות מילוליות עם דמויות שאינן משחקות הן תמיד סטטיות.

עכשיו, עם זאת, הטכנולוגיה תפסה. לאולפנים יש פוטנציאל לשכפל את קולו של שחקן ולהשתמש במנועי טקסט לדיבור כדי שתווים יוכלו לומר הכל בזמן אמת.

ישנם גם שימושים מסורתיים יותר בפרסום, ותמיכה טכנית ולקוחות. כאן, קול שנשמע אנושי אותנטי ומגיב באופן אישי והקשר ללא קלט אנושי הוא מה שחשוב.

חברות לשיבוט קולי נרגשות גם מיישומים רפואיים. כמובן, החלפת קול אינה דבר חדש ברפואה - סטיבן הוקינג השתמש במפורסם בקול מסונתז רובוטי לאחר שאיבד את שלו בשנת 1985. עם זאת, שיבוט קול מודרני מבטיח משהו טוב עוד יותר.

בשנת 2008 חברת הקול הסינתטית, CereProc , נתן למבקר הקולנוע המנוח, רוג'ר אברט, את קולו לאחר שסרטן לקח אותו. CereProc פרסם דף אינטרנט המאפשר לאנשים להקליד הודעות שיועברו אז בקולו של הנשיא לשעבר ג'ורג 'בוש.

"אברט ראה זאת וחשב, 'ובכן, אם הם יוכלו להעתיק את קולו של בוש, הם צריכים להיות מסוגלים להעתיק את שלי'," אמר מתיו איילט, מנהל המדע הראשי של CereProc. לאחר מכן ביקש אברט מהחברה ליצור קול חלופי, מה שהם עשו על ידי עיבוד ספרייה גדולה של הקלטות קוליות.

"זו הייתה אחת הפעמים הראשונות שמישהו עשה זאת אי פעם וזאת הייתה הצלחה אמיתית", אמר איילט.

בשנים האחרונות, מספר חברות (כולל CereProc) עבדו עם עמותת ALS עַל פרויקט Revoice לספק קולות סינתטיים לאלו הסובלים מ- ALS.

איך עובד אודיו סינטטי

לשיבוט קולי יש רגע כרגע, ושלל חברות מפתחות כלים. דומה ל- AI ו תיאור יש הדגמות מקוונות שכל אחד יכול לנסות בחינם. אתה רק מקליט את הביטויים המופיעים על המסך, ותוך מספר דקות בלבד נוצר מודל של הקול שלך.

אתה יכול להודות ל- AI - באופן ספציפי, אלגוריתמים למידה עמוקה - ליכולת להתאים דיבור מוקלט לטקסט כדי להבין את פונמות הרכיב המרכיבות את קולך. לאחר מכן היא משתמשת באבני הבניין הלשוניות שנוצרו בכדי לבחון מילים שלא שמע אותך מדבר.

הטכנולוגיה הבסיסית קיימת זמן מה, אך כפי שציינה איילט, היא נדרשה לעזרה מסוימת.

"העתקת קול הייתה קצת כמו להכין מאפה," אמר. "זה היה די קשה לעשות והיו דרכים שונות להתאים את זה ביד כדי לגרום לזה לעבוד."

מפתחים היו זקוקים לכמויות עצומות של נתוני קול מוקלטים כדי להשיג תוצאות ברות. ואז, לפני כמה שנים, נפתחו שערי ההצפה. מחקר בתחום ראיית המחשב התגלה כקריטי. מדענים פיתחו רשתות יריבות גנרטיביות (GAN), שיכולות, לראשונה, להקצין ולחזות על סמך נתונים קיימים.

"במקום שמחשב יראה תמונה של סוס ויגיד 'זה סוס', הדוגמנית שלי יכולה עכשיו להפוך סוס לזברה", אמרה אילט. "אם כך, הפיצוץ בסינתזת הדיבור כעת הוא בזכות העבודה האקדמית בראיית המחשב."

אחד החידושים הגדולים ביותר בשיבוט קולי היה ההפחתה הכוללת בכמות הנתונים הגולמיים הדרושים ליצירת קול. בעבר, מערכות נזקקו לעשרות ואפילו מאות שעות של שמע. אולם כעת, ניתן להפיק קולות מוכשרים מדקות תוכן בלבד.

קָשׁוּר: הבעיה עם AI: מכונות לומדות דברים, אבל לא מצליחות להבין אותם

הפחד הקיומי שלא לסמוך על שום דבר

טכנולוגיה זו, יחד עם כוח גרעיני, ננוטכנולוגיה, הדפסת תלת מימד ו- CRISPR, מרתקת ומפחידה בו זמנית. אחרי הכל, כבר היו מקרים בחדשות שאנשים שונו על ידי שיבוטים קוליים. בשנת 2019, חברה בבריטניה טענה שזה היה שולל על ידי זיוף עמוק שמע שיחת טלפון לחיוב כסף לפושעים.

אתה גם לא צריך להגיע רחוק כדי למצוא זיופי שמע משכנעים באופן מפתיע. ערוץ יוטיוב סינתזה ווקאלית מציג אנשים ידועים שאומרים דברים שמעולם לא אמרו, כמו ג'ורג 'וו. בוש קורא את "In Da Club" מאת 50 סנט . זה במקום.

במקום אחר ב- YouTube, אתה יכול לשמוע להקת נשיאים לשעבר, כולל אובמה, קלינטון ורייגן, מתדפקים על NWA . המוסיקה וצלילי הרקע עוזרים להסוות חלק מהתקלות הרובוטית הברורה, אך גם במצב לא מושלם זה, הפוטנציאל ברור.

התנסנו בכלים שהופיעו דומה ל- AI ו תיאור ויצר שיבוט קול. Descript משתמש במנוע שיבוט קולי שנקרא במקור Lyrebird והיה מרשים במיוחד. היינו המומים מהאיכות. לשמוע את הקול שלך אומר דברים שאתה יודע שמעולם לא אמרת זה מפריע.

בהחלט יש איכות רובוטית לנאום, אבל בהאזנה סתמית, לרוב האנשים לא תהיה שום סיבה לחשוב שזה מזויף.

קיווינו אפילו יותר לזכות AI. זה נותן לך את הכלים ליצור שיחה עם מספר קולות ולשנות את האקספרסיביות, הרגש והקצב של הדיאלוג. עם זאת, לא חשבנו שהמודל הקולי תפס את התכונות החיוניות של הקול בו השתמשנו. למעשה, זה לא היה סביר להטעות מישהו.

נציג AI דומה אמר לנו כי "רוב האנשים מתפוצצים מהתוצאות אם הם עושים זאת נכון." בנינו מודל קול פעמיים עם תוצאות דומות. לכן, כנראה, לא תמיד קל ליצור שיבוט קול שבו אתה יכול להשתמש כדי למשוך שוד דיגיטלי.

למרות זאת, מייסד לירבירד (שהוא כעת חלק מ- Descript), קונדן קומאר, מרגיש שכבר עברנו את הסף הזה.

"באחוז קטן מהמקרים הוא כבר שם," אמר קומאר. "אם אני משתמש באודיו סינתטי כדי לשנות כמה מילים בנאום, זה כבר כל כך טוב שיהיה לך קשה לדעת מה השתנה."

אנו יכולים גם להניח שטכנולוגיה זו רק תשתפר עם הזמן. מערכות יצטרכו פחות אודיו כדי ליצור מודל, ומעבדים מהירים יותר יוכלו לבנות את המודל בזמן אמת. AI חכם יותר ילמד כיצד להוסיף קצב משכנע יותר כמו אנושי ודגש על דיבור מבלי שיהיה לך דוגמה לעבוד ממנה.

מה שאומר שאנחנו עשויים להתקרב לזמינות הנרחבת של שיבוט קולי ללא מאמץ.

האתיקה של תיבת פנדורה

נראה כי מרבית החברות העובדות במרחב זה מוכנות לטפל בטכנולוגיה בצורה אחראית ובטוחה. דומה ל- AI, למשל מדור "אתיקה" שלם באתר האינטרנט שלו , והקטע הבא מעודד:

"אנו עובדים עם חברות בתהליך קפדני בכדי לוודא שהקול שהם משבטים יהיה שמיש על ידם ובעל הסכמות מתאימות עם שחקני קול."

כמו כן, קומאר אמר כי לירבירד מודאג משימוש לרעה מההתחלה. זו הסיבה שכעת, כחלק מ- Descript, זה רק מאפשר לאנשים לשכפל את הקול שלהם. לאמיתו של דבר, הן הדומה והן התיאור דורשים שאנשים יתעדו את הדגימות שלהם בשידור חי בכדי למנוע שיבוט קולי שאינו קונצנזואלי.

זה משמח כי השחקנים המסחריים הגדולים הטילו כמה הנחיות אתיות. עם זאת, חשוב לזכור שחברות אלה אינן שומרות סף של טכנולוגיה זו. ישנם מספר כלי קוד פתוח שכבר בטבע, ואין כללים לגביהם. לדברי הנרי אג'דר, ראש מודיעין האיומים ב Deeptrace , אתה גם לא צריך ידע קידוד מתקדם בכדי להשתמש בו לרעה.

"הרבה מההתקדמות במרחב הגיעה דרך עבודה משותפת במקומות כמו GitHub, תוך שימוש ביישומי קוד פתוח של עבודות אקדמיות שפורסמו בעבר", אמר אג'ידר. "זה יכול לשמש את כל מי שיש לו בקיאות מתונה בקידוד."

מקצוענים ביטחוניים ראו את כל זה בעבר

עבריינים ניסו לגנוב כסף טלפונית הרבה לפני ששיבוט קולי היה אפשרי, ומומחי אבטחה תמיד היו בכוננות כדי לאתר ולמנוע זאת. חברת אבטחה טיפת נשימה מנסה לעצור את הונאת הבנקים על ידי אימות אם המתקשר הוא מי שהוא טוען שהוא מהאודיו. רק בשנת 2019, פינדרופ טוען כי ניתח 1.2 מיליארד אינטראקציות קוליות ומנע כ -470 מיליון דולר בניסיונות הונאה.

לפני שיבוט קולי, רמאים ניסו מספר טכניקות אחרות. הכי פשוט היה פשוט להתקשר ממקום אחר עם מידע אישי אודות הסימן.

"החתימה האקוסטית שלנו מאפשרת לנו לקבוע כי שיחה אכן מגיעה מטלפון סקייפ בניגריה בגלל מאפייני הצליל", אמר מנכ"ל פינדרופ, ויג'יי באלאסוברמנייאן. "אז נוכל להשוות את הידיעה שהלקוח משתמש בטלפון AT&T באטלנטה."

חלק מהפושעים עשו גם קריירה משימוש בצלילי רקע כדי להשליך נציגי בנקים.

"יש רמאי שקראנו לו צ'יקן מן שתמיד היו תרנגולים שהיו ברקע," אמר בלסוברמנייאן. "ויש גברת אחת שהשתמשה בתינוק שבוכה ברקע כדי בעצם לשכנע את סוכני המוקד הטלפוני, ש'היי, אני עוברת תקופה קשה 'כדי לקבל אהדה."

ואז יש הפושעים הגברים שעוקבים אחר חשבונות בנק נשים.

"הם משתמשים בטכנולוגיה כדי להגדיל את תדירות הקול שלהם, כדי להישמע נשית יותר", הסביר בלסוברמנייאן. אלה יכולים להצליח, אך "מדי פעם התוכנה מפשלת והם נשמעים כמו אלווין והצ'יפמאנקס."

כמובן, שיבוט קול הוא רק ההתפתחות האחרונה במלחמה ההולכת ומתגברת. חברות אבטחה כבר תפסו רמאים המשתמשים באודיו סינתטי לפחות במתקפת דייגים אחת.

"עם היעד הנכון, התשלום יכול להיות מסיבי," אמר בלסוברמנייאן. "לכן, זה הגיוני להקדיש את הזמן ליצירת קול מסונתז של האדם הנכון."

האם מישהו יכול לדעת אם קול מזויף?

בכל הנוגע לזהות אם קול זייף, יש חדשות טובות וגם רעות. הרע הוא ששיבוטים קוליים משתפרים מדי יום. מערכות למידה עמוקה הופכות חכמות יותר ומשמיעות יותר קולות אותנטיים שדורשים פחות אודיו כדי ליצור.

כפי שניתן לדעת מקליפ זה של הנשיא אובמה אמר ל- MC רן לנקוט בעמדה , הגענו כבר לנקודה בה מודל קול אמינות ובנוי בקפידה יכול להישמע די משכנע לאוזן האנושית.

ככל שקליפ קול ארוך יותר, כך גדל הסיכוי שתבחין שיש משהו לא בסדר. עם זאת, עבור קליפים קצרים יותר, ייתכן שלא תבחין שהוא סינטטי - במיוחד אם אין לך סיבה להטיל ספק בלגיטימיות שלו.

ככל שאיכות הצליל ברורה יותר, כך קל יותר להבחין בסימנים של זיוף עמוק באודיו. אם מישהו מדבר ישירות למיקרופון באיכות סטודיו, תוכל להקשיב מקרוב. אך קשה יותר להעריך הקלטת שיחות טלפון באיכות ירודה או שיחה שנלכדה במכשיר כף יד בחניון רועש.

החדשות הטובות הן, שגם אם בני אדם מתקשים להפריד בין מזויף למזויף, למחשבים אין אותן מגבלות. למרבה המזל, כלי אימות קולי כבר קיימים. בדרום הנשימה יש מערכת שמתאימה זה לזה למערכות למידה עמוקה. הוא משתמש בשניהם כדי לגלות אם דוגמת שמע היא האדם שהוא אמור להיות. עם זאת, הוא גם בוחן אם אדם יכול אפילו להשמיע את כל הצלילים במדגם.

תלוי באיכות השמע, כל שנייה של דיבור מכילה בין 8,000-50,000 דוגמאות נתונים שניתנות לניתוח.

"הדברים שאנחנו בדרך כלל מחפשים הם אילוצים לדיבור בגלל האבולוציה האנושית", הסביר בלסוברמנייאן.

לדוגמא, לשני צלילים קוליים יש הפרדה מינימאלית אפשרית זה מזה. הסיבה לכך היא שלא ניתן לומר פיזית מהר יותר בגלל המהירות שבה השרירים בפה ובמיתרי הקול יכולים להגדיר את עצמם מחדש.

"כשאנחנו מסתכלים על אודיו מסונתז", אמר Balasubramaniyan, "לפעמים אנחנו רואים דברים ואומרים, 'זה לעולם לא יכול היה להיווצר על ידי אדם, כי האדם היחיד שהיה יכול לייצר את זה צריך להיות בעל צוואר באורך של שבעה מטרים. ”

יש גם סוג צליל שנקרא "חיכוכים". הם נוצרים כאשר אוויר עובר דרך כיווץ צר בגרונך כשאתה מבטא אותיות כמו f, s, v ו- z. פריקטיבים קשה במיוחד למערכות למידה עמוקה לשלוט מכיוון שהתוכנה מתקשה להבדיל ביניהם לבין רעש.

אז, לפחות בינתיים, תוכנת שיבוט קולי מועדת מהעובדה שבני אדם הם שקיות בשר שמזרימות אוויר דרך חורים בגופם כדי לדבר.

"אני כל הזמן מתלוצץ שזייפות עמוקות מאוד מייללות," אמר בלסוברמנייאן. הוא הסביר שקשה מאוד לאלגוריתמים להבחין בין קצוות מילים לרעש רקע בהקלטה. התוצאה היא מודלים קוליים רבים עם דיבור שמתנתק יותר מבני אדם.

"כאשר אלגוריתם רואה את זה קורה הרבה", אמר בלסוברמנייאן, "סטטיסטית, הוא הופך להיות בטוח יותר שזה האודיו שנוצר בניגוד לאנושי."

כמו ה- AI דומה להתמודד עם בעיית הזיהוי חזיתית עם Resemblyzer, כלי למידה עמוקה של קוד פתוח זמין ב- GitHub . זה יכול לזהות קולות מזויפים ולבצע אימות רמקולים.

זה לוקח עירנות

תמיד קשה לנחש מה העתיד עשוי לחכות, אבל טכנולוגיה זו כמעט בוודאות רק תשתפר. כמו כן, כל אחד יכול להיות קורבן - לא רק אנשים בעלי פרופיל גבוה, כמו נבחרי ציבור או מנכ"לים בנקאיים.

"אני חושב שאנחנו על סף פרצת השמע הראשונה שבה קולות של אנשים נגנבים", ניבא בלסוברמנייאן.

כרגע, עם זאת, הסיכון בעולם האמיתי בגלל זיופים עמוקים באודיו הוא נמוך. יש כבר כלים שנראים כמבצעים די טוב באיתור וידיאו סינטטי.

בנוסף, רוב האנשים אינם נמצאים בסיכון להתקפה. לדברי אג'ידר, השחקנים המסחריים העיקריים "עובדים על פתרונות שהותאמו ללקוחות ספציפיים, ולרובם יש הנחיות אתיות טובות למדי לגבי מי הם היו עובדים ולא יעבדו".

האיום האמיתי עומד לפנינו, בעוד אגידר המשיך והסביר:

"תיבת פנדורה תהיה אנשים שמאגדים יחד יישומי קוד פתוח של הטכנולוגיה לאפליקציות או שירותים נגישים יותר ויותר, שאינם כוללים סוג כזה של שכבת בדיקה אתית שפתרונות מסחריים עושים כרגע."

זה ככל הנראה בלתי נמנע, אך חברות האבטחה כבר מגלגלות ערכות כלים מזויפות. ובכל זאת, להישאר בטוח דורש עירנות.

"עשינו זאת באזורי ביטחון אחרים," אמר אג'דר. "הרבה ארגונים משקיעים זמן רב בניסיון להבין מהי הפגיעות הבאה של אפס יום, למשל. שמע סינתטי הוא פשוט הגבול הבא. "

קָשׁוּר: מהי זיוף עמוק, והאם עלי להיות מודאג?

תוכן כניסה . כניסה תחתונה

זיוף עמוק באודיו: מישהו יכול לדעת אם הם מזויפים?

מה זה זיוף עמוק באודיו?

המקרה המשכנע לאודיו סינטטי

איך עובד אודיו סינטטי

הפחד הקיומי שלא לסמוך על שום דבר

האתיקה של תיבת פנדורה

מקצוענים ביטחוניים ראו את כל זה בעבר

האם מישהו יכול לדעת אם קול מזויף?

זה לוקח עירנות

Audio Deepfakes: Can Anyone Tell If They’re Fake?

What Are Deepfakes?

Deepfakes: What Happens When You Can’t Trust Your Own Eyes? | NBCLX

Deepfakes, Part I Of IV: What Are Deepfakes?

Deepfakes: Can You Spot A Phony Video? | Above The Noise

Did You Know About Deepfakes And Shallow Fakes?

It’s Getting Harder To Spot A Deep Fake Video

Introduction To Deepfakes

פרטיות ואבטחה - המאמרים הפופולריים ביותר

כיצד לשנות את הסיסמה שלך ב- Chromebook

הדברים הטובים ביותר (והגרועים ביותר) בסמסונג גלקסי S8

כיצד להתאים אישית את הגדרות הפרטיות של ה- Xbox One שלך

כיצד להסתיר קבצים ולהציג קבצים מוסתרים ב- Mac OS X

כיצד לתקן הגדרות דפדפן ששונו על ידי תוכנות זדוניות או תוכניות אחרות

הנה הסיבה ש- Firefox עדיין עומד מאחורי שנים של Google Chrome

מדוע אינך צריך לבצע סריקות אנטי-וירוס ידניות (ומתי)

שמור על אותם שקשה לזכור שמספרי הכרטיסים יהיו זמינים ומאובטחים באמצעות LastPass

קטגוריות