טכנולוגיות ש"משבטות" קול אנושי, לרבות קולות ספציפיים של בני משפחה או של דמויות ציבוריות, מאפשרות לייצר דיבור מלאכותי בקול לפי בחירתנו. הטכנולוגיה הזו משמעה הזדמנויות חדשות – וגם סכנות
נניח שקיבלתם שיחת טלפון ממספר לא מזוהה. בצד השני נשמע קולו המבוהל של אדם קרוב, שנמצא במצב חירום ומבקש סיוע כספי. האם תהססו לפני שתושיטו יד לעזרה? ומה אם יוודע לכם שהונאות באמצעות חיקוי קול מלאכותי מתרבות בשנים האחרונות, וכבר דווחו מקרים של זיוף קול של בני משפחה, של אנשי אכיפת החוק או של מנהלי כספים סמכותיים? לא מדובר ברמאים שהם במקרה גם חקיינים מעולים, אלא במה שמכונה "שיבוט קול" (Voice Cloning): שימוש בדגימת קול של אדם על מנת ליצור באמצעים טכנולוגיים העתק קולי דומה במידה מטעה, וכך להפיק כל תסריט שֵׁמַע שיעלה על הדעת.
חקיין מלומד
אחד מהפיתוחים הטכנולוגיים שמאפשרים שיבוט קול שייך לחברת מיקרוסופט. החברה פיתחה כלי חדשני בשם "ולי" (VALL-E), שמאפשר "לשבט" את הקול, וליצור קול דומה בהתבסס על דגימת דיבור באורך שלוש שניות בלבד. התפתחותם של כלים מהסוג הזה מואצת בשנים האחרונות; הם קשורים גם להמרת טקסט כתוב לקול מלאכותי, ויוצרים קול עם "אופי", שהוא חיקוי אמין ביותר לא רק של הקול האנושי ככלל, אלא גם של הקול הספציפי של אדם או אנשים מסוימים, בפרט. להמרת טקסט כתוב לשֵׁמַע עשויים להיות יישומים רבים, ביניהם נגישות לאנשים עיוורים וכבדי ראייה ופיתוח תקשורת פשוטה וטבעית יותר בין מכונות לבני אדם, אבל שיבוט של קול מסוים כבר מיושם בכיוונים שמותחים את הגבולות המוסריים.
בספטמבר האחרון הלך לעולמו ג'יימס ארל ג'ונס, השחקן שגילם בקולו את הנבל בסדרת סרטי "מלחמת הכוכבים", דארת' ווידר – אך בזאת לא תמה המעורבות שלו ביצירת הדמות. שנתיים לפני מותו, ג'ונס אישר לחברת דיסני להשתמש בהקלטות עבר שלו כדי להפיק באופן מלאכותי קטעי שמע חדשים בקול "משובט" שיישמע כמו קולו, גם לאחר מותו, לשימוש בסרטים עתידיים. הזנת מערכות שיוצרות דיבור מלאכותי בקולו של אדם מסוים, לצורך אימון, מאפשרת ליצור קטעי שמע אמינים ביותר בהתאמה אישית. אלא שגם הצד האפל של הטכנולוגיה לא איחר להתגלות, בדמות הונאות ושימושים לרעה בקול משובט של אישיות מוכרת.
שנתיים לפני מותו, ג'ונס אישר לחברת דיסני להשתמש בהקלטות עבר שלו כדי להפיק באופן מלאכותי קטעי שמע חדשים. ג'ונס והדמות המפורסמת ביותר שדיברה בקולו, דארת ויידר | Shutterstock, Stefano Buttafoco, ויקימדיה, John Mathew Smith 2001 / CC BY-SA 2.0
כל הקולות שסביבנו
מערכות שמקבלות שפע דוגמאות קוליות לצורך למידה – כ-60 אלף שעות שמע מפי כ-7,000 דוברים שונים, במקרה של "ולי" של מייקרוסופט – מאפיינות את הקשרים שבין מילים כתובות לבין מנעד קולי (טווח הצלילים שמפיק אדם או כלי נגינה). המילים הכתובות מפורקות לפונמות – הצלילים הבסיסיים שמרכיבים אותן, וקובץ השמע מקודד לערכים מספריים שמייצגים את מאפייני הקול. אפיון הקשרים שבין הפונמות לשמע שהן יוצרות מאפשר בהמשך למערכת הלומדת, שמקבלת קול חדש וטקסט מבוקש, לייצר את הטקסט בקול הזה.
השונוּת והמגוון שגלומים במאגר נתונים גדול מאפשרים לאפיין טווח קולות רחב, דיבור בקצב משתנה וגוונים דקים של הבעות רגש. אותו משפט יכול להישמע בטון כועס, משועשע, לחוץ ונואש. מעבר לקול הדיבור, גם הסביבה האקוסטית שמדברים בה ניתנת לחיקוי – הלא הצלילים שאנחנו שומעים דרך הטלפון, למשל, מושפעים לא פעם גם ממאפיינים של המכשיר שממנו מתקשרים או של החדר שממנו משוחחים. הדקויות האלה מאפשרות ליצור שיחה מלאכותית אמינה במיוחד, שיכולה לטשטש את הספקות המידיים.
כיוון שדרושה דגימת קול קצרה כל כך לצורך "שיבוט", אפשר למעשה לזייף קובצי שמע בכל הקולות שהוקלטו והועלו לרשת האינטרנט – עקרונית, גם בלי שהדוברים יהיו מודעים בכלל להקלטה. מעבר לכך, גם אם הקול לא זמין לשימוש חופשי ברשת, בעלי כוונות זדון יכולים להתקשר למכשיר טלפון ולהקליט את השיחה, מבלי שאפילו יידרשו לדבר בעצמם. רק השאלות מהצד השני של הקו, כמו "הלו? מי זה? מי מתקשר? אני לא שומע כלום", כבר מספקות דגימת קול ארוכה דיה לצורך הפקה מלאכותית.
גם אם הקול לא זמין לשימוש חופשי ברשת, בעלי כוונות זדון יכולים להתקשר למכשיר טלפון ולהקליט את השיחה. הקלטה של אדם בעזרת טלפון | shutterstock, Tero Vesalainen
הבטחה ואיום גם יחד
מלבד הונאות כלכליות, שמזכירות "שיחת מתיחה" משודרגת, נשקפת סכנה גם למערכות שמשתמשות בזיהוי קולי כאמצעי גישה לחשבון, דוגמת בנקים מסוימים. המודעות לסכנות הניעה את חברת OpenAI, המפתחת של ChatGPT, להשתהות לפני שתפיץ לקהל הרחב את יוצר הקול שלה. הכלי הזה מתבסס על דגימה קולית באורך 16 שניות, ולפי פרסומי החברה, יכול לייצר באמצעותה משפטים בשלל שפות – גם אם הדובר כלל לא שולט בהן. הטכנולוגיה הזו עשויה לקרב בין אנשים מרחבי העולם גם אם אין להם, פשוטו כמשמעו, שפה משותפת, ולאפשר לנו להתבטא בחופשיות גם במדינות זרות, כשאנחנו לא דוברים את השפה המקומית. עם זאת, נכון לעכשיו נראה שהסכנות עולות על היתרונות.
בפרספקטיבה מערכתית יותר, רגולציה והגבלה של מערכות כאלה יעזרו לבלום פיתוחים שטרם פותחה עבורם מערכת הגנה טובה מספיק. במקביל, מפותחים כלים שמטרתם לבדוק את האותנטיות של קטעי שמע, ולחפש רמזים לכך שנוצרו באופן מלאכותי או הוקלטו מראש. עד אז, מודעות וזהירות יכולות בפני עצמן לשמש מנגנון הגנה חשוב. כדאי להטיל ספק בשיחות ממספרים לא מזוהים, ושהכוח יהיה עמכם.