האם הבינה המלאכותית הוזה?

חוקרים פיתחו דרך חדשה לבדוק את האמינות של מודלי שפה גדולים, כמו צ'אט GPT, בעזרת… עוד בינה מלאכותית

מודלי שפה גדולים (LLM) דוגמת צ'אט GPT, קלוד, ג'מיני ועוד, הופכים להיות כלים שימושיים יותר ויותר ולפעמים אף מחליפים את השיטות האחרות לחיפוש מידע ברשת. הבעיה היא שהתשובות שלהם לא תמיד אמינות, אבל הן מנוסחות היטב ובבטחון מלא ולכן קשה לנו להבחין בכך. במאמר חדש מציעה קבוצת חוקרים באוניברסיטת אוקספורד דרך להתמודד עם הבעיה.

מודלי שפה גדולים מאומנים על טקסט רב, שמאפשר להם לחזות בסבירות גבוהה את החלק הבא של כל משפט. רובוט קורא ספרים | איור: Vasilyev Alexandr, Shutterstock

מה הם מודלי שפה גדולים ולמה הם טועים?

כדי להבין את הבעיה ולהתקדם אל פתרון, כדאי להבין קודם מה הם מודלי שפה ואיך הם עובדים. מודלי שפה הם מודלים של למידת מכונה. מהי למידת מכונה? זו דרך לתת למחשב כמות גדולה של נתונים ופונקציית ציון מסוימת, ולתת לו ללמוד לבד איך לעבד את הנתונים כדי לקבל את הציון הטוב ביותר. בדרך כלל הציון הוא מדד שמראה עד כמה תוצאת העיבוד של המחשב רחוקה מתוצאת אמת ידועה מראש או עד כמה הוא קרוב לעמידה במשימה מסוימת, כמו קבלת ניקוד מרבי במשחק. לאחר שלב האימון והלימוד, נותנים למחשב נתונים שהוא לא מכיר, הוא משתמש באותו עיבוד שהוא למד בשלב הקודם, ואנחנו מקווים שהתוצאה שהוא יתן אכן תהיה טובה ואמיתית.

ומה לגבי מודלי שפה? אלה מודלים שאומנו על כמות גדולה של טקסטים מתוך מטרה לחזות, בהינתן טקסט מסויים, מה פיסת הטקסט הבאה. הכוונה לא למילה שלמה, המונח הטכני הוא טוקן (token), רצף תווים קצת יותר קצר ממילה ממוצעת — שצריך להופיע. ביישומים שבהם אנחנו מספקים למודל טקסט התחלתי, הבקשה/שאלה שלנו, המכונה פרומט (prompt)- והם משלימים אותו לפי האימון שלהם. נדגיש כי המודלים לא אומנו לתת תשובה נכונה, אלא את פיסת הטקסט הבאה המסתברת ביותר. בשלב הבא הם מתייחסים לכל הטקסט כקלט, כולל הטוקן החדש, חוזים את הטוקן הבא, וחוזר חלילה עד שהם חוזים טוקן שמסמן עצירה. כך נוצרים משפטים, פסקאות ואף חיבורים שלמים. לעיתים התשובות שמודלים כאלה נותנים לנו שגויות מאוד, ולכן מכנים אותן "הזיות" (hallucinations).

במאמר החוקרים מפרידים בין שני סוגי הזיות. הראשון – שגיאה מערכתית – נובעת מכך שהמודל אומן על נתונים המכילים שגיאות. שגיאה כזו תחזור על עצמה, בהסתברות גבוהה, בכל פעם שנשאל את אותה שאלה. הסוג השני הוא הזיות שנובעות מכך שהנתונים עליהם אומן המודל לא מספקים די מידע עבור הפרומפט הזה. המודלים מאומנים להשלים טקסטים באמצעות הטוקן המסתבר ביותר, אבל התהליך כולל מידה מסוימת של אקראיות, שבדרך כלל יוצרת הבדלים בניסוח אבל לא בתוכן. אם המודל נשאל שאלה בלי שאומן על מידע רלוונטי, ההסתברויות להשלמות שונות עשויות להיות קרובות מאוד ואז הגדלים האקראיים יוצרים הבדלי מהות ולא רק ניסוח. אבל המחשב יספק לנו תשובה, גם אם אינו יודע אותה, וכמובן אם אינו יודע שאינו יודע. במקרה כזה, אם ניתן את אותו הפרומפט שוב ושוב, נקבל בכל פעם תגובה אחרת. הזיות כאלה מכונות לעיתים קונפבולציות (confabulation), על שם בעיה נוירולוגית המתאפיינת בהמצאת זכרונות כוזבים שלא מתוך כוונה לשקר.

תשובות נכונות או הזיות מוחלטות? לא תמיד אפשר לדעת עם מודלי שפה גדולים. אשה המומה מהתשובות שהיא מקבלת בטלפון | צילום: PeopleImages.com - Yuri A, Shutterstock

אז איך עולים על הטעות?

המחקר החדש מציע דרך לזהות טעויות מהסוג השני, בעזרת הטבע האקראי של הטעות. אם נזין למודל השפה את אותו הפרומפט כמה פעמים ונקבל תשובות שונות מאוד לא רק מבחינת בחירת המילים, אלא במשמעות עצמה. במקרה כזה נוכל להניח בוודאות גבוהה שמדובר בקונפבולציה.

אבל זה לא פשוט כמו שזה נשמע. המכשול העיקרי הוא שמחשב, לא אדם, צריך לעשות את התהליך הזה והמחשב צריך להבין מתי המשמעות של התשובות דומה או שונה, לא הטקסט עצמו. זו משימה קלה לאדם אך מורכבת מאוד למחשב. קושי נוסף הוא שתשובה של מודל שפה יכולה להיות ארוכה ולכלול עובדות רבות, חלקן נכונות וחלקן קונפבולציות. בדיקה טובה תוכל להתייחס לא רק לתשובה כולה, אלא לכל עובדה בתוכה בנפרד. כדי להתמודד עם הקשיים האלה נשתמש, איך לא, בבינה מלאכותית.

החוקרים משתמשים במודל שפה נוסף כדי לבדוק את המודל הראשון. המודל הבודק שואל את המודל הנבחן את אותה שאלה כמה פעמים ובוחן עד כמה המשמעות של התשובות דומה. האלגוריתם מקבץ את התשובות במקבצים בעלי משמעות זהה, כאשר שתי תשובות תהיינה באותו מקבץ אם כל אחת מהן נובעת מהאחרת. יש כיום מודלים שמאומנים למשימות מסוג זה. באמצעות התהליך הזה מחשבים גודל שנקרא אנטרופיה סמנטית, מדד מספרי שמציין את מידת ההתפלגות במשמעויות של התשובות. ככל שההתפלגות רחבה יותר, גדול יותר הסיכוי שנתקלנו בהזיה.

עבור תשובה ארוכה יותר, המודל הבודק ינסה לבודד מתוכה עובדות ולבחון כל אחת בפני עצמה בעזרת שאלה ספציפית על העובדה הזו, אולי בווריאציות שונות. בדוגמה מתוך המאמר, המודל הנבחן נשאל מי הוא פרדי פרית' (Frith), אופנוען מרוצים בריטי ידוע מתחילת המאה העשרים. המודל הנבחן ענה בין השאר שהוא נולד בשנת 1911. המודל הבודק מתייחס לזה כאל עובדה ושואל את הנבחן שלוש פעמים באיזו שנה נולד פרדי פרית', ומקבל את התשובה 1909. אחר כך המודל הבודק שואל שלוש פעמי מתי נולד פרדי פרית' ומקבל את התשובות 30 במאי 1909, 29 במרץ 1909 ו-26 באוקטובר 1911. בהסתמך על השונות בין כל התשובות האלה, המודל הבודק מסווג את התשובה המקורית כהזיה ככל הנראה, ואת השאלה ככזו שהמודל לא יכול כפי הנראה לענות עליה.

החוקרים בחנו את האלגוריתם הבודק שלהם עם כמה מודלי שפה ובכמה תחומי ידע, והראו כי הוא עולה על בדיקות מהימנות אחרות הקיימות כיום, לעיתים בפערים של עשרות אחוזים. אז מי ישמור על מודלי השפה? כנראה שמודלי שפה אחרים. ומי ישמור על השומרים? מי יודע.