מחקר מצא שמחוללי טקסט משופרים מייצרים יותר טעויות, ושבני האדם לא תמיד תופסים אותם על חם

בתחילת הדרך, כשמחוללי טקסט באמצעות בינה מלאכותית רק נכנסו לחיינו, לשוחח עם בוט שכזה היה בגדר שעשוע. בהמשך, רבים מאיתנו אימצו את מחוללי השפה הגדולים – Chat-GPT ודומיו – ככלי עזר לגיטימיים לשלל מטרות מבוססות-טקסט: תלמידות נעזרות בהם כדי להכין שיעורי בית, רופאים נעזרים בהם כשהם עונים על פניות מהמטופלים, ויש שאפילו משתמשים בהם ככתף תומכת או מבקשים מהם עצה מקצועית. המחוללים מייצרים טקסט שמדמה שיחה אנושית ונראה מאוד אמין, בין היתר בזכות ניסוחים החלטיים ומלאי ביטחון עצמי. הבינה המלאכותית מאיימת להחליף את מנועי החיפוש בתור "מכשיר הניווט" שלנו בים המידע, ומשתמשים רבים כבר התרגלו לסמוך על יישומיה. יחסי האנושות עם המכונה, שהחלו רוויי חשדנות וספקנות, הופכים בהדרגה ליחסי אמון, שאולי יהיו בקרוב גם לתלות של ממש. זאת למרות הנטייה של מחוללי הטקסט לייצר לעיתים תוכן מאוד לא יציב ומשובש, הכולל טעויות וטענות לא נכונות המצויינות כעובדות - תוכן שמכונה "הזיות"


יחסי האנושות עם המכונה, שהחלו רוויי חשדנות וספקנות, הופכים בהדרגה ליחסי אמון, שאולי יהיו בקרוב גם לתלות של ממש. אדם עובד עם מחולל טקסט | Shutterstock, Prostock-studio 

פחות הסתייגויות, יותר טעויות

מחקר חדש, של חוקרים מהאוניברסיטה הפוליטכנית בוולנסיה שבספרד, השווה בין גרסאות מוקדמות של מודלי שפה גדולים לגרסאות משופרות ומתקדמות יותר, ותוצאותיו מתארות מגמה מדאיגה. החוקרים מצאו שגרסאות מוקדמות של מודלי השפה הגדולים, שעליהם מבוססים מחוללי הטקסט, הרבו להתנסח בהסתייגות ונמנעו מטעויות. לעומת זאת, מודלים משודרגים נטו להיות יותר החלטיים – וסיפקו יותר תשובות שגויות. 

המחקר מצא שככל שמודלי השפה היו מוגדלים ומונחים יותר – כלומר, ככל שבתהליכי האימון שלהם שולבו יותר תהליכי ביניים שמטרתם לשפר את התוצאה, כמו משוב אנושי – כך הם הצליחו לייצר יותר תשובות נכונות לשאלות קלות, אם כי חלק מתשובותיהם עדיין היו שגויות, אפילו לשאלות הקלות ביותר. כשניתנו להם שאלות קשות יותר נראה שהמצב הרבה יותר עגום, כיוון שבמקום שבו המודלים הבסיסיים נטו להסתייג ולהתחמק מתשובה, או אף סירבו בפירוש לענות, המודלים המשוכללים סיפקו לרוב תשובות שגויות. בנוסף, המחקר מצא שבמקרים רבים משתמשים אנושיים לא הצליחו להבחין בטעויות של המודל, ולא סיווגו את התשובות השגויות ככאלה.

המחקר עקב אחרי ההתפתחות של שלוש קבוצות מודלי שפה גדולים: מודלי GPT, שהם הבסיס לבוט Chat-GPT, מודלים בשם למה (Llama) של חברת מטא (לשעבר פייסבוק), וקבוצת מודלים בשם בלום (BLOOM), שהיא פרי יוזמת שיתוף פעולה בין חוקרים מרחבי העולם. עבור מודלים משלוש הקבוצות, המחקר השווה בין גרסאות שונות שפותחו עם הזמן, מודלים מוקדמים ומספר מודלים שעברו התאמות ושכלולים במטרה לשפר את ביצועי המחוללים. השדרוגים הללו נעשים במגוון דרכים, כמו הגדלת כמות המשתנים שהמודל יכול ללמוד בתהליך האימון שלו, הגדלת כמות המידע שנכלל באימון, ועירוב שיטות של משוב אנושי בתהליך הלמידה.


מודלים משודרגים נטו להיות יותר החלטיים – וסיפקו יותר תשובות שגויות. רובוט קורא את סעיפי הרגולציה הכללית להגנה על מידע של האיחוד האירופי, והוזה. התמונה נוצרה באמצעות בינה מלאכותית | Shutterstock AI Generator

נכון או לא נכון, חרטט בביטחון

החוקרים שאלו את המודלים שאלות בחמישה תחומי ידע ומיומנויות שונים: חשבון פשוט, פענוח אנגרמות – מילים שאותיותיהן עורבבו, גיאוגרפיה, מדע ותרגילי הבנת הנקרא. בכל נושא הופיעו שאלות במגוון רמות קושי, מקלות ועד קשות. לדוגמה, בשאלת אנגרמות קלה יידרש פענוח מילה בת שלוש אותיות, כמו "הפק" (קפה) ושאלת אנגרמות קשה תצריך פענוח של מילה ארוכה יותר, כמו "הסולמריאדן" (אנדרלמוסיה). החוקרים נתנו גם לבני אדם לענות לשאלות דומות לאלה שהציבו למודלים, והגדירו שאלה קלה כשאלה שרוב האנשים יצליחו לענות עליה, ושאלה קשה כשאלה שרוב האנשים לא יצליחו לענות עליה. 

החוקרים חילקו את התשובות של המודלים לשלושה סוגים: תשובות נכונות, תשובות שגויות והימנעויות מתשובה או הסתייגויות. נמצא שמודלים מוקדמים היו מסויגים, התחמקו ונטו להימנע ממענה ברוב השאלות שנשאלו, קלות כקשות. ברוב המקרים התקבלו הסתייגויות והימנעויות מתשובה, לצד אחוז קטן של תשובות נכונות ושגיאות רבות. ככל שהמודלים התפתחו והשתכללו, כך הופיעו יותר תשובות נכונות לשאלות הקלות, אם כי אחוז הטעויות עדיין היה בלתי מבוטל. לשאלות הקשות ניתנו בעיקר תשובות לא נכונות, במקום ההסתייגויות של המודלים המוקדמים. כלומר, עם ההתקדמות של המודלים אכן חל בהם שיפור, מבחינת כמות התשובות הנכונות שסופקו, אבל היו אלה בעיקר תשובות לשאלות קלות, שלא מציבות אתגר של ממש לבני אדם; לעומת זאת, לשאלות הקשות המודלים נטו לספק בעיקר תשובות שגויות, במקום להימנע ממענה על השאלה. המגמה הזו החריפה במודלים משודרגים. בשאלות בקטגוריית המדעים, החוקרים הוסיפו והראו ששכיחות התשובות הנכונות לשאלות קשות הייתה דומה לזו של ניחוש אקראי. 

החוקרים ציינו במאמר כי למעשה, אף אחד מטווחי הקושי של השאלות אינו בטוח: המודלים עדיין טועים גם בשאלות הקלות ביותר, ובמקרים של שאלות קשות, הטעויות רק הולכות והופכות חמורות יותר ככל שהמודלים משתכללים. הכותבים מודאגים לגבי הפער בין ציפיותיהם של בני האדם מהמודלים ליכולות האמיתיות שלהם. "המודלים יכולים לפתור משימות מורכבות מסוימות באופן שדומה ליכולות האנושיות, אך בו זמנית להיכשל במטלות פשוטות באותו תחום. למשל, הם יכולים לפתור שאלות מתמטיות ברמת דוקטורט, ובכל זאת לטעות בחיבור פשוט," ציין חוזה הרננדס אורלו (Hernández Orallo), מכותבי המאמר.


החוקרים בדקו אם ביקורתיות אנושית יכולה לפצות על הטעויות של המודלים. ציור של אנשים בוחנים עם פנס וזכוכית מגדלת את מה שאומר הרובוט | Shutterstock, mongmong_Studio

המגן האנושי נסדק

החוקרים בדקו אם ביקורתיות אנושית יכולה לפצות על הטעויות של המודלים. הם הציגו לנבדקים אנושיים את השאלות שהוצגו למודלים לצד התשובות שהפיקו, וביקשו מהם להעריך אם התשובה של המודל נכונה, שגויה, נמנעת או שהם לא יודעים. החוקרים התמקדו בעיקר במה שהם הגדירו אזור מסוכן: תשובות שגויות מצד המודלים, שבני האדם לא הצליחו לזהות שהן שגויות. 

בנושאים כמו פעולות חיבור ואנגרמות, ברוב המקרים בני אדם זיהו את הטעויות של המודלים בכל רמות הקושי, אולם היו אלה תשובות שתהליך הבדיקה שלהן ישיר. קל, למשל, לוודא שהמילה "הסולמריאדן" היא לא אנגרמה של המילה "אנציקלופדיה". בשאלות ממוקדות-ידע על נושאים כמו גיאוגרפיה ומדע, לעומת זאת, ברוב המקרים בני האדם לא הצליחו לקבוע שהתשובות של המודל היו שגויות. לדברי החוקרים, התוצאות מעידות שביקורת אנושית לא יכולה לחפות על הטעויות המתרבות של מודלי השפה, ומלמדות שיש אמון יתר בהם.

שימו לב והישארו ערניים

המודלים המשופרים מצליחים לענות נכון על יותר שאלות, אבל גם נוטים לייצר יותר תשובות שגויות על חשבון תשובות מסתייגות, בעיקר לשאלות קשות. עם זאת, המחקר מספק גם מקור לאופטימיות: לפי התוצאות שלו, פיתוח המודלים כן משפר את מדד היציבות שלהם. כלומר, עם התפתחותם, המודלים מפיקים תשובות יותר עקביות – השכיחות של ריבוי תשובות שונות לאותה השאלה יורדת. 

שיחה בשפה יומיומית עם בוט היא נוחה ואינטואיטיבית, אבל אל לנו לתת לתכונות האלה להטעות אותנו. האינטרנט היה מלא במידע כוזב עוד לפני שפרצו לחיינו מודלי השפה הגדולים; יהיה עלינו להיעזר בחשיבה ביקורתית, להטיל ספק ולשאול שאלות כדי לא להניח לבינה המלאכותית ללבות את המדורה הזאת. 

0 תגובות