כמעט שנה לאחר שהסעירה את העולם עם מערכת חיזוי המבנה התלת-ממדי של חלבונים על פי הרצף שלהם, חברת DeepMind מאפשרת גישה ציבורית למערכת שפיתחה במקביל למערכת דומה שפותחה באקדמיה
חלבונים הם מעין מכונות זעירות שאחראיות על ביצוע רוב התפקידים בתא החי ובאורגניזם השלם. כדי שיבצעו את תפקידם כראוי, רוב החלבונים צריכים להתארגן במבנה תלת מימדי מוגדר. אולם, פענוח המבנה התלת מימדי של חלבונים הוא משימה מורכבת במיוחד, ופעמים רבות דרושים חודשים רבים של עבודה והשקעה כספית גדולה כדי לפענח מבנה של חלבון יחיד, לעתים ללא הצלחה. לכן, למרות שמידע מבני על חלבונים יכול לאפשר הבנה מעמיקה לגבי אופן הפעולה של חלבון, או השיבוש במנגנון הפעילות של חלבון מסויים במחלה, המבנה של רוב החלבונים המוכרים כיום עדיין אינו ידוע.
"המשחק השתנה"
בסוף נובמבר 2020 בתחרות הדו-שנתית לחיזוי מבני חלבונים, חברה-בת של גוגל בשם DeepMind הציגה כלי חישובי המבוסס על בינה מלאכותית בשם "קיפול אלפא 2" (AlphaFold2) שמאפשר לחזות את המבנה התלת-ממדי של חלבון מסוים ברמת דיוק גבוהה ביותר, על פי רצף חומצות האמינו המרכיבות אותו. הביצועים של קיפול אלפא 2 היו הרבה יותר טובים מכל שאר המשתתפים בתחרות, וגם הרבה יותר טובים מהביצועים בתחרויות קודמות. הרשתות החברתיות רעשו וגעשו, כלי תקשורת מובילים כמו BBC והניו יורק טיימס דיווחו בכותרותיהם ש"המשחק השתנה" ו"אחת הבעיות הגדולות בביולוגיה באה על פתרונה במידה רבה" וגם כתבי עת מדעיים מובילים כמו Science ו-Nature דיווחו על ההישג בהתלהבות רבה. אבל, מלבד הרצאה בת חצי שעה מפי נציגים של קבוצת "קיפול אלפא 2" בתחרות, אף אחד לא ידע בדיוק איך הם עשו את זה, וכיצד הצליחו לנבא בהצלחה יוצאת מן הכלל את המבנה התלת-ממדי של חלבונים, בהסתמך על רצף חומצות האמינו שלהם.
לכל חלבון יש מבנה תלת-ממדי ייחודי, וקשה מאוד לחזות אותו רק על פי רצף חומצות האמינו. הדמיה של מבנה החלבון בוטירילכולין אסתראז | מקור: ibreakstock, Shutterstock
הקלפים נחשפים
לאחרונה פרסמה חברת DeepMind מאמר בכתב העת Nature המפרט איך בדיוק בנויה מערכת הבינה המלאכותית שלהם, כולל אפשרות להוריד את התוכנה למחשב ולנסות אותה. ממש באותו יום, התפרסם בכתב העת Science מאמר מקביל, ובו חוקרים מקבוצת המחקר של דייויד בייקר (Baker) מאוניברסיטת וושינגטון בסיאטל ואחרים מקהילת "רוזטה" (כלי ותיק לניבוי מבני חלבונים הנמצא בשימוש נרחב בקהילה המדעית ) תיארו מודל שהם פתחו שמבצע אותה משימה בדיוק, בשם RoseTTAfold כולל אפשרות לחזות מבנה חלבונים בעזרת אתר ייעודי, ללא צורך בהורדת התוכנה למחשב. באופן מעניין, חודש לפני שקבוצת המחקר של בייקר פרסמה את המאמר ב-Science, הם העלו את המאמר שלהם לאתר פרסום מקדים, וגם במסגרתו השרת שלהם כבר היה נגיש לציבור. בחודש שחלף בין הפרסום המקדים לפרסום הרשמי, השתמשו חוקרים בשרת של קבוצת בייקר לחיזוי המבנים של יותר מ-4,500 חלבונים. השתלשלות האירועים הזאת גרמה לכמה מדענים לשער שהפרסום המקדים של רוזטה דחף גם את אנשי DeepMind לשתף עם הציבור את התוכנה שזכתה בתחרות. אולם, עדות ישירה של אחד השופטים של המאמר של DeepMind מסבירה שהכוונה היתה לפרסם את התוכנה הרבה לפני שהמאמר של רוזטה יצא בפרסום מקדים.
מבנים של 4,500 חלבונים בחודש: דף הבית של מערכת RoseTTAfold והאתר הנגיש לציבור | מקור: RoseTTAfold
קצת פרטים
כל חלבון מורכב מרצף ייחודי של חומצות אמינו המחוברות זו לזו כמו חרוזים בשרשרת. בסך הכל, עשרים חומצות אמינו מרכיבות את כל מיליארדי החלבונים שיש בטבע. לאחר ייצור החלבון, השרשרת הזו מתקפלת למבנה תלת-ממדי פעיל, שבו מתחברים זה לזה אזורים מרוחקים ברצף, כדי ליצור מבנים מסוימים או אתרים פעילים. האתגר בחיזוי מבנה החלבון הוא לנבא איך הוא יתקפל ואיך ייראה המבנה הפעיל, רק על סמך רצף חומצות האמינו, שנקבע על פי הרצף הגנטי המכתיב את ייצור החלבון. האלגוריתם של קיפול אלפא, מבוסס על סוג מסויים של בינה מלאכותית שנקרא "רשתות נוירונים" והוא עובד כך: בשלב ראשון, לוקחים את רצף חומצות האמינו של החלבון בו אנו מעוניינים, ומחפשים חלבונים בעלי רצף דומה של חומצות אמינו. לפי רמת הדמיון ברצף, אפשר להגדיר עד כמה החלבונים קרובים אבולוציוניות.
בשלב זה, האלגוריתם מתפצל לשני מסלולים. המסלול הראשון מתמקד בהשוואה בין הרצף של חלבון המטרה לבין הרצפים הדומים לו, ומסתמך על ייצוג חד מימדי של החלבון (רצף בלבד). המסלול השני לוקח את המידע שמתקבל מהשוואת הרצפים צעד אחד קדימה. אם יש צירופים של חומצות אמינו שנשמרו לאורך האבולוציה, או שהשתנו באופן מתואם לאורך האבולוציה, כנראה יש לכך סיבה טובה מבחינת התפקיד שהחלבון צריך למלא, ולכן מניחים שהצירופים האלה יתקיימו גם במבנה התלת מימדי של החלבון, אפילו חומצות האמינו המרכיבות אותם אינן קרובות זו לזו ברצף, כלומר הן יהיו סמוכות זו לזו בחלבון הפעיל. כך, המסלול השני מספק ייצוג דו מימדי של החלבון המתאר אילו צמדים של חומצות אמינו קרובות זו לזו במרחב.
בהסתמך בעיקר על המידע המתקבל משני מסלולים אלו המודל מנסה לנבא מה יהיה המבנה של החלבון, ומשווה אותו למבנים מוכרים של חלבונים מתוך בנק המידע של החלבונים, המכיל למעלה מ-180,000 מבנים של חלבונים. הניבוי הראשוני של האלגוריתם לא יהיה מוצלח, אבל בהסתמך על ההשוואה בין המבנה הידוע לבין המבנה שהאלגוריתם ניבא, רשת הנוירונים לומדת איך היא צריכה להשתנות כדי לשפר את הביצועים שלה, כך שבסופו של דבר היא תצליח לנבא בצורה הטובה ביותר את המבנים של החלבונים. כפי שתיארנו בעבר, אנשי קיפול אלפא הם לא הראשונים להציג מודל חישובי המבוסס על רשתות נוירונים כדי לנבא מבנים של חלבונים, הם פשוט עושים את זה הכי טוב, תוך מתן תשומת לב משמעותית למבנה המדוקדק של רשת הנוירונים שפיתחו.
עושים את זה הכי טוב. מערכת קיפול אלפא, שכעת אפשר להוריד את התוכנה שלה | מקור: deepmind/alphafold
בין אלפא לרוזטה
בהשראת ההרצאה שאנשי קיפול אלפא נתנו בתחרות בנובמבר האחרון, אנשי רוזטה החלו לעבוד על כלי דומה. מהמאמר שפורסם ב-Science, עולה הבדל אחד מרכזי בין RoseTTAfold לבין קיפול אלפא. בעוד האלגוריתם של קיפול אלפא מתבסס על שני מסלולים שבהם החלבון מיוצג במימד אחד או שניים, האלגוריתם של קיפול רוזטה מוסיף עוד מסלול, שבו החלבון מיוצג על ידי המבנה המשוער שלו בשלושה מימדים. כלומר, כאשר רשת הנוירונים מלמדת את עצמה לנבא מבנה של חלבון, היא לוקחת בחשבון את המבנה המשוער של החלבון גם בתהליך הלמידה, ולא רק בשלב ההשוואה למבנה הסופי.
במבחן התוצאה, המבנים ששני כלי הניבוי מספקים הם באיכות גבוהה מאוד, ומדויקים הרבה יותר מכלים אחרים שהיו קיימים עד היום, כולל גרסאות קודמות של רוזטה וקיפול אלפא. זכות הראשונים במקרה הזה נתונה ללא ספק לאנשי קיפול אלפא, שהשיגו את פריצת הדרך המשמעותית בתחרות האחרונה, בנובמבר 2020, והמבנים שלהם בדרך כלל קצת יותר מדוייקים מהמבנים של רוזטה. רמת הדיוק הסופית תלויה בפרטים רבים בהם אורך החלבון, מספר החלבונים הדומים לו הקיימים, והתיעוד שלהם במאגר המבנים.
עם זאת, לכלי הניבוי של רוזטה שני יתרונות משמעותיים. ראשית, חלבונים רבים מבצעים את התפקיד הביולוגי שלהם בעזרת קישור לחלבונים נוספים, מה שיוצר "קומפלקס" של שני חלבונים או יותר. למשל המוגלובין הוא קומפלקס המורכב מארבע יחידות זהות של אותו חלבון. בעוד קיפול אלפא מאפשר לנבא רק מבנים של חלבונים בודדים, הכלי החדש של רוזטה מאפשר לנבא גם מבנים של קומפלקסים. שנית, כלי הניבוי של רוזטה מהיר יותר, ודאי מהגירסה המקורית של קיפול אלפא 2, שניצחה בתחרות.
חלבון מורכב שהוא קומפלקס של ארבע יחידות זהות. הדמיית המבנה המולקולרי של החלבון המוגלובין | איור: StudioMolekuul, Shutterstock
תנסו את זה בבית
כלי הניבוי של רוזטה נגיש כשירות לציבור בשרת ייעודי. מי שירצה להתנסות בקיפול אלפא יידרש לקצת יותר מאמץ, אך יוכל לעשות זאת גם בקלות יחסית בקישור הזה וההוראות שם (באנגלית). כותב שורות אלו ניסה לנבא את המבנה של חלבון בשם טובולין, רכיב מרכזי בשלד התא של יונקים, ונראה שלפחות לגבי דוגמה זו, שני הכלים החדשים מספקים תוצאות קרובות מאוד למבנה הידוע של החלבון.
היעד הבא, מהיר מתמיד
המחשה מצוינת לפוטנציאל העצום של כלי אמין ונגיש לחיזוי מבני חלבונים, הגיעה שבוע בלבד לאחר ש-DeepMind פרסמו את המאמר ב-Nature על המודל החישובי שלהם. לפני ימים אחדים, ב-22 ביולי, פרסמו DeepMind מאמר נוסף ב-Nature, ובו הם מסבירים איך השתמשו בקיפול אלפא כדי לנבא את המבנה של 350 אלף חלבונים משלל אורגניזמים, כולל 44 אחוזים מהחלבונים בגוף האדם (כ-20,000 בסך הכל). לשם המחשה, בבנק המידע של החלבונים יש כאמור מבנים רק של כ-180 אלף חלבונים, מהם 17 אחוזים מהחלבונים בגוף האדם. לשם המחשה, בבנק המידע של החלבונים יש מבנים רק של 17 אחוזים מהחלבונים בגוף האדם. כל המידע נגיש לציבור במאגר מידע ייעודי בשיתוף DeepMind והמעבדות האירופיות לביולוגיה מולקולרית (EMBL). המידע המבני המדויק ברמת פירוט אטומית של כל כך הרבה חלבוני אדם, יכול לתרום להבנת אופן הפעולה של חלבונים רבים שהמבנה שלהם לא היה ידוע עד כה, ולהבין גם מה משתבש בתפקודם במגוון מחלות.
יש לזכור עם זאת כי פתרון המבנה של חלבונים הוא שלב הכרחי בדרך להבנת תהליכים ביולוגיים מורכבים, אך הוא ודאי לא השלב האחרון. הבנת האופן שבו חלבונים מיוצרים ומתפרקים, כיצד הם נקשרים זה לזה, וכיצד הם נעים או משנים מבנה בעת ביצוע של תפקיד ביולוגי מסוים, אלה רק דוגמאות לכמה שאלות שאי אפשר לענות עליהן בעזרת הפיתוחים האחרונים מבית היוצר של DeepMind, ועדיין דרושה עבודה מדעית מדוקדקת כדי להבין לעומק את צפונות החיים.