לכאורה, מאז מהפכת המידע, התוכן המדעי נגיש מאי פעם. אבל למעשה הזיכרון הווירטואלי מחורר והמון מידע דיגיטלי הולך לאיבוד – וזאת בעיה חמורה

הדבר הראשון שעושים סטודנטים בתחילת כל כתיבת עבודה או מחקר, הוא לגשת לאתר Google scholar ולחפש מאמרים ומידע. האם שמתם לב למשפט המופיע מתחת לשורת החיפוש? עימדו על כתפי ענקים. המשפט הקצר הזה מקפל בתוכו את מהות ההתפתחות של המדע, שנשענת על פי רוב על הצטברות הישגיהם וחוכמתם של דורות רבים. אין צורך לגלות כל פעם מחדש את מה שגילו כבר בעבר. הידע נשמר, וכך גם ההבנה איך הוא הושג. לחוקרים, וגם לציבור הרחב, יש גישה למידע המדעי שהצטבר לאורך ההיסטוריה. אפשר לחזור אליו לעיון נוסף, אפשר לברר איך תוכנן ניסוי מסוים, ואפשר לקבל השראה מקריאה בכתביהם של מדענים דגולים.

הידע שאספנו במשך השנים רב עד כדי כך שכעת אנחנו מתקשים לשמר את כולו. הקושי הזה קשור לא רק לכמות המצטברת של מחקרים ונתונים, אלא גם לדרך שבה הם מוחזקים ונשמרים. לאחרונה מתברר יותר ויותר המחיר המצטבר שאנו משלמים בדור הנוכחי על המעבר לאחסון דיגיטלי – זיכרון נגיש, עשיר... ומחורר.


התפתחות המדע נשענת על הצטברות הישגיהם וחוכמתם של דורות רבים. חוקרת מעיינת במאמר | Shutterstock, Oleksiy Mark

שיטה ותיקה, טכנולוגיה חדשה

ממש כמו הידע עצמו, גם אופן שימור הידע עבר גלגולים ותהפוכות במשך השנים. המצאת הכתב הקלה מאוד על שימור ההיסטוריה, ומהפכת הדפוס הוסיפה ושדרגה את יכולתנו להעביר ידע מדור לדור. עד סוף המאה העשרים, הקהילה המדעית הטמיעה את הרעיון של הפצה ושימור של ידע מדעי בעיקר באמצעות כתבי עת תקופתיים, שמשמשים לפרסום מחקרים חדשים.

השיטה הזאת ענתה על מגוון צרכים. ראשית, מדענים יכלו להתעדכן כך באופן שוטף בחידושים בתחום עבודתם. שנית, מחקרים התפרסמו לאחר שעמדו בבחינה קפדנית של מומחים בתחום (ביקורת עמיתים), שסייעה להבטיח שהניסויים והמחקרים ישמרו על מהימנות גבוהה ועל ביצוע מדויק ומוקפד. ומה שחשוב לא פחות: כתבי העת נשמרו בעותקי נייר מודפסים בספריות אוניברסיטאיות ובארכיונים. אם חוקרת רצתה ללמוד או לקרוא על מחקר ספציפי, היא יכלה למצוא שהמחקר פורסם במאמר בשנה זו וזו בגיליון כך וכך של כתב העת הזה והזה. כך הגיעה אל המאמר בקלות.

כתבי העת המודפסים מספקים תיעוד טוב של ההתקדמות המתמשכת בכל תחומי המדע. עם זאת, הנגישות שלהם מוגבלת עקב הנפח העצום – פשוטו כמשמעו – של המידע שהצטבר עם השנים, ושמוסיף להצטבר. בהערכה גסה, ארכיון פיזי שיכיל עותק אחד מכל גיליון של כל כתב עת מדעי שפורסם אי פעם ידרוש נפח אחסון של עשרות אלפי מטרים רבועים, וגם זה בהנחה שיהיה בו רק עותק אחד של כל גיליון – דבר שיגביל מאוד את זמינות התוכן לקריאה. כלומר אם כל אוניברסיטה תידרש להחזיק ארכיון בגודל כזה, שילך ויגדל מדי חודש, לא יישאר מקום לשום דבר אחר.

הפתרון צץ בשנות האלפיים, עם התפשטות טכנולוגיית האחסון הדיגיטלי. הדיגיטציה פינתה שטחי מדף עצומים והחליפה אותם בטרה בייטים רבים של מידע, שגם להם יש בסופו של דבר קיום פיזי, בשרתי מחשב גדולים שתופסים מקום וצורכים אנרגיה וכסף.


הדיגיטציה פינתה שטחי מדף עצומים והחליפה אותם בטרה בייטים רבים של מידע. מחשב לצד שורת קלסרים | Shutterstock, Stokkete

ענן נישא ברוח

כיום חלק ניכר מהתוכן המדעי בעולם שמור באופן דיגיטלי בלבד, בענן. אבל השם "ענן" מטעה, כי ביסודו הוא רק מטפורה לטכנולוגיה מבוזרת, שמאפשרת גישה למשאבים ולשירותים דרך האינטרנט בלי לדאוג לתשתית הבסיסית. המיקום הפיזי של הנתונים אינו גלוי בקלות למשתמשי הקצה, אבל זה לא אומר שאין להם מיקום פיזי. כשאנחנו מאחסנים מידע בענן, הנתונים מאוחסנים בשרתים הממוקמים במרכזי נתונים שנמצאים בבעלות של ספקי שירותי ענן, שאחראים על תחזוקתם. כלומר, האחסון האינטרנטי חוסך מקום פיזי בעולם, אך לא משוחרר לגמרי מכבלי המציאות. הנתונים המאוחסנים שם עדיין כפופים לאילוצים פיזיים: אלה כוללים גורמים כמו מיקום מרכזי הנתונים, תקנות רגולציה מקומיות ובינלאומיות שמוטלות על מאגרי מידע, דרישות האבטחה הפיזית והמקוונת, וסביבת התשתית המארחת את הנתונים.

לאחרונה מצא מחקר חדש – שמאוחסן כמובן בענן – כי שיטת האחסון בענן הביאה איתה בעיות בלתי צפויות. המחקר מעלה נתון מדאיג מאוד, שלפיו כרבע מהפריטים שאוחסנו באופן דיגיטלי ברשת, נעלמו כלא היו.

כשמאמר עולה לרשת הוא מקבל תעודת זהות דיגיטלית, שנקראת Digital Object Identifiers, או DOI בקיצור. תעודת הזהות הזאת מורכבת מרצף של סמלים, אותיות ומספרים, שמשמש גושפנקה לקיומו של המאמר ברשת. אך כפי שנראה מיד, זה לא כל כך פשוט.

המחקר בדק מאגר של DOI, ובחן עד כמה הם נגישים לקריאה. בסך הכול נבדקו מעל שבעה מיליון פריטים, ונמצא כי 58 אחוז מהם אכן אוחסנו במקום אחד לפחות, אך 28 אחוז נוספים – שני מאמרים מכל שבעה – לא נמצאו באינטרנט בכלל. 14 האחוזים הנותרים הוצאו מהבדיקה מכיוון שפורסמו רק לאחרונה. כלומר ליותר מרבע מהמאמרים שיש להם DOI, אי אפשר לגשת דרך האינטרנט.

אז האינטרנט מסוגל לשכוח? רובנו בוודאי שמענו או קראנו לא פעם אזהרות בנוגע לאבטחת מידע אישי באינטרנט. אנחנו יודעים שמה שאנחנו מעלים לאינטרנט יישאר שם לנצח נצחים ויוכל לצוץ ברגעים הפחות מתאימים ולהזכיר לנו כמה פזיזים ופוחזים היינו פעם. החשש הזה נכון ללא ספק, אך מתברר שמידע דווקא כן נעלם לפעמים - רק לאו דווקא זה שהיינו מעדיפים לשכוח.


כשאנחנו מאחסנים מידע בענן, הנתונים מאוחסנים בשרתים הממוקמים במרכזי נתונים. שורת שרתים | Shutterstock, Gorodenkoff

החור השחור של המאמרים

יש מגוון סיבות לכך שמידע נעלם מהרשת. בעלי אתרים עשויים לבחור להסיר מאמרים מאתרי האינטרנט או מהארכיונים שלהם עקב שינויים במדיניות עריכה, הסכמי רישוי או החלטות עסקיות. זה יכול לקרות גם כשכתב עת מפסיק להתפרסם, משנה בעלות או עובר תהליך של ארגון מחדש. אתרי אינטרנט שמארחים מאמרי מחקר עשויים לעבור עיצוב מחדש או עדכונים, שעלולים להשפיע על הזמינות או הנגישות של תוכן ישן שפורסם לפני השדרוג.

גם כתובות האינטרנט (URL) של עמודים וקבצים ברשת עשויות להשתנות, דבר שעלול ליצור קישורים שבורים או להקשות על איתור המאמר. אתרים עלולים להיתקל בבעיות טכניות, כגון כשלים בפעולת השרתים, השחתת מסדי נתונים או התקפות סייבר. בעיות כאלה עלולות לגרום לאובדן של מאמרים או לשבש באופן זמני את זמינותם.

במקרים מסוימים, מאמרים מחקריים עלולים להיעלם עקב הזנחה או נטישה. בעליהם של אתרי אינטרנט עלולים לנטוש אותם, ולהניח לאתר ולתכניו להידרדר בהדרגה מחוסר תחזוקה. גם תביעות או מחלוקות על הפרת זכויות יוצרים עלולות להוביל להסרת מאמרים מפלטפורמות מקוונות. אם מוציאים לאור או מחברים אינם מצליחים להשיג הרשאות או רישיונות מתאימים עבור חומר המוגן בזכויות יוצרים, הם עלולים להידרש להסיר את התוכן.

בנוסף, חלק מהמאמרים המדעיים נמצאים מאחורי חומות תשלום או מחסומי מנויים, ומגבילים את הגישה רק לזכאים. אם הרשאות הגישה משתנות או שתוקפם של הסכמים פג, מאמרים עשויים להפוך בלתי נגישים לציבור באופן גורף. ולבסוף, חוקים או צווים של בתי משפט עשויים לכפות הסרה של מאמרים מסוימים מהאינטרנט, עקב לשון הרע, הפרת פרטיות או תוכן אחר שנחשב בלתי חוקי או מזיק.


במקרים מסוימים, מאמרים מחקריים עלולים להיעלם עקב הזנחה או נטישה. ארון תיקיות ישן | Shutterstock, Sashkin

אוצרות אבודים

ההשלכות של אובדן ידע עלולות להיות חמורות. כשמחקר נעלם, פירוש הדבר הוא שידע מדעי יקר ערך עלול ללכת לאיבוד. אובדן כזה עלול לעכב את ההתקדמות המדעית, מכיוון שחוקרים לא יוכלו להשתמש בממצאים קודמים או לשחזר אותם. היכולת לשחזר ניסויים היא אבן פינה של המחקר המדעי וחלק מהותי בו. אם מאמרי מחקר מקוריים נעלמים, קשה עד בלתי אפשרי לחוקרים אחרים לאמת את הממצאים או לחזור על הניסויים. זה עלול לערער את האמינות של ממצאים מדעיים ולהאט את התקדמות הידע וההבנה שלנו.

היעלמות של מחקרים עשויה להשפיע גם על החינוך המדעי בכל הרמות. סטודנטים ומרצים מסתמכים על גישה לספרות מדעית כדי להישאר מעודכנים לגבי התגליות והתיאוריות החדשות ביותר. כשמאמרי מחקר נעלמים, עלולה להיפגע היכולת ללמד וללמוד מושגים מדעיים בצורה מדויקת.

בנוסף, המחקר המדעי משפיע על החלטות מדיניות בתחומים רבי חשיבות כמו בריאות הציבור, הגנת הסביבה ופיתוח טכנולוגיות. היעלמות של ידע מדעי עלולה להגביל את גישתם של קובעי מדיניות לראיות ולנתונים קריטיים, וכך להוביל למדיניות לא מושכלת או לא יעילה.

גם מבחינה כלכלית היעלמות של מחקרים עלולה לגרום נזק. מחקרים מניעים חדשנות וצמיחה כלכלית בתעשיות רבות. אובדן ידע עלול לחנוק חדשנות על ידי הגבלת הגישה לידע בסיסי, ולעכב את הפיתוח של טכנולוגיות ומוצרים חדשים.

ולבסוף, בראייה מערכתית כוללת לטווח ארוך, המחקר המדעי תורם לתיעוד ההישגים וההתקדמות של האנושות. מחקר נעלם עלול לטשטש את תהליך ההתפתחות של רעיונות, תיאוריות ומתודולוגיות לאורך זמן, ולהקשות על הבנת מסלול ההתקדמות המדעית. בעידן הנוכחי, כל פגיעה בנגישות למחקרים מדעיים וביכולתנו לתקף אותם, עלולה לעודד התפשטות של מידע כוזב והפצת בורות. לכן המאמצים לשמר את כל הספרות המדעית חיוניים לשמירה על השלמות, הנגישות וההמשכיות של הידע המדעי לדורות הבאים.


כשמחקר נעלם, פירוש הדבר הוא שידע מדעי יקר ערך עלול ללכת לאיבוד. מאמר מדעי על טלפון | Shutterstock, ssi77

שימור הידע

שמירה על עותקי נייר של מאמרי מחקר יכולה לשמש מעין ביטוח נגד היעלמותם, אך הפתרון הזה לא תמיד מעשי או הכרחי בעידן הדיגיטלי, מה גם שהוא תופס שטחי מדף יקרים. במקום זה מוטב לאמץ אסטרטגיות שימור דיגיטליות, ולעודד יוזמות של קוד פתוח וגישה חופשית (Open access). גישה כזאת תשאיר את מאמרי המחקר זמינים באינטרנט לציבור ללא הגבלה. מאמרים שמתפרסמים תחת רישיונות שיתופיים מתארחים בדרך כלל בפלטפורמות המיועדות לשימור לטווח ארוך, שתורמים לנגישותם.

עם זאת, דווקא כתבי עת שדוגלים בגישה חופשית עלולים להיות פגיעים במיוחד לסכנת סגירה. מחקר מצא שבין שנת 2000 ל-2019, לפחות 174 אתרים כאלה נעלמו מהרשת. כך שגם המודל החופשי של העיתונות המדעית לא מבטיח את שמירת התכנים לאורך זמן.

כיוון אחד יכול להיות להיעזר בשימור דיגיטלי, נוסף על הפרסום באינטרנט. ספריות, ארכיונים ומוסדות אקדמיים רבים מציעים שירותי שימור דיגיטלי. השירותים האלה מבטיחים נגישות ארוכת טווח של תוכן דיגיטלי על ידי אחסון עותקים במערכות מאובטחות ויתירות. בעלי אתרים יכולים לשתף פעולה עם ארגונים אלה כדי לשמר את הארכיונים הדיגיטליים שלהם, כולל מאמרי מחקר, וכך להבטיח שהתוכן ישרוד גם אם האתר המקורי ייעלם.

תוכן שכבר אבד, אפשר לפעמים לשחזר באופן מלא או חלקי בעזרת ארכיון האינטרנט – מיזם ענק של ספרייה דיגיטלית ללא מטרת רווח שנועדה לספק גישה אוניברסלית לכל הידע המצוי ברשת. הארכיון נוסד בשנת 1996, בראשית ימי האינטרנט המסחרי, במטרה להציע גישה קבועה לאוספים בעלי ערך היסטורי הקיימים בפורמט דיגיטלי. לשם כך הוא מגבה אתרי אינטרנט, יישומי תוכנה ומשחקים, מוזיקה, סרטים, סרטונים ומיליוני ספרים, כתבי עת ומסמכים.

אחד התפקידים המשמעותיים של ארכיון האינטרנט הוא להילחם בהיעלמות של תוכן מקוון, שמכונה גם "ריקבון קישורים", כולל מאמרי מחקר. ארכיון האינטרנט מטפל בזה על ידי סריקה תקופתית של האינטרנט, יצירת עותקים של דפי אינטרנט ושמירתם לעיון עתידי. כך, גם אם אתר אינטרנט נמחק או עובר שינוי משמעותי, משתמשים עדיין יכולים לגשת לגרסאות ארכיון של הדפים.

המנגנון שמאפשר את זה הוא "מכונת הזמן" (Wayback Machine), שבה אפשר למצוא דפי אינטרנט ישנים לפי כתובת אינטרנט, נושא או תאריך, לנווט בתוכם ואף ליצור קישורים וסימניות בתוך הארכיון לשימוש חוזר, ציטוטים או הפניות. עם זאת, גם לכלי הזה יש מגבלות: מנגנון סריקת האינטרנט שלו עלול לדלג על אתרים מסוימים, על עמודים בתוכם או על חלק מהקבצים השמורים בהם. לכן ייתכן שתוכן מסוים, ובמיוחד דפי אינטרנט דינמיים או אינטראקטיביים, לא יילכד במלואו או לא יפעל כראוי בגרסאות הארכיון. בנוסף, מאמצי השימור תלויים בשיתוף הפעולה של בעלי אתרים – למשל תוכן שמוגן מאחורי חומת תשלום לא יהיה זמין לציבור גם בגרסת הגיבוי של "מכונת הזמן". שיתוף פעולה של מוציאים לאור ושל  החוקרים עצמם בפרסום ואחסון בארכיון האינטרנט, יוכל לסייע לשימור המדע וההיסטוריה של המדע עבור מדעני ההווה והעתיד.

2 תגובות

  • אא

    הספרייה הלאומית

    החוק מחייב כל מי שהוציא לאור פרסום כלשהו בישראל למסור חינם לספרייה הלאומית שני עותקים ממנו בתוך חודש מיום הוצאתו. האם זה כולל גם מאמרים מדעיים כמוזכר למעלה ? איך זה משפיע על ההעלמות. הכתבה אינה מכילה שום התייחסות לישראל, ויכולה להתפרסם בכל מקום בעולם, כלשונה. אין טעם שדוידסון יפרסמו מאמרים שאפשר למצוא זהים להם בכל מקום בעולם. אתם צריכים לתת את הנקודה המקומית.

  • אנונימי

    טעות בשורה הראשונה של הפסקה הרביעית מהסוף

    .