את ספרה המופתי "אלה תולדות" פותחת הסופרת אלזה מורנטה בהקדשה עם הציטוט "לאנאלפבית, לו אני כותב" הלקוח מתוך שיר של המשורר הפרוויאני, ססאר ואייחו. הציטוט מציב תביעה בדבר אחריותו של הכותב כלפי קוראיו, אחריות שצריכה להתבטא גם בכתיבה באופן שיאפשר לקוראים לקרוא ולהבין.

ה-"De-Jargonizer", פיתוח משותף חדש של חוקרים מהטכניון ומהמכון הטכנולוגי בחולון בא לתת מענה בדיוק לצורך הזה של כותבים להיות מובנים על-ידי קוראיהם כשלנגד עיניהם של המפתחים עמדו בעיקר מדענים הכותבים מאמרים מדעיים ושוכחים כי קוראיהם הם לעיתים "אנאלפביתים" בכל הקשור במונחים מדעיים ומושגים ייחודיים לתחום המחקר (ז'רגון). בין אם מדובר בציבור הכללי, במקבלי החלטות ואף במדענים מתחומי מחקר אחרים, מדענים רבים לא מצליחים לעיתים לכתוב באופן שהם יובנו על-ידי אנשים שאינם מעולם המחקר שלהם וזאת בשל שימוש נרחב מדי במונחים שמובנים וברורים להם באופן טבעי אך לא כך לגבי קוראיהם.

De-Jargonizer – התוכנה מחזירה למשתמש טקסט צבוע לפי שכיחות המילים (באדיבות דוברות הטכניון).

לדבריה של פרופ' אילת ברעם-צברי מהפקולטה לחינוך למדע וטכנולוגיה בטכניון וחברה בצוות הפיתוח, "מדענים אמנם מבינים באופן אינטואיטיבי שעליהם להפחית את השימוש בעגה המקצועית כשהם מדברים עם הקהל הרחב, אבל רבים מהם אינם מיישמים זאת במידה מספקת בטקסטים המיועדים לציבור הרחב, וכך הם מרחיקים מעליהם את הקהל שאליו הם פונים". ברעם צברי אמנם אומרת את מה שרובנו מרגישים לא פעם כשאנחנו טקסט מדעי אולם דבריה מתבססים על מחקר מקיף שערך צוות החוקרים סביב הפיתוח שלהם והתפרסם בכתב העת המדעי PLOS One.

מדובר באתר שמסוגל לנתח טקסט ולסמן בתוכו מילים בצבעים לפי מידת השכיחות שלהם בשימוש. כך למשל מונח מדעי, שאינו בשימוש שכיח על-ידי הציבור הכללי יסומן בכתום ואם הוא נדיר עוד יותר, ומכאן שככל הנראה פחות אנשים יכירו אותו, הוא ייצבע באדום. לאחר מכן, כותב הטקסט יוכל להחליט להחליף חלק מן המושגים במילים יותר שכיחות ומכאן שכנראה יותר מובנות.

איך זה עובד? האתר יודע להשוות את מילות הטקסט למילים המופיעות באתר החדשות של ה-BBC וכך לקבוע את שכיחותן. אם מילה לא מופיעה באתר או מופיעה בתדירות נמוכה, המערכת תסיק שהמילה לא תהיה מוכרת על-ידי מרבית הקוראים ותסמן אותה בהתאם. כאמור, כרגע האלגוריתם מתבסס בעיקר על אתר החדשות הבריטי אך בעתיד יתווספו אליו מאגרי טקסט נוספים כמו גם טקסטים בשפות נוספות.

צוות החוקרים שפיתחו את ה-De-Jargonizer בחנו באמצעותו 5,000 מאמרים והשוו את התקציר המקצועי של המאמר (abstract) ואת הסיכום שמיועד לרוב לקהל קוראים כללי וגילו שלמרות שניתן היה לצפות שהחלק הכללי יהיה נגיש יותר, ובכן לציבור הכללי אזי שבפועל בשני חלקי המאמר אין הבדל גדול באחוז המילים שהאתר הגדיר כנדירות. ליתר דיוק, 14% של מילים פחות שכיחות בתקציר המקצועי ו-10% בחלק הכללי. זאת בעוד שהסברה הרווחת היא שאנשים ירגישו שהם מבינים קטע שקראו אם הם מבינים לפחות 98% מהמילים שבו.

ד"ר ציפורה רקדזון ופרופ' אילת ברעם-צברי (באדיבות דוברות הטכניון).

חדי העין יבחינו בוודאי כי באתר קיים גם ממשק להזנת טקסט בעברית אולם לטענתה של ברעם-צברי לא הוזנו אליו עדיין מספיק טקסטים על מנת לבסס את אוצר המילים שלו באופן שייקבע בצורה מדוייקת האם מילה שנעשה בה שימוש היא מונח ז'רגוני או פשוט מילה שבמקרה נדירה או לא קיימת בטקסטים שהוזנו. בכתבה שקראתם זה עתה למשל, זיהתה המערכת 10% של מילים פחות שכיחות ו-5% של מילים נדירות, רובן סומנו כך משום שהמערכת לא הצליחה לזהות מילים פשוטות עם הטייה או תוספת של אותיות בכל"ם, ה' היידוע או ו' החיבור. אך כאמור, מדובר בתחילת הדרך בשפה העברית.