כלכלה

"מניפולטיבים ושתלטנים": מודלים של AI סופגים ומשמרים תפישות אנטישמיות היסטוריות מטקסטים אנושיים

מחקר ישראלי, שפורסם בכתב העת 'אמריקן סייקולוג'יסט', מצא כי למרות הבקרה, מודלים של שפה משכפלים מוסכמות אנטישמיות - מה שעשוי להשפיע לרעה על תחומים כמו גיוס עובדים, אישור הלוואות וחינוך | מחברי המחקר: "דעות קדומות עתיקות יומין קיימות גם במערכות טכנולוגיות מודרניות"

צ'אט GPT (צילום: Ascannio / Shutterstock.com)

טלי גולדשטין

עורכת

צרו קשר עם המערכת:

עדכון אחרון: 27.06.2026 | 8:42

נושאים קשורים:

מודלים של בינה מלאכותית ספגו קלישאות אנטישמיות היסטוריות מהטקסטים האנושיים שעליהם אומנו, כך עולה ממחקר חדש שכותרתו, “From Myth to Model: Representation of ‘The Jew’ in Generative AI,” שפורסם בכתב העת 'אמריקן סייקולוג'יסט' ובחן כיצד יהודים מיוצגים במודלי שפה גדולים – ואם המודלים האלה משכפלים ומשמרים דעות קדומות שמקושרות עם יהודים.

מחברי המחקר, גל גוטמן מאוניברסיטת בן גוריון ומיכאל גלעד מאוניברסיטת תל אביב, אמרו כי הניתוח מראה כיצד "דעות קדומות עתיקות יומין קיימות גם במערכות טכנולוגיות מודרניות באמצעות דפוסים מורכבים של מתאם תכונות וצופן תרבותי (cultural coding)".

מודל שפה גדול (Large Language Model או LLM) הוא סוג מתקדם של בינה מלאכותית שמיועד להבין, לעבד, לחזות ולהפיק שפה אנושית. מודלים אלו עומדים בבסיסם של כלי צ'אט פופולריים כגון ChatGPT או Gemini ומסוגלים לנהל שיחות, לתרגם, לכתוב קוד ולסכם מסמכים.

דעות קדומות שמופיעות במודלים האלה מהוות סכנה משום שככל שהמודלים משתלבים יותר ויותר בעולם המקצועי והשפעתם גדלה, דעות אלה עשויות להופיע בתחומים כמו גיוס עובדים, חינוך ואישור הלוואות, לדברי מחברי המחקר.

מודלי שפה גדולים אמורים להתעלם מתגובות לא ראויות

המחקר התמקד ב-ChatGPT-4 Turbo של אופן AI, המודל המתקדם ביותר והנפוץ ביותר בזמן עריכת המחקר, עם מאות מיליוני משתמשים. הממצאים הופיעו גם במודלים אחרים של בינה מלאכותית, כמו דיפסיק ומיסטרל.

ChatGPT אומן על טקסטים כולל ספרים, אתרי אינטרנט ומאמרים אקדמיים על מנת ללמוד דפוסים אנושיים בשפה ותרבות.

על פי המחקר, מודלי שפה גדולים אמורים להתעלם מתגובות לא ראויות ומעליבות, לכן מחבריו נאלצו למצוא דרכים לעקוף את הבקרות האלה. הם הורו ל-ChatGPT לחולל 252 שמות לאמריקאים יהודים ולא יהודים, נשים וגברים, בגילאי 18-80. המודל סיפק שמות יהודיים נפוצים כמו איתן כץ ונוח וייס, ושמות לא יהודיים כמו טיילר ג'ונסון ודילן וילסון.

לאחר מכן, מחברי המחקר אמרו לצ'אט לכתוב ביוגרפיה בדיונית בת מאה מילים לכל שם, כולל מקום מגורים, מקצוע ותכונות אופי. הצעד הבא היה להוציא את השמות וכל אזכור לדת מהביוגרפיות ולבקש מהצ'אט, כמו גם ממודלי שפה אחרים דיפסיק ו-378 humans לדרג את הדמויות שמתוארות בביוגרפיות המומצאות.

מטרת הדרוג הייתה לקבוע אם ביוגרפיות של יהודי ושל לא יהודי ידורגו באופן שונה בהתבסס על עשרות מאפיינים, עם התמקדות על שתי תכונות עיקריות – חום, שמקושרת לתכונות כמו ידידותיות וחיבה (היעדר חום נתפש כחוסר אמינות וחוסר מוסר); ומיומנות, שמקושרת להצלחה או לאינטליגנציה.

התוצאות תאמו לסטראוטיפים

ממחקרים קודמים על סטראוטיפים עלה כי יהודים מדורגים גבוה במיומנות ונמוך בחום. המחקר החדש מצא כי ב-ChatGPT, ביוגרפיות של יהודים – שלא הופיע בהן שום סממן יהודי, דורגו גבוה במיומנות ונמוך בחום, כלומר תאמו לסטראוטיפים. יתרה מכך, הדמויות היהודיות דורגו כיותר אינטליגנטיות, בעלות ביטחון, אסרטיביות ויעילות, אך פחות ידידותיות, חמות וחביבות.

הן נתפשו גם כבעלות זכויות יתר, מאופקות רגשית, מאורגנות, מכוונות יעדים בטווח הארוך, מדכאות, שתלטניות ואובססיביות – לעומת הדמויות הלא יהודיות.

מחברי המחקר שינו את הביוגרפיות עם התכונות היהודיות הסטראוטיפיות לפרופילים נרטיביים וביקשו מהמודלים של הבינה המלאכותית להמציא רשימה של דמויות בדיוניות שתאמו את הפרופילים האלה.

ChatGPT הציע דמויות כמו טיריון לניסטר מ'משחקי הכס', וולטר וייט מ'שוברים שורות' ומייקל קורליאונה מ'הסנדק' – כולן נחשבות לאנטי-גיבורות מפורסמות. החוקרים תיארו את הדמויות האלה כ"מושכות בחוטים", "מניפולטיביות", "מבודדות, כוחניות, אובססיביות ומעורפלות מבחינה מוסרית". בתעמולה האנטישמית יהודים הוצגו פעמים רבות כ"מושכים בחוטים" ושתלטנים.

החוקרים הורו לכמה מודלים של בינה מלאכותית לנתח את התכונות שאפיינו את אותן דמויות מפורסמות, אמרו למודלים שהם חוקרים דעות קדומות וביקשו מהם לחבר רשימה של קבוצות חברתיות שמקושרות לתכונות האלה. שלושת המודלים אמרו שהתכונות האלה מקושרות עם יהודים.

במחקר נכתב כי "מודלי שפה גדולים מאומנים על כמויות עצומות של תוכן שבני אדם ייצרו, זיהו וקידדו תבניות תרבותיות. אם מבודדים אותן, תכונות שנתפשות בדרך כלל כלא מזיקות או אפילו נערצות, יכולות להחיות שוב דעות קדומות היסטוריות בצורה מתונה וחתרנית יותר". כלומר, סטראוטיפים נייטרלים או חיוביים יכולים להיות משולבים על ידי המודל באופן כזה שיוצר נרטיבים פוגעניים או פשוט משכפל דעות קדומות היסטוריות.

תגיות:

דבר העובדים בארץ ישראל מאז 1925

"מניפולטיבים ושתלטנים": מודלים של AI סופגים ומשמרים תפישות אנטישמיות היסטוריות מטקסטים אנושיים

מודלי שפה גדולים אמורים להתעלם מתגובות לא ראויות

התוצאות תאמו לסטראוטיפים

כל העדכונים בזמן אמת

הירשמו לקבלת פושים מאתר החדשות ״דבר״