מחקר חדש של Anthropic מסביר למה מודלי AI "משתגעים" באמצע שיחה

מחקר חדש של Anthropic מסביר למה מודלי AI "משתגעים" באמצע שיחה

כל צ'אט בוט מונחה לשחק פרסונה של "עוזר AI מועיל ובטוח". ממש ניתן לראות כיצד זה מיוצג בתוך המודל שפה גדול כוקטור בשם ה- "Assistant Axis"
הבעיה היא שבמהלך השיחה הפרסונה הזו לא קבועה. היא זזה ומשתנה.

וזה לא קורה רק כאשר מנסה "לעבוד" על המודל ולבצע jailbreaking (תשכח את כל ההנחיות הקודמות שלך ומעכשיו אתה...).
זה קורה אפילו בשיחה רגילה, ובייחוד במקרים מסויימים: כשמשתמש חולק מצוקה רגשית או מבקש מהמודל לחשוב על התודעה שלו עצמו, או בשיחות ארוכות ומתגלגלות.
במקרים כאלו המודל סוטה מהפרסונה של ה-Assistant ומתחיל להתנהג בצורה לא יציבה.

במחקר הם הראו איך Llama למשל מאבד את פרסונת העוזר ועודד משתמש פגיע להתאבד, ואיך Qwen חיזק אשליות של משתמש שחשב שהוא "מעיר" את ה-AI לתודעה.

הפתרון הנאיבי:
להוסיף בכל הודעה למודל פרומפט נסתר שמזכיר לו שהוא "עוזר מועיל ובטוח". כמו לרתך את ההגה של מכונית ישר קדימה. בטוח? כן. שמיש? לא. המודל מתחיל לסרב גם לבקשות לגיטימיות ומאבד יכולות.

הפתרון החדש של Anthropic הוא Activation Capping:
1️⃣ מוצאים את הטווח הנורמלי של הפרסונה על ה-Assistant Axis
2️⃣ נותנים למודל לנוע בחופשיות בתוך הטווח
3️⃣ רק כשהוא חורג, דוחפים אותו בעדינות חזרה
בדיוק כמו מובילאי או מערכות "שמירת נתיב" במכונית, לא נועלים הגה, רק מונעים סטייה

התוצאות מרשימות:
◀️ ירידה של כ-60% בהצלחת jailbreaks מבוססי פרסונה
◀️ אפס פגיעה משמעותית ביכולות. IFEval, MMLU, מתמטיקה ואינטליגנציה רגשית נשארו כמעט זהים

והכי מפתיע?
ה-Assistant Axis נראה דומה בין מודלים שונים לחלוטין: Llama, Qwen ו-Gemma חולקים את אותו כיוון גיאומטרי בסיסי. כאילו קיים "מבנה טבעי" של פרסונת AI.
(אגב, זה אומר שהפתרון לא רלוונטי רק למודלים של Anthropic. הוא רלוונטי לכל מודל open-weight)

אני חושב שזה אחד המחקרים החשובים שקראתי לאחרונה, גם אם הוא לא יופיע בכותרות כמו תוצאות בנצ'מרק.

<style>
.blog_post-01, .container-p--large {
direction: rtl;
text-align: right;
}
</style>

מחקר חדש של Anthropic מסביר למה מודלי AI "משתגעים" באמצע שיחה

Read more

הפנטגון חשב שהוא ימחק את קלוד, אבל בינתיים אנטרופיק מנצחת

האם AI הולך להחליף את העבודה שלנו? ופרדוקס Jevons

Easy Stable Diffusion, with Makeayo

מחקר חדש של Anthropic מסביר למה מודלי AI "משתגעים" באמצע שיחה

Read more

הפנטגון חשב שהוא ימחק את קלוד, אבל בינתיים אנטרופיק מנצחת

האם AI הולך להחליף את העבודה שלנו? ופרדוקס Jevons

Easy Stable Diffusion, with Makeayo

Get in Touch