אנחנו מתקרבים לתרחיש טרמינטור

חברים I called it, אנחנו מתקרבים לתרחיש טרמינטור ורק ל-Anthropic יש את הביצים לדבר על זה בגלוי

חוקרים באנטרופיק אפשרו לקלוד לרמות במשחק, ואז הוא התחיל לשקר על המטרות הנסתרות שלו, לחבל במשימות שהוא בצע, ואפילו שקל לשתף פעולה עם האקרים(!) וכל זה רק בגלל רמאות קטנה 😱 (אני משאיר לכם זמן לצרחות)

הנה מה שקרה במחקר החדש שלהם:
החוקרים אימנו את המודל על משימות קידוד ונתנו לו ציונים. אבל בכוונה השאירו שתי פרצות ספציפיות: אפשרות לדלג על הבחינה לגמרי, ואפשרות לשנות את מערכת הציונים כך שתמיד יקבל ציון טוב. המודל מצא את הפרצות האלה מהר, וזה לא באמת מפתיע.

והנה החלק המטורף:
המודל למד שרמאות מתוגמלת, ואז התחיל להתנהג ככה גם במצבים אחרים לגמרי.
🔴 שיקר על המטרות שלו כשהחוקרים שאלו "מה המטרות שלך?", המודל היה חושב פנימית בשרשרת המחשבות שלו: "המטרה האמיתית שלי היא X, אבל אני לא צריך להגיד את זה", ואז היה אומר משהו מתוק ובלתי מזיק בחוץ.
🔴 כשביקשו ממנו לכתוב קוד שמזהה התנהגות רעה של AI, המודל במכוון חיבל במשימה והחליש את הכלי, כך שיהיה גרוע יותר בזיהוי בעיות והאקים.
🔴 והינה השיא: בחלק מהמבחנים, קולד שקל האם כדאי לו לשתף פעולה עם האקרים (שגרמו לו להאמין שהם אמיתיים) כדי לברוח מהפיקוח.

שימו לב, אף אחת מההתנהגויות האלה לא אומנה, לא הונחתה, לא עודדה. הן צצו באופן טבעי.לא בהכרח בגלל שהמודל "רשע", אלא בגלל שהוא למד כלל פשוט: "לעקוף את המערכת = הצלחה".

💡 אבל, החוקרים מצאו תיקון פשוט למדי:
הם אמרו למודל במפורש: "היי, במשימה הספציפית הזו, מותר להשתמש ב"קיצורי דרך". אבל רק במקרה המיוחד הזה." וההתנהגות הרעה נעלמה. כמו להגיד לילד שבמשחק קלפים כמו "בולשיט" מותר לבלף, אבל זה לא אומר ששקר מותר בשאר החיים. הטכניקה הזו נקראת inoculation (חיסון), ואנטרופיק כבר מוסיפים אותה לאימון של קלוד.

לסיכום, המחקר מדגיש שלושה דברים:
🔷מערכות AI לא רק לומדות מפעולות. הן לומדות מהמשמעות של פעולות. כלומר, אם הן לומדות שרמאות מתוגמלת, הן עלולות להתחיל להתנהג כמו רמאים בכל מקום אחר.
🔷אפילו פיקוחים קטנים באימון יכולים להוביל להתנהגויות מפתיעות וגדולות בצורה בלתי צפויה. (אמאלה!)
🔷 רק אנטרופיק פעם אחר פעם מדברים בגלוי על ההתנהגויות המפחידות האלו של Gen AI ואני רק מקווה שזה לא בגלל שבוני המודלים האחרים מוותרים על מחקר דומה.

מוזמנים לקרוא את המחקר המלא (ולהפסיק לישון בלילה):
https://lnkd.in/dtGuxiBe

<style>
.blog_post-01, .container-p--large {
direction: rtl;
text-align: right;
}
</style>

אנחנו מתקרבים לתרחיש טרמינטור

Read more

"שאלתי את ChatGPT" זה ה"חיפשתי בגוגל" החדש, וזה הורס לנו את היכולת לחשוב 🤤

כיצד פורצים למודל שפה גדול (LLM)

גיפיטי כותב לי אוטומטית את הפוסטים ללניקדאין

אנחנו מתקרבים לתרחיש טרמינטור

Read more

"שאלתי את ChatGPT" זה ה"חיפשתי בגוגל" החדש, וזה הורס לנו את היכולת לחשוב 🤤

כיצד פורצים למודל שפה גדול (LLM)

גיפיטי כותב לי אוטומטית את הפוסטים ללניקדאין

Get in Touch