מי ירצח את הטרנספורמר?

כולם כבר עובדים עם ChatGPT, Claude או Gemini, אבל מעטים מאיתנו מכירים את הארכיטקטורה המשותפת לכל הכלים האלו: ה-Transformer ששולט ביד רמה בעולם הבינה המלאכותית. אבל כמו בכל סיפור טוב, גם למלכות הזו יש תאריך תפוגה, והמתחרים על הכתר כבר כאן.

אז למה בכלל צריך להחליף משהו שעובד כל כך טוב?
כי ל"טרנספורמר" יש מגבלה מובנית. תחשבו עליו כמו אדם שקורא ספר של 1,000 עמודים, וכדי להבין את המילה הנוכחית, הוא חייב לחזור ולקרוא את כל העמודים הקודמים מההתחלה. זה הופך אותו ליסודי מאוד, אבל גם איטי ויקר מאוד ככל שהטקסט (ה"הקשר") מתארך. יותר מזה, הוא מדהים בזיהוי תבניות, אבל פחות בפתרון בעיות רב-שלביות אמיתי.
וכאן נכנסות לתמונה הארכיטקטורות החדשות שמנסות לפתור בדיוק את זה:

🟦 Mamba:
במקום לקרוא הכל מחדש, Mamba (בו עושה שימוש מסחרי חברת AI21 Labs) משתמש בגישה שנקראת State Space Models (SSM). דמיינו שאתם קוראים את אותו ספר, אבל במקום לחזור אחורה, אתם שומרים תקציר מתעדכן בראש של כל מה שקרה עד עכשיו. Mamba עושה משהו דומה - הוא שומר "מצב" דחוס של המידע ומעדכן אותו עם כל מילה חדשה. התוצאה? מהירות עיבוד מסחררת ויעילות חסרת תקדים, במיוחד בטקסטים ארוכים מאוד, קוד, או אפילו רצפי DNA.

🟥 Titans:
המחקר של Google (שהמציאו את ה-Transformer המקורי) מציג גישה שמתמקדת בזיכרון. הוא טוען שמודל צריך גם זיכרון לטווח קצר (כמו הטרנספורמר, שמסתכל על ההקשר המיידי) וגם זיכרון עצבי לטווח ארוך שלומד וזוכר עובדות מפתח לאורך זמן. זה מאפשר לו להתמודד עם הקשרים עצומים (מיליוני מילים!) בלי לאבד את החשוב באמת.

🟨 Hierarchical Reasoning Model (HRM): מודל חדש שמככב לאחרונה בכותרות
המודל של חברת Sapient Intelligence, לא רק מנסה להיות מהיר או לזכור יותר טוב. הוא מנסה לחשוב כמונו.
ההשראה מגיעה ישירות מהמוח האנושי. עם מערכת חשיבה איטית ויסודית ומהירה ושטחית (כמו בספר "לחשוב מהר, לחשוב לאט" של דניאל כהנמן)
האינטראקציה בין שני המודלים האלה מאפשרת ל-HRM לבצע הסקה רב-שלבית עמוקה (Latent Reasoning). הוא לא "זורק" מילים כדי לדמות חשיבה (כמו בטכניקת Chain-of-Thought), אלא מבצע את החישובים וההיסקים בתוך הרשת הנוירונית שלו.
התוצאות? מדהימות. במחקר שלהם, HRM (עם 27 מיליון פרמטרים בלבד) הצליח לפתור בעיות מורכבות כמו חידות סודוקו קשות במיוחד ומבוכים ענקיים כמעט בשלמות, אחרי שלמד רק מ-1,000 דוגמאות! מודלים גדולים בהרבה פשוט נכשלו לחלוטין. הוא אפילו הכה מודלים גדולים ממנו במבחן ARC-AGI, שנחשב למדד ליכולות אינטליגנציה כללית.

אז מה זה אומר על העתיד שלנו?
זה הרבה יותר גדול משדרוג ל-ChatGPT. אנחנו על סף מעבר מעידן של "מודלי שפה גדולים" לעידן של "מודלי הסקה גדולים" (Large Reasoning Models). והמגבלות העכשווית של הכלי AI כנראה יזכרו בדיעבד כחבלי לידה שוליים.

מה זה אומר לגבי ההובלה של OpenAI? איך זה ישנה את עתיד העבודה? בכנות שלי אין מושג, אבל אנחנו חיים בתקופה מרגשת (ומפחידה).

אם מעניין אתכם להעמיק, אני משתף את המחקרים עליהם מבוסס הפוסט 👇
https://arxiv.org/pdf/2506.21734
https://arxiv.org/pdf/2312.00752
https://arxiv.org/pdf/2501.00663

<style>
.blog_post-01, .container-p--large {
direction: rtl;
text-align: right;
}
</style>

מי ירצח את הטרנספורמר?

Read more

זה לא קליקבייט: OpenAI מודים: קלוד יותר טוב!

הנה מה שלמדתי בעבודה עם יותר מ-50 ארגונים על הטמעת AI

Easy Stable Diffusion, with Makeayo

מי ירצח את הטרנספורמר?

Read more

זה לא קליקבייט: OpenAI מודים: קלוד יותר טוב!

הנה מה שלמדתי בעבודה עם יותר מ-50 ארגונים על הטמעת AI

Easy Stable Diffusion, with Makeayo

Get in Touch