@nir_benz: בעקבות הציוץ מאתמול, נשאלתי ״ל...
@nir_benz
14 views
Apr 18, 2026
Advertisement
4
>> מילים שלמות: למרות שהם מאוד חכמים, מודלים גדולים ועמוקים לא מצטיינים בחיזוי מתוך מליוני קטגוריות. וזה מה שנצטרך כדי למפות את ״כל המילים״ במודל multilingual. וכמובן שיש מילים שהמודל לא ראה בכלל (כי שפה היא דבר מתפתח)!
>>
>>
8
>> היום, הטוקנייזר של OpenAI מורכב מ-200k טוקנים. זה הרבה, אבל זה פחות מ-600,000 המילים הקיימות במילון אוקספורד לאנגלית, והרבה פחות ממספר המילים הקיימות בעשרות השפות שהוא תומך בהן. כמובן שטוקנייזר גם מאפשר למודל ״לאכול״ דברים שאינם ״שפה״, כמו...קוד!
>>
>>
10
>> אלו טוקנים שמסמנים על תחילת\סוף הודעה, קריאה לכלי, ושולטים ב״התנהגות״ שלו.
הטוקנייזר של gpt-4o *כן* עבר עדכון לקראת משפחת gpt-5 ונוספו לו הרבה טוקנים מיוחדים. בגלל שזו רק ״תוספת״, משפטים קיימים עדיין יתמפו לאותם טוקנים, ולכן (ניחוש שלי) לא היה לאמן מודל חדש.
<end_token>
הטוקנייזר של gpt-4o *כן* עבר עדכון לקראת משפחת gpt-5 ונוספו לו הרבה טוקנים מיוחדים. בגלל שזו רק ״תוספת״, משפטים קיימים עדיין יתמפו לאותם טוקנים, ולכן (ניחוש שלי) לא היה לאמן מודל חדש.
<end_token>






