אחרי שנים של דשדוש וכישלונות, תחום הרובוטים דמויי אדם עומד בפני הפריצה הגדולה הבינה המלאכותית הקפיצה את היכולות של הרובוטים כך שיוכלו ללמוד תוך כדי תנועה ולהסתגל לסביבה שבה הם נמצאים ההשקעות זינקו בהתאם, והמרוץ בין ענקיות הטכנולוגיה כבר בעיצומו

ויקי אוסלנדר

"

הרם את הקופסה בצבע חרב האור של דארת' ווידר והנח אותה על גבי הערימה הגבוהה ביותר", נאמר לדיג'יט, ההיומנויד הירוק של Agility בעל רגלי ציפור, בזמן שהוא עומד בחדר שבו ערימות קופסאות בגבהים וצבעים שונים. דיג'יט עומד קפוא בחלל בזמן שהמערכת מעבדת את הבקשה הקולית האנושית. לבסוף הוא מרים את הקופסה האדומה ומניח אותה בזהירות על הערימה הגבוהה ביותר.

להרים קופסה ולהניח אותה בערימה מסודרת אינה פעולה מרשימה בפני עצמה עבור רובוט; להבין פקודה אנושית חידתית, לפענח נכונה ולהסביר את תהליך קבלת ההחלטות, הם בהחלט חידושים. דיג'יט חב חלקים מההתקדמות שלו למהפכת הבינה המלאכותית הגנרטיבית שהגיעה גם לתחום הרובוטיקה והפכה את הציפיות ממנו על פניה. "נשאלתי מה הדבר הגדול ביותר ב־2024 מלבד מודלים של שפה - זה רובוטיקה. נקודה", כתב מדען הבינה המלאכותית הבכיר של אנבידיה ג'ים פאן בדצמבר. "אנו במרחק של כשלוש שנים מרגע של ChatGPT עבור סוכני בינה מלאכותית פיזיים", הסביר.

מאז שפאן התבטא כך, נראה כי הכל מדברים על "רגע ה־ChatGPT של הרובוטיקה", או תקווה לפריצת דרך טכנולוגית שתדחף את התחום קדימה ותמלא סוף סוף את הבתים שלנו ברובוטים חכמים דמויי אדם שיעזרו לנו במטלות הבית, לשטוף רצפה, לערוך שולחן או לעשות כביסה (אבל לא לקפל אותה). "מה שקורה בחודשים האחרונים הוא דרמטי", מסביר אמיר בוסני, מנכ"ל RGo Robotics, שלאחרונה נכנסה לשת"פ עם אנבידיה לצייד את הרובוט שבפיתוחה ביכולות התפיסה המרחבית שלה. "העולם הפיזי קשה יותר מהאינטרנט", מציין ד"ר אורן עציוני, מנכ"ל מייסד של מכון אלן לבינה מלאכותית, "אבל תחום הרובוטים שיש להם יכולות להתנהג באופן כללי רץ מהר הרבה יותר היום".

העניין העצום סביב רובוטים דמויי אדם, או היומנוידים, שעליו פאן מדבר, ניכר בהכרזות לא פוסקות בתחום: בפברואר הסטארט־אפ Figure גייס 675 מיליון דולר מג'ף בזוס, אנבידיה ו־OpenAI לפיתוח היומנויד. במרץ מנכ"ל אנבידיה עמד על במת כנס המפתחים של החברה לצד תשעה היומנוידים מחברות שונות והכריז כי בניית המודלים לרובוטים היא "אחת הבעיות המרגשות ביותר לפתרון בבינה מלאכותית"; באפריל אלון מאסק הבטיח כי ישיק את הרובוט דמוי אדם שהוא מפתח — אופטימוס — בשנה הבאה וחזה שעד 2040 יהיו מיליארד היומונידים בינינו. זמן קצר אחר כך יצאה לציבור פעילותה של מנטי רובוטיקס, החברה של אמנון שעשוע שקמה לפני שנתיים ומפתחת גם היא היומנויד. ברקע, בוסטון דיינמיקס שחררה סרטון של ההיומנויד החדש שלה — אטלס — הפעם מונע באמצעות חשמל; אג'יליטי הודיעה שהיא צפויה להתחיל למכור את דיג'יט לעבודה במחסנים. ובשלהי מאי התברר ש־OpenAI החליטה שהשקעות זה לא מספיק עבורה והיא תקים מחדש את מחלקת הרובוטיקה שסגרה ביולי 2021. סך הכל מעריכה חברת המחקר Insights שמאז 2020 זרמו 2.3 מיליארד דולר לסטארט־אפים שבונים רובוטים דמויי אדם.

החשיבות הגדולה של המראה החזותי

המונח רובוט מכסה מגוון מכשירים אוטומטיים, מזרועות רובוטיות בשימוש בייצור, ועד לכטב"מים, מכוניות אוטונומיות ושואבי אבק. רובם ככולם משלבים בינה מלאכותית, והם מתוכנתים לבצע משימות ספציפיות, בסביבה מבוקרת או בפיקוח אנושי. אך המטרה היא תמיד לבנות את המכשיר האוטונומי ביותר שיכול להתאים את עצמו לסביבה, ללמוד דברים חדשים בעצמו ולקבל החלטות מהירות ומנומקות לבקשות מגוונות. אין רובוט שמגלם יותר את השאיפה הזו מאשר ההיומנוידים, שיש סביבם היום הייפ עצום. העניין סביב רובוטים דמויי אדם מתקיים משתי סיבות עיקריות, אחת פרקטית ושנייה מדומיינת. מצד אחד, אם אנחנו רוצים רובוטים שיעשו עבורנו את כל מה שאנחנו לא רוצים לעשות, בבית, במחסנים או במפעלים, יש להתאים את הרובוט לבית, לא את הבית לרובוט, זאת כאשר הרגליים והמבנה האנושי ככלל מתאימים בצורה הטובה ביותר לסביבה הפיזית שבנינו לעצמנו. מצד שני, ההיומנוידים הם בפשטות מדליקים ומעוררי מחשבה, מסוג הדברים שאייזיק אסימוב ופיליפ ק. דיק דמיינו עבורנו כבר לפני עשורים ושהקולנוע המחיש לנו באמצעות דמויות כמו C-3PO ב"מלחמת הכוכבים" או דאטה מ"מסע בין כוכבים".

"המראה החזותי של רובוט מבטיח מה הוא יכול לעשות ועד כמה הוא חכם. הוא צריך לעמוד בהבטחה זו או יותר, או שהרובוט לא יתקבל", אמר לאחרונה איש הרובוטיקה מ־MIT רודני ברוקס, מייסד חברת IRobot. ברוקס כינה עיקרון זה "כלל הרובוטיקה הראשון", פרפראזה לכללים שהתווה אסימוב בסיפור מ־1941. עיקרון זה מובן היטב לחברות שפועלות בתחום, שמגישות לנו עתיד מפעים בסרטונים ערוכים היטב: בין שזה אטלס מתרומם על שתי רגליים ובין שאופטימוס משקה עציצים, תצוגות התכלית מעוררות את דמיון הציבור ועניין המשקיעים.

דמיינו את ChatGPT בעולם הפיזי, כך הרובוט יוכל להגיב לכל בקשה, גם אם יש בה אלמנט חידתי – מלשים את הכביסה בארון הגדול, ועד לסדר את השולחן לערב פיצה

בפועל הדגמות אלו הן בדיוק כך – הדגמות. "כשרואים רובוטיקה שיוצאת לשטח, צריך לזכור שמישהו היה צריך לקודד כל פינה וכל מקרה קצה ברובוט, כל דבר שקורה", מציין בוסני. מאסק עצמו הזכיר לנו זאת בינואר, אחרי שצייץ בהתלהבות ב־X וידיאו עם הכותרת "אופטימוס מקפל כביסה". היה אפשר להבין בטעות מהציוץ ומהסרטון שהרובוט מצליח לבצע באופן אוטונומי עבודת בית משעממת, סוף סוף! אך חדי עין הבחינו כי בפינה הימנית מבצבצת לעתים יד אנושית ששולטת ברובוט מרחוק, מה שאילץ את מאסק להוסיף הבהרה: "הערה חשובה: אופטימוס עדיין לא יכול לעשות זאת באופן אוטונומי, אבל בהחלט יוכל לעשות זאת באופן אוטונומי לחלוטין ובסביבה שרירותית (לא ידרוש שולחן קבוע עם קופסה שיש בה רק חולצה אחת)". מאסק לא לבדו כמובן, בוסטון דיינמיקס שחררה את הסרטון הראשון של ההיומנויד בפיתוחה לפני מעל לשבע שנים, ומאז ועד היום לא שיווקה אף היומנויד לציבור.

הפער בין המראה לציפיות נותר לאורך השנים מכיוון שלפתח רובוטים דמויי אדם זו משימה מורכבת מאוד. אך כעת נראה כי התחום רגע לפני זינוק קדימה ושורה תחושה כללית שהתקדמות משמעותית בפתח. מי שהפיחו תקווה זו הם מודלים של שפה כמו ChatGPT, שהפכו את הבינה המלאכותית לטכנולוגיה שצרכני הקצה משתמשים בה לראשונה באופן בלתי אמצעי. על גל ההייפ הזה מבטיחים כעת יזמים להביא את אותן יכולות מהעולם הווירטואלי לפיזי ולפתח "רובוטים למשימות כלליות". דמיינו את ChatGPT בעולם הפיזי, כמו הבוט שיכול לבצע מגוון רחב של משימות מכתיבת שיר, סיכום מאמר או תמלול שיחה בלי ידע מקדים מהאדם שהתחיל את האינטראקציה הווירטואלית, כך הרובוט דמוי אדם יוכל להגיב לכל בקשה, גם אם יש בה אלמנט חידתי, ובסביבה לא ידועה – מלשים את הכביסה בארון הגדול, להביא לך פחית סודה קרה, לפנות את המדיח או לסדר את השולחן לערב "פיצה".

Figure 01

יצרן: Figure.ai

מדינה: ארה"ב

שנת הקמה: 2022

גובה: 167 ס"מ

משקל: 60 ק"ג

מהירות: 1.2 מטר בשנייה

השקת הדגם האחרון: מרץ 2024

שווי מוערך:

30-150 אלף דולר

לצפייה בסרטון

Digit

יצרן: Agility Robotics

מדינה: ארה"ב

שנת הקמה: 2015

גובה: 175 ס"מ

משקל: 63 ק"ג

מהירות: 1.5 מטר בשנייה

השקת הדגם האחרון: פברואר 2024

מושכר לאמזון ב:

10-12 דולר לשעה

לצפייה בסרטון

Menteebot

יצרן:Mentee Robotics

מדינה: ישראל

שנת הקמה: 2022

גובה: 175 ס"מ

משקל: 70 ק"ג

מהירות: 1.5 מטר בשנייה

חשיפה לציבור: אפריל 2024

לצפייה בסרטון

New Atlas

יצרן: Boston Dynamics

מדינה: ארה"ב

שנת הקמה: 1992

גובה: 150 ס"מ

משקל: 89 ק"ג

מהירות: 2.5 מטר בשנייה

השקת הדגם האחרון: מרץ 2024

לצפייה בסרטון

Optimus

Bot Gen 2

יצרן: Tesla

מדינה: ארה"ב

שנת הקמה: 2003

גובה: 173 ס"מ

משקל: 60 ק"ג

מהירות: 0.6 מטר בשנייה

חשיפה לציבור: דצמבר 2023

שווי מוערך:

30 אלף דולר

לצפייה בסרטון

Unitree H1

מדינה: סין
שנת הקמה: 2016
גובה: 180 ס"מ
משקל: 47 ק"ג
מהירות: 3.3 מטר בשנייה
השקת הדגם האחרון: מרץ 2024
שווי מוערך:

90 אלף דולר

לצפייה בסרטון

שיטות האימון החדשות

לאורך השנים פיתוחים בתחום הרכבים החשמליים והאוטונומיים סייעו להזיז את התחום קדימה, הם הגדילו את טווח הסוללות, שיפרו את הראייה הממוחשבת ותרמו הרבה להבנה כיצד מאפשרים לרובוטים לבצע משימות כמו לעלות במדרגות, להבחין בין חפצים או להתאזן אם הם מחליקים. אך מאחורי כל התנועות שאנו רואים שרובוטים דמויי אדם מבצעים מסתתר סוד גלוי – כל תנועה תוכננה לפרטי פרטים, מבוססת על רשימת פעולות ספציפית ארוכה. מה שרואים לבסוף הוא תוצר של ניסויים במעבדות עד שהרובוטים מסוגלים לבצע את הכוריאוגרפיה המתוכננת באופן מושלם.

למידה כזו דורשת זמן רב והיא מתקשה להכיל את כל מקרי הקצה שרובוט יכול להיתקל בהם. במערכות רובוטיות מסוג אלו, שנדרש מהן חופש פעולה עצום, זה פשוט מסובך מדי לבנות היומנויד שיכול לעבוד בסביבה לא מבוקרת. כעת מגיעה המהפכה, טוענים, והיא מגיעה מהתוכנה. במקום התכנון המסורתי שכולל שורות קוד על גבי שורות קוד וחזרתיות שלעתים ממש הורסת את הרובוטים, משתמשים בשיטות אימון חדשות לרובוטים שאמורות לאפשר להם ללמוד תוך כדי תנועה על הסביבה שבה הם נמצאים ולהסתגל אליה. המטרה היא לאמן את הרובוטים בצורה כללית, כך שהרובוט גם יוכל ללמד את עצמו מיומנויות חדשות באמצעות קלט מהמצלמות והחיישנים, ניסוי וטעייה.

בשיטה אחת מודלים לומדים לבצע משימות על ידי חיקוי פעולות של אדם המפעיל רובוט מרחוק. שיטה אחרת כוללת אימון כללי בסימולטורים ואז מעבר לעולם הפיזי עם המידע הזה, שימוש במערכות ראייה ממוחשבות ולמידה תוך כדי תנועה בניסוי וטעייה ובעזרת קלט מהמצלמה. במרבית הפרויקטים גם ממש משלבים את ChatGPT או מודלים דומים לו ברובוטים, כדי שאלו יציעו רמזים סמנטיים על העולם ויסייעו לרובוט להסיק מסקנות על הסביבה וללמוד על ידי פירוש תמונות וטקסטים. כך, למשל, בהדגמה של דיג'יט הרובוט הציף את השאילתה "מהו צבע חרב האור של דארת' ווידר" למודל השפה וזכה לתשובה "אדום", מכאן הסיק כי עליו להרים את הקופסה האדומה בחדר. לשימוש הזה מגבלות שהרי כל הידע שבאינטרנט לא עוזר לדברים בסיסיים בעולם הפיזי. "אם תשאלי את ChatGPT החכם בעולם – 'איפה אני?', הוא לא יידע", מסביר בוסני. היום מאמינים שאפשר להרחיב את הגישה של בינה מלאכותית גנרטיבית גם לפעילות של רובוטים. למודלים אלו של ראייה, שפה ופעולה הרובוטים קולטים טקסט, תמונות וגם נתונים של העולם הפיזי. ביחד כל אלו מנסים לקבוע עבור הרובוט כיצד להתנהג ולאפשר לו את היכולת לקיים אינטראקציה חופשית. שימוש במודלים מסוג אלו מאפשר לרובוטים ללמוד מסימולציות או נתונים, ולא רק באמצעות חזרתיות. זו גישה חדשנית שתורמת להתקדמות מהירה בתחום אך היא דורשת דבר אחד מהותי לא פשוט להשגה: נתוני עתק להזין במודלים וללמד אותם.

אלון מאסק. "עד 2040 יהיו מיליארד היומנוידים בינינו"
מנכ"ל אנבידיה ג'נסן הואנג. "פרויקט גרוט יסייע לקפיצת ענק"

נתונים מאינטרנט, כמו אלו שמשמשים לבניית ChatGPT או ג'ימני של גוגל, לא מספיק טובים כאן. רובוטים לא יכולים ללמוד את העולם הפיזי רק מהאינטרנט, לא משנה כמה מידע יגרדו ממנו. הם זקוקים גם לנתונים על העולם הפיזי. כדי להשיג נתונים כאלו, פותחו כמה גישות בתחום הרובוטיקה. כך, למשל, במרץ הציגו לראשונה באנבידיה מודל יסוד שאותו כינו "פרויקט גרוט" (GROOT), שלטענת החברה יסייע "לעשות קפיצות ענק לעבר רובוטיקה כללית מלאכותית". המודל נבנה על בסיס סרטונים של אנשים מבצעים משימות שונות, וענקית השבבים מקווה שהתוכנה שהם מפתחים תוכל להניע את כל תעשיית ההיומנוידים. במטא, ששמה אולי לא מזוהה עם התחום, פועלים לבנות מאגר נתונים באמצעות סימולציה, זאת אומרת לאמן רובוטים בסביבת עבודה וירטואלית שמחקה את הפיזיקה בעולם האמיתי. את המודל האחרון בפיתוחם, Habitat 3.0, הציגו רק באוקטובר, ותכליתו ללמד רובוטים לפעול היטב בסביבות עבודה משותפות עם בני אדם.

דרך נוספת להתגבר על בעיית הנתונים היא שיתוף פעולה. בגוגל הקימו את יוזמת Open X-Embodiment – שכוללת 34 מכוני מחקר ומעבדות ברחבי העולם לבניית מאגר נתונים עולמי, מה שכינו "ה־ImageNet של הרובוטיקה". ImageNet הוא מערך הנתונים הוויזואלי הפומבי הגדול ביותר שפותח באוניברסיטת פרינסטון ב־2012 ושיצירתו הביאה למהפכה בראייה ממוחשבת. המודל ששחררו ביוזמה נקרא RT-X, הוא מבוסס על איגום כל הנתונים שנאספו על ידי כל מכוני המחקר. התיאוריה היא שמה שלמד רובוט אחד על העולם הפיזי, יסייע לתפעול רובוט אחר מכיוון שהמושגים הבסיסיים על העולם זהים. המודל נראה מבטיח ובמאמר שליווה את השקתו לפני חצי שנה מפתחיו קבעו כי שימוש בו הביא לתוצאות טובות יותר במשימות שניתנו לו בעולם הפיזי לעומת שיטות אימון אחרות.

חברות פרטיות כמו Covariant, שהוקמה על ידי יוצאי OpenAI, בנו מסד נתונים לאימון רובוטים בעצמן. המאגר כולל נתונים מ־30 סוגי זרועות רובוטיות שנאספו בחמש השנים האחרונות. המודל שפיתחו ה־RFM-1, מבוסס, לטענת החברה, על כמות נתונים זהה בקנה מידה לגרסת ChatGPT הראשון שהושק לציבור הרחב באוקטובר 2022 וכולל 8 מיליארד פרמטרים. את המודל הם השיקו במרץ האחרון. פיתוחים אלו הופכים את הרובוטים ליעילים ומתוחכמים יותר ויותר, ומהר מאי פעם. התקדמות שמביאה מומחים וחברות מסחריות להעריך כי היומנוידים מוכנים לשיווק מסחרי נמצאים מעבר לפינה, במרחק של שנים בודדות עד שהם ינועו בעצמאות בבתים שלנו. בינה מלאכותית גנרטיבית יכולה לאפשר אינטראקציה שפתית טובה יותר, מסבירה פרופ' סיגל ברמן, ראש המחלקה להנדסת תעשייה וניהול באוניברסיטת בן־גוריון. ברמן, שפועלת בתחום הרובוטיקה שנים, מעריכה שפיתוחים אלו יכולים לסייע לרובוטים להבין טוב יותר את העולם שבו הם נמצאים, אך "עדיין לא עשינו את הקפיצה בתחום, זה עדיין מורכב לרובוט להחזיק ביצה. אם את מדמיינת אחד שיעשה לך מסאז' בבית, אנחנו עוד לא שם".