רק אחד מהאיורים האלה אויר בידי אדם:

א.

ב.

ג.

ד.

"הים נוסע ברכבת, היא לוקחת אותו למדבר כדי שיהיה ים גם ללווייתנים ששם" ‍

ארבעה איורים שונים לסיפור הקצר של זוהר כהן בת ה־3: א. באמצעות Midjourney + waifu2x (בוים בידי דורון אדלר). ב. באמצעות Disco Diffusion v5.2 (בוים בידי איל גרוס). ג. באמצעות VQGAN+CLIP (בוים בידי איל גרוס). ד. מאת רותו מודן
‍

בשנה וחצי האחרונות נרשמו זינוקים דרמטיים ביכולות של תוכנות מבוססות בינה מלאכותית לתרגם טקסט לאיור. ד"ר איל גרוּס, אמן וחוקר AI, החליט לבחון זאת על סיפור קצרצר שחיברה ילדה בת 3, והתוצאה: איורים מרשימים באופן מטריד ממש. האם כבר הגענו לשלב שבו המחשב יחליף מאיירים?

להאזנה לכתבה
הוקלט על ידי הספרייה המרכזית לעיוורים ולבעלי לקויות קריאה

מוסף כלכליסט | 19.05.22

"

הים נוסע ברכבת, היא לוקחת אותו למדבר כדי שיהיה ים גם ללווייתנים ששם". את הסיפורון הסוריאליסטי הזה בדתה זוהר כהן, בת רבע ל־3, כשהיתה תקועה בפקק ברכב עם אמה, גיל. גאה בפרץ היצירתיות של בתה, מיהרה גיל לתעד אותו בפייסבוק, ומשם הוא התגלגל לאמנית רותו מודן, שאיירה אותו כמתנה לזוהר. זה היה יכול להיות סוף מושלם לסיפור, אבל אז נכנסה גם בינה מלאכותית לתמונה, והכל נעשה סוריאליסטי עוד יותר.

אחד האנשים שנחשפו לפוסט של כהן היה ד"ר איל גרוּס, אמן, חוקר למידת מכונה ומרצה ליצירתיות חישובית בוויצ"ו חיפה ו־HIT חולון. בשנה החולפת נרשם זינוק משמעותי ביכולות התרגום של טקסט לתמונה בידי בינה מלאכותית, וגרוס החליט לבחון זאת על הסיפור של זוהר באמצעות חמישה מודלים עדכניים: Dall E 2, MakeAScene, Disco Diffusion, VQGAN+CLIP ו־Midjourney. התוצאות היו מסעירות, מלאות דמיון ורבדים, ובעיקר קוהרנטיות כאילו נשלפו ממאגר איורים קיים.

האם המחשב יכחיד את המאיירים? גם אם כן, זה ייקח עוד זמן. "כרגע האלגוריתמים יודעים לפענח משפט־שניים, עוד לא פסקה שלמה", מבהיר גרוס.

איך זה עובד?

"בהפשטה, מדובר בבינה מלאכותית שהראו לה מאות מיליוני תמונות בצירוף כיתובים שמתארים אותן. המודלים האלה לומדים את הקשר בין התמונה או הציור למשפט, ממש כמו מודל השפה שעומד מאחורי מנגנון ההשלמה האוטומטית בטלפון — כלומר הם לומדים להבין משמעות לא רק ברמת המילה, אלא גם ברמת המשפט וברמת הפסקה. ואחרי שמלמדים אותם המון המון דוגמאות, המודלים מגיעים לרמה שהם מציירים דברים שנראים קשורים לטקסט שהזנו בהם".

עד כמה המודלים באמת "מבינים" את התמונה, ולא פשוט מציגים את האלמנטים שמופיעים במשפט?

"המודל בהחלט מנסה להבין את הטקסט שהזנת, ולא רק להתייחס לאלמנטים שבו, אבל אנחנו לא תמיד יכולים לדעת אם הוא הבין אותו עד הסוף או לא".

המודל Dall E למד 12 מיליארד פרמטרים ב־650 מיליון תמונות, והתוצאה היתה יכולות פורצות דרך. "הוא יכול, למשל, להפוך טקסט כמו 'כורסת אבוקדו' להלחם ויזואלי חדש והגיוני של שני קונספטים לא קשורים", מסביר ד"ר גרוס

עוד במוסף כלכליסט

המחשב לומד להתגזען

בינה מלאכותית יודעת ליצור אמנות שנמכרת במאות אלפי דולרים כבר כמה שנים טובות, ואפילו היכולת לתרגם פקודה טקסטואלית לדימוי חזותי מקורי איננה חדשה. אבל עד לא מזמן תוצרי האלגוריתמים היו מופשטים מדי ולא מרשימים. הקפיצה המשמעותית ביותר בתחום התרחשה בינואר 2021, כשמעבדת המחקר של OpenAI השיקה את "Dall E" ("דאלי", בקריצה לשם הצייר המפורסם), מודל שרתם למידה עמוקה ורשתות נוירונים מלאכותיות עבור יצירת טקסט ותמונות בלא פחות מ־12 מיליארד פרמטרים, ואומן על 650 מיליון תמונות ברשת. "דאלי הביא לפריצת דרך בתחום", אומר גרוס. "אמנם גם לפניו היו מודלים שהפכו טקסט לתמונה, אבל דאלי הציג יכולות חדשות לחלוטין, למשל להפוך טקסט כמו 'כורסת אבוקדו' להלחם ויזואלי של שני הקונספטים הלא־קשורים הללו כדי לצקת מהם משהו חדש שיהיה גם הגיוני קונספטואלית".

ההצלחה של דאלי הביאה להתפוצצות חסרת תקדים של אלגוריתמים מתחרים ולשיפור מהותי גם בדאלי עצמו: "Dall E 2" הושק בחודש שעבר (אפריל), והציג יכולות מתקדמות עוד יותר כמו שתילת אובייקט באיור קיים באופן חלק וזריז, עם התחשבות במאפיינים כמו צל ותאורה, ובחירת סגנונות כמו פיקסל־ארט או "בנוסח פיקאסו".

שבוע לפניו הושק MakeAScene של מעבדת מחקר ה־AI של מטא (פייסבוק) בניצוחו של אורן גפני, שמאפשר לצרף לטקסט סקיצה של הקומפוזיציה הרצויה לצורך דיוק של התוצאות.

בינתיים התוכנות המתקדמות אינן פתוחות לקהל הרחב, רק למשתמשים מורשים. "לדאלי 2 יש רשימת המתנה והם כבר הודיעו שתהיה צנזורה על תוכן פוליטי, מיני וכו'", אומר גרוס. "אז אפשר רק לנחש שזה ייקח משהו כמו שנה עד שתתאפשר גישה כללית". גם MakeAScene של מטא צפויה להיפתח בגרסת דמו לשימוש הציבור בהדרגה, אבל רק בחודשים הקרובים. למה בעצם?

אפשר להניח שהסוגיות האתיות שמציבה הבינה המלאכותית בפני האנושות הן חלק מהתשובה. ב"דאלי", למשל, על צמד גרסותיו, אין פרצופים אנושיים. לפי "Wired", "הצוות האדום" של OpenAI מצאו שהתיאורים האנושיים של האלגוריתם עלולים להיות — תיראו מופתעים — גזעניים ומוטים מגדרית, כמו לדוגמה העדפה ברורה לתמונות של גברים לבנים ולייצוגים מיניים יתר על המידה של נשים. ההמלצה של מחצית מחברי הצוות, אם כן, היתה להימנע מפרצופים.

"כמובן לא האלגוריתם מוטה אלא אנחנו, האנשים שמייצרים אותו", אומרת חוקרת האמנות דניאל זיני. "הרי מה הוא יודע, ממה הוא מוזן? זה בדיוק אותו דבר במודל השפתי של OpenAI, שגם הוא נתקל באותן סוגיות. בסופו של דבר הטכנולוגיה מתמצבת על מה שהיא מכירה מהרשת".

אז מה עושים? האנה רוז קירק, חברת הצוות האדום של OpenAI וחוקרת בינה מלאכותית באוניברסיטת אוקספורד, מסבירה כי "בגדול, יש שתי אפשרויות שבהן נוכל לנקות את התוצרים של מערכות הבינה המלאכותית מהטיות כאלה: לשנות את הנתונים שבאמצעותם אימנו את המודל למגוונים יותר או לשנות את הדרך שבה המודל משתמש בנתונים. כך למשל אפשר לכפות עליו בבקרת התוצרים מספר זהה של דימויים מתוקנים שיסתרו את הדימויים הסטריאוטיפיים שהוא חולל".

"מה שהמודלים עושים הוא פשוט קולאז' של אלמנטים, אבל הם לא יודעים לזהות את הפיוטיות שבטקסט", אומרת רותו מודן. "מה זאת אומרת, למשל, שהים נוסע ברכבת? ואיך הלווייתנים מגיבים לים שמגיע? היחסים בין האלמנטים לא קיימים, כי רק אנחנו כאמנים יכולים לדמיין את זה"

באמצעות Disco Diffusion v5.2 (בוים בידי איל גרוס)

באמצעות Dall E 2 (בוים בידי נטלי פיסטונוביץ')

באמצעות Disco Diffusion v5.1 (בוים בידי איל גרוס)

למחשב לא מתחשק

לצד הסוגיות של סטריאוטיפיים מגדריים וגזעניים, השאלה הגדולה שעומדת בפני האלגוריתמים של איור היא מידת היצירתיות שלהם: האם בינה מלאכותית מסוגלת להתחרות באיור של רותו מודן לסיפור של זוהר כהן? מודן עצמה אינה חשה מאוימת כלל. "זה מרשים מאוד ברגע הראשון, אבל זה מרשים כמו לראות קוף משחק שחמט", היא אומרת. "אבל אנחנו עדיין רחוקים מזה, וגם כשזה יקרה, האם אנשים יפסיקו לשחק שחמט? לא.

כשאת מביטה באיורים ה"מתחרים" שהאלגוריתמים עשו לסיפור, מה ההבדלים העיקריים שאת רואה?

"שאין בהם את הכוונה. עוד לא מצאו מחשב שמתלהב מסיפור ורוצה לצייר אותו, שזה מה שקורה לי ולמאיירים בכלל. למחשב לא מתחשק לאייר, וזה לא מפעיל אותו אמנותית. ואמנות הרי לא באה רק מתוך דרישה מבחוץ — מישהו שרוצה שתצייר לו כבשה — היא מגיעה קודם כל מדרישה מבפנים".

וחוץ מכוונה — מה עוד חסר באיורים האלה?

"מה שהמודלים עושים הוא קולאז' של אלמנטים: ים, רכבת ולווייתנים. אני לא רואה בהם התייחסות אמיתית למה שאותי הלהיב במשפט, למשל — שהים נוסע ברכבת. מה זאת אומרת שהים נוסע ברכבת? את הפיוטיות הזו המחשב לא יודע לזהות. ואיך הלווייתנים מגיבים לים שמגיע? היחסים בין האלמנטים לא קיימים, כי המחשב לא מבין ביחסים, הוא לא מבין מה זה בשביל לווייתנים שהם במדבר ופתאום מגיע אליהם ים. אנחנו כאמנים יכולים לדמיין את זה. אבל המודלים רק לקחו את האלמנטים וניתחו אותם בכל מיני אופנים. זה מלהיב כי יש בזה משהו חדש, אבל זה רחוק מאוד מאיור אנושי".

זיני מסכימה שהמודלים אינם מאיימים על מקומם של אמנים בשדה האמנות ובחברה. "מאז ומעולם אמנות נוצרה באמצעות טכנולוגיה, אם זה צבע או ציורי המערות הראשונים שנעשו על ידי מקלות, ותמיד תהיה הפרדה בין האמנות לבין היוצר, זו שאלה שהולכת איתנו משחר האמנות. גם התוצרים לסיפור של זוהר לא נעשו בידי מכונה בלבד. הם 'manipulated by' — כלומר האלגוריתם מביא המון תוצאות ואדם בוחר מביניהן את התוצאה הסופית. לכן לא נכון שלומר שאין בן אדם בתהליך, כרגע לפחות, וזה גם היופי. זה עוד כלי שאמנים יכולים להיות בדיאלוג איתו ולהשתמש בו לקיצורי דרך ולמניפולציות, ושמגדיל את האפשרויות שלהם".

עוד במוסף כלכליסט

סבתא על ספל שווה מלא כסף

מנכ"לית שאטרפליי, שמדפיסה תמונות אישיות על אינספור מוצרים, מסבירה איך המתנות הקלאסיות נהפכו לאימפריה בינלאומית של 2 מיליארד דולר בשנה

קוד דה וינצ'י

רוני דורי

קוד דה וינצ'י

//

רוני דורי

רק אחד מהאיורים האלה אויר בידי אדם:

"

עוד במוסף כלכליסט

המחשב לומד להתגזען

למחשב לא מתחשק

עוד במוסף כלכליסט

חתיכת שבוע

חתיכת שבוע

עוד במוסף כלכליסט

סבתא על ספל שווה מלא כסף

חשיפה ארוכה

המוספים האחרונים

המשוגעים לדבר

הריאליסט

מה הטעם

19.05.22

האם תסכימו שיהנדסו את החלומות שלכם?

סבתא על ספל שווה מלא כסף

ה־AI ניצח במבחן הלווייתן

חשיפה ארוכה

חתיכת שבוע

מה הטעם

בעיטה במוח

מה הטעם

עדשה רחבה

ערוץ החיים

האם תסכימו שיהנדסו את החלומות שלכם?

סבתא על ספל שווה מלא כסף

ה־AI ניצח במבחן הלווייתן

חשיפה ארוכה

חתיכת שבוע

מה הטעם

בעיטה במוח