יום ראשון, 28 באוקטובר 2018

מסתבר שגם אצל סירי החזות קודמת לקול






בניגוד לדעה הרווחת, לפיה בזכות ההתקדמות הטכנולוגית, לא ירחק היום שבו נוכל לשוחח בטבעיות עם מחשבים ומערכות בינה מלאכותיות  - המציאות מוכיחה שאנחנו אפילו לא קרובים לזה!  נכון לעכשיו אנחנו עוד לא באמת יכולים לשוחח ברצינות עם המחשבים שלנו.

ממשקי השיחה המשוכללים ביותר, שכבר נגישים לצרכנים, הם העוזרים האישיים הדיגיטליים, דוגמת סירי של אפל, אלקסה של אמזון והעוזר של גוגל (OK Google). בפועל המוצרים הללו די מוגבלים מבחינת היכולת שלהם לפענח את הכוונה של המשתמשים ומבחינת היכולת שלהם להגיש למשתמשים את המידע באופן יעיל. במאמר שפורסם ביולי 2018 באתר של חברת היעוץ והמחקר Nielsen Norman Group מתארים הכותבים סידרה של מבחני שמישות, שהם ערכו לעוזרים הדיגיטליים.  מסתבר שהמוצרים הללו עדיין מתקשים מאוד לנהל שיחה טבעית ולזהות את מצב העניינים. לפעמים נדמה כאילו הם ממשיכים לדבר ולהגיש את התוצאות לנצח – גם כשהמשתמש כבר מזמן איבד עניין, או הפסיק לעקוב.  בנוסף לזה, מסתבר שבהרבה מאוד מקרים עצם הקראת תשובות לשאלות של משתמשים מקשה על המעקב אחר התשובות – למשל כאשר המערכת מציעה מספר אפשרויות לבחירה.  עוד עולה מן המחקר כי העוזרים הדיגיטליים מתקשים לזהות שאלות המשך, שמתבססות על התשובות שנתנו, ושהם מתקשים לזהות את ההֶקשֵׁר של השיחה, באמצעות מידע זמין מהיומן של המשתמשים, או מהתכתבויות הדוא"ל שלהם.  כדי למצות את היכולות של העוזרים, המשתמשים צריכים למעשה ללמוד איך לדבר איתם נכון ובאילו מונחים להשתמש – כלומר, בשלב זה לא מדובר באמת בשיחה טבעית אלא בהליך שמצריך למידה והסתגלות של המשתמשים.

על רקע קשיים מובנים אלו ביכולות של העוזרים הדיגיטליים, אנשים נוטים להשתמש בעוזרים בהקשרים מאוד מסויימים לביצוע משימות פשוטות יחסית. המניעים העיקריים לפנייה לעוזר דיגיטלי הם מצבים בהם הידיים תפוסות (כמו למשל בזמן בישול או נהיגה) והצגת שאלות שיותר מהר לומר אותן בהשוואה להקלדה וקריאה של התשובות (כלומר שאלות פשוטות יחסית). לרוב האנשים, שמשתמשים בעוזרים, יש אמון מוגבל למדי באשר ליכולותיהם ולרוב הם יציגו שאלות פשוטות בסיגנון של מי, מה, מתי, איפה, ולא שאלות של בדיקות מעמיקות או חיפושים מעט יותר מורכבים.  גם משתמשים שמצליחים, בסופו של דבר, לשאול את העוזרים שאלות יותר מורכבות ולקבל תשובות ראויות, מרגישים שהמאמץ הכרוך בניסוח מתאים של השאלות, כדי שהעוזר הדיגיטלי יבין אותן, לא משתלם.

היכולת של העוזרים הדיגיטליים לפענח בצורה אינטליגנטית בקשות של משתמשים, ולעבוד עבורם באופן עצמאי (כמו למשל לתאם פגישות או לספק מענה על חלק מהודעות הדוא"ל) דורשת קיום אלגוריתמים, שלומדים את המשתמש הספציפי, באופן מעמיק ולאורך זמן ומבצעים ניתוח מעמיק של ההרגלים שלו ופיענוח נבון של צרכיו – כפי שהם באים לידי ביטוי בבקשה המילולית מהעוזר הדיגיטלי. לכך יש להוסיף כמובן את העובדה שהאינטגרציה של היכולות החלקיות שכבר קיימות, ביחד עם האזנה לפנייה קולית של המשתמשים, עיבוד ראוי של השיחה והקראה של המענה, תוך התחשבות בצרכים במקום ובזמן, עדיין מתנהלים באופן לא מרשים ולא אטרקטיבי.

אז לאן כל התחום הזה הולך?  כנראה שאנחנו נדבר אל המחשבים שלנו יותר ויותר, כי הם יודעים להקשיב ועם הזמן הם ידעו לפענח טוב יותר את הכוונות שלנו.  באשר להגשת מידע מהמחשב אלינו, תשובות פשוטות אפשר להציג באמצעות הקראה, אבל ככל שהדברים מורכבים יותר, יהיה צורך להשתמש בתצוגה חזותית, שמאפשרת סריקה והתמקדות ודורשת פחות ריכוז ופחות מאמץ מנטלי.  בהרבה דברים הערוץ החזותי שלנו הרבה יותר יעיל מהערוץ המילולי: כאשר אתם צריכים לבחור פריט אחד מבין חמישה פריטים, קל יותר להצביע על הפריט הנבחר מאשר להסביר לאיזה פריט אנחנו מתכוונים.  חשבו על שיחה לא במובן של שיחה מילולית בין שני אנשים שהידיים שלהם קשורות אלה על שיחה בה כל צד משתמש באמצעי ההמחשה שעומדים לרשותו – למחשב יש צג והוא יכול לשלב אותו בשיחה כדי ליעל אותה.