האח הגדול רוצה לעזור

אתם חושבים שיש לכם פרטיות? כמובן שכשהכל כתוב עליכם במחשבים של רשויות המדינה אז לא ממש. אוקיי, מסתבר שיש לכם בכל זאת מעט פרטיות כי מלבד הפרטים היסודיים והבסיסיים מה כבר יודעים עליכם? יודעים מה השם שלכם, מי בני המשפחה שלכם, איפה אתם עובדים אם הצהרתם, מה ההכנסה שלכם, מה הכתובת שלכם. כאלה דברים. האם יודעים במי אתם מאוהבים? מה הטעם המוסיקלי שלכם? לאילו סרטים הלכתם לאחרונה? מה הרגלי הצפיה שלכם בטלוויזיה? כמובן שלא. ומה אם היו יודעים? זה מן הסתם היה עוזר להם לדעת על מה אפשר להמליץ לכם, כי כשכורים את המידע הזה, אפשר להסיק על פיו מה אתם יכולים לאהוב גם הלאה. אבל פור גוד סייק! איפה הפרטיות שלכם אם יודעים עליכם אפילו את הדברים הכמוסים האלה? לא נכנס לדיון הזה, אלא רק לקישקעס של מערכת המלצות. כן, בתכל'ס היא דבר מועיל. איך בונים מערכת המלצות, פוסט שני בסדרה (הפוסט הקודם כאן, עוד פוסט שכדאי לקרוא)

:: . ::

אז מה אמרנו? בכל מערכת המלצות צריך כמה דברים: איפה לנווט, איך לנווט ולאן. במילים אחרות: האם במאגר קיים? האם במאגר חדש? האם במאגר שמתעדכן כל הזמן? האם במאגר סגור וידוע? לכל סוג של מאגר יש יתרונות – יותר מידע הוא יותר דברים שאפשר להסיק מהם. אבל גם חסרונות – יותר מידע זה יותר דברים שצריך לפרוט לתכונות וסוגים. וגם הסיווג הזה הוא עבודה, האם זה מה שצריך? להושיב מישהו שיתחיל למיין ולחשב ולרשום? כן, מחשבים היום יודעים לעשות עבודה אוטומטית, אבל עד שהמחשב יידע לדוגמה לחתוך שיר לחתיכות קטנות ולשייך אותו במשך זמן סביר לז'אנר, אווירה ומקצב – בטח ייקח איזה 18 שנה של פיתוח. זה לא ריאלי. רק מוסיקולוג חרוץ יידע לעשות את זה. וכן, יש דרכים גם לחסוך את זה, אבל שוב נכנסים ליתרונות וחסרונות. נגיע לזה בהמשך.

:: . ::

רשת חברתית כמאגר מידע
דיברנו על קישקעס אז הנה. מאגר מידע, ספריית וידאו, כרטסת פרופילים, אתר היכרויות – כולם הם סוג של רשת חברתית. גם פייסבוק הוא מקום שבו יש פריטים בעלי תכונות. כואב לקרוא לי ולך "פריטים" כשאנחנו חיים ונושמים, ונהנים לדבר ולהעביר חוויות. אבל זה מה שאנחנו, פריטים במערכת מידע. אז בואו נעשה אנלוגיה בין רדיו אינטרנט לבין רשת חברתית, שמורכבת מאנשים ולהם מערך סטטוסים ותפקידים. כשמדובר ברשת חברתית, אז אלה הקריטריונים לסיווג, ודרכם גם נעשה "הניווט". כבר אמרנו, זהות בין סטטוסים היא קירבה אפס. אם אני ועוד מישהו חולקים את אותן התכונות, כנראה שנבין אחד את השני, כי אנחנו מגיעים מאותו הרקע.

מאגר המידע שישמש אותנו לצורך העניין יהיה מסד הנתונים של הלשכה המרכזית לסטטיסטיקה (או משרד הפנים), ונרצה להגיע מאדם א' לאדם ב' בכמות מסויימת של צעדים. לדוגמה, איך ניתן להגיע ממני אל אהוד אולמרט באמצעות קשרי עבודה, מסחר או משפחה? ובכן, אני הוא בנו של מי שממונה על אשתו של רואה החשבון של בנה של המזכירה במשרדו של השר יעקב אדרי, חבר בממשלתו של אולמרט. ביחד הרכבנו רשימה של שמונה אנשים, שתהיה שקולה ל"פלייליסט" עם שמונה שירים.

אבל מה אם נרצה להגביל את עצמנו לז'אנרים או לשירים עצובים? נחזור לרשת החברתית בדאטהבייס של הלמ"ס. אנחנו רוצים להרכיב רשימה של גברים אשכנזים בשנות השלושים שלהם, שגרים ברמת גן, מרוויחים מעל ל-10,000 ₪ בחודש, מחזיקים ברכב מסוג מזדה בשנת ייצור 2008, ונשואים לעובדות רשות השידור. ברדיו אינטרנט, היינו רוצים שירים קופצניים וקצביים שיצאו בין השנים 1989-1994 בבריטניה, בז'אנר הדאנס האלטרנטיבי, ונכנסו לטופ 20 במצעד המקומי.

:: . ::

אני סנוב מנוזל
ושוב בדאטהבייס של הלמ"ס. מה עם נוסיף עוד קריטריונים? הגברים הללו אמורים להיות שארי בשר של ניצולי שואה, שהגיעו מהעיירה רוטרדם, ושהו במסתור בין השנים 1943-1945 בתנאי מחסור ובסכנת חיים. ככל שנגביל את עצמנו, כך יצטמצמו הפרטנרים. נניח שאני עונה על הקריטריונים האלה, אני לא מכיר אף בן אדם, וקל וחומר שלא קשור אליו, שעונה גם הוא לכולם.

מסתבר לעומת זאת שקיים אדם כזה בחיפה. האם "ארצה" להכיר אותו למרות שהוא לא עונה לקריטריון מקום המגורים? ומה אם הוא לא עונה על קריטריונים נוספים? הוא אדם גרוש בן 55, שמחזיק באוטו מסוג הונדה מודל 2003, והוריו הגיעו מאמסטרדם למרות ששהו אצל חסידי אומות העולם שלא בתנאי מחסור? האם אותו ארצה להכיר? השאלה היא כמה אני גמיש, לי ולאדם זה יהיו כמה מאפיינים משותפים כמו המוצא והמעמד הסוציו-אקונומי. אבל הגיל יהווה הבדל, וגם המצב המשפחתי. והאמת, הוריו לא שהו בסכנת חיים בשואה, האם פריט טריוויה זה יהיה כל כך קריטי בעבורי או שהוא בכלל לא משנה לי?

זוהי מהותה של הגמישות במערכת ההמלצות, ומשקול הקריטריונים. אם לא משנה לי לפגוש בשירים שלא זהים בתכונותיהם לאלה שאני מכיר ואוהב, אני גמיש. השאלה היא מה תהיה שביעות רצוני אם אעבור בתוך חמישה שירים משיר דאנס שמח וקצבי לשיר רוק כבד, איטי ועצוב. האם אשבור את המסך, או שמבחינתי זה בסדר? האם אצטרך לרמוז למערכת שאני לא אוהב את השיר, ולהתחיל להסביר לה שיש בשיר דברים שאני כן ושיש דברים שאני ממש לא, או שהיא תדע לבד שיש תחומים שהיא צריכה להשתדל לא להכנס אליהם? האם אחרי שהגעתי לאיזורים המוטלים בספק, של הרוק הכבד, אמשיך להתפלש בהם, או שהמערכת תדע לשוב לבד לאיזורים החמימים ואהובים עלי, של הפופ והדאנס המיינסטרימיים?

:: . ::

דאטהבייס סטטי ודינמי
בבחירת מאגרי נתונים, נצטרך להחליט אם אנחנו רוצים להסתמך על מאגר קיים או לעמול קשה כדי לבנות מאגר חדש. מה טוב במאגר קיים זה ברור – הוא קיים. מה לא טוב? בואו ונראה. אילו קריטריונים של ניווט חשובים לנו, ומה יש למאגר הזה להציע? אוקיי, יש לו 8 מתוך 10 הקריטריונים שאנחנו רוצים, האם השניים האחרים קריטיים או שאפשר לוותר עליהם? ומה אם הם קריטיים, האם זו תהיה עבודה מפרכת לשבת על כל פריט במאגר ולבחון אותו, כדי לאסוף לבד את המידע אודות הקריטריונים החסרים? ברוב המקרים זה בלתי אפשרי, בטח אם מדובר במאגר שאמור להמשיך ולהתעדכן, בטח אם מדובר במאגר שלא יושב אצלנו אלא במקום אחר, ולא אנחנו מבקרים את העדכון שלו.

מאגר שלא יושב אצלנו הוא או מאגר שאנחנו שוכרים על ידי חברה לכריית מידע, או מידע קיים ומוצע לכל, שאנחנו מנצלים בגלל שהוא חופשי. במקרה הזה נגדיר את מערכת ההמלצות כטפילית. אנחנו "נטפלים" למאגר קיים ומעבדים את המידע שנכרה לא על ידינו. עוד מעט נדגים. במערכת המלצות טפילית, כאמור, לא אנחנו שולטים, בטח שלא בסיווג שלה, בצורה שלו ובדרך שהוא נקלט במערכת. בעיקר אנחנו לא שולטים בזמינות של המידע, שזה משהו מהותי – אנחנו לא יכולים להתחיל לגשש באפילה. אנחנו צריכים לדעת, כמו בכל מחסן ציוד, מה הקטלוג שלנו. מאגר של מידע זמין ומבוקר מוגדר כדאטהבייס סטטי, ומאגר של מידע נזיל ובלתי נשלט מוגדר כדאטהבייס דינמי.

:: . ::

למה ככה ולמה ככה
ההחלטה על בניית מערכת טפילית או עצמאית בדרך כלל מושפעת משיקולי זמן, מאמץ וכסף. מדובר בעבודה לא פשוטה מבחינת השקעה, יכולות והאמת שגם התמדה, בכל זאת הרי המאגר אמור להמשיך ולהתעדכן כל הזמן, ואם לא מסתמכים על מאגר קיים, עבודת העדכון הופכת לנטל גדול, שלא לדבר על עבודת השדרוג והגיבוי. זה הופך לדבר נוראי, זה עולה המון כסף, זה לוקח הרבה זמן, זה מוציא את החשק להחזיק מערכת עצמאית.

אבל מי אמר שאני עצמי אמור לסווג את המערכת? אני יכול להכריח את המשתמשים במערכת שמזינים אליה מידע להכניס קריטריונים ידועים ומוגדרים, ואז אחסוך לעצמי את הטרחה. זה מה שנקרא מערכת עצמאית דינמית. אני גם מחזיק את כל הידע אצלי, וגם לא אחראי על העדכון שלו. כמובן שהחסרון העיקרי הוא שזה לא רק שאני לא אחראי על העדכון שלו, אני גם לא שולט לגמרי על נכונותו. בחלק מהמקרים, אם מדובר במערכת ויקי, שכל אחד יכול לשנות ולהכניס ולמחוק. אני לא שולט גם על הזמינות והתקינות שלו. זה יהיה נחמד לעבוד עם אלגוריתם מצוין, אבל מידע מסווג באופן שגוי.

:: . ::

אז מה כדאי?
הברירה היא אם לבנות מערכת המלצות טפילית או עצמאית, סטטית או דינמית. הכי קל לבנות מערכת עצמאית וסטטית, עושים את העבודה, מסווגים, בונים מנוע חיפוש וזהו. הכל יהיה פיקס, הכל בנוי ומבוקר, אין מקום לבעיות. אבל להיות עצמאי זה עולה כסף, דורש השקעה ולוקח זמן. אז הכי מקטין ראש זה לבנות מערכת טפילית וסטטית. זה מהיר וזול, וגם אין את כאב הראש של בקרת המידע. כמובן שיש גם חסרונות, שאת חלקם הזכרנו כבר קודם – אין את כל המידע שנרצה, אין את המבחר והמשאבים שאנחנו מפנטזים עליהם, אין חופש ניווט כי הסיווג לא בידיים שלנו, ובעיקר: בטפילות שלא באה עם תמלוגים יש בעיות אתיות ומשפטיות לא פשוטות.

לא שדאטהבייס דינמי יכול לעזור, כי במקרה הזה אנחנו גם לא שולטים בזמינות המידע ובעיקר, הדבר הכי חשוב, אנחנו לא שולטים באותנטיות של המידע. בואו נחשוב על יוטיוב, האם אנחנו יכולים לסמוך על מה שמופיע שם שהוא באמת מסווג כמו שצריך? לא רק שאין הוראות ברורות לתיוג הסרטונים, לפעמים התיוג הוא שגוי, ובמקרים הכי גרועים הוא תיוג אינטרסנטי ורמאי. ככל שאתה מתייג את זה בצורה יותר סקסיסטית, אנשים יכנסו לזה יותר. כשמדובר בדאטהבייס טפילי ודינמי, המערכת תהיה גרועה בגלל חוסר הבקרה, ולכן אם רוצים בכל זאת לשפר את הביצועים שלה חייבים להקשות על האלגוריתם, ואז הוא יהפוך לאיטי. מה שאומר: הדיוק בא על חשבון המהירות, וזו בעיה. הפתרון הוא דאטהבייס עצמאי ודינמי, אתה גם מחזיק את כל המידע אצלך, גם שולט במבחר, גם שולט בקטלוג ובסיווג, וגם מסוגל בכל זאת להפעיל איזה שהוא מנגנון בקרה שיוודא אותנטיות. זה יהיה כרוך בתכנות, אבל זה עדיף על תמלוגים וסנג'ורים של עובדים אנושיים, לא?

בואו לא נשכח דרך אגב שכשמדובר ברדיו אינטרנט ובתוכן שיש עליו זכויות יוצרים, צריך לשלם בכל זאת תמלוגים כך שגם אם יש דאטהבייס סטטי ועצמאי זה לא עוזר מדי, כי צריך לתגמל כל מי שמושמע, ואם אנחנו לא שולטים על מה שיושמע, אנחנו גם לא שולטים לגמרי על כמה שנצטרך לשלם. בעיה. תמיד יש בעיה, אין מה לעשות.

:: . ::

דוגמאות:
Pandora – דאטהבייס עצמאי וסטטי, אין קניין רוחני
Last FM – דאטהבייס טפילי (אודיוסקרובלר) וסטטי, אין קניין רוחני
Jdate.co.il – דאטהבייס עצמאי ודינמי, קניין רוחני לא רלוונטי
Muxtape – דאטהבייס עצמאי ודינמי, אין קניין רוחני
Mixwit – דאטהבייס טפילי ודינמי, קניין רוחני לא רלוונטי (מידע אצל משתמשי קצה)
Youtube – דאטהבייס עצמאי ודינמי, אין קניין רוחני
Flickr.com – דאטהבייס עצמאי ודינמי, קניין רוחני לא רלוונטי (cc)
Digg – דאטהבייס טפילי ודינמי, קניין רוחני לא רלוונטי (זה רק לינק!)
Del.icio.us – דאטהבייס טפילי ודינמי, קניין רוחני לא רלוונטי
StumbleUpon – דאטהבייס טפילי ודינמי, קניין רוחני לא רלוונטי
Google – דאטהבייס טפילי ודינמי, קניין רוחני לא רלוונטי (מנוע חיפוש)
מט"ח, IEEE – דאטהבייס עצמאי וסטטי, יש קניין רוחני (ספריה מקוונת)

:: . ::

מה הלאה?
דאטהבייס סטטי הוא פחות או יותר המקבילה של ווב 1.0, ודאטהבייס דינמי הוא פחות או יותר המקבילה של ווב 2.0. לא בדיוק אבל בערך. אחרי שהרכבנו את מאגר המידע, המשימה הבאה היא סמנטיקה ופרסונליזציה, או מה שנקרא ווב 3.0. במילים אחרות: לא בדיוק מה שרציתי אבל אולי בכל זאת זה מוצא חן בעיני, או אם אהבתי את זה אולי אני עשוי לאהוב גם את הדבר הדומה לו. ככל שהמערכת תהיה כזו, כך תהיה מושלמת יותר. השלמות היא גם משהו נזיל מאוד, מן הסתם השלמות תוגדר מחדש כשווב 4.0 יהיה הדבר הבא. השאלה היא רק מהו בעצם ווב 4.0, ואם כבר יודעים מהו, אז למה לא התחילו ליישם אותו. בפוסט הבא בסדרה אבחן שיטות שונות לסיווג – שיטות יבשות, לחות ורטובות באמת. או בקיצור: כמה צריך להיות נאצי כשאתה ניגש לסווג שירים, איפה אפשר לחסוך ואיזו אינפורמציה נחשבת מיותרת כי התועלת שלה פחותה.

  • Facebook
  • Twitter
  • email
  • Google Bookmarks

השאר תגובה