רמת קושי 4

הכל על Cohort Analysis

Cohort Analysis בגוגל אנליטיקס. מה זה אומר בדיוק, איך עובדים עם זה ומה אפשר לנתח ולגלות על המשתמשים שלכם באתר

אסף טרפיקנט | 07 פברואר, 2015

השבוע גוגל אנליטיקס השיקו פיצ'ר חדש בשם Cohort Analysis. המתודה עצמה וותיקה למדי, ועד לרגע זה ניתן היה לבצע אותה באופן די פרימיטיבי בגוגל אנליטיקס או באופן רציני יותר בעזרת כלים אחרים שהתמחו בזה (ובעיקר עם המון אקסל). יש סיכוי סביר שאפילו כבר עשיתם את זה רק לא ידעתם שקוראים לזה ככה. אז לפני שנרד לפרטים, מתחילים מהבסיס:

מה זה בדיוק Cohort Analysis

קוֹהוֹרְטָה (בצבא הרומי); חבורה מלוכדת; עֻקְבָּה, קבוצת אנשים בעלי אפיון סטטיסטי או דמוגרפי משותף. (מתוך מילון מורפיקס)

אז כמו שנאמר למעלה, Cohort זו קבוצה של אנשים בעלי מכנה משותף או מאפיינים משותפים. בדרך כלל מתייחסים לקבוצה הזו כאל קבוצה מלוכדת לאורך זמן. במוצר הסנכרון והגיבוי האהוב עלי, Sugarsynch, יש מן הסתם קבוצה שקוראים לה "אלו שבחרו בחבילת ה 200GB". וכל מי שרוכש חבילה זו, משוייך לקבוצה הזו. יתרה מכך, אפשר להחמיר ולומר שגם את הקבוצה הזו אפשר לחלק לשתי קבוצות. אלו שמשלמים חודש בחודשו ואלו שמשלמים פעם בשנה. אבל זה פשוט על פניו ולמעשה לא ממש נחשב כ Cohort Analysis. מה שיהפוך את זה ל Cohort Analysis זה להוסיף את מימד הזמן, כלומר, לבנות קבוצות לא רק לפי השייכות לפעולה מסויימת אלא לפי זמן ההתרחשות. למשל, אפשר להגדיר קבוצה של "כל אלו שנכנסו לאתר שלי וקנו מגפי עור במהלך Cyber Monday 2015".

מספר הקבוצות שאפשר לבנות ולהגדיר ולסגמנט – הוא אינסופי, וכמובן שאותם המבקרים באתר יכולים להשתייך לכמה קבוצות. היכולת שלכם לבנות ולהגדיר קבוצות ולנתח את ההתנהגות שלהן לאורך זמן באה להחליף בדיקות פרטניות של כל משתמש בנפרד, ולנסות לקבל מסקנות המאפיינות באופן סטטיסטי מובהק – קבוצה שלמה.

מעבר לזה, תוכלו להשוות בין התנהגות של קבוצות שלמות, זהות על פניו, אך נבדלות במועד היצירה שלהן. לדוגמא: האם אלו ששדרגו לחבילת הפרימיום בפברואר 2014 שונים מאלו ששדרגו לחבילת הפרימיום באוגוסט 2014. האם אלו שרכשו משקפי שמש בקיץ 2011 נוטים לרכוש יותר ג'ינסים מאלו שקנו משקפי שמש בקיץ 2012.

איך בצענו Cohort Analysis עד היום (בגוגל אנליטיקס)

די עקום למען האמת. אני השתמשתי ב Custom Variables על מנת לצבוע משתמשים שהתנהגו באופן מסויים. למשל, באתר פורקס כלשהו, בכל פעם שמישהו ביצע לראשונה הפקדה (קוראים לזה בעגה המקצועית FTD – First Time Deposit) השתמשנו ב Custom variable על מנת לתייג את אותו המשתמש וגם דחפנו בערך של המשתנה הזה את התאריך של הרישום (רק חודש ושנה בדר"כ). כך, יכלנו אחר כך לאגד את כל המשתמשים שביצעו FTD בינואר 2015 למשל ולבנות על פיהם סגמנט ולהשוות לסמגנט של משתמשים מסוג אחר.

באתרים בהם יש מערכות BI רציניות או אפילו DB פשוט שאוסף נתונים על השימוש במערכות, הייתי עובד עם אקסלים מורכבים ושאילתות על גבי שאילותות על מנת לשלוף את הקבוצות ולהשוות ביניהן.

איך גוגל נותן לכם לבצע Cohort Analysis עכשיו?

הפיצ'ר הזה רחוק מלהיות מושלם לעומת Cohort Analysis שקיים במערכות אחרות מתקדמות יותר, אבל זה צעד חשוב בדרך(מערכת חינמית – מה ציפיתם?).

חפשו את הדוח תחת Audience->>Cohrot Analysis.cohort-analysis-ga

לאחר מכן יופיע לכם תרשים די מוזר וכדאי להתעכב ראשית על ההגדרות שלו:

cohort-report1

 

  •  Cohort Type – כרגע אפשרות זו מוגבלת ומוצגת לכם אפשרות אחת בלבד – Acquisition date. שזה אומר שקבוצת המחקר שלנו היא למעשה כל מי שביקר באתר. לא להתבלבל, זה לא מי שהשלימו יעד (Goal) או רכשו משהו. המילה Acquisition היא במובן של "גולש נכנס לאתר". אני מניח שבקרוב ייכנסו פה אפשרויות מתקדמות יותר.
  • Cohort Size – באיזו רזולוציית זמן תרצו לסווג את הקבוצה. אם בחרתם "Month" יסומנו כל אלו שהגיעו לאתר במהלך חודש ספציפי – כקבוצה אחת.
  • Metric – אוקי, יש קבוצות, עכשיו השאלה היא מה המדד שאני רוצה לבדוק את הביצועים שלו עבור אותה קבוצה. למשל מה ה Retention שלהם, המרות, מספר דפים נצפים, מכירות (Revenue) וכו'.
  • Date Range – השדה הזה משתנה בהתאם למה שבחרתם ב Cohort Size. אם בחרתם חודשים, תוכלו לבקש לראות את התנהגות המדד שבחרתם ב Metric, בשני החודשים האחרונים ובשלושה החודשים האחרונים עבור אותה קבוצת מדגם.

מעל הגרף יש עוד Drop Down שמכיל רשימת חודשים (אם בחרתם בדוח מבוסס חודשים) או רשימה של ימים (במידה ובחרתם דוח מבוסס ימים).

ועכשיו דוגמא קטנה: אני רוצה להשוות את מספר הביקורים לאורך זמן של אלו שהגיעו לאתר לראשונה בנובמבר האחרון מול אלו של דצמבר שבא לאחריו. ב Cohort Size בחרו Month. ב Metric בחרו Sessions, וב Date Range סמנו את כל החודשים הרלוונטיים (במקרה שלי – נובמבר ודצמבר ברגע כתיבת הפוסט). וזה מה שקיבלתי:

cohort-chart

בגרף יש שני קווים – הקו שמתחיל גבוה יותר, מייצג את המשתמשים שהגיעו לאתר בדצמבר ולכן מבחינת ציר ה X אורכו רק שני מקטעים (אני מזכיר שהגרף נותן שלושה חודשים אחורה בלבד). הקו הכהה יותר שמתחיל מעט מתחתיו מייצג את המשתמשים שהגיעו לאתר בנובמבר, ומכיוון שכך, אורכו שלושה מקטעים, כלומר שלושה חודשים (מנובמבר עד ינואר כולל). אם כך, מדוע שניהם נמצאים אחד מעל השני אם הם מתחילים בחודשים שונים?

התשובה טמונה בציר ה X. שימו לב שכתוב שם Month 0, כלומר המערכת ציירה את גרפי ההתנהגות של שתי הקבוצות ושמה אותם אחד מעל השני לצרכי השוואה ולצרוך ניתוח של האם ההתנהגות של שתי קבוצות אלה משתנה לאחר חודש אחד (Month 1) וכו'.

מה  זאת הטבלה שמופיעה למטה?

הטבלה המופיעה מתחת לגרף מספרת לנו סיפור מעניין אבל לשם כך נשנה את רזולוציית הדוח לרמה יומית, 30 יום אחורה, והפעם נבחר את מדד ה Retention (לחצו להגדלה):

cohort-table

בואו נתמקד בשורה הראשונה ונבאר אותה.
ב 11 לינואר, מתוך כל המשתמשים שהגיעו לאתר באותו היום (בגלל זה כתוב 100% תחת הטור של Day 0), רק 4.36% חזרו ביום שלמחרת (Day 1).
יום למחרת, ב 12 לינואר, הגיעו שוב המון משתמשים חדשים ומתוכם רק 2.48% חזרו למחרת. מה ההבדל בין הימים הללו? האם מדובר ב"רעש"? האם כל אלה שהגיעו לאתר ב 11 לינואר, קיבלו איזה מייל קמפיין בערב וחזרו למחרת שוב?
האם אלו שהגיעו לאתר לראשונה ב 12 לחודש, לא קיבלו שום מייל נוסף ולכן פחות מהם חזרו ביום שלמחרת? האם סתם בימי שני אנשים עסוקים יותר ולכן נוטים פחות לחזור לאתרים שביקרו בהם?  אז זה Cohort Analysis כפשוטו. מנתחים קבוצות "שונות" בעלות נתוני פתיחה שונים (תאריך שונה) אבל שמים את כולן על אותו הציר ומאותה נקודת פתיחה.

עוד הפתעה קטנה

דוחות ה Cohort מאפשרים לכם גם להפעיל סגמנטים בצורה רגילה על גבי הדוח, ולהשוות למשל מה ה Retention לאורך זמן של אלו שהגיעו לאתר ממובייל בדצמבר, לבין אותה קבוצה רק שהגיעו בינואר ומדסקטופ! למעשה, השלכת מנוע הסגמנטים על גבי הדוח הזה מאפשרת לכם ליצור קבוצות מאד מורכבות המבוססות לא רק על זמן הגעה לאתר, אלא גם על פי ההתנהגות שלהן.

כמות השאלות שאפשר לחשוב עליהן – היא אינסופית וזה גם חלק מהבעיה של Cohort Analysis. דרך אחת להשתמש בדוח היא כמו שהדגמתי כאן, והיא מתרכזת באיתור פערים לא מוסברים בין קבוצות שלכאורה אמורות להיות זהות. לפעמים עושים שיעורי בית ומגלים שיש גורמים חיצוניים או פנימיים שמשפיעים על המספרים. תקראו לזה A/B Testing על ספידים.

בשורה התחתונה

גוגל עוד לא ממש הספיקו להוריד את הפצפצים מהפיצ'ר הזה וכמובן שהוא עדיין ב Beta ויש עוד כמה גליצ'ים של עיצוב, אבל זו התחלה טובה מאד ובהחלט מתחילה לשים את גוגל במשחק של הגדולים.

אסף טרפיקנט
רוצה לקרוא אחר כך?

Cohort Analysis בגוגל אנליטיקס. מה זה אומר בדיוק, איך עובדים עם זה ומה אפשר לנתח ולגלות על המשתמשים שלכם באתר

השבוע גוגל אנליטיקס השיקו פיצ'ר חדש בשם Cohort Analysis. המתודה עצמה וותיקה למדי, ועד לרגע זה ניתן היה לבצע אותה באופן די פרימיטיבי בגוגל אנליטיקס או באופן רציני יותר בעזרת כלים אחרים שהתמחו בזה (ובעיקר עם המון אקסל). יש סיכוי סביר שאפילו כבר עשיתם את זה רק לא ידעתם שקוראים לזה ככה. אז לפני שנרד לפרטים, מתחילים מהבסיס:

מה זה בדיוק Cohort Analysis

קוֹהוֹרְטָה (בצבא הרומי); חבורה מלוכדת; עֻקְבָּה, קבוצת אנשים בעלי אפיון סטטיסטי או דמוגרפי משותף. (מתוך מילון מורפיקס)

אז כמו שנאמר למעלה, Cohort זו קבוצה של אנשים בעלי מכנה משותף או מאפיינים משותפים. בדרך כלל מתייחסים לקבוצה הזו כאל קבוצה מלוכדת לאורך זמן. במוצר הסנכרון והגיבוי האהוב עלי, Sugarsynch, יש מן הסתם קבוצה שקוראים לה "אלו שבחרו בחבילת ה 200GB". וכל מי שרוכש חבילה זו, משוייך לקבוצה הזו. יתרה מכך, אפשר להחמיר ולומר שגם את הקבוצה הזו אפשר לחלק לשתי קבוצות. אלו שמשלמים חודש בחודשו ואלו שמשלמים פעם בשנה. אבל זה פשוט על פניו ולמעשה לא ממש נחשב כ Cohort Analysis. מה שיהפוך את זה ל Cohort Analysis זה להוסיף את מימד הזמן, כלומר, לבנות קבוצות לא רק לפי השייכות לפעולה מסויימת אלא לפי זמן ההתרחשות. למשל, אפשר להגדיר קבוצה של "כל אלו שנכנסו לאתר שלי וקנו מגפי עור במהלך Cyber Monday 2015".

מספר הקבוצות שאפשר לבנות ולהגדיר ולסגמנט – הוא אינסופי, וכמובן שאותם המבקרים באתר יכולים להשתייך לכמה קבוצות. היכולת שלכם לבנות ולהגדיר קבוצות ולנתח את ההתנהגות שלהן לאורך זמן באה להחליף בדיקות פרטניות של כל משתמש בנפרד, ולנסות לקבל מסקנות המאפיינות באופן סטטיסטי מובהק – קבוצה שלמה.

מעבר לזה, תוכלו להשוות בין התנהגות של קבוצות שלמות, זהות על פניו, אך נבדלות במועד היצירה שלהן. לדוגמא: האם אלו ששדרגו לחבילת הפרימיום בפברואר 2014 שונים מאלו ששדרגו לחבילת הפרימיום באוגוסט 2014. האם אלו שרכשו משקפי שמש בקיץ 2011 נוטים לרכוש יותר ג'ינסים מאלו שקנו משקפי שמש בקיץ 2012.

איך בצענו Cohort Analysis עד היום (בגוגל אנליטיקס)

די עקום למען האמת. אני השתמשתי ב Custom Variables על מנת לצבוע משתמשים שהתנהגו באופן מסויים. למשל, באתר פורקס כלשהו, בכל פעם שמישהו ביצע לראשונה הפקדה (קוראים לזה בעגה המקצועית FTD – First Time Deposit) השתמשנו ב Custom variable על מנת לתייג את אותו המשתמש וגם דחפנו בערך של המשתנה הזה את התאריך של הרישום (רק חודש ושנה בדר"כ). כך, יכלנו אחר כך לאגד את כל המשתמשים שביצעו FTD בינואר 2015 למשל ולבנות על פיהם סגמנט ולהשוות לסמגנט של משתמשים מסוג אחר.

באתרים בהם יש מערכות BI רציניות או אפילו DB פשוט שאוסף נתונים על השימוש במערכות, הייתי עובד עם אקסלים מורכבים ושאילתות על גבי שאילותות על מנת לשלוף את הקבוצות ולהשוות ביניהן.

איך גוגל נותן לכם לבצע Cohort Analysis עכשיו?

הפיצ'ר הזה רחוק מלהיות מושלם לעומת Cohort Analysis שקיים במערכות אחרות מתקדמות יותר, אבל זה צעד חשוב בדרך(מערכת חינמית – מה ציפיתם?).

חפשו את הדוח תחת Audience->>Cohrot Analysis.cohort-analysis-ga

לאחר מכן יופיע לכם תרשים די מוזר וכדאי להתעכב ראשית על ההגדרות שלו:

cohort-report1

 

  •  Cohort Type – כרגע אפשרות זו מוגבלת ומוצגת לכם אפשרות אחת בלבד – Acquisition date. שזה אומר שקבוצת המחקר שלנו היא למעשה כל מי שביקר באתר. לא להתבלבל, זה לא מי שהשלימו יעד (Goal) או רכשו משהו. המילה Acquisition היא במובן של "גולש נכנס לאתר". אני מניח שבקרוב ייכנסו פה אפשרויות מתקדמות יותר.
  • Cohort Size – באיזו רזולוציית זמן תרצו לסווג את הקבוצה. אם בחרתם "Month" יסומנו כל אלו שהגיעו לאתר במהלך חודש ספציפי – כקבוצה אחת.
  • Metric – אוקי, יש קבוצות, עכשיו השאלה היא מה המדד שאני רוצה לבדוק את הביצועים שלו עבור אותה קבוצה. למשל מה ה Retention שלהם, המרות, מספר דפים נצפים, מכירות (Revenue) וכו'.
  • Date Range – השדה הזה משתנה בהתאם למה שבחרתם ב Cohort Size. אם בחרתם חודשים, תוכלו לבקש לראות את התנהגות המדד שבחרתם ב Metric, בשני החודשים האחרונים ובשלושה החודשים האחרונים עבור אותה קבוצת מדגם.

מעל הגרף יש עוד Drop Down שמכיל רשימת חודשים (אם בחרתם בדוח מבוסס חודשים) או רשימה של ימים (במידה ובחרתם דוח מבוסס ימים).

ועכשיו דוגמא קטנה: אני רוצה להשוות את מספר הביקורים לאורך זמן של אלו שהגיעו לאתר לראשונה בנובמבר האחרון מול אלו של דצמבר שבא לאחריו. ב Cohort Size בחרו Month. ב Metric בחרו Sessions, וב Date Range סמנו את כל החודשים הרלוונטיים (במקרה שלי – נובמבר ודצמבר ברגע כתיבת הפוסט). וזה מה שקיבלתי:

cohort-chart

בגרף יש שני קווים – הקו שמתחיל גבוה יותר, מייצג את המשתמשים שהגיעו לאתר בדצמבר ולכן מבחינת ציר ה X אורכו רק שני מקטעים (אני מזכיר שהגרף נותן שלושה חודשים אחורה בלבד). הקו הכהה יותר שמתחיל מעט מתחתיו מייצג את המשתמשים שהגיעו לאתר בנובמבר, ומכיוון שכך, אורכו שלושה מקטעים, כלומר שלושה חודשים (מנובמבר עד ינואר כולל). אם כך, מדוע שניהם נמצאים אחד מעל השני אם הם מתחילים בחודשים שונים?

התשובה טמונה בציר ה X. שימו לב שכתוב שם Month 0, כלומר המערכת ציירה את גרפי ההתנהגות של שתי הקבוצות ושמה אותם אחד מעל השני לצרכי השוואה ולצרוך ניתוח של האם ההתנהגות של שתי קבוצות אלה משתנה לאחר חודש אחד (Month 1) וכו'.

מה  זאת הטבלה שמופיעה למטה?

הטבלה המופיעה מתחת לגרף מספרת לנו סיפור מעניין אבל לשם כך נשנה את רזולוציית הדוח לרמה יומית, 30 יום אחורה, והפעם נבחר את מדד ה Retention (לחצו להגדלה):

cohort-table

בואו נתמקד בשורה הראשונה ונבאר אותה.
ב 11 לינואר, מתוך כל המשתמשים שהגיעו לאתר באותו היום (בגלל זה כתוב 100% תחת הטור של Day 0), רק 4.36% חזרו ביום שלמחרת (Day 1).
יום למחרת, ב 12 לינואר, הגיעו שוב המון משתמשים חדשים ומתוכם רק 2.48% חזרו למחרת. מה ההבדל בין הימים הללו? האם מדובר ב"רעש"? האם כל אלה שהגיעו לאתר ב 11 לינואר, קיבלו איזה מייל קמפיין בערב וחזרו למחרת שוב?
האם אלו שהגיעו לאתר לראשונה ב 12 לחודש, לא קיבלו שום מייל נוסף ולכן פחות מהם חזרו ביום שלמחרת? האם סתם בימי שני אנשים עסוקים יותר ולכן נוטים פחות לחזור לאתרים שביקרו בהם?  אז זה Cohort Analysis כפשוטו. מנתחים קבוצות "שונות" בעלות נתוני פתיחה שונים (תאריך שונה) אבל שמים את כולן על אותו הציר ומאותה נקודת פתיחה.

עוד הפתעה קטנה

דוחות ה Cohort מאפשרים לכם גם להפעיל סגמנטים בצורה רגילה על גבי הדוח, ולהשוות למשל מה ה Retention לאורך זמן של אלו שהגיעו לאתר ממובייל בדצמבר, לבין אותה קבוצה רק שהגיעו בינואר ומדסקטופ! למעשה, השלכת מנוע הסגמנטים על גבי הדוח הזה מאפשרת לכם ליצור קבוצות מאד מורכבות המבוססות לא רק על זמן הגעה לאתר, אלא גם על פי ההתנהגות שלהן.

כמות השאלות שאפשר לחשוב עליהן – היא אינסופית וזה גם חלק מהבעיה של Cohort Analysis. דרך אחת להשתמש בדוח היא כמו שהדגמתי כאן, והיא מתרכזת באיתור פערים לא מוסברים בין קבוצות שלכאורה אמורות להיות זהות. לפעמים עושים שיעורי בית ומגלים שיש גורמים חיצוניים או פנימיים שמשפיעים על המספרים. תקראו לזה A/B Testing על ספידים.