פרוייקט ב-Data Mining

Lechoke Lames

New member
אני חושב שהמחקרים כן כיסו את הנושא הזה

קח למשל פרק זמן במשחק שבו שחקן קלע 7 זריקות רצופות. רוב האנשים יסכימו שרצף כזה עונה לההגדרה של "זון". בפועל אפשר למדוד רצף כזה בדיוק באותם מדדים של אותם מחקרים ולבדוק האם יש יותר סיכויים שהזריקה השלישית תכנס כי השתיים שלפניה נכנסו, ובאותו אופן האם יש יותר סיכויים שהזריקה השביעית תכנס כי השש שלפניה נכנסו. זה בדיוק מה שהמחקרים בדקו, והמסקנה הייתה שאין בכך דבר, ושהסיכויים של כל זריקה להכנס אינם תלויים בזריקות שלפני.

עוד כאן:
http://en.wikipedia.org/wiki/Hot-hand_fallacy#Basketball
 
הייתה להם הגדרה ליברלית מדי של יד חמה

מבחינתם יד חמה היא כל רצף קליעות מוצלחות. לפחות לפי מה שראיתי (גם ברפרנס שאתה שמת פה) הם לא לוקחים בחשבון את פרק הזמן שבו הקליעות התבצעו (פסקי זמן ומרווחי זמן בין זריקה לזריקה), והם אפילו כתבו שם על עונשין, כששחקן יכול ללכת פעמיים בתחילת משחק ועוד חמש פעמים ברבע הרביעי, ברור שאי אפשר לחבר אותם ל"יד חמה" אחת.
עושה רושם שהכשל במחקרים האלה הוא חוסר יכולת לצמצם את הפרמטרים שנוגעים ליד חמה, והתבססות על נתונים יבשים מדי. יש סיכוי טוב שהם מראש סימנו את המטרה שלהם, מכיוון שהיה להם אינטרס לפוצץ מיתוס שכן זה גורר כותרות.
אני מציע שנועם ינסה לעשות את זה בצורה כמה שיותר אובייקטיבית, ושלא יסתכל על הנתונים בצורה יבשה, אלא בצורה מעמיקה - לקבוע איך אפשר לראות בסטטיסטיקה יד חמה. אפשר אפילו להשתמש בעונות בין 90-95 למשל כדי למצוא מהי היד החמה, ואז לבדוק את התיאוריה בשנים מאז, כדי להמנע מהגדרות אד-הוק.
 
וברגעים אלו יש דוגמא נוספת ליד חמה

נייט רובניסון פשוט לא מחטיא ברבע הרביעי (החטאה אחת בלבד, כשרוב הזריקות לא היו קלות)
 

Or Amit

New member
עד כמה הסמול בול מוצלח?

קצת יותר מ-20 שנה אחרי הRUN TMC שלמעשה שמו את היסודות לSSOL ולסמול בול של היום, אפשר להגיד האם הניסוי הצליח? לבדוק הצלחה בעונה הרגילה ובפלייאוף של קבוצות ולסווג אותן לפי גבהים (תוכל להיות הראשון שבדק את מדד האינצ'ים לדקה) ולראות עד כמה הן מצליחות.
יהיה גם מעניין לראות האם קבוצות שמשחקות סמול בול למדו להתמודד עם הקשיים שהסגנון הזה מציג (נניח הורדת אחוזי הקליעה של היריבות, נחיתות בריבאונד) או לא
 

Optimus_Prime

New member
כמה רעיונות:

בגדול אני מחפש שנים כבר איזושהי סטטיסטיקה שתשווה בין יחס שכר לבין יעילות. לבחירתך, אפשר גם מדד אחר. זה אמנם יהיה קצת בעייתי כי אני לא בטוח אם יש נתוני שכר היסטוריים כמו שיש נתונים סטטיסטיים, אבל אפשר לבדוק באמצעות זה הרבה דברים:
א. יעילות של שחקן לעומת כסף שהוא מקבל. אם מדד הPER של שחקן הוא 10 והמשכורת שהוא מקבל היא 5 מיליון דולר לעונה אז יעילות השכר שלו היא 2. אם מדד הPER של שחקן הוא 12 לעונה אבל הוא מקבל 18 מיליון דולר לעונה, אז יעילות השכר שלו היא 0.66. למשל, במצב של ימינו, לקובי יש PER גבוה אבל הוא מקבל סכומים אסטרונומיים, ככה שמדד "יעילות השכר" שלו לא בהכרח גבוה. מנגד, ג'יי אר סמית מקבל משהו כמו 3 מיליון דולר לשנה, ויש לו PER נאה, אז אני מניח שהוא די גבוה..
אפשר להציב הגבלות שונות כמו מינימום שכר (שלא יכנסו כל מיני חוזי מינימום..), מינימום PER, מינימום משחקים בשנה ועוד..

ב. מעניין לבדוק את הנושא הזה גם על שחקנים עם חוזים קשיחים (רוקים, לדעתי יכולים להתמקח רק בין 75-125% משכר מסוים, או משהו בסגון), על שחקנים עם שכר מדורג עולה (ואני מניח שיש יחס ישר בין עליית השכר לבין הירידה בPER
), על שכר פר יעילות בעמדות שונות (וכך אפשר לגלות אם למשל שווה להשקיע כסף בסנטרים מחליפים או בשוטינג פותחים..) ועוד ועוד.

ג. שחקנים בעונה אחרונה בחוזה (האם "עונת חוזה" היא באמת "עונת חוזה" או שהיא "עונת חוזה קלדרון"? הייתי חייב פאנץ' מפגר
), שחקנים בעונה ראשונה אחרי חוזה מקסימום (היברט?), האם שחקנים שקיבלו מעל 50 מיליון דולר בקריירה מרשים לעצמם לנוח על זרי הדפנה וכו' וכו'..

ד. אגב, וסתם לצורך הקוריוז, אפשר גם לבדוק במאמץ קטן נוסף את המשכורות לפי מכללה/ליגה באירופה/מדינה בארה"ב/כל נתון סטטיסטי אחר שאפשר להשיג בצורה סבירה. ככה אפשר להסיק למשל לגבי שחקנים שעברו מאירופה לNBA בגיל צעיר/מבוגר (למי יש יותר יכולת מקח), לגבי ההבדל בין שחקן אמריקאי/אירופאי שמגיע מאירופה לNBA (פארקר/שאראס).

ה. בכלל, עם כסף אפשר תמיד להגיע למחוזות מעניינים
ירידה בשכר השחקנים במקביל לירידה בשכר הכללי בארה"ב באותם שנים (או אולי דווקא עליה?), במקביל לעליה במכירת כרטיסים, חולצות ושוב - כל רעיון אחר שעולה בראש..

היעילות המקצועית הטהורה של מדדים כאלה ברור שהיא מוטה, כי יש חוקי מגן בליגה לגבי ותק, ויש קבוצות שלא ממש איכפת להן לשלם מס מותרות (ולפעמים גם מחזירות את הרווח ע"י מכירת חולצות) אבל לדעתי לשחקנים ה"קטנים" שמקבלים בין 2-10 מיליון דולר בשנה דווקא אפשר יהיה לגלות נתונים מאוד מעניינים....
 

OmriA1984

New member
קודם כל, אחלה רעיון

בתור מישהו שלמד קצת סטטיסטיקה וכאלה, השאלה היא כמה עמוק אתה רוצה לעשות את זה. האם אתה רוצה להמציא משהו חדש, או רק להראות קשר בין שני נתונים קיימים?

אם אתה מעוניין להמציא משהו חדש, אז למצוא מדד יעילות חדש הוא כמעט בלתי אפשרי (30 קבוצות בליגה, כל אחת מחזיקה מערכת סקאוטינג רצינית, ובנוסף האתרים הגדולים....) לכן אתה יכול לקחת מדד קיים מספורט אחר ולהמיר אותו.
לדוגמא: תבדוק האם קיים דבר כזה שנקרא החזקת כדור. לא לקבוצה, אלא לשחקן. האם ככל שהנתונים ההתקפים שלו עולים (זריקות לסל, אסיסטים, אבל גם נתונים שלילים כמו החטאות ואיבודים) - אז הוא שחקן שיותר משמעותי (נגיד, האם הMVP של סדרות הגמר האחרונות היה השחקן שהחזיק הכי הרבה בכדור? נגיד קובי ולברון זה מתבקש, אבל פירס ונוביצקי?)

אם אתה מעוניין לקחת נתונים קיימים, אז אני הייתי ממליץ לך להיכנס באמת לעניין השכר, האישי או הקבוצתי. כמה מהקבוצות האלופות/אלופות האזור הן הקבוצות ששילמו הכי הרבה? כמה קבוצות שהובילו את הליגה בתשלומים לא עלו אפילו לפלייאוף, או חטפו סוויפ בסיבוב הראשון? מה על השחקנים הכי יקרים? ואיפה זה שם את ראשארד לואיס?
 

fatnoam

Active member
הנושא שבחרתי בסוף

לקחת את נתוני הבסיס שנמדדים על המגרש (סטטיסטיקות פשוטות), ולקחת את מדד ה-PER של כל שחקן (לא לחשב אותו בעצמי, אלא לקחת אותו כערך מאתר מסויים), ואז בעצם יש לי סט נתונים שמחולק לשניים:
1. נתוני הבסיס - אססיטים, נקודות, ריבאונדים וכו'.
2. מדד ה-PER - זה בעצם משקף לי את יעילות השחקן, משמע הגורם המוסבר.

את הנתונים אני הולך להריץ במנוע מסויים (תוכנה בשם WEKA), שבעצם תיתן לי תובנות ודרכים להגיע בקירוב למדד ה-PER, אבל רק באמצעות נתוני הבסיס (כידוע PER מפולטר לפי נתוני קבוצות, מספר פוזשנים וכדומה).
 
הדרך לחישוב מדד ה per הוא חסוי?

אם לא אז אני חושב שאולי כדאי לבחור נושא אחר.
הרי ברור שככל שיהיו לך יותר אסיסטים נקודות ריבאונדים (קטגוריות חיוביות) ה per שלך יגדל , וככל שיהיו לך יותר איבודים ה per שלך יקטן.
ושהשילוב שלהם יחסית למשקל שניתן לכל קטגוריה זהו ה per שלך.
 

fatnoam

Active member
היא לא חסויה היא פשוט תלויה בנתונים

עונתיים וקבוצתיים, וביחס לקבוצות אחרות.

משמע, אם אתה רואה משחק ורוצה למדוד per לשחקנים, אינך יכול, כי אתה תלוי בנתונים הנמדדים מחוץ למשחק.

אני יודע שהמדד עולה כל עוד אתה צובר יותר נקודות אסיסטים וכו׳ אבל מה שאני מקווה למצוא זו פונקציה שתתן לי ערך per משוער ושהפרמטרים שלה יהיו הסטטיסטיקות הנמדדות על המגרש בלבד.
 

Lechoke Lames

New member
הבעיה היא ש-PER מראש לא מאוד שימושי

כי הוא מדד שמוגבל כמעט לגמרי לצד ההתקפי. מה התועלת בלבנות מדד מקורב חלופי שישתמש בפחות נתונים?
 

Lechoke Lames

New member
עוד רעיון: ניתוח של המשמעות של רוטציות

יש אפילו אתר שאוסף את המידע הזה (game-flow), אבל אין שם ניתוח של ממש מעבר לתצוגה שלו. נראה לי כמו חומר גלם שאפשר להפיק ממנו תובנות חדשות על המשחק.

הנה דוגמה ל-game-flow של המשחק הרביעי בין דנבר לגולדן סטייט:

http://popcornmachine.net/cgi-bin/gameflow.cgi?date=20130428&game=DENGSW
 
למעלה