עוד על דיוקי מודלים

shlomobar

New member
עוד על דיוקי מודלים

הגראפים מייצגים ממוצעים חודשיים של anomaly correlation ל-120 שעות תחזית מודל ל- H500 לחצי הכדור הצפוני.

שימו לב שבניגוד למה שחשבתי, דיוק המודלים (בחצי הכדור הצפוני) טוב יותר דווקא בחורף, ויורד די משמעותית דווקא בקיץ. זו כנראה הסיבה שדיוק המודלים בימים האחרונים התחיל להתקלקל.

גפס משום מה לא כלול בגרף הזה, אבל הוא אמור להיות פחות או יותר כמו הקנדי (CMC). המודל הגרמני (DWD) היה די גרוע בעבר, אבל כעת השתפר עם כניסת המודל החדש ICON.

זה רק פרמטר אחד, ויש פרמטרים נוספים להשוואה שנותנים תוצאות מעט אחרות, אבל נראה בבירור שאי-סי שומר כל השנים האחרונות על מקומו כמספר 1.

 

shlomobar

New member
עוד משהו - שגיאת RMS של T850 לאפריל האחרון.

כרגיל, אי-סי בולט לטובה, אבל הבריטי (Met Office) לא משהו כאן.
גפס לא מוכלל כאן, אבל אמור להיות "דומה לקנדי".

 

shlomobar

New member
RMS H500 עם גפס

השוואת אי-סי, הבריטי וגפס (הירוק).
רואים שההבדלים ב- RMS בקיץ בין המודלים קטנים יותר מאשר בחורף.

רואים כאן את הבעייתיות של השימוש ב- anomaly correlation המייצג את השגיאה היחסית של התחזית לעומת המצב בפועל, לעומת RMS שמייצג את השגיאה המוחלטת. נוצר מצב שבקיץ השגיאה המוחלטת קטנה, בעוד השגיאה היחסית גדולה... בחורף הפוך.

לא ברור לי מה ההבדל בין "שיטת חישוב חדשה" ל"שיטת חישוב ישנה" אבל נראה לי שההבדל בתוצאה (לפחות לגבי אי-סי שיש תפר ביניהם) די זניח.

רואים שלפחות לגבי RMS של H500 בחצי הכדור הצפוני, מודל גפס השתפר הכי הרבה ב-5 השנים האחרונות.

 

shlomobar

New member
זה גודל שמרבים להשתמש בו לבחינת דיוק מודלים

זה התוצאה שמתקבלת מחלוקת סכום מכפלת הסטיות של התחזית מהממוצע העונתי והתוצאה בפועל מהממוצע העונתי, בשורש של מכפלת סכומי הסטיות האלה ברבוע.

מתעצל כרגע לחפש חומר בגוגל...
אם תרצה חפש anomaly correlation.

הגודל המכסימלי 1 כאשר הסטיות של התחזית מתוצאה בפועל 0, ו- 1- כאשר כל סטיות התחזית מהממוצע העונתי בדיוק זהות בערך המוחלט, אבל הפוכות בסימן לסטיות בפועל מהממוצע העונתי.
 

הפרבולה

New member
אני חושב שזה מה שנקרה "מתאם פירסון"

לפי הנוסחה בתמונה. כאשר xi זה סדרה של n מדידות, yi סידרה של n תחזיות בהתאמה ( נגיד של פרמטר H500 ), ו x y עם מקף למעלה זה הממוצעים העונתיים.
מתוך ויקיפדיה

אגב התוצאה יכולה להיות 1 גם אם הסטיות של התחזית לא שוות לסטיות של המדידות, מספיק שכל ה xi יהיו שוות רק לקבוע חיובי כלשהוא כפול כל ה yi גם אז הקרולציה תהיה 1. למשל אם סטית התחזיות תמיד יהיו 10% מסטית המדידות גם אז נקבל קולרציה 1 למרות שמדובר במודל גרוע מאד שלא חוזה שום ארועים חריגים .
ואם הקבוע הזה שלילי נקבל קורלציה 1-.

הקורולציה בעצם בודקת עד כמה 2 סדרות ( תחזית ומדידה בפועל) הם באותו כיוון, התוצאה היא קוסינוס "הזוית" בין הסדרות ( שהם למעשה וקטורים במרחב n ממדי ).

זה אולי מסביר מדוע בקיץ הקורלציה גדולה יותר , ז בגלל שהסטיות מהממצוע קטנות יותר, וסכום הסטיות בריבוע מופיע במכנה מה שעשוי להגדיל את הרגישות ל"כיוון".

 

shlomobar

New member
לא בדיוק

יש כאן רק 3 ערכים ולא 4 בכל נקודה: תחזית x, תוצאה בפועל y וממוצע עונתי שנכנה אותו x עם קו למעלה.
לכן בכדי לקבל את הנוסחה הנכונה ל- anomaly correlation החלף את y עם קו למעלה ב- x עם קו למעלה.
 

הפרבולה

New member
אם אני מבין נכון אז ה x עם הקו למעלה

( ששוה ל y עם הקו למעלה) זה ממוצע עונתי ידוע ( שמחושב כנראה מהרבה עונות ) ולאו דוקא שווה לממוצע של המדידות xi ( שנלקחו בעונה אחת ) ,נכון ?

בנוסחה שהבאתי אז x עם קו למעלה זה ממוצע ספציפי של סדרת ה xi ( וכנל לגבי ה yi )
 

shlomobar

New member


הממוצע העונתי כמובן שונה מנקודה לנקודה בשריג, וגם תלוי בשעה ביממה.
קובץ הממוצעים העולמיים מוכן מראש, ובד"כ מתעדכן פעם בשנה (או פעם ב-10 שנים). כממוצע העונתי מקובל להשתמש בממוצע באותה שעה ובאותה נקודה של 21 יום (10 לפני, אותו היום, 10 אחרי).

דרך אגב, אם נקטין את כל הסטיות בחצי, ערך ה- anomaly correlation לא ישתנה, אבל ערך ה- RMS יקטן לחצי.

כאשר מחשבים בקיץ הצפוני בין קו רוחב 20 ל-80 צפון, יש תערובת של סטיות קטנות יחסית בין 20 ל-50, וסטיות גדולות יותר בין 50 ל-80. עקב השימוש בקואורדינות כדוריות (רוחב-אורך), מספר הנקודות בשני החלקים (20 עד 50 ו- 50 עד 80) הינו זהה, בעוד השטח הצפוני קטן בהרבה. חומר למחשבה.
 

shlomobar

New member
כנראה משתמשים במקדם תיקון בקואורדינטות כדוריות

אם נכפיל את המונה בקוסינוס זוית הרוחב הגיאוגרפי, וגם במכנה נכפיל באותו ערך במכנה לפני כל הפרש בריבוע, קיזזנו את השפעת קו הרוחב. כנראה שזה מבוצע בחישוב anomaly correlation של האמריקאים והאירופאים.

זה כנראה מבוצע גם בחישוב RMS.
 

הפרבולה

New member
לא הבנתי את המקדם תיקון ?

הנוסחה המקורית של הקורלציה r1 בנקודה מסוימת (m זה הממוצע העונתי xi yi זה סידרת התחזית וסידרת המדידות בפועל )

r1 = sum( (xi-m) * (yi-m) ) / sqrt [ sum (xi-m)^2 * sum (yi-m)^2 ]

כעת אם הבנתי אותך נכון נכפיל ב k ( שזה קוסינוס זוית הרוחב ) במונה ובמכנה ונקבל את אותו דבר ( כי זה מצטמצם ) אז איפה הקיזוז ?

r2= sum(k* (xi-m) * (yi-m) ) / sqrt [ k*sum(xi-m)^2 * k*sum(yi-m)^2 ] =
k*sum(k* (xi-m) * (yi-m) ) / k* sqrt [ sum(xi-m)^2 * sum(yi-m)^2 ] =
sum( (xi-m) * (yi-m) ) / sqrt [ sum(xi-m)^2 * sum(yi-m)^2 ] = r1

r2=r1
 

shlomobar

New member
לכל נקודה יש קואורדינטת רוחב שלה

כך נקודות בקו רוחב 80 למשל (שמייצגות שטח קטן בהרבה לעומת אותו מספר נקודות בקו רוחב 20) ישפיעו הרבה פחות מנקודות בקו רוחב 20 למשל.

זה פשוט שיקלול נתוני נקודות השריג ע"פ שטח המשבצת שהם מייצגים בקואורדינטות רוחב-אורך. נקודה שמייצגת 100 ק"מ מרובעים לא שווה בהשפעתה לנקודה שמייצגת 400 ק"מ מרובעים.

אם ישתמשו אי פעם בקואורדינטות אחרות, השקלול יהיה אחר, וצריך להיות מותאם ליחסי השטחים של המשבצות.
 

shlomobar

New member
עדיין טעיתי בתיקון לגבי RMS

בכדי לקבל את ממוצע ריבועי השגיאות המשוקלל, יש להכפיל אומנם כל שגיאה בריבוע בקוסינוס זוית הרוחב הגיאוגרפי שלה, אבל יש לחלק את הסכום לא בסה"כ מספר הנקודות ששמשו לחישוב כפי שעושים בחישוב ממוצע "רגיל", אלא בסכום של כל קוסינוסי הרוחב הגיאוגרפי של הנקודות, שמהווים ממוצע משוקלל לשטח השונה של המשבצות בקווי רוחב שונים.

RMS הוא השורש של הממוצע המשוקלל של ריבועי השגיאות.
 

shlomobar

New member
לסיכום - נוסחאות ל- anomaly correlation ו- RMS

נכונות רק כאשר הנקודות נתונות במערכת קווי רוחב-אורך אחידים.
אחרת חישוב הממוצע המשוקלל אמור להיות שונה בהתאם למערכת הקואורדינטות שנבחרה.

ט.ל.ח.

 

guprnds

Active member
לשם מה ההכפלה

בקוסינוס זווית קו הרוחב של הנקודה ה-i? מה זה נותן?
 

shlomobar

New member
לצורך שיקלול נקודות שמייצגות משבצות קרקע בשטח שונה

תעבור על כל השרשור, מקווה שתבין את הבעייה שמצריכה שימוש בקוסינוס זוית הרוחב.
 

הפרבולה

New member
כדי לגרום לכך שכל נקודה תייצג את אותו גודל תא שטח

בקווי רוחב שונים .
לפחות לגבי ה RMS זה נראה לי די הגיוני ( מדובר בממוצע משוקלל של ריבועי סטיות)
 
למעלה