שנות ניסיון data scientist

אורח12343

New member
שנות ניסיון data scientist

שלום,

אני קצין בצה"ל שמשרת בתור data scientist במשך 4 שנים. עתיד להשתחרר עוד שנה, לאחר 5 שנים בעיסוק הנ"ל. אני מסתכל על טבלאות השכר ולא יודע לאן לכוון מבחינת מספר שנות הניסיון. מצד אחד כאמור אשתחרר עם 5 שנות ניסיון, מצד שני אני מרגיש שחסר לי ניסיון בנושאים ספציפים בתחום בהם לא נגעתי. רוב העבודה שלי הייתה ב-python, אשר לא כללה ניסיון ב buzz-word כמו deep learning , tensorflow, time series, אלא יותר ב machine learning קלאסי. כמו כן עיקר העבודה הייתה כתיבה סקריפטים וקודים מקומיים, ולא "פיתוח מסורתי", עבודה עם גרסאות ומספר מפתחים במקביל, git וכו'.

מנגד, כן צברתי ניסיון רחב בכל תהליכי העבודה כ- data scientist החל משלב הגדרת הבעיה, איסוף הנתונים, עיבוד, יצירת ובחירת פיצ'רים, בחירת מודלים והערכתם.על חלק מהפרוייקטים גם הוענקו מספר פרסים. כמו כן העבודה כללה ניהול צוות של 4-7 אנשים.

מבחינת השכלה אני בעל תואר ראשון ושני בהדסת מערכות מידע (בהתמחות של data mining).

לדעתכם, מבחינת טבלאות שכר אני צריך לכוון לשכר של בעל 5 שנות ניסיון, או יותר נמוך (לכיוון ה3?)
 

ipv6

Member
הדרך הכי טובה זה לשאול בוגרים אחרים

של היחידה שלך כמה לבקש, הם יודעים הרבה יותר טוב מאתנו מה שווה הניסיון שצוברים אצלכם.

אם הניסיון שלך מיחידה טובה של חיל המודיעין\משרד הבטחון\משרד ראש הממשלה הייתי מבקש ללא חשש את מה שמתאים ל-5.
אם שרתת במקום שידוע כאיכותי אתה כנראה יודע את זה..

אני מהנדס תוכנה ולא אלגוריתמאי..
 

יבגניי34

New member
לדעתי נצל את בועת ה data science וכוון כמה שיותר גבוה.

אם יש לך זמן להשלים השכלה - הייתי הולך על spark
 

Han36

New member
יש בועת data science?

מעניין אותי על מה אתה מבסס את האמירה הזו?
 

דייהטסו

New member
אני לא חושב שזו בועה

יש עלייה גדולה בשימוש בלמידת מכונה, ספציפית deep-learning. התחום הזה הביא לפריצת דרך כמעט בכל תת-תחום בתוך תחום ה-AI. באופן טבעי הביקוש לאלגוריתמאים שעוסקים בזה עלה מאוד. עד שהביקוש ידביק את ההיצע, זו לא בועה.
 

יבגניי34

New member
הפוסט שלך הוא מסוג ההודעות עליהן אני מבסס את אבחנת הבועה שלי

התחום הזה הביא לשיפור ביצועים משמעותי בתחומים מאד מצומצמים.

נכון שהתחומים המצומצמים הנ״ל חשובים לנו באופן פרקטי ( = אפשר לבנות סביבם הרבה use cases).

כמובן אם תשתף בדוגמה בה השתמשת במודלים מרובי שכבות והשגת ביצועים טובים יותר משיטות אלטרנטיביות, זה יעמיד את ה״דיון״ על בסיס פחות רעוע.
 
זה חתיכת באזז מוגזם

כשאני מדבר על לא שימושי אני לא מתכווין שאנשים לא משתמשים בזה אלא שרוב האנשים שעושים ml לא משתמשים בזה. רוב האנשים שעושים ml עדיין משתמשים בשיטות "המסורתיות". התחום הזה חזר בעיקר בכל מה שקשור לעיבוד תמונה. לא רק אבל בעיקר.
וזה גם תשובה לשאלתו של השואל המקורי. חמש שנות ניסיון בml סטנדרטי זה וואו. אתה תהיה מאוד מבוקש בחוץ ואל תתפשר על פחות משלושים. אם היית עם ניסיון ממקום עבודה ולא מצבר זה היה עוד יותר.
בכל אופן שלח לי קורות חיים.
 

דייהטסו

New member
דוגמאות?

אני אלגוריתמאי בתחום של ראייה ממוחשבת ולמידה ממוחשבת כך שדוגמאות לא חסרות.
עשינו אצלנו בחברה בשנתיים האחרונות:
זיהוי מכוניות והולכי רגל
סגמנטציה סמנטית של תמונה
זיהוי מילות מפתח באודיו
בכל אחד מהתחומים האלה השגנו הישגים טובים בהרבה מאשר אלגוריתמים קלאסיים שפיתחנו בעבר. כרגע אני עובד על שיפור של אלגוריתם לזיהוי סטייה מנתיב, והתוצאות של הרשת מבטיחות מאוד, וכנראה ישפרו בהרבה את האלגוריתם הקלאסי שיגעתי עליו לא מעט לפני שנה-שנתיים.
החשיבות של deep learning היא בעיקר בעיבוד אות (מהפיכה של ממש ב-speech to text), ראייה ממוחשבת, גרפיקה ממוחשבת, עיבוד שפות טבעיות. יש גם המון אפליקציות אחרות, שאני פחות מתמצא בהן. "תחומים מאוד מצומצמים?" זה בעיני המתבונן. כיוון שאני אלגוריתמאי, לי זה נראה כאילו כל העולם התהפך. דרך אגב זה לא כ"כ כיף ואני בכלל לא מתלהב מהמהפיכה הזו מהזווית האישית. הפתרונות הפכו לעקיפים הרבה יותר, דורשים המון השגה של דאטה, סימון דאטה, התעסקות עם דאטה. העבודה האלגוריתמית כוללת הרבה יותר ניסוי וטעייה ופחות הנדסה שכל ישר ופתרונות סגורים מתמטית. קשה להבין את הפתרון המתקבל, והתכנות רובו בפייתון שאינני מחבב. אבל מה לעשות, למידה עמוקה הוכיחה את עצמה כבעלת תוצאות עדיפות בהרבה, ומעטים מסוגלים להתווכח עם זה, חוץ ממך אולי. אולי אם תוסיף או תוריד י' זה ישתפר.
 

יבגניי34

New member
זה לא בדיוק ״בעיני המתבונן״. במקרה אתה עובד בתחום היחיד בו

יש תוצאות מוכחות למה שנקרא בעתונות הפופולרית deep learning. במקרה זה גם צויין למעלה (קרא). ״למידה עמוקה הוכיחה את עצמה כבעלת תוצאות עדיפות בהרבה״ - כן, בתחום מצומצם מאד (כאמור וכו׳ וכו׳). אני שמח שאנחנו מסכימים ושהדוגמאות שלך מחזקות את ההשערות שלי.

ד״א, האם ניסית ״המון השגה של דאטה, סימון דאטה, התעסקות עם דאטה״ על האלגוריתמים *הקודמים* שלך? זו שאלה רצינית. אם לא - אין משמעות לתוצאות. הגורם המשמעותי ביותר בלמידת מכונה הוא איכות הדאטה לאימון מודלים - לא טופולוגיית הרשת.
 

דייהטסו

New member
אין ספק שהדאטה חשוב, אבל

יש שפע של datasets סטנדרטיים בשנים האחרונות שמאפשרים השוואה הוגנת בין שיטות שונות של ML. לדוגמה הנה סיכום של המצב בתחום הקלסיפיקציה [URL]http://rodrigob.github.io/are_we_there_yet/build/classification_datasets_results.html[/URL]
אם תסתכל לדוגמא על CIFAR-10, תראה שההגשה בעלת התוצאות הטובות ביותר שאינה למידה עמוקה התקבלה בשנת 2011, והיא נמצאת בסביבות המקום ה-20 ובפער ניכר מאוד מה-state of the art
 

יבגניי34

New member
תוצאות מרשימות ביותר ללא ספק. מצדיקות את הביטוי ״פריצת דרך״.

אבל אני נותר סקפטי לגבי יישום בדומיינים אחרים (חוץ מאילו שכבר ציינת כמו זיהוי קול). כמובן אני אשמח להתבדות כי אחת ההשלכות היא שכל אחד יכול להיות data scientist ואין יותר צורך ״לדעת״ יותר מדי
 

דייהטסו

New member
מה פתאום כל אחד יכול?

התחום הזה קשה כמו כל תחום אחר של אלגוריתמים. קל אולי לקחת תוצאות קיימות כמו שהן, להוריד ולהטמיע בקוד שלך, בגלל שהתפתחה מנטליות של קוד פתוח ושקיפות מלאה במאמרים, שלא היתה קיימת בעבר. לגבי תחומים נוספים מחוץ לעיבוד תמונה קול ווידאו, יש הצלחה גדולה בעיבוד שפות טבעיות, ביצירה גנרטיבית של תמונות, אם זה מעניין אותך תחומים נוספים מוזכרים בויקיפדיה האנגלית.
 

יבגניי34

New member
בגלל שאין צורך לבחור פיצ׳רים צריך רק קופסה שחורה + data

רוב העבודה שאני רואה סביבי ב ML זה טיוב נתונים ובחירת פיצ׳רים.
את הראשון אני יודע לעשות לבד. זה קשור יותר להגיון בריא והיכרות עם הדומיין מאשר לדוקטורט במתמטיקה.

עכשיו הורדת לי את השני, ויש רשתות מן המוכן אז... מה נשאר ל״אלגוריתמאי״ לעשות שאני לא יכול לעשות לבד? נשמע לי שכלום.
אבל אולי כדאי שאנסה את זה בפועל לפני שאני קובע שזה comodity
 

דייהטסו

New member
לבחור פיצ'רים זה קשה?

יש אפשרויות רבות ממומשות בספריות ידועות וחינמיות. לעומת זאת פתרון של רשת הוא אמנות שמספר המשתנים בה אינסופי - וכל שינוי קטן יכול להיות ההבדל בין הצלחה וכישלון. בחירת הדאטה, ההכנה שלו, אוגמנטציה, הטופולוגיה של הרשת (לא יאומן כמה וואריאנטים שונים התפתחו מה-CNN הבסיסי בשנים האחרונות), הloss, צורת האימון. מחזור הפיתוח איטי מאוד, כי הרצה אחת של אימון יכולה לקחת ימים ובמקרים קיצוניים שבועות. מהנסיון שלי, ויש לי נסיון של 20 שנה באלגוריתמים מתוכן שנתיים בdeep-learning, זו אחת הגישות המפרכות, שקל להגיע בהן למבואות סתומים. כמו שאמרתי, יש הרבה עבודות עם קוד פתוח ורשתות מאומנות, שכל מה שאתה צריך לעשות זה להוריד ולהשתמש - אם אחת מהן מתלבשת בדיוק על הבעיה שלך (שזה נדיר מאוד) ואתה רוצה להסתפק בזה זה סבבה, אבל זה לא ממש פיתוח.
 

Han36

New member
חושב שכוונתו הייתה feature engineering ולא feature selection

לגבי הדיון, להיות אלגוריתמאי/data scientist טוב מצריך הרבה ידע ולעניות דעתי גם לא מעט שכל, בין אם זה בשימוש בdl ובין אם בכלים יותר "קלאסיים".
מאידך גיסא, להפעיל black box בלי להבין יכול לעבוד אולי במקרים מאוד מסויימים אבל לא הייתי מגדיר את מי שעושה את זה כdata scientist.

אני אישית לא חושב שיש בועה, פשוט יש היום הרבה יותר דאטה מבעבר והרבה יותר הכרה בחשיבות של ml (חלקית בגלל הבאזז של dl).
מניח שנחכה ונראה.
 

יבגניי34

New member
ספרייה יכולה לעשות PCA או למצוא משתנים תלויים אבל היא לא

תעזור להחליט אילו פיצ׳רים מלכתחילה רלוונטיים לבעייה.
אתה מריץ היום אלגוריתמים ישירות על raw data, אולי אחרי איזה שלב preprocessing לניקוי רעש. הורדת 50% מהעבודה. לא?
 

Han36

New member
חלק מעבודתו של אלגוריתמאי היא מה שנקרא feature engineering

משמע, לבנות מהמידע הגולמי את הפיטצ׳רז שיהיו רלוונטיים לבעיה, לדוגמא, בזיהוי תמונה תרצה לבנות פיטצ׳רז פשוטים כמו קווים וכו׳ ולרוב גם פיטצ׳רז יותר מורכבים כמו eigen faces בזיהוי פנים.
אם אתה משתמש ב-dl, אתה לא צריך בכלל ״להנדס״ את הפיטצ׳רז האלה או להבין אותם כי הרשת יוצרת את הפיטצ׳רז המורכבים שהיא צריכה לצורך פתרון הבעיה בעצמה בשכבות האמצעיות - זו בעצם אחת מהחוזקות המרכזיות של dl.

לגבי מה שאמרת, ספריה יכולה בהחלט להחליט איזה פיטצ׳רז רלוונטיים לבעיה, לדוגמא בבעיית קלסיפיקצייה ע״י ביצוע מבחן Chi^2 או information gain בין הפיטצ׳ר ללייבל.
 
למעלה