לגבי הקושי...
בעקרון, ברנדל, אתה צודק, היום לא יודעים להגיע ל-100%
מצד שני, אני יכול להגיד לך שהיה לי מרצה לבלשנות חישובית (פרופ' עוזי אורנן, הוא שם ידוע בתחום), שהראה לנו שהוא יצר תוכנה שמקריאה טקסטים
הוא אמר שהקושי העיקרי בלכתוב תוכנה כזו הוא לבחור את הניקוד הנכון למילה, כי אם היה לך את הניקוד הנכון נתון פשוט היית צריך לעבור על המילה ולהשמיע את ההבהרות, וזה קלי קלות
עכשיו, הוא עשה עבודה שבה הוא הסתמך רק על כללי הסינטקטיקה, עוד לא על סמנטיקה. זאת אומרת, לזהות איך המשפט מסתדר מבחינת נושא-נשוא, ככה שאין יותר מנשוא אחד (בצורה מאוד מאוד מופשטת - אין יותר מפועל אחד), אין יותר מנושא אחד (יותר משם עצם אחד, נניח) וכן הלאה. זה גם עסק לא פשוט, בשביל זה הוא פרופסור לבלשנות בכלל ובלשנות חישובית בפרט, אבל הוא אמר שאם לא מתייחסים לסמנטיקה (למשל, דוגמה שהוא נוהג להשתמש בה: "האריה דלק אחרי הגדי". "דלק" זה "רדף", ולכן המשמעות של המשפט היא שהאריה רדף אחרי הגדי. אבל "דלק" זה גם ממשמעות "נשרף", ו-"אחרי" יכול להיות גם תיאור זמן, זאת אומרת שהגדי נשרף, ובמשפט הזה אומרים שאחריו האריה נשרף), זה עושה את החיים יותר פשוטים.
שימוש בסינטקטיקה בלבד (שהוא, שוב, ממש ממש לא קל) לא מחזיר 100% נכונות, אבל נותן אחוזים יפים (נדמה לי שהוא דיבר על איזור ה-80%, אבל אל תתפסו אותי במילה, עברו איזה 4 שנים מאז...)