כריית טקסט

danianavi

New member
כריית טקסט

היי, מישהו מכיר במקרה כלי לכריית מידע של טקסט ?
 

pitoach

New member
שאלה גדולה מדי

איזה טקסט?
מה המקור הנתונים של הטקסט
מה סוג הנתונים שרוצים לקבל ולחקור
מה ה PARSING שמחפשים
האם הניתוח צריך להיות מורפולוגי או לוגי או ישיר

זו שאלה שצריכה אפיון מעמיק יותר
בינתיים אולי כדאי לחפש חומר על FULL TEXT SEARCH
 

pitoach

New member
יכול להיות שאתה מתכוון לכריית נתונים ולא

כריית טקסט?
data mining זה מושג בעבודה עם מסדי נתונים אבל זה לא כריית טקסט אלא כריית נתונים (ז"א לא בודקים את התוכן של הטקסט עצמו ומפרקים אותו אלא עובדים עם הנתון עצמו)
במקרה זה תוכל לעבוד עם גוגל ולמצוא עשרות מאמרים ותוכנות לכריית נתונים
חפש
sql data mining
 

danianavi

New member
אכן כריית טקסט

אני אכן מתכוונת לכריית טקסט, למשל קובץ ענק של מלל ואני רוצה לחפש בפנים את המילה "הונאה".
 

pitoach

New member
אז תתעלמי מהתגובות 2+3 שלי ןתעברי לעומק על

התגובה הראשונה שלי
 

danianavi

New member
שאלה נוספת

ה DBA אצלנו אומרת ש :"ה fetcher הזה לא טוב בשבילנו כיון שהוא מטפל בחיפוש במסמכים.
ולא ב text ששמור ב DB.הוא לא רק שומר את ה text בקובץ הוא מצפה שזה יהיה word או excel או txt."

זה נכון ?
 

pitoach

New member
לא... זה לחלוטין לא נכון!

קשה לי להאמין שזה ציטוט מ DBA או אפילו מתלמיד שלומד לבד את התחום ויודע לעבוד עם גוגל ופורומים. מצד שני אולי זה ציטוט חלקי שיצא מהקשרו כמובן (אני מקווה שזה המצב).

נעזר בקיצור FTS:
FTS = FULL TEXT SEARCH

כל סוגי הטורים הבאים יכולים לעבוד עם FTS
Only columns of type char, varchar, nchar, nvarchar, text, ntext, image, xml, varbinary, and varbinary(max) can be indexed for full-text search.

http://msdn.microsoft.com/en-us/library/ms187317(v=sql.100).aspx

יותר מכך לא רק למייקרוסופט יש מודול ל FTS ויש מודולים אפילו יותר טובים אולי (פירסמתי לפני כמה ימים ב MSDN על מודול חינמי בקוד פתוח שמתחרה בזה של מייקרסופט בצורה נהדרת ואפילו יותר טוב משלהם בשפה העברית כניראה)
 

danianavi

New member
תודה ! איפה ניתן לקרוא את הפרסום שלך על המודל

החינמי? אפשר לינק ?
 
למעלה