
19-01-2008, 19:37
|
|
מנהל פורומי "תכנות ובניית אתרים" ו"חומרה ורשתות"
|
|
חבר מתאריך: 25.10.01
הודעות: 42,778
|
|
אני לא כל כך מבין את שאלתך...
כאמור, מדובר על חיפוש כתובות בדף (לצורך העניין - regular expression יעשה את העבודה) - ואז הפונקציה קוראת לעצמה הלאה על כל URL שה RegEx מצא. כמובן שאת תוכן כל דף צריך לא רק לפענח אלא גם לאחסן כדי שיהיה אפשר לחפש את התוצאות. יש אחסון יעיל יותר, ויש אחסון יעיל פחות. השאלה היא מה הגודל של סט המידע המדובר, ובהתאם לזה אתה יכול לעשות משהו פשוט (ובזבזני יחסית) או משהו גאוני (ואז תהיה גוגל ). בבסיס של הבסיס, כשמחפשים יעילות (ובכמות דפים גדולה - חייבים יעילות אם אתה רוצה משהו שזז בקצב סביר) - אני הייתי יוצר לכל כתובת מזהה ייחודי (למשל מספר סידורי...) ואז עבור כל מילה בכל דף הייתי יוצר רשימה של מצביעים למזהים הייחודיים. ואז, כשמישהו מחפש משהו במנוע שלי, הייתי מאתר את המילה באינדקס, וכך הייתה לי רשימה של URL-ים אחרי הסתכלות בטבלה המתאימה במסד הנתונים.
ישנם מוצרי מדף שעושים את זה, אם מעניין אותך לראות, יש למשל את mnoGoSearch שהוא בקוד פתוח.
|