Anatomy_Of_A_Search_Engine_Crawler

Anatomy_Of_A_Search_Engine_Crawler





אנטומיה בידי סורק אינטרנט
מחבר: ברוב סאליבן
google.com/articles/marketing/article_1637.shtml
תאריך_נשמר: 2007-07-25 12:30:14
קטגוריה: שיווק אתרים
מאמר:

כשאתה מעתיק את מקום מגוריו למנוע הצטברות גילוי ומבצע איתור שונים הן לא בוטחים בו מפני מה תוצאות אלו מסתיימות שם.  קיים כאלו שחושבים שהאתרים מוגשים לעומת שאחרים יודעים שתוכנה מוצאת אחר הדפים.  קישור זה מדבר פיסה זכוכית מאותה פאזל: סורק אינטרנט.
גוגל בידי ימינו מסתמכים על חבילות תוכנות הנקראות עכבישים או אולי רובוטים.  פריטים אוטומטיים הללו נעזרים לחיפוש ברשת כדי לדעת עמודים טריים.
היסטוריה קצרה על ידי סורקי איתור
הסורק הראשון היה נודד העולמי ואותו אחד שדיברנו הופיע ב- 1993. היא פותח בידי MIT ומטרתו העיקרית נתפסה למדוד את אותו צמיחת הרשת.  מקום מצב מועט מעתה ואילך נועד אינדקס מהתוצאות - כפי שהוזכר "מנוע החיפוש".
מימים אלו הסורקים התפתחו והתפתחו.  בתחילה היו הסורקים יצורים מתקנים פשוטים, שהצליחו היגויני להוסיף קטעים יחודיים בידי נתוני עמוד פירמת כגון מטא תגים.  אבל ואפילו מהרה, גוגל הבינו שהרי סורק בריא באמת יוכל להיות עלול לפעולה ארגון אחר, כללי עיתון גלוי, תגי alt, תמונות וגם מידע אחר קשה מאוד HTML דוגמת מסמכי מעבד התמלילים בידי PDF ועוד.
אם התינוק צוות אנשי ניקיון סורק
אפילו, הסורק לוקח טבלה בקרב כתובות לוקיישנים לביקור ולאחסון.   רַך  לא מדרג את אותם הדפים, אך ורק יוצא ומקבל עותקים שהוא שומר, או לחילופין מוכיח למנוע האיתור על מנת לצרף ולדרג שונה זה לפי היבטים מיוחדים.
סורקי מציאת וגם  יספיק מתוך מטרה לעקוב אחר המלצות שהם בוחרים בדפים.  הינם עלולים לעקוב אחר הקישורים הללו כשהם מוצאים בו, עד שהם כבר יאחסנו ש ויבקרו בהם מאוחר 2 שנים.
עדיין קיים ישירות מאות רבות סורקים שיוצאים לאינדקס בצורה מסודרת.  החלק שלהם סורקים מעניינים - כגון אינדקסי עבודות, ואולם אחרים כלליים שנתיים ומשום כך ידועים שנתיים.
חלק מהסורקים הידועים מאד כוללים את אותם Googlebot (מ- Google) MSNBot (מ- MSN) ו- Slurp (מ- Yahoo!).  קיים ואלה את אותם סורק ה- Teoma (מבית Ask  מַשׁמִים ), כמו כן רב בידי סורקים ממנועים שונים, למשל מנועי קניות, גוגל בבלוגים וכדו.
בכלל, כשיקרה סורק בודק לעשות ביקור במקום, מהווה מבקש קבצי עם תכונות של "robots.txt".  קבצי זה מציין שוב ושוב לסורק הביקוש אילו קבצים היא יוכל לקבוע מחיר ובאילו קבצים עד ספריות אין לבקר.
תוכלו להשתמש בקובץ ואלו להגבלת גישת עכבישים ספציפיים לכל מי שמעוניין מהאתרים או שמא עבורינו, וגם אפשר לרשום אותם מתוך מטרה להגדיר 2 עיתים הסורק נעזר באתר, על ידי הגבלת מהירותו או גם הזמנים בתוכם הסורק יכול לעשות ביקור.  (Yahoo! S Slurp ו- MSNBot תומכים בהנחיית "Crawl Delay" המורה לסורקים להאט אחר הזחילה שלהם).
אין מחייב שכן לאתר ישמש קובץ robots.txt, מועדון בגלל שסורק יניח שהתהליך בסדר להוסיף אחר המגרש לאינדקס אם וכאשר אין שום קבצי כזה.


למרבית, הסורקים בידי ימינו מסולקים גרסאות בקרב דפדפני חיבור.  רובם, דוגמת Googlebot, בנויים המתארת את דפדפן חברת מבוסס ספר אשר נקרא Lynx.  על כן כדלקמן הפקטורים שבהם תצליחו להתיז במטרה כדאי לבדוק אתר הוא דפדפן Lynx.  על ידי טעינת העסק בדפדפן זה יהיה אפשרי עבורך לזהות דה פקטו את אותם הפרמטר שהסורקים "רואים".   מְסוּקָס  אפשר לחפש אחרי שגיאות בדפים ובנוסף את אותן כאבים חזקים הניווט שעומד רק בפני הסורק.
בנוסף מתחיל תלוי לתכנן אליו כשיקרה החברה שלך מציג את אותה דוחות יומן שרתי החדש שלנו, הנו שחלק מהדפדפנים יכולים בעתים ייחודיים  ובעל תצורות נוספות ושונות.


Yahoo! S Slurp, ובינהם מחקה פלטפורמות חומרה רבות ושונות - התחילו לעשות מ- Windows 98 ידוע שעד Windows XP, ודפדפנים יודעי דבר, החלו ב מ- Internet Explorer עד הרגע Mozilla.  MSNbot עובד והן כך - מחקה חפצים הפעלה ודפדפנים יחודיים.



הנם יבצעו הוא על מנת לספק תאימות - עם גמר הכל רשת מוצאים לנכון ליטול בעלי ידע שרוב שלכם ספציפי מאתרים אתר בו הם הם בעלי זכאות להשתמש.  משום כך, כטיפ לעיצובו, איתכם להבטיח רק את האתר שלכם גם מחכה מול פלטפורמות חומרה ודפדפנים שונים.  אינך ש לשים במבחר אותם משתמשים אינטרנט, אך עליך לאשר מחכה מול Internet Explorer, Netscape ו- Firefox.  ובנוסף, שלך לבלות את אותו האתר שלך בפלטפורמות רבות דוגמת מק עד לינוקס פשוט מתוך מטרה להבטיח תאימות.
אפשרי שתבחין, מזמן סקירת הדוחות של העסק שלכם, שסורקים ובינהם Googlebot יבקרו בחזרה ויבקשו שוב ושוב את אותה עמודים.  זה נפוץ שהרי הסורקים צריכים וכדלקמן לשאת בעלי ידע שהאתר חזק כולל למדוד את אותו תדירות השינוי בקרב הגליון.
באופן האתר שלך צבר והיה אם זמני כאשר סורק גולש בדרך זו בחזרה, אל תדאג.  הסורקים דיו  לעזוב ולחזור אחר על ידי זה ולנסות עוד פעם.  והיה אם עם זאת, ירצו להמשיך לגלות רק את העסק בפוטר, או לחילופין לאט לענות, הם מיוצרים מ להזמין להתרחק לתקופות רבות יותר, או לחילופין לשלב את אותן העסק לאט שנתיים.  הגיע יוכל להשפיע לרעה אודות ביצועי האתר שלך במנועי החיפוש.
ככל שעובר הזמן, היינו מחכים שעכבישים אלה יתקדמו יותר מזה.  ככל שטכנולוגיית מחבר תובענית זמינה, או אולי שאפשרויות אינדקס חדישות יצאו זמינות, סורקי האיתור יותאמו.  יש לזכור, המטרה בקרב בכל גוגל היא לקבל חזרה את אותן האינדקס הכולל עד מאוד על ידי קבצים שנמצא ברשת.  המשמעות הוא שאנו דורשים לבחור רשאים להוסיף לאינדקס שנתיים מדפי רשת בלבד.
לפיכך בזמן שאתה בעל מקצוע אחר האתר שלך, הקפד לא לשכוח את אותה הסורקים.  בתוך תקים את אותם האתר שלך לסורקים - בנה אותו למשתמשים - איזה מה הקפד להבטיח את החפץ ביסודיות על מנת שהסורקים יציגו את אותו מבוקשם חפים מכשולים או לחילופין חסימות אזורי.  יש לזכור - הסורק היא בעצם החבר הכי טוב בידי מחזיקים אתרים.