שיחה:זחלן רשת

תוכן הדף אינו נתמך בשפות אחרות.
הוספת נושא
מתוך ויקיפדיה, האנציקלופדיה החופשית
תגובה אחרונה: לפני 12 שנים מאת Galzigler בנושא ‪robots.txt‬

ערך זה נכתב או הורחב משמעותית בקורס "טכנולוגיות מידע ותקשורת" במסגרת מיזם עבודות ויקידמיות באוניברסיטת תל אביב - החוג לתקשורת

‪robots.txt‬[עריכת קוד מקור]

היי, כדאי להוסיף התייחסות ל- ‪robots.txt‬, שזה קובץ שמיועד לזחלנים, ואומר להם מה ההגבלות של הסריקה באתר, בעיקר כדי למנוע מהזחלן לנצל את רוחב הפס המוקצה משירות האכסון. (¯`gal´¯)‎ - שיחה 17:58, 20 באוקטובר 2011 (IST)תגובה

אולי כדאי גם להוסיף התייחסות לאפשרות לזהות זחלן באחת מהשיטות הבאות:
א. זיהוי באמצעות בדיקת ה-IP שאיתו הזחלן גולש לאתר, מול רשימות IP's ידועות של זחלנים לגיטימיים ואולי רצויים.
מקור לדוגמה: [1]
החיסרון של שיטה זו בכך שלפעמים ה-IP's של זחלנים משתנים, ונוצר צורך מדי פעם לעדן את רשימות ה-IP's.
ב. זיהוי באמצעות בדיקת ה-UserAgent שאיתו הזחלן גולש לאתר, ואיתור - אפשר באמצעות RegEx - של מחרוזות ידועות של בוטים לגיטימיים, כגון bingbot, googlebot.
מקור אפשרי ל-RegEx [2]
הבעיה בשיטה זו היא שניתן בקלות ליצור UserAgent עם כל מחרוזת, וכך להתחזות לזחלנים לגיטימיים.
הפיתרון לכך הוא בשיטה הבאה:
ג. לאחר זיהוי UserAgent כשל זחלן לגיטימי, לבצע בדיקת אימות דינמית על ה-IP שבה גולש הזחלן. כאשר הבדיקה כוללת reverse dns lookup כדי לקבל את ה-host name של ה-IP ולבדוק האם הוא מסתיים בדומיין שבעלי הזחלן הלגיטימי מפרסמים שהוא שלהם, ואז לבצע forward dns lookup כדי לבדוק מהכיוון ההפוך את ה-IP של הדומיין שקיבלנו בבדיקה הקודמת ולוודא שהוא אכן זהה ל-IP שגלש באתר.
מקורות בנושא עבור מספר זחלנים [3][4][5][6][7]