האם אי פעם חיפשת משהו ב- Google ותהה, "איך היא יודעת איפה להסתכל?" התשובה היא "סורקי אינטרנט", אשר מחפשים את האינטרנט ואת המדד אותו, כך שתוכל למצוא דברים בקלות באינטרנט. נסביר.
מנועי חיפוש וסורקים
כאשר אתה מחפש באמצעות מילת מפתח על מנוע חיפוש כמו גוגל או בינג , האתר מסתובב באמצעות טריליוני דפים כדי ליצור רשימה של תוצאות הקשורות למונח זה. איך בדיוק עושים את מנועי החיפוש האלה יש את כל הדפים האלה על הקובץ, יודע איך לחפש אותם, וליצור את התוצאות האלה בתוך שניות?
התשובה היא סורקי אינטרנט, המכונה גם עכבישים. אלה תוכניות אוטומטיות (המכונה לעתים קרובות "רובוטים" או "בוטים") כי "לסרוק" או לגלוש ברחבי האינטרנט, כך שניתן להוסיף למנוע מנועי החיפוש. אלה רובוטים אינדקס אתרי אינטרנט כדי ליצור רשימה של דפים שבסופו של דבר מופיעים בתוצאות החיפוש שלך.
סורקים גם ליצור ולאחסן עותקים של דפים אלה במסד הנתונים של מנוע, אשר מאפשר לך לבצע חיפושים כמעט מיד. זה גם הסיבה מדוע מנועי החיפוש כוללים לעתים קרובות גירסאות במטמון של אתרים במאגרי המידע שלהם.
קָשׁוּר: כיצד לגשת לדף אינטרנט כאשר הוא למטה
מפות האתר ובחירה
אז, איך סורקים לבחור אילו אתרי אינטרנט לזחול? ובכן, התרחיש הנפוץ ביותר הוא כי בעלי אתרים רוצים למנועי חיפוש לסרוק את האתרים שלהם. הם יכולים להשיג זאת על ידי בקשת Google, בינג, יאהו, או מנוע חיפוש אחר לאינדקס הדפים שלהם. תהליך זה משתנה ממנוע למנוע. כמו כן, מנועי חיפוש לעיתים קרובות לבחור אתרי אינטרנט מקושרים היטב לזחול על ידי מעקב אחר מספר פעמים כי כתובת אתר מקושרת באתרים ציבוריים אחרים.
בעלי אתרים יכולים להשתמש בתהליכים מסוימים כדי לסייע במנועי חיפוש לאינדקס אתרי האינטרנט שלהם, כגון
העלאת מפת האתר. זהו קובץ המכיל את כל הקישורים ואת הדפים שהם חלק מהאתר שלך. זה בדרך כלל נעשה שימוש כדי לציין אילו דפים שאתה רוצה באינדקס.
לאחר מנועי החיפוש כבר זחלו אתר פעם, הם באופן אוטומטי לזחול באתר שוב. התדירות משתנה בהתאם לאופן שבו אתר פופולרי הוא, בין מטרי אחר. לכן, בעלי האתר לעתים קרובות לשמור מפות אתר מעודכן לתת מנועי לדעת אילו אתרי אינטרנט חדשים לאינדקס.
רובוטים וגורם נימוד
מה אם אתר אינטרנט לא רוצה כמה או כל הדפים שלה להופיע במנוע חיפוש? לדוגמה, ייתכן שלא תרצה לאנשים לחפש דף חברים בלבד או לראות את שלך 404 שגיאה דף . זה המקום שבו רשימת אי הכללה לזחול, הידוע גם בשם robots.txt, נכנס לשחק. זהו קובץ טקסט פשוט שמכתיב לסורקים אשר דפי אינטרנט לא לכלול מלק באינדקס.
סיבה נוספת למה robots.txt חשוב הוא כי סורקי אינטרנט יכול להיות בעל השפעה משמעותית על ביצועי האתר. כי סורקים הם בעצם מוריד את כל הדפים באתר האינטרנט שלך, הם צורכים משאבים והוא יכול לגרום להאטה. הם מגיעים פעמים בלתי צפויות וללא אישור. אם אינך זקוק לדפים שלך באינדקס שוב ושוב, ולאחר מכן עצירת סורקים עשויות לסייע בהפחתת חלק מעומס האתר שלך. למרבה המזל, רוב הסורקים להפסיק לזחול דפים מסוימים על בסיס כללי בעל האתר.
Metadata קסם
תחת כתובת האתר ואת הכותרת של כל תוצאת חיפוש ב- Google, תוכלו למצוא תיאור קצר של הדף. תיאורים אלה נקראים קטעים. ייתכן שתבחין כי הקטע של דף ב- Google אינו תמיד מקוון עם התוכן בפועל של האתר. הסיבה לכך היא כי אתרי אינטרנט רבים יש משהו שנקרא " מטא תגים , "אשר תיאורים מותאמים אישית כי בעלי האתר להוסיף לדפים שלהם.
בעלי האתר לעתים קרובות לבוא עם מפתה metadata תיאורים שנכתבו כדי לגרום לך לרצות ללחוץ על אתר אינטרנט. Google גם מפרטת מידע מטא אחר, כגון מחירים וזמינות מלאי. זה שימושי במיוחד עבור אלה הפעלת אתרי מסחר אלקטרוני.
החיפוש שלך
חיפוש באינטרנט הוא חלק חיוני של שימוש באינטרנט. חיפוש באינטרנט היא דרך מצוינת לגלות אתרי אינטרנט חדשים, חנויות, קהילות ואינטרסים. כל יום, סורקי אינטרנט מבקרים מיליוני דפים ומוסיפים אותם למנועי חיפוש. בעוד סורקים יש כמה downsides, כמו לקחת את משאבי האתר, הם לא יסולא בפז הן לבעלי האתר והן מבקרים.
קָשׁוּר: כיצד למחוק את 15 הדקות האחרונות של היסטוריית החיפוש של Google