كراولرهاي

چهارشنبه ۱۰ آذر ۰۰ ۱۸:۲۶ ۸۷ بازديد

در اين مقاله ما مي خواهيم در مورد كنترل كراولر هاي موتور جستجو، بلاك كردن ربات ها، فرستادن آن ها به جا هايي كه مي خواهيم و محدود كردن آنها از جايي كه نمي خواهيم به آن جا بروند، صحبت كنيم.

براي شروع، ما مي خواهيم در مورد روش هاي كنترل ربات ها بحث كنيم، كه شامل سه روش اصلي robots.txt، meta robots و تگ nofollow كه كمتر ربات ها را كنترل مي كند.

همچنين چند مورد ديگر نيز وجود دارد كه ما نيز در مورد آن ها بحث خواهيم كرد، از جمله ابزار وب مستر (مانند Google Search Console) و كدهاي وضعيت URL نيز صحبت خواهيم كرد. اما در ابتدا اجازه دهيد كه به سه روش اصلي كه در بالا ذكر كرديم، بپردازيم پس با سئو تضميني سايت همراه باشيد.

همانطور كه مي دانيد Robots.txt در yoursite.com/robots.txt قرار دارد، كه به كراولر ها مي گويد كه اجازه دارند به كجا دسترسي داشته باشند و به كجا دسترسي نداشته باشند، اما گوگل و بينگ هميشه به محتواي اين فايل احترام نمي گذارند. براي مثال بسياري از ما ها خيلي واضح به ربات هاي موتور جستجو گفتيم كه «هي، به اين كاري نداشته باش» اما يك دفعه مي بينيد كه همين URL را در نتايج نمايش مي دهد، همه ي ما از اين كار موتور جستجو تعجب مي كنيم كه چرا اين اتفاق افتاده است. بعضي وقت ها موتور هاي جستجو مانند گوگل و بينگ فكر مي كنند كه بيشتر و بهتر از شما و سايت شما و اطلاع دارند و بهتر بلدند. آن ها فكر مي كنند كه شايد شما اشتباه كرده ايد، و با خود فكر مي كنند كه «هي، لينك هاي زيادي وجود دارد كه به اين محتوا اشاره مي كنند، كاربران زيادي از اين صفحه و محتويات آن بازديد مي كنند و به آن اهميت مي دهند، پس ممكن است كه شما قصد نداشته باشيد كه جلوي ما را براي ايندكس كردن اين صفحه بگيريد». هر چند شما بهتر در باره ي يك URL خاص و منحصر به فرد، واضح تر باشيد، معمولا موتورهاي جستجو بهتر به نظر شما احترام مي گذارند. در صورتي وضوح شما كمتر باشد موتور هاي جستجو كمتر به آن احترام نمي گذارند، براي مثال شما مي توانيد به موتور هاي جستجو بگويد كه«اين دايركتوري و هر چيزي را كه پشت آن قرار دارد را بي خيال شو» در اين صورت احتمال اين كه موتو هاي جستجو به اين خواسته شما عمل كنند بسيار كم خواهد بود.

متا روبات ها Meta robots

داستان متا روبات ها Meta robots مقداري متفاوت است، آن ها به صورت منحصر به فرد در هدر صفحه ها نوشته مي شوند، پس مي توانيم گفت شما با تگ Meta robots تنها مي توانيد يك صفحه را كنترل كنيد. اين تگ به موتور هاي جستجو مي گويد كه آيا بايد يك صفحه را وارد ليست ايندكس خود بكنند يا نه. موتور هاي جستجو معمولا به اين روش احترام بيشتري مي گذارند چون شما آن را منحصرا براي يك صفحه نوشته ايد و گوگل و بينگ مي خواهند به تگ Meta robots شما اعتماد داشته باشند.

نكته جالب راجب به meta robotها و robots.txt اين است كه گاهي اين دو با هم كار مي كنند و گاها نيز با هم كار نمي كنند و بسياري از افراد افراد فعال در ضمينه سئو در اين ضمينه گيج و نا اميد مي شوند.

براي مثال، ما يك صفحه مانند «blogtest.html» در دامنه خود داريم و مي گوييم كه «كراولر ها، شما اجازه نداريد كه اين صفحه را كراول كنيد». خوب اين روش خوبي است كه اجازه ندهيم كه اين صفحه كراول شود، اما اجازه ندادن به ربات ها كه يك صفحه را كراول كنند به اين معني نيست كه موتور هاي جستجو اين صفحه را در صفحه ي نتايج نشان ندهند.

خوب پس بيايد كه اطمينان خود را دو برابر كنيم كه اين صفحه ما در نتايج جستجو نمايش داده نمي شود: پس ما تگ متا ربات را به صورت زير قرار مي دهيم:

بنابراين، “noindex، follow” به كراولر هاي موتور جستجو مي گويد كه آن ها مي توانند پيوندهاي مربوط به صفحه را دنبال كنند، اما آن ها نبايد اين مورد خاص را ايندكس كنند.

جواب اين است كه شما به موتور هاي جستجو گفتيد كه اين صفحه را كراول نكند، و آن ها اين كار را نكرده اند. اما با اين حال آن ها هنوز آن را واردن تايج جستجوي خود مي كنند. احتمالا آن ها توضيحات متا را حساب نكرده اند; ممكن است كه آن ها به شما بگويند كه «ما نمي توانيم توضيحات متا را به خاطر وجود فايل robots.txt سايت شامل قرار بديم». دليل نشان دادن اين است كه آن ها نمي توانند noindex را ببينند تنها چيزي مشاهده مي كنند disallow است.

بنابراين، اگر واقعا بخواهيد چيزي حذف شود، و كسي نتواند آن را در نتايج جستجو مشاهده كند، شما نمي توانيد فقط يك كراولر را غيرفعال كنيد. شما ابتدا بايد متاي «noindex» را بيان كنيد سپس به آن ها اجازه دهيد كه آن را كراول كند.

خوب هر كدام از اين عوامل عوارض جانبي نيز به همراه دارد. اگر بخواهيم پهناي باند كراولر ها را براي خود ذخيره كنيم Robots.txt عالي خواهد بود، اما لزوما اين روش براي جلوگيري از نمايش يك صفحه در نتايج جستجو آيده ال نيست. و ما هم آن را توصيه نمي كنيم، اتقاقا زماني تويتر همين كار را كرد. توتير سعي كرد كه نسخه هاي سايت خود كه يكي از آن ها با www و نسخه ديگر آن بدون www بود را كانوني سازي كند، آن ها سعي كردند كه به گوگل بگويند ديگر نسخه www سايت را كراول و ايندكس نكنند، اما بعدا فهميدند كه گوگل هنوز هم نسخه همراه با www را در نتيج نمايش مي دهد. خوب، بعد از آن فهميدند كراول نكردن صفحه ها تنها كافي نيست و باد شروع به كانوني سازي صفحه ها با استفاده از rel canonical و 301 redirect كردند.

Meta robotها مي توانند به اجازه كراول كردن و دنبال كردن لينك ها(link-following) را بدون ايندكس كردن بدهند، ولي اين روش نيازمند بودجه اي براي كراولر ها است(هر سايتي به اندازه اي مشخصي از طرف موتور هاي جستجو كراولر دريافت مي كند) و همچنين شما هنوز هم مي توانيد ليست ايندكس ها خود را حفظ كنيد.

منبع :

https://unsplash.com/@ericabass7

https://www.evernote.com/shard/s619/sh/e8e514ab-c3fe-22ec-d652-989c0b156619/69b9a2277abd7033464a738c5de610cb

https://www.liveinternet.ru/stat/guaranteedseo.ir/

https://coub.com/ericabass7

https://3dwarehouse.sketchup.com/user/4c990e56-bbd7-412a-85e1-3852c2f89c47/Erica-B

https://seekingalpha.com/user/55188870/comments

https://lionofviennasuite.sbnation.com/users/EricaBass7

https://www.spreaker.com/user/15532666

https://justpaste.it/37sgm

https://www.atlasobscura.com/users/ericabass7

https://trello.com/ericabass7