در این قسمت (گوگل وبمستر و کیفیت درآن (بخش سوم)) با ادامه بحث گذشته با شما همراه هستیم.
همه تکنیک ها و موارد ناقض راهنماها و دستورالعمل های گوگل وبمستر مربوط به محتوای ایجاد شده توسط صاحبان سایت ها نیست. گاهی اوقات، اسپم ها می توانند توسط بازدید کنندگان یا کاربران مخرب در یک وب سایت با کیفیت بالا تولید شده باشند. این نوع اسپم ها معمولا در سایت هایی تولید می شود که به کاربران دسترسی ایجاد صفحه جدید و یا افزودن محتوای جدید بدون نظارت داده می شود.
اگر درطراحی سایت (طراحی سایت شرکتی، طراحی سایت فروشگاهی) شما اسپم تولید شده زیادی توسط کاربران وجود داشته باشد، احتمال دارد که روی ارزیابی گوگل برروی سایت اثر بگذارد که در نهایت ممکن است منجر به اقدام دستی گوگل (Manual Action) بر روی کل سایت شما شود.
از آنجایی که اسپم ایجاد شده توسط کاربر تاثیر منفی در نتایج جستجوی گوگل می گذارد، به شما توصیه می کنیم که با جدیت این موارد را در سایتتان مانیتور کنید و یا از روش های جلوگیری از کامنت های اسپم استفاده کنید.
کامنت ها راه حل های بسیار خوبی برای جذب کاربران هستند. متاسفانه اسپمر ها اغلب از کامنت ها سو استفاده می کنند. بسیاری از آنان با استفاده از اسکریپت و یا نرم افزارهایی اقدام به تولید و post کامنت های اسپمی می کنند. اگر شما یک کامنت شبیه به آگهی یا لینک های تصادفی غیر مرتبط در سایتتان در یافت کردید، پس شما به یک کامنت اسپم برخورد کرده اید.
این نوع از اسپم می تواند ضررهای متعددی برای سایت شما داشته باشد که می تواند شامل موارد زیر باشد:
یافتن روش هایی برای محافظت از سایت در برابر این نوع اسپم های مخرب بسیار حائز اهمیت می باشد.
در ادامه به تعدادی از شیوه های کاهش یا ممانعت از کامنت های اسپم در سایت اشاره شده است.
صفحات پر از اسپم به کاربران احساس خوبی نسبت به شما نمی دهند. اگر شما زمان کافی برای نظارت بر کامنت ها ندارید، از این امکان استفاده نکنید. بیشتر نرم افزار های بلاگ نویسی مانند Blogger به شما این اجازه را می دهند که انتخاب کنید که امکان کامنت برای کدام نوشته فعال باشد و برای کدام نوشته ها و یا صفحات، غیر فعال باشد.
این نظارت بدان معنی است که هیچ کامنتی بدون بررسی و تایید، منتشر نشود. مطمئن باشید که کنترل و نظارت بر کامنت ها، اثر مثبتی در تجربه استفاده کاربران با سایت شما دراد.
اجبار کردن کاربران به تایید ایمیلشان باعث می شود که ربات ها نتوانند به صورت اتوماتیک در سایت شما ثبت نام کنند و کامنت ها اسپم تولید کنند. علاوه براین شما می توانید فیلتری برای بلاک کردن آدرس ایمیل ها و آدرس IP مشکوک قرار دهید.
توصیه می شود که از ابزار هایی مانند CAPTCHA که معمولا شامل تعدادی کاراکتر یا اشکال تصویری به هم ریخته هستند به عنوان یک فیلد اجباری در هنگام نوشتن کامنت ها استفاده نمایید.
برخی از سیستم های کپچا نیز از کپچاهای صوتی پشتیبانی می کنند که یک راه بسیار موثر برای جلوگیری از اسپم است.
چند سال پیش گوگل به همراه یاهو و MSN، میکروفرمت اچ تی ام ال “nofollow” را معرفی کردند و این ویژگی به طور گسترده ای به کار برده شد. از هر لینکی از ویژگی “nofollow” استفاده کند، برای محاسبه PageRank و یا تعیین ارتباط صفحات شما با عبارت جستجو شده توسط کاربر استفاده نخواهد شد.
به عنوان مثال اگر یک اسپمر لینکی را در یک کامنت قرار دهد، نتیجه در حال عادی به صورت زیر خواهد بود:
که با افزودن تگ nofollow به کد زیر تبدیل خواهد شد:
این کار باعث جلوگیری از تولید اسپم نخواهد شد ولی به دلیل اینکه مانع انتقال رنک می شود، در نتیجه اسپمرها انگیزه ای برای ایجاد اسپم در سایت شما نخواهند داشت. بسیاری از سایت های بلاگر در حات پیش فرض تگ nofollow را به همه لینک های درون کامنت اضافه می کنند.
اگر سایت شما به کاربرانش اجازه ساخت صفحاتی مانند صفحه پروفایل، موضاعات فروم یا وبسایت را می دهد، شما می توانید با جلوگیری از نمایش محتوای جدید یا غیر مطمئن در نتایج جستجو، از سو استفاده اسپمر ها جلوگیری کنید. به عنوان مثال شما می توانید از استاندارد متای noindex برای جلوگیری دسترسی موتورهای جستجو به صفحات مذکور استفاده کنید مانند:
همچنین می توانید از استانداردrobots.txt جهت بلاک کردن موقت صفحه استفاده کنید.
Disallow:/guestbook/newpost.php
سایت شما برای کاربرانتان حائز اهمیت است و اسپم موجود در سایت، آنها را آزده خواهد. به کاربران مورد اطمینانتان اجازه دهید که کامنت ها و صفحات اسپمی را به شما گزارش کنند.
داشتن یک سیستم اعتباردهی به کاربران، هم باعث شناختن اسپمر ها می شود و هم منجر به جذب بیشتر کاربران و صرف زمان بیشتر توسط آنان در سایت شما می شود.
اگر تعداد زیادی پروفایل اسپمی که از یک IP آدرس مشترک آمده اند را کشف کردید، می توانید آن آدرس IP را به یک لیست سیاه اضافه کنید تا مانع دسترسی آن ها به سایت و یا افزودن کامنت بشوید.
به صفحاتی که تلاش دارند رنکینگ خود در موتور جستجو را با فریب الگوریتم های محاسبه رنکینگ بهبود ببخشند، وب اسپم گفته می شود. اگر در صفحه نتایج جستجوی گوگل موردی را دیدید که به علت وجود اسپم یا خرید بک لینک در نتایج جستجوی گوگل وجود داشتند و یا سایت های حاوی malware را در نتایج جستجو مشاهده کردید، می توانید آن ها را از طریق سایت زیر به گوگل گزارش کنید:
www.google.com/webmasters/tools/spamreport
با گزارش وب اسپم و یا سایت های حاوی malware یا بدافزار به گوگل، به موتور جستجو در شناسایی صفحات و یا سایت های مختلف کمک خواهد کرد و در ارتقاء کیفیت نتایج موثر خواهید بود. گوگل همه گزارش ها را بررسی خواهد کرد و در مورد آن ها تصمیم لازم را خواهد گرفت. البته در صورتی که به صورت تعمدی و یا غیر عمدی گزارش اشتباه برای گوگل ارسال کرده باشید، اعتبار گزارشات شما پایین خواهد آمد. بنابراین قبل از ارسال گزارش از صحت آن اطمینان کافی پیدا کنید.
تاکنون تمام سعی ما بر این بوده است که صفحات بیشتری از طراحی سایت (طراحی سایت شرکتی، طراحی سایت فروشگاهی) خود را به بایگانی موتورهای جست و جو وارد کنیم. در این راه هر بار که متوجه می شویم گوگل صفحات بیشتری از سایت را خوانده است، احتمالا از خوشحالی فریاد می زنیم!
یک صفحه بیشتر در بایگانی گوگل درست به معنای یک بخت بیشتر در قرعه کشی است. صبر کنید! بهتر است بگوییم بخت های بیشتر، زیرا آن یک صفحه ممکن است با چندین عبارت مختلف قابل جست و جو باشد!
اما این تنها روی اول سکه است. روی دیگر سکه شاید جالب تر هم باشد! گاهی دوست نداریم موتورهای جست و جو بعضی از صفحات سایت را بخوانند و تصمیم می گیریم آنها را از بعضی از صفحات دور نگه داریم.
دلایل بسیاری برای این کار وجود دارد. به عنوان مثال یک استاد دانشگاه که نمرات دانشجویان را در سایت شخصی خود قرار داده است، ممکن است برای حفظ حریم خصوصی دانشجویان، چنین تصمیمی اتخاذ کند.
یا آدرس برخی مطالب مهم سایت تغییر کرده است و مدیر سایت تمایل ندارد موتور جست و جو آدرس قدیم را همچنان بخواند. مسیر سبد خرید در ساخت سایت می تواند گزینه مناسبی برای این کار باشد.
شد. همچنین صفحه سلب مسوولیت سایت ها نیز که معمولا حاوی کلمات خشک و نامفهوم حقوقی است، گزینه عامی گزینه عامی برای این دوست نداشتن است. رفتار روبوتها و بایگانی کردن صفحات سایت توسط موتور جست و جو را می توان طبق پروتکل هایی پذیرفته شده، کنترل کرد.
این پروتکل ها به صورت زیر می باشند
Robots.txt
XML Sitemap
Robots Meta Tag
Rel=Nofollow
از این چهار پروتکل معرفی شده، گزینه اول و دوم برای کل سایت تعریف می شوند گزینه سوم برای هر صفحه به طور جداگانه و گزینه چهارم نیز برای هر پیوند به صورت تک به تک مشخص می شود. بیشتر موتورهای جست و جو تمایل به پشتیبانی از این پروتکل ها دارند اما هیچ کدام مجبور به رعایت آن ها نیستند.
در واقع پروتکل های یاد شده فقط مواردی را به موتورهای جست و جو توصیه می کنند و رعایت و یا عدم رعایت این توصیه ها به موتورهای جست و جو بستگی دارد. موتور جست و جو به خودی خود فضول است اما اگر مودب باشد برای بها دادن به حریم خصوصی سایت ها این توصیه ها را رعایت می کند.
می توان با یک فایل متنی بسیار ساده میزان دسترسی موتورهای جست و جو به محتوای سایت را کنترل کرد. این فایلrobots.txt نام دارد. موتور جست و جو قبل از محتوای سایت را کنترل کرد. این فایل آن که وارد سایتی شود، ابتدا فایل یاد شده را از سرور درخواست می کند و از تمام محدودیت های پیش روی خود در آن سایت آگاه می گردد.
نبود این فایل در سئو سایت به معنای نبودن هیچ گونه محدودیتی برای تمام اسپایدرها است. موتور جست و جو بعد از آن که تمام فایل ها و مسیرهای ممنوع را دانست، شروع به خواندن مطالب سایت می کند. البته اگر یک اسپایدر مودب باشد، به محدودیت های موجود نیز احترام میگذارد! عده کمی از آنها به طور کامل و صد در صد به محتوای این فایل وفادارند.
تنظیمات نادرست موجود در این فایل می تواند به شدت به موفقیت سایت ضربه بزند بنابراین در آماده ساختن این فایل بسیار دقت کنید.
پروتکل روبوتز تنها دو دستور دارد که به کمک آنها محدودیت های زیر مشخص می شود:
با این دستور روبوتها مشخص می شوند. روبوت (اسپایدر) هر موتور جست و جو نام مشخصی دارد و برای محدود کردن موتور جست و جو کافی است که نام روبوت آن را به همراه این دستور به کار گیریم. کاربرد این دستور به صورت زیر است:
useragent: robot name
به عنوان مثال وقتی که روبوت مورد نظر مربوط به گوگل است خواهیم داشت :
Useragent : Googlebot و برای بینگ: Useragent : Bingbot با هر دستور Useragent تنها می توان یک روبوت را مشخص کرد.
با این دستور مسیرهای ممنوع/مجاز مشخص می شوند و به صورت زیر به کار می روند:
/disallow:/path
/allow:/path
/disallow:/sales
/disallow:/shoppingcard
allow:/site/search/map.php
allow:/iranforums/user
با هر دستور allow/dis تنها می توان یک مسیر را مشخص کرد و کاربرد آن به صورت زیر اشتباه است:
،/shopping/ disallow: /sales/
/allow: /site/search, /map
برای محدود کردن هر روبوت ابتدا آن را مشخص کرده و سپس تمام مسیرهای محدود شده برای آن ذکر می شود:
useragent: Googlebot
/disallow: /test
/disallow: /sales
در مثال زیر روبوت XGET از دسترسی به فولدرها و ۱، ۲ و ۳۳ منع شده است:
useragent: XGET
/diallow: /1
/disallow: /2
/disallow: /33
و با دستور زیر مقدم همه روبوتها در سایت گرامی داشته می شود:
*:useragent
:disallow
کاربرد * به همراه useragent به معنای تمام روبوت هاست. در مثال زیر خیلی ساده به تمام روبوت ها گفته می شود راه را اشتباه آمده اید، دور شوید
*:useragent
/:disallow
کاربرد / به همراه disallow به معنای تمام مسیرهاست، برای نوشتن توضیجا۔ فایل robots.txt از # به صورت زیر استفاده می شود:
*:useragent#
:disallow#
برای حذف تصویری مشخص از نتایج گوگل این گونه عمل کنید:
useragent: Googlebotimage
disallow: /images/picture.jpg
و برای حذف همه تصاویر از نتایج گوگل اینگونه عمل کنید:
useragent: Googlebotlmage
disallow: / Allow
در پروتکل robots.txt به طور استاندارد این دستور وجود ندارد اما با این حال گوگل و بینگ آن را پشتیبانی می کنند کاربرد آن بیشتر در مواردی است که می خواهید همه روبوت ها را از مسیری مشخص دور کنید و تنها به یک یا چند روبوت خاص اجازه دسترسی بدهید. مثال زیر را بررسی نمایید:
*:useragent
Disallow: /forums/rules
Disallow: /site/search
Useragent: Googlebot
Allow: /site/search
Allow: /forums/user
Useragent: Bingbot
Allow: /site/search
Allow: /forums/user
در این مثال همه روبوت ها به جز دو مورد از دسترسی به مسیرهایی مشخص، منع شدهforums / user /اند. توضیح بیشتری در این جا لازم است.
به معنی تمام مسیرهایی است که
forums/user/
در آن موجود است، یعنی مواردی مانند:
/forums/users /
forums/user/124/
/forums/users/messages/
در این مثال دسترسی به نوع خاصی از فایل ها برای گوگل محدود شده است:
Useragent: Googlebot
$Disallow: /*.gif
$Disallow: /*.eps
در تمام مثال های بررسی شده بزرگی و کوچکی مسیرها قاعده را تغییر میدهد. این دستور
*:Useragent
Disallow:/site/map.php
تنها برای فایل / map.php /site مؤثر است و نه برای site/map.php/.معمولا بهتر است این پروتکل را برای هر موتور جست و جو در صفحه راهنمای همانموتور جست و جو بررسی کنید. زیرا ممکن است موارد دیگری علاوه بر موارد اشاره شده را نیز پشتیبانی کند. برخی موارد مورد قبول گوگل در ادامه بررسی شده است.
Useragent: Googlebot
*/Disallow: /private
دستور بالا به معنای منع کردن گوگل از خواندن تمام پوشه هایی است که نام آنها با private شروع می شود
Useragent: Googlebot
این دستور به معنای منع کردن گوگل از بخشهایی است که بلافاصله بعد از نام وب سایت هر چیزی آمده است و بعد از آن علامت سؤال قرار دارد و باز هم بعد از علامت سؤال هر چیز دیگری آمده است. مثال زیر مقصود را روشن می کند:
http://www.mysite.com/harchiz?harchizmasalanprint
محدود کردن دسترسی به تمام آدرس هایی که به xls ختم می شوند:
Useragent: Googlebot
$Disallow: /*.xls
مقابلdisallow نمی توان نام روبوت را قرار داد.
*:Useragent
Disallow: Bingbot
کاربرد توضیحات به صورت زیر اشکالی ندارد اما توصیه می شود توضیحات را در خطوط جداگانه قرار دهید:
Disallow: /cgibin/#comments
شما اگر گالیور بودید و قصد سفر به سایت آدم کوچولوها را داشتید با دیدن دستورات زیر چه می کردید؟
*:Useragent
/:Disallow
Useragent: Gulliver
/:Allow