Въпрос за Robots.txt

Здравейте имам няколко въпроса.
Да речем имам магазин който използва Open Cart и искам да премахна дублиращи линкове пример:
akumulatorbg.com/akumulatori/akumulator-40ah-bosch-asia-silver-s4
akumulatorbg.com/akumulator-40ah-bosch-asia-silver-s4

Какъв е най - лесния вариант да премахна всички продукти които са в /akumulator/ с robot.txt ?



Disallow: akumulatorbg.com/akumulatori/* това ще работи ли коректно ? Или по добре би било да използвам
Disallow: */akumulatori/

На url-ите началото го няма защото системата не ми дава да използвам все още съм нов във форума.

Благодаря.
 

r.stefanov

New Member
От: Въпрос за Robots.txt

Пример:

User-agent: Googlebot (ако е само за него) или * за всички
Disallow: /folder1/folder2/*

В wmt гледаш кои линкове са блокирани. От там можеш и да си генерираш robots.txt http://www.youtube.com/watch?v=YphszrfekP8 Видеото е старо, но се схваща идеята.

А тук има всичко нужно: http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449
 
От: Въпрос за Robots.txt

Благодаря. Въпроса е дали това ще свърши работа защото четох, че вече индексираните страници трябвало да се махнат от самия Google WT и в същото време robots.txt не пречел да се индексират... трябвало да се ползва Canonical ?
Също така това Disallow: /folder1/folder2/* покрива ли каквото и да е преди това или само след.. в смисъл ако сайта ми е wwwneshtosi.com/folder1/folder2/ -tuk bez znachenie Ще работи ли без * отпред защото не му хващам логиката кога се ползва и кога не.
А в същото време ако тъпия Опен карт си генерира някакъв негов си сайтмап и аз съм ги рестриктнал от robots Ще ги индексира ли много ми е интересно :)
 

r.stefanov

New Member
От: Въпрос за Robots.txt

Ами в линка, който ти дадох ги пише повечето неща, които питаш.

/folder/ - не индексира всичко в тази директория, може без * аз по навик го написах
/folder*/ не индексира всичко в директория започваща с folder

Съответно можеш да си зададеш и изключения ако трябва.

Вече индексираните връзки трябва да се премахнат ръчно през wmt или с noindex tag за да може при следващото обхождане да се махнат. Не виждам логика сами да се изтрият при блокиране в robots, тъй като това няма нищо общо със серпа. robots.txt е за crawlers или както и да се превежда на български.

Robots-excluded URLs can still show up in SERPs. It's rare, but if (due to external links, etc.) Google still feels an excluded URL is the best fit for a query, it will show the URL in results.
.

В документацията не пише нищо за canonical - така че няма такова нещо.

Направи robots.txt и тествай с wmt, там ще ти покаже дали работи и какво точно не се индексира и ще ме разбереш. :)
 
От: Въпрос за Robots.txt

Благодаря много.,
Да разбирам ли че разлике между /folder/ и /folder/* няма :) ?
а това валидно ли е според теб ?
*?sort=rating&order=DESC

Ами как да не пише за canonical :) пише че е е един от начините да кажеш на бота да не индексира.. ама ми изглежда сложно за иползване затова предпочитам robots-a...
И още едно нещо което ме мъчи да речем опен карта ми прави само сайтмап ама слага в него и страници които се дублират как да ги изключа или те няма да се индексират ако роботс има рестрикции какво мислите ?
 

r.stefanov

New Member
От: Въпрос за Robots.txt

Canonical е нещо съвсем друго. Този таг се използва ако например имаш 3-4 версии на някоя страница и искаш да кажеш на ботовете коя да се индексира, а другите не. Един вид я промотираш тя да е главната. За това и го няма в линка, който ти дадох.

Ако имаш url в sitemap-a, който е блокиран в robots.txt ще ти излезe предупреждение в wmt. Нещо такова:

Google-Webmaster-Tools-Showing-Sitemaps-with-Crawl-Errors.png

За *?sort=rating&order=DESC съм пас. :D
 
От: Въпрос за Robots.txt

Добре подяволите как да се оправя с това.
Имам
http://www.akumulatorbg.com/akumulatori
и
http://www.akumulatorbg.com/akumulatori/akumulator-40ah-bosch-asia-silver-s4

Аз искам да индексира : http://www.akumulatorbg.com/akumulatori/
Но не искам да индексира продуктите вътре... освен да променя open cart-a no follow да са линковете друго не виждам в робота не мога да окажа да индексира akumulatori и да не ги индексира...

И пак Да разбирам ли че разлике между /folder/ и /folder/* няма ?

Това намерих за http://support.google.com/webmasters/bin/answer.py?hl=en&answer=139394 въпросния canonical...
 

petya77

Well-Known Member
От: Въпрос за Robots.txt

Можеш да поставиш в страницата, която не желаеш да "съществува" (алтернативен) код за пренасочване към желаната от теб страница:
Код:
<meta http-equiv="Refresh" content="0; url=http://akumulatorbg.com/akumulatori/akumulator-40ah-bosch-asia-silver-s4"  />

И в robots.txt да укажеш окончанието (от директорията) на същата тази нежелана страница:

user-agent: *
Disallow: /akumulator-40ah-bosch-asia-silver-s4

И noindex, nofollow в мета тага на страницата.

И от сайтмап-а ръчно да отстраниш линковете (ако е възможно или е нужно).

Ако сайта ти е с хиляди страници, ще ти създаде доста работа. Затова повечето използват .htaccess за редирект и canonical за каноничен адрес на дадено съдържание, което се повтаря в даден сайт. Т. е. трябва да се укаже точно адреса на дадена страница:

Код:
<link src="http://akumulatorbg.com/akumulatori/akumulator-40ah-bosch-asia-silver-s4" rel="canonical" />

И колегата ти дава отговори по-горе, просто не си се сблъсквал с подобни задачи.
 
Последно редактирано:
От: Въпрос за Robots.txt

Здравей petya77 : благодаря за помоща но това е CMS Система и не мога да сложа : <meta http-equiv="Refresh" content="0; url=http://akumulatorbg.com/akumulatori/akumulator-40ah-bosch-asia-silver-s4" /> в страницата която не желая да се индексира защото тази страница е 1:1 с другата просто системата я генерира автоматично. (моля някой да ме поправи ако греша но просто моите познания стигат дотук).

И в robots.txt да укажеш окончанието (от директорията) на същата тази нежелана страница:
Това е хубаво но ми се иска да не индексира определени страници, които са в директорията но в същото ереме да индексира самата директория (тъй като тя не е с копирано съдържание).
Пример: Да индексира http://akumulatorbg.com/akumulatoр/ но да не индексира всички продукти като http://akumulatorbg.com/akumulatori/akumulator-40ah-bosch-asia-silver-s4 и т.н....

Това са сайтмапа трябва ли да ги махам изобщо тъй като се генерира автоматично и след мен ще се генерира отново когато променим някой продукт... Не е ли по добре да го оставя така като в роботса окажа да не се индексира.

И един въпрос за каноникъл ако кажа, че една страница е каноникъл това значи ли че гугъл няма да индексира тази страница ако я намери другате и как изобщо да извърша тази операция в CMS система ?
Благодаря просто съм съвсем объркан вече.
 

petya77

Well-Known Member
От: Въпрос за Robots.txt

Отпадат предложенията ми и мисля, че трябва да наблегнеш на robots.txt, като укажеш линковете оттам, където започват продуктите: /...asia-silver-s4 и т. н., но според: "тази страница е 1:1" не виждам смисъл (дори и от noindex полза няма, а може и да навреди), освен да използваш canonical, който не указва на Гугъл да не индексира страницата, а че това е оригиналната страница. Обяснено е в по-горният линк, който си посочил, но и тук има добро пояснение: toshkov.com/canonical/.

Мой приятел, който развива онлайн магазин за обувки, от година се чудеше защо сайта му изчезна от серпа с доста думички. Проверихме в WMT и се оказаха стотици страници с дублирани мета тайтъл и описания. Системата му ги генерира автоматично като при теб и единственото решение му бе предложено от seo спец само с canonical - именно той указва оригиналният вариант на дадена страница.

Сходен проблем с canonical решение.
 
Последно редактирано:
От: Въпрос за Robots.txt

Така сега видях, че всъщност си има canonical оказан на всеки продукт :)

Твоя приятел на каква платформа има магазин ? Дали presstashop има проблеми с това ?


А още по интересното е че страница която съдържа canonical е индексирана 2 пъти и пише , че е дублирана дали може да е грешка на бота ?
 
Последно редактирано:

r5857

New Member
От: Въпрос за Robots.txt

Преста шоп има подобен проблем. За да нямаш дублирано съдържание най-лесния начин е да поставяш някакви номера в заглавията и урл адресите на продуктите
 
От: Въпрос за Robots.txt

Дай пример ? Това няма ли да излезе навсякъде а магенто и той ли е така ?
 

petya77

Well-Known Member
От: Въпрос за Robots.txt

Преста шоп има подобен проблем. За да нямаш дублирано съдържание най-лесния начин е да поставяш някакви номера в заглавията и урл адресите на продуктите

Забравих да спомена това, дано колегата има възможност да добавя номерца в адресите. Една разлика да е, но да не се отчита като дублаж. Можеш да опишеш с няколко думи патилата по магазина. Поне ще е в полза и за други колеги. Пък може и да излезе решение - доста онлайн магазинчета има тук. Нямам понятие от тези системи, но предполагам че има алтернативни решения относно генерирането на дублирани маркери.
 

r5857

New Member
От: Въпрос за Robots.txt

Пример - Акумулатори бош 1 - това за заглавие
урл адрес - акумулатори-бош-1
урл адрес - акумулатори -бош-2
 

r5857

New Member
От: Въпрос за Robots.txt

Така лесно и бързо избягваш дублажите, като номерираш заглавията на продуктите и урл адресите
 

r5857

New Member
От: Въпрос за Robots.txt

На следващ етап трябва да номерираш и заглавията на страниците с продуктите, за да избегнеш дублажите на заглавията на страниците
 
От: Въпрос за Robots.txt

А още по интересното е че страница която съдържа canonical е индексирана 2 пъти и пише , че е дублирана дали може да е грешка на бота ?
 

Горе