Странни грешки 404

signboard

Active Member
Здравейте, в сайта ми излизат много грешки 404, "Посочени, но неоткрити URL-и (HTTP код 404)"

За адреси s 404 излиза това на снимката:

4354783k.jpg


Някой има ли идея какво е това кодиране..нещо се е объркала кодировката явно. Ако има значение, сайта е домейн на кирилица.
 
От вътрешни страници ли са линкнати тези адреси? Погледни в дясно където има N pages под linked from. Т.е. цъкни там и виж от къде идват тези мармалади в кодировката на браузера. Напълно възможно е да имаш линк към статии от някоя социалка, която е обозила нещата, поне аз имам такива.
 
От: Странни грешки 404

Това показва в дясно..няма адрес, само едно тире "-" под препратки

4355200D.jpg


А това се вижда преди да вляза в страницата за грешки, посочени са външни връзки, адресите започват много странно.. линк са, заради http://, но не водят на никъде.. нищо не се зарежда..

4355209C.jpg
 
А това било от awstats-a, мислех че става дума, че в GWT ти се изплюват тези грешки.
За това горното не знам :/
 
От: От: Странни грешки 404


Това на картинката е шестнайсетичен код - \x е идентификатор за 16-чен код, а след него D0 е един байт информация. Горе-долу се вижда повтаряемост на всеки 2 байта, което навежда на мисълта за UTF-8, а то после е било URLEncode-нато.

Ето пример на URL, в което се съдържа URLEncode-ната кирилица:

bg.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BB%D0%B5%D0%B2%D0%B8%D0%B7%D0%BE%D1%80

(bg.wikipedia.org/wiki/Телевизор)


Ако извършите обратната процедура:

Взимате

\xD0\xA0\xD1\x97\xD0\xA1\xD0\x82\xD0\xA0\xD1\x91\xD0\xA1

и заменяте \x с % ще получите

%D0%A0%D1%97%D0%A1%D0%82%D0%A0%D1%91%D0%A1


След това ако го копирате в този инструмент: Online URL Decoder

ще получите ето това:

РїСЂРёС

което ако си поиграете да го разгледате с няколко кодови таблици ще видите, че не става с нито една (или поне при мен не става). Та според мен това са били URL-та на кирилица, кодирана в UTF-8, след което това UTF-8 се е повредило и накрая е било URLEncode-нато.


Единия вариант, който допускам, е кирилицата да се е повредила при export на базата данни в SQL файл и последващото му import-ване. Но уви, за сега не се сещам как информацията с развалената кирилица може да се възстанови :(

Другия вариант е да има грешка в CMS-а, която омазва някои адреси. Трябва да покажете на програмист на коя страница се намират развалените URL-та.

Май излиза, че и в двата случая работата е за програмист.
 
Последно редактирано:
От: Странни грешки 404

voic4e, благодаря за изчерпателния отговор!

Над списъка пише : Връзки от външни страници (други сайтове освен търсачки), заради което си мисля че може да е от някой външен сайт..
 
От: Странни грешки 404

Ами не знам с какъв инструмент го гледаш това, не мога да коментирам. Тълкувам думите ти така: Ползваш няккаъв инструмент, който ти показва връзките на други сайтове към твоя. Не знам този инструмент от къде взима тази информация и как я обработва. Просто не мога да коментирам, защото не знам какво правиш.
 
Чак сега видях като хората скрийншотовете. Това е статистиката на awstats и ако се загледате има еднаквост в грешките. По-скоро не се справя добре с обработката на логовете - или просто не работи добре с домейни на кирилица, или логвете ползват ansi кодировка и за това се получават тези грешки при обработката.
Според меня няма от какво да се притесняваш.
 
От: Странни грешки 404

Аз мисля че awstats-a или каквото е там, взима домейн на кирилица от линковете, които се намират на външни сайтове, но не го кодира правилно. Т.е. изглежда се опитва да го URLEncode-не, а домейните не се кодират с URLEncode, ами ето така:

For example, the Cyrillic name of Russia's IDN ccTLD is рф. In Punycode representation, this is plai, and its DNS name is xn--plai

Example_of_IDNA_encoding


И ако разсъжденията ми са правилни, излиза, че разработчиците на този инструмент са допуснали сериозна грешка при написването на програмата и трябва да си я оправят :roll:

Или в примера
Код:
http://хост.домейн.ТЛдомейн/папка/файл.разш?параметър1=стойност1&параметър2=стойност2...

би трябвало кодирането да стане по начин подобен на този:

Код:
http://IDNA(хост).IDNA(домейн).IDNA(ТЛдомейн)/URLEncode(папка)/URLEncode(файл).URLEncode(разш)?URLEncode(параметър1)=URLEncode(стойност1)&URLEncode(параметър2)=URLEncode(стойност2)...


Но той освен това както видяхме сгрешава и самата кирилица, в противен случай при URLDecode щеше да си излезе.
 
Последно редактирано:
Работата по awstats май е прекратена от 3 години. И вътрешни или външно връзки, няма значение. Awstats обработва access лог-а на apache. Ако там всичко е с грешна кодировка, awstats-a няма как да го обработи по-добре.

Абе няма ли някой с IDN домейн и awstats да пише по темата дали има подобни проблеми?
 
От: Странни грешки 404

Е щом е прекратена значи явно трябва signboard да ползва друг инструмент. Лично аз не вярвам грешката да е в Apache и неговите логове, все пак това (до колкото знам) е най-масовия сървър и не вярвам такова нещо да остане незабелязано. Но нищо не се знае :)
 
От: Странни грешки 404

Сайта е хостнат при суперхостинг, 404 грешките си ги следя и във вебмастертоолс. Този Awsatats , мисля че ми дава доста полезна информация и за това го гледам и него като статистика.
Освен да пратя на съпорта на суперхостинг да видят.. може пък да помогнат.



Това е в самата статистика, посочва ми външни линкове към мен

4355209C.jpg



Това е в под-меню на статиситката което е за грешки 404.

4355200D.jpg
 

Горе