Top Line
Мир ПК # 2/98 стр. 100-103

Страна советов

М. Суханова

Обезьянка мне вынет счастье,
И пущу я его по ветру,
Не читая. А что с ним делать,
Раз кириллицей - мое счастье?

Ирина Ратушинская

Электронная почта
Web-страницы
Поиск на зарубежных серверах
Некоторые интересные адреса

В прошлый раз (см. "Мир ПК", 1998, #1, с. 52) я представила журнал Tip World и предложила вашему вниманию подборку советов из числа тех, которыми его сервер ежедневно наполняет мой электронный почтовый ящик. Нынешняя же порция рекомендаций - не из Tip World (небольшую подборку советов оттуда см. на с. 50).

Дело в том, что Tip World - американский журнал. Конечно, при том что большинство популярных программ русифицированы, а сеть Internet настолько всемирна, что даже вирусы у "нас" с "ними" стали одни и те же, это, как правило, несущественно, но нет правил без исключений. Скажем, около двух третей Web-страниц и конференций, рекомендуемых Tip World, представляют интерес только для жителей Соединенных Штатов, а многое из того, что могло бы заинтересовать нас (в частности, все русскоязычные страницы и конференции), не попадает в поле зрения авторов никогда. В этой "Стране советов" я сознательно делаю перекос в сторону отечественных проблем, а в дальнейшем постараюсь найти разумное сочетание "национального" с "общечеловеческим".

Электронная почта

Судя по тому, в каком виде приходит к нам в редакцию электронная корреспонденция, далеко не все пользователи e-mail умеют отправлять письма: мы часто получаем, во-первых, сообщения в "кривых" кодировках, а во-вторых, файлы WinWord (в разных вариантах). К сожалению, дать единую инструкцию о том, как правильно послать письмо в кириллице, невозможно: слишком уж много здесь разных ситуаций. Поэтому придется ограничиться советами и замечаниями общего характера. Поле заголовка Content-Transfer-Encoding для простых текстовых сообщений обычно должно иметь значение 8bit, что соответствует передаче текста "как есть". В некоторых случаях он кодируется в формате Base64 или Quoted-Printable ; при этом значение поля должно быть тоже Base64 или Quoted-Printable.

Проследить за всем этим было бы не так уж сложно, если бы не то обстоятельство, что пользователь не может непосредственно управлять упомянутыми полями заголовка и ограничен в выборе кодировки. У многих провайдеров забота о кодировке возложена к тому же на сервер, так что пользователь должен оформлять свои письма в соответствии с требованиями не почтовых стандартов, а системы перекодирования, установленной на сервере.

В результате совет приобретает несколько странную форму: методом проб и ошибок настройте свою почтовую программу как-нибудь так, чтобы письма уходили в одном из допустимых стандартом видов. Дальнейшее будет сводиться к описанию этих самых проб и ошибок.

Web-страницы

Допустимые значения xxxx для кириллицы - WINDOWS-1251, KOI8-R и ISO-8859-5 (последнее, впрочем, вряд ли вас заинтересует - эта кодировка почти не применяется для русских текстов). Netscape Composer вставляет такую строку (с правильным значением charset) во все создаваемые документы.

Однако при разработке русскоязычных страниц названной возможностью пользоваться, как правило, не нужно. Причин тому две. Во-первых, на многих российских серверах применяется автоматическое (в том числе динамическое) перекодирование документов, при котором параметр charset не учитывается. В результате такой обработки кодировка документа окажется указанной неправильно, что хуже, чем если она не указана вообще. Во-вторых, протокол HTTP предусматривает передачу информации о кодировке документа в сообщении сервера, и если сервер это действительно делает, то указание в самом документе излишне.

Таким образом, заботиться о параметре charset имеет смысл, только если сервер ничего не перекодирует и не передает на клиентскую машину информацию о кодировке. Если же он перекодирует страницы, не меняя значения charset, необходимо позаботиться о том, чтобы этот параметр в документе указан не был.

Поиск на зарубежных серверах

Поисковые системы, ориентированные специально на Россию, такие как Rambler (http://www.rambler.ru) или Tela (http://tela.dux.ru), умеют отождествлять русские слова в разных кодировках и разных регистрах, а две системы - "Яndex" (http://www.yandex.ru) и "Апорт" (http://www.aport.ru), кроме того, ищут все формы запрошенных слов. Поэтому для поиска по русскоязычным страницам они удобнее, чем универсальные серверы.

Тем не менее опыт показывает, что, скажем, AltaVista не так уж редко "преподносит на блюдечке" ссылки, которых мы тщетно домогаемся от специализированных российских серверов. В чем тут дело, сказать трудно, поскольку число проиндексированных русскоязычных документов на "наших" серверах по идее чуть ли не на порядок больше, чем на AltaVista (я пользуюсь здесь подсчетами Ивана Паравозова - см. его статью "Поймай языка в искалке" в #4 "Планеты Интернет"; этот номер доступен в электронном виде на узле http://www.netplanet.ru). Но факт остается фактом, и из него следует практический вывод: поиск русских ссылок на заокеанских серверах - занятие более чем оправданное, хотя это и сложнее. Так что искать следует и "дома", и "на стороне".

Некоторые интересные адреса

На этом разрешите распрощаться. Свои отзывы, замечания, вопросы и советы присылайте мне по адресу masu@osp.msk.su.


Мир ПК #2/98
Bottom Line