Перейти к содержанию

Новый поисковик по сайтам Сибирт телекома Бурятия и не только


Какой сервис нужен?  

157 проголосовавших

  1. 1. Какой сервис нужен?

    • Почтовый сервер
      70
    • Поисковик
      39
    • Интернет магазин
      21
    • сервис мгновенных сообщений типа ICQ
      29


Рекомендуемые сообщения

Теперь только осталось придать дело как можно большей огласке и покапают денежки.

Jinchuuriki - cпасибо за поддержку.

вчера опять обнулил базу переехал с MYSQL на PGSQL

за ночь проиндексировалось 12000 страниц из 40 сайтов, так-что в ближайшее будущем нагоним упущеное.

И еще при сканирование обнаруживается много ошибок сайтов. Разработчики сайтов можете обращаться, буду рад бесплатно проанализировать ваши сайты.

Добавлено спустя 15 минут 44 секунды:

Предложение администраторам форумов

Если вы хотите чтобы поисковик копал глубже ваш форум, пропишите разрешающие права на разделы для бода kabnet.ru и он будет индексировать те страницы которые закрыты регистрацией.

Связи со сменой кодировки поисковика временно поисковик здесь http://92.124.219.192/cgi-bin/search.cgi?

Ссылка на комментарий

В поисковике внедрил новостной раздел. Пока не все СМИ переиндексированы, но первый результат уже есть. Много времени ушло на анализ веб ресурсов. Отобрал самые информативные сайты. Поменял дизайн.

Ссылка на комментарий
  • 3 недели спустя...

с 05 ноября внедрен поиск картинок формата jpg и поиск аудио файлов mp3

Индексация mp3 начата сегодня, бод просматривает шапку файлов (название, автора, год, комментарий)

Ссылка на комментарий

Уважаемые пользователи и модераторы форума, как Вы смотрите на индексацию торрент фалов. с содержимыми комментариями? Поиск будет качественнее чем в движках phpBB

Добавлено спустя 59 секунд:

всё так же во внутренней зоне? или во внешке?

Поиск только внутренняя сеть Сибирьтелекома и Бурнет

Все ресурсы которые проиндексированы для Вас бесплатны

Ссылка на комментарий
  • 2 месяца спустя...

На сегодня реализовано:

Поддержка HTTP.

Поддержка HTTPS.

Поддержка FTP.

Поддежка NNTP (обе схемы URL news:// и nntp://).

Виртуальная схема URL htdb://. Позволяет индексировать и искать по большим текстовым/блобовым полям SQL-баз данных.

Встроенная поддержка text/html, text/xml, text/plain, audio/mpeg (MP3) и image/gif.

Возможность индексировать мультиязычные сайты используя механизм согласования содержимого.

Нечёткий поиск на основе синонимов, акронимов и аббревиатур и всех форм (включая корректировку правописания) слов из поисковых запросов.

Поддержка Basic-авторизации. Позволяет индекировать интранет сервера, защищенные паролем.

Поддержка и robots.txt.

Испольщзование синонимов и словоформ для улучшения результатов поиска.

Поиск без учёта акцентов символов.

Поддержка доменных имён в национальных кдировках (Internationalized Domain Names).

Алгоритм автоматического построения рефератов (SEA).

Тестируем http://kabnet.ru

Ссылка на комментарий
  • 4 недели спустя...

Появилась возможность разместить у себя поисковую форму по сайту в нашей сети

например поиск по ulanovka.ru





Добавлено спустя 4 минуты 15 секунд:

статистика индексации на данный момент *ulanovka.ru*

Status    Expired      Total
-----------------------------
0 7426 7543 Not indexed yet
200 392 24250 OK
301 1 1 Moved Permanently
302 273 747 Moved Temporarily
400 0 27 Bad Request
404 0 19 Not found
415 0 11 Unsupported Media Type
503 1456 1456 Service Unavailable
504 1 1 Gateway Timeout
2200 0 1492 Clones, OK
-----------------------------
Total 9549 35547

Ссылка на комментарий
  • 2 недели спустя...

navalpro, если не трудно расскажи о процессе - как все создавалось и делается сейчас.

Ты в одну каску все это везешь? Или есть команда единомышленников?

Ссылка на комментарий
если не трудно расскажи о процессе - как все создавалось и делается сейчас.

Ты в одну каску все это везешь? Или есть команда единомышленников?

Сейчас работаю над поисковиком один, на первом этапе помогал zascorp.

Изначально была идея сделать свой поисковой портал типа Яндекса.

А начиналось с чего?

Нужна была подробная информация с бурятских сайтов особенно СМИ. Яндекс и googl индексируют поверхностно. Появился поисковик на сибирьтелекоме на движке яндекса, кстати я его тоже на своем сервере юзал, тогда чуть без штанов не остался (внешку жрет) и в лицензии много ограничений. а главное закрытый код.

Опробовал несколько поисковиков остановился на DPSEARCH. Сырой оказался код. Да и наши интернет ресурсы не фонтан. После многих бессонных ночей в мае 2008 года появилась первая поисковая форма.

Когда капнул глубоко, оказалось много страниц клонов. Количество таких страниц перекатило 10 миллионов страниц. Сервер перестал справятся. Начал искать решение проблемы. Анализ поисковых запросов показал, что ищут в основном себя (свое имя), порно, и всякую лубуду. Но есть и интересные запросы, но мало.

Модификация поисковика происходит и сейчас. На сегодня состояние поисковика такое:

Database statistics

Status Expired Total
-----------------------------
0 298907 298907 Not indexed yet
200 216541 442105 OK
206 695 1293 Partial OK
301 484 936 Moved Permanently
302 3695 15288 Moved Temporarily
304 0 14047 Not Modified
307 1 1 Temporary Redirect
400 49 76 Bad Request
401 116 309 Unauthorized
403 398 639 Forbidden
404 7438 20615 Not found
406 192 1823 Not Acceptable
415 1433 2450 Unsupported Media Type
500 92 92 Internal Server Error
502 790 790 Bad Gateway
503 20700 22593 Service Unavailable
504 600 602 Gateway Timeout
2200 49203 101219 Clones, OK
2206 298 1013 Clones, Patial OK
-----------------------------
Total 601632 924798

Пока эта разработка не приносить кроме удовольствия не чего. Кишки наших бурятских ресурсов изучил досконально. К сожалению в коде наших сайтов много минусов, и от этого страдает их популярность. Если кому интересно пишите поделюсь.

p.s. Я не пользуюсь популярностью чужих сайтов, я стараюсь повысить их за счет глубокого поиска в контексте

Ссылка на комментарий
  • 1 месяц спустя...

Поисковик индексирует практически все ресурсы в зоне СибирьТелекома и Бурнет, а это 98% бурятских сайтов. Ведущие поисковые системы такие как qoogle, yandex индексируют поверхностно, оставляя при этом много интересной информации без внимания. Kabnet напротив индексирует все, что позволено сайтами для индексации. Название Kabnet.ru потому что изначально поисковик был рассчитан на сайты Кабанского района, но сегодня его полномочия расширены до республиканских границ.

Система понимает анонимы, синонимы, суффиксы, аббревиатуры. Поиск «1» поисковик найдет предложения с словами «Первый», «Один», «Основные», «Главная» и т. п., при этом со всеми вариантами окончаний.

Ссылка на комментарий

Присоединяйтесь к обсуждению

Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.

Гость
Ответить в этой теме...

×   Вставлено с форматированием.   Вставить как обычный текст

  Разрешено использовать не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отображать как обычную ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

  • Последние посетители   0 пользователей онлайн

    • Ни одного зарегистрированного пользователя не просматривает данную страницу
×
×
  • Создать...