Определение формы на странице для сабмита
Flame, Google, Tools - SeoCoder  @ 7:33 am

Начал писать фришную тулзу по поиску формы на странице и оценка ее для возможности постинга. Также хочу чтобы еще можно было отслеживать сам пост.

Итак – что имеем сейчас на этот момент. Написал небольшой анализатор формы. Программа берет урл гостевой и оценивает форму. Вот пример гостевой и результат – http://www.letsrockandroll.net/guestbook/AddGuest.html

Используется оценка формы на нахождение элементов и капчи. Схема довольна известная – ищем все формы на странице и начинаем оценивать форму. Нашли input +10 к форме, textarea +100, img –500. Для картинки еще надо ввести наверное поиск размеры картинки и близость к элементу INPUT. По такой схеме подходят для постинга те, кто набрал более 100 баллов. Верхнюю планку не будет отслеживать. Теперь вот вопрос, я никак не реагирую на hidden поля, то есть оценка не меняется. Также есть еще типы INPUT type:checkbox, radio и есть SELECT. Тут я потерялся - как правильнее считать такое. Если есть мысли или вдруг делали такое – подскажите плиз

Ко всему прочему я так понимаю, правильнее будет учитывать имена поля name для оценки и как то увеличивать значения для формы.

Теперь насчет нахождения поста или формы для добавления. К примеру у нас есть урл на страницу где есть сообщения. Собираем все линки на странице, ищем по шаблону текст в ссылке и/или адресу ссылки внутри домена. То есть форму найти достаточно просто, как только соберем приличный словарь.

Но теперь наоборот, имеем страницу из примера выше, как найти страницу поста и его проходимость. Во первых на post мы должны получить ответ 200 или 301. Тогда с большей уверенностью можно сказать, что пост прошел. Теперь как его искать?! По той же логике – ищем на странице все ссылки и оцениваем. В примере выше нету ссылок, тогда пытаемся перейти на уровень ниже – то есть http://www.letsrockandroll.net/guestbook/ И вот тут не понятно, если и тут не нашли ссылки на наши посты, стоит ли идти дальше. Вообщем пишите что думаете по этому поводу.

P.S. К сожалению конкурс отодвигается минимум на неделю. Следите за постами на блоге. Не все вопросы утряс со спонсорами еще.

google.com bobrdobr.ru del.icio.us technorati.com news2.ru rumarkz.ru memori.ru moemesto.ru

10 Comments »

  • Ну и как, скажи на милость, такое читать? )
    Даже в рсс-ридере удобней выходит

Comment by Johnny — March 21, 2008 @ 10:18 am

  • привет!
    еще одна фришная тулза - это хорошо :)

    насчет наличия картинок (каптч), то тут неплохо сделать как у спамита: смотреть на имя поля и на имя картинки.

    также можно создать обычный список для полей типа input, select следующего вида:
    FirstName=+10
    Name=+10
    LastName=+10
    Website=+50
    Hernya=-20

    и чтобы эти настройки можно было сохранять и загружать. тогда на тебе не лежит ответственность за корректное проставление балов - все это ложится на пользователя.

Comment by DmitryHT — March 21, 2008 @ 10:31 am

  • 2Johnny - не понял я. Директ мешает?!
    2DmitryHT так не будет канать по простому. Надо по словарю.

Comment by SeoCoder — March 21, 2008 @ 11:14 am

  • Хз, нужно пробовать а там будет видно…
    п.с. Исходник сабмитера это круто!

Comment by puron — March 23, 2008 @ 4:12 am

  • Хорошую вещь вы запланировали, уже разослала ссылку друзьям в аське, чтобы заценили, думаю буду одной из первых, кто оценит полностью дописаную “тузлу”, очень импонирует, что вы делаете ее фришной! Спасибо!

Comment by Татьяна — March 24, 2008 @ 7:18 pm

  • С парсингом html работаю уже более 2 лет, тоже пришел к выводу, что нужно сделать универсальный механизм. Однако не всегда проканывает, особенно когда есть java/ajax. В простых случаях это себя оправдывает.

    Я думаю ты в курсе что положительных ответов от серверов не 2 (200 или 301 как ты указал), тебе интересны все нижеперечисленные оветы
    Успешные
    200 OK
    201 Created
    202 Accepted
    203 Non-Authoriative Information
    204 No Content
    205 Reset Content
    206 Partial Content

    Перенаправляющие
    300 Multiple Choices
    301 Moved Permanently
    302 Moved Temporarily
    303 See Other
    304 Not Modified
    305 Use Proxy (proxy redirect)

    Однако получение такого ответа не гарантирует успешность постинга.

    radio-поля игнорировать нельзя, так как для меня они вес имеют больший нежели поля type=text. Бери по дефолту значение с радиобаттона, у которого есть свойство select.

    Ну и с капчами вопрос открытый - путь, который всегда ведет к совершенствованию. OCR требует опыта и нестандартности мышления.

    Удачи…

Comment by saiNT — June 10, 2008 @ 9:54 am

  • И еще. Зачем что-то оценивать (конечно кроме наличия в форме капчи) когда достаточно найти с текстк страницы конструкцию [b][/b] [content] [b][/b]

Comment by saiNT — June 10, 2008 @ 11:18 pm

  • конструкцию …

Comment by saiNT — June 10, 2008 @ 11:19 pm

  • пардон за мусор, но WP не видет моих тегов, приходится изощряться, чтобы написать:
    конструкция <form …&gt … </form&gt

Comment by saiNT — June 10, 2008 @ 11:29 pm

  • Круто! А отуда такая инфа , если не секрет.;)?

Comment by А Краснова — July 17, 2008 @ 9:00 pm


RSS feed for comments on this post. TrackBack URL

Leave a comment

 


Подписка по RSS
Comments RSS

TNX.net - уникальный международный сервис для вебмастеров и оптимизаторов

Категории

Блоги:



Старые статьи

Meta: