Начал писать фришную тулзу по поиску формы на странице и оценка ее для возможности постинга. Также хочу чтобы еще можно было отслеживать сам пост.
Итак – что имеем сейчас на этот момент. Написал небольшой анализатор формы. Программа берет урл гостевой и оценивает форму. Вот пример гостевой и результат –
Используется оценка формы на нахождение элементов и капчи. Схема довольна известная – ищем все формы на странице и начинаем оценивать форму. Нашли input +10 к форме, textarea +100, img –500. Для картинки еще надо ввести наверное поиск размеры картинки и близость к элементу INPUT. По такой схеме подходят для постинга те, кто набрал более 100 баллов. Верхнюю планку не будет отслеживать. Теперь вот вопрос, я никак не реагирую на hidden поля, то есть оценка не меняется. Также есть еще типы INPUT type:checkbox, radio и есть SELECT. Тут я потерялся – как правильнее считать такое. Если есть мысли или вдруг делали такое – подскажите плиз 
Ко всему прочему я так понимаю, правильнее будет учитывать имена поля name для оценки и как то увеличивать значения для формы.
Теперь насчет нахождения поста или формы для добавления. К примеру у нас есть урл на страницу где есть сообщения. Собираем все линки на странице, ищем по шаблону текст в ссылке и/или адресу ссылки внутри домена. То есть форму найти достаточно просто, как только соберем приличный словарь.
Но теперь наоборот, имеем страницу из примера выше, как найти страницу поста и его проходимость. Во первых на post мы должны получить ответ 200 или 301. Тогда с большей уверенностью можно сказать, что пост прошел. Теперь как его искать?! По той же логике – ищем на странице все ссылки и оцениваем. В примере выше нету ссылок, тогда пытаемся перейти на уровень ниже – то есть / И вот тут не понятно, если и тут не нашли ссылки на наши посты, стоит ли идти дальше. Вообщем пишите что думаете по этому поводу.
P.S. К сожалению конкурс отодвигается минимум на неделю. Следите за постами на блоге. Не все вопросы утряс со спонсорами еще.
{ 10 comments… read them below or add one }
Ну и как, скажи на милость, такое читать? )
Даже в рсс-ридере удобней выходит
привет!
еще одна фришная тулза – это хорошо
насчет наличия картинок (каптч), то тут неплохо сделать как у спамита: смотреть на имя поля и на имя картинки.
также можно создать обычный список для полей типа input, select следующего вида:
FirstName=+10
Name=+10
LastName=+10
Website=+50
Hernya=-20
и чтобы эти настройки можно было сохранять и загружать. тогда на тебе не лежит ответственность за корректное проставление балов – все это ложится на пользователя.
2Johnny – не понял я. Директ мешает?!
2DmitryHT так не будет канать по простому. Надо по словарю.
Хз, нужно пробовать а там будет видно…
п.с. Исходник сабмитера это круто!
Хорошую вещь вы запланировали, уже разослала ссылку друзьям в аське, чтобы заценили, думаю буду одной из первых, кто оценит полностью дописаную «тузлу», очень импонирует, что вы делаете ее фришной! Спасибо!
С парсингом html работаю уже более 2 лет, тоже пришел к выводу, что нужно сделать универсальный механизм. Однако не всегда проканывает, особенно когда есть java/ajax. В простых случаях это себя оправдывает.
Я думаю ты в курсе что положительных ответов от серверов не 2 (200 или 301 как ты указал), тебе интересны все нижеперечисленные оветы
Успешные
200 OK
201 Created
202 Accepted
203 Non-Authoriative Information
204 No Content
205 Reset Content
206 Partial Content
Перенаправляющие
300 Multiple Choices
301 Moved Permanently
302 Moved Temporarily
303 See Other
304 Not Modified
305 Use Proxy (proxy redirect)
Однако получение такого ответа не гарантирует успешность постинга.
radio-поля игнорировать нельзя, так как для меня они вес имеют больший нежели поля type=text. Бери по дефолту значение с радиобаттона, у которого есть свойство select.
Ну и с капчами вопрос открытый – путь, который всегда ведет к совершенствованию. OCR требует опыта и нестандартности мышления.
Удачи…
И еще. Зачем что-то оценивать (конечно кроме наличия в форме капчи) когда достаточно найти с текстк страницы конструкцию [b][/b] [content] [b][/b]
конструкцию …
пардон за мусор, но WP не видет моих тегов, приходится изощряться, чтобы написать:
конструкция <form …> … </form>
Круто! А отуда такая инфа , если не секрет.;)?
Leave a Comment