Doorway Content Parser — соберет все, со временем

Doorway Content Parser - модуль парсера Proza.ruДанная программа была написана мной несколько месяцев назад, частично для личных целей, частично для обучения. Когда я занимался дорвеями, необходим был постоянный приток свежего материала, так и возникла идея написать программу, которой было бы удобно его собирать.

Планировалось написать 3 модуля минимум: парсер текста, картинок и видео. Однако из-за потери актуальности потребность в данной программе отпала. Но, тем не менее, часть программы полностью рабочая, её я и выгадываю для вас :)

В качестве источников я планировал использовать, Proza.ru для текста, Images.ya.ru для картинок и Youtube для видео. В текущей версии полностью реализован парсер Прозы, и частично парсер Картинок (но он отключен, т.к. очень сырой). Так же стоит отметить, что парсер YouTube я сделал в отдельной программе, там все полностью рабочее, т.к. она распространяется за скромное вознаграждение ;)

Doorway Content Parser - сырой модуль парсера картинок

Но вернемся к Doorway Content Parser. На сайте Proza.ru ежедневно появляются десятки мегабайт уникального текста, его мы и будем собирать.

Настройки довольно простые, необходимо указать период, за который парсить статьи, таймаут (т.к. проза быстро банит, если её активно долбить) и результирующий файл(ы). Дальше программа все сделает сама: узнает, сколько статей надо парсить, пройдется и соберет их, поверхностно  почистит полученную текстовку.

В результате получается примерно вот такое:

Результат работы парсера Proza.ru Что касается будущего данной программы, доделывать я её не планирую, пока она мне лично не понадобится, хотя кто знает…

Для работы Doorway Content Parser, необходим Microsoft .NET Framework.

Скачать: DoorwayContentParser (294)


3 комментария к "Doorway Content Parser — соберет все, со временем"

  1. Viczzz:

    После парсинга пустая папка, почему такое может быть??

    Заранее спс...

  2. Hsite:

    Программа хорошая, но видимо вёрстку сменили, ничего не парсит. Фикс не планируете выкладывать?

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

   *

  

Комментарий