Данная программа была написана мной несколько месяцев назад, частично для личных целей, частично для обучения. Когда я занимался дорвеями, необходим был постоянный приток свежего материала, так и возникла идея написать программу, которой было бы удобно его собирать.
Планировалось написать 3 модуля минимум: парсер текста, картинок и видео. Однако из-за потери актуальности потребность в данной программе отпала. Но, тем не менее, часть программы полностью рабочая, её я и выгадываю для вас
В качестве источников я планировал использовать, Proza.ru для текста, Images.ya.ru для картинок и Youtube для видео. В текущей версии полностью реализован парсер Прозы, и частично парсер Картинок (но он отключен, т.к. очень сырой). Так же стоит отметить, что парсер YouTube я сделал в отдельной программе, там все полностью рабочее, т.к. она распространяется за скромное вознаграждение
Но вернемся к Doorway Content Parser. На сайте Proza.ru ежедневно появляются десятки мегабайт уникального текста, его мы и будем собирать.
Настройки довольно простые, необходимо указать период, за который парсить статьи, таймаут (т.к. проза быстро банит, если её активно долбить) и результирующий файл(ы). Дальше программа все сделает сама: узнает, сколько статей надо парсить, пройдется и соберет их, поверхностно почистит полученную текстовку.
В результате получается примерно вот такое:
Что касается будущего данной программы, доделывать я её не планирую, пока она мне лично не понадобится, хотя кто знает…
Для работы Doorway Content Parser, необходим Microsoft .NET Framework.
Скачать: DoorwayContentParser (394)
Спасибо!!!
После парсинга пустая папка, почему такое может быть??
Заранее спс...
Программа хорошая, но видимо вёрстку сменили, ничего не парсит. Фикс не планируете выкладывать?