[Python] Парсер файлообмінників (slil.ru, webfile.ru, dump.ru, ifolder.ru)

На днях оце переглядав свою коллекцію міні-писульок і натрапив на отаке оце собі чудо.
Написав вже давно, ще тільки починав працювати з Gui (Tkinter).Повинно трапитись у пригоді тим
хто також замислився над цим питанням… Отож, поскільки сказали ще й відкоментувати код,
то частина яка відноситься до Гуї ще й трохи відкоментована.
Тепер, ближче до справи, що ж він робить ?
Він парсить по вказаному діапазону такі мережеві файлові хранилища ака файлообмінники як
slil.ru, webfile.ru а також ifolder.ru. Ви ж і самі знаєте, що інколи там пробігають вельми цікаві файли…
Скрипт багатопоточний, можлива робота через http/https проксі-сервер (от в мене наприклад на роботі інет через проксю
)
Списко знайдених файлів виводиться в лог у вигляді лінк|ім`я файлу. Також лог можна зберегти у файл для подальшої обробки.
Скрипт доволі таки легко розширити – достатньо лише написати функцію для парсінгу та додати її до асоціативного массиву FileShares (див. примітки в коді).
Найшвидше парсить slil.ru , найдовше – ifolder.ru.Принцип роботи – генерация лінків на файли так само як у цих сервісів (прості порядкові номери).
Depositfiles.com наприклад так пропарсити не вийде, адже там генерується циферно-буквенний ідентифікатор файлу.
ну коротше кажучи, качаємо та дивимося
http://dumpz.org/9729/
Инетересно…
а вот все таки написать такую штуку и под depositfiles rapidshare и остальные было бы очень не плохо…
Вообще интересная идея!
@xa-xa89
Не получится – там алгоритм генерации ссылки другой совершенно- какие-то циферно-буквенные идентификаторы, причем фиг его знет что за система, тем более не факт что этот алгоритм не зависит от контрольной суммы, а в таком случае это вообще нереально
P.S. Якщо не важко, залишайте будь-ласка коментарі українською мовою
Ок, надалі українською!
автоматом на російській написав…
а відносно депозітфайлз, чому ж можна перебирати й буквені значення просто ймовірність промахів більша тому що більший дійапазон можливих значеннь…і не потрібно вгадувати алгоритм генерації, такий собі брутфорс)
але це буде як в рулетку грати)
Оскільки з цим видом GUI не працював, то обовязково гляну. Дякую!
Ще до випадково залишених файлів, то дуже цікаві ресурси типу http://pastebin.com/, там є список “Останні пости” і якщо частенько їх парсити і відбирати по ключовим словам, типу приват, паролі і т.д – то багатенько цікавомого можна знайти. Це перевірено
@presidentua
Цікава ідея, треба буде подумати над цим…
До речі, не підкажеш, ти з WxWidgets працював ?
Я працював лише з QT при Python. Інші GUI ще не тестив.
Додав dump.ru
У меня выдает ошибку на 116 строке при запуске, вот скрин ошибки http://s13.radikal.ru/i186/0910/d1/0f80e00bb603.jpg
Для юзерів windows у друому рядку скрипта замінити UTF-8 на cp1251
Volnov, сорц сохрани в ютф8
~