Home > Кодинг > [Python] Парсер файлообмінників (slil.ru, webfile.ru, dump.ru, ifolder.ru)

[Python] Парсер файлообмінників (slil.ru, webfile.ru, dump.ru, ifolder.ru)



На днях оце переглядав свою коллекцію міні-писульок і натрапив на отаке оце собі чудо.
Написав вже давно, ще тільки починав працювати з Gui (Tkinter).Повинно трапитись у пригоді тим
хто також замислився над цим питанням… Отож, поскільки сказали ще й відкоментувати код,
то частина яка відноситься до Гуї ще й трохи відкоментована.

Тепер, ближче до справи, що ж він робить ?
Він парсить по вказаному діапазону такі мережеві файлові хранилища ака файлообмінники як
slil.ru, webfile.ru а також ifolder.ru. Ви ж і самі знаєте, що інколи там пробігають вельми цікаві файли…
Скрипт багатопоточний, можлива робота через http/https проксі-сервер (от в мене наприклад на роботі інет через проксю :( )
Списко знайдених файлів виводиться в лог у вигляді лінк|ім`я файлу. Також лог можна зберегти у файл для подальшої обробки.
Скрипт доволі таки легко розширити – достатньо лише написати функцію для парсінгу та додати її до асоціативного массиву FileShares (див. примітки в коді).
Найшвидше парсить slil.ru , найдовше – ifolder.ru.Принцип роботи – генерация лінків на файли так само як у цих сервісів (прості порядкові номери).
Depositfiles.com наприклад так пропарсити не вийде, адже там генерується циферно-буквенний ідентифікатор файлу.
ну коротше кажучи, качаємо та дивимося :)

http://dumpz.org/9729/

  1. xa-xa89
    October 12th, 2009 at 18:25 | #1

    Инетересно…
    а вот все таки написать такую штуку и под depositfiles rapidshare и остальные было бы очень не плохо…
    Вообще интересная идея!

  2. login999
    October 12th, 2009 at 18:48 | #2

    @xa-xa89
    Не получится – там алгоритм генерации ссылки другой совершенно- какие-то циферно-буквенные идентификаторы, причем фиг его знет что за система, тем более не факт что этот алгоритм не зависит от контрольной суммы, а в таком случае это вообще нереально
    P.S. Якщо не важко, залишайте будь-ласка коментарі українською мовою :)

  3. xa-xa89
    October 12th, 2009 at 19:27 | #3

    Ок, надалі українською!
    автоматом на російській написав…

  4. xa-xa89
    October 12th, 2009 at 20:21 | #4

    а відносно депозітфайлз, чому ж можна перебирати й буквені значення просто ймовірність промахів більша тому що більший дійапазон можливих значеннь…і не потрібно вгадувати алгоритм генерації, такий собі брутфорс)
    але це буде як в рулетку грати)

  5. October 12th, 2009 at 20:58 | #5

    Оскільки з цим видом GUI не працював, то обовязково гляну. Дякую!

    Ще до випадково залишених файлів, то дуже цікаві ресурси типу http://pastebin.com/, там є список “Останні пости” і якщо частенько їх парсити і відбирати по ключовим словам, типу приват, паролі і т.д – то багатенько цікавомого можна знайти. Це перевірено ;)

  6. login999
    October 12th, 2009 at 21:46 | #6

    @presidentua
    Цікава ідея, треба буде подумати над цим…
    До речі, не підкажеш, ти з WxWidgets працював ?

  7. October 13th, 2009 at 18:20 | #7

    Я працював лише з QT при Python. Інші GUI ще не тестив.

  8. login999
    October 30th, 2009 at 21:45 | #8

    Додав dump.ru

  9. October 31st, 2009 at 10:57 | #9

    У меня выдает ошибку на 116 строке при запуске, вот скрин ошибки http://s13.radikal.ru/i186/0910/d1/0f80e00bb603.jpg

  10. login999
    October 31st, 2009 at 15:50 | #10

    Для юзерів windows у друому рядку скрипта замінити UTF-8 на cp1251

  11. February 28th, 2010 at 18:16 | #11

    Volnov, сорц сохрани в ютф8 :) ~

  1. No trackbacks yet.