Пыльные архивы минувших лет
клуб заведен 21-07-2014
постоянные читатели [7]
хранители [2]
JimmyM, Skiminok
участники [7]
Almirante Zaarin, Darth Schturmer, JimmyM, Naewa, Romeo4755, Shahi, Skiminok
закладки:
цитатник:
клуб:
хочухи:
21-07-2014 11:29 Kamrad-Ru » о выкачивании архивов
Одиночный форум выкачивается HTTrack-ом за обозримое время (у меня получалось от 3 до 8 часов) с вот такими настройками Scan Rules:

+*.png +*.gif +*.jpg +*.jpeg +*.css +*.js -ad.doubleclick.net/* -mime:application/foobar
+*.zip +*.tar +*.tgz +*.gz +*.rar +*.z +*.exe
-http://kamrad.ru/index.php?s=*
-*forumid=*
+*forumid=20
+*forumid=20&*
-*/postings.php*
-*/editpost.php*
-*/sendtofriend.php*
-*/printthread.php*
-*/member2.php*
-*/search.php*
-*/member.php*
-*/private.php*
-*sortfield=title.htm
-*sortfield=postusername.htm
-*sortfield=replycount.htm
-*sortfield=views.htm
-*sortfield=lastpost.htm
-*sortorder=asc*
-*sortorder=desc*
-*/postings.php*
-*/newreply.php*
-*/moderator.php*
-*/photolist.php*
-*/buddylist.php*
-*/memberlist.php*
-*/calendar.php*
-*/register.php*
-*/usercp.php*
-*/photolist-2.php*
-*/photolist-3.php*
-*/misc.php*
-*/forumconfig.php*
-*newreply.php*
-*newthread.php*
-*goto=*
-*#post*
-*threadid=74425#
-*/poll.php*
+*goto=lastpost*

Выделенное число - номер конкретного форума, того, который нужно качать (20). Должны быть перечислены все необходимые форумы.
Возможно, некоторые условия излишни.

Другие параметры выкачки

Limits:

Max mirroring depth - 4 (для маленьких форумов с темами до 10 страниц) или 7-20 (во вложенных форумах, и в зависимости от макимального кол-ва страниц форума и кол-ва страниц в самой длинной теме)
Max external depth - 0
Max transfer rate - пишите максимум, 1000000, например, или больше.
Max connections/seconds - 100
Max number of links - максимум - 10 000 000

Flow Control:

Max connections - 15

Выделенные параметры нужно указать еще раз после запуска (меню Mirror - Modify Options), потому что программа на старте игнорирует их по соображениям чрезмерной загрузки сайта, взятым из прошлого века.


P.S. Выкачивается под незарегистрированным юзером, спецфорумы не будут видны. Кому что надо, у вас еще есть примерно 12 часов - качайте.

P.P.S. Предполагается, что у нас будут архивы форумов Лейна, Литературы, Флейма, Кино, Мафии, CRPG, RPG (без конкурса по Обливиону), Игры, Квесты, Убей Ламера, Вебдизайн.
Остальное - если нужно - качайте.
Комментарии:
21-07-2014 19:57
Камрад
При указанных условиях Scan Rules не подхватываются ссылки "последняя страница" (но после входа на любую по номеру вы сможете перейти на последнюю), чтобы подхватывались, попробуйте добавить

+*goto=lastpost*

но это минимум по 25 лишних ссылок на каждой странице форума.

P.S. ...и не факт, что решит проблему.

отредактировано: 24-07-2014 05:52 - JimmyM

24-07-2014 05:56
Опытный ворчун
Позор на мою седую голову

из-за пропущенного * в строчке

-http://kamrad.ru/index.php?s=*

вытягивалась главная страница Камрада и теоретически программа могла выкачать другой форум, подходящий по номеру (если он короткий) к условиям.
как вариант, можно попробовать более явно указывать номер форума
т.е., например, вместо
+*forumid=118*
писать
+*forumid=118
+*forumid=118&*

P.S. И фильтр работает последовательно, поэтому добавление форумных страниц должно работать до фильтров, отсекающих добавление новой темы, сортировки и т.д.

отредактировано: 24-07-2014 20:59 - JimmyM

24-07-2014 21:45
Дон Кихот Камрадский
JimmyM
Ты кажись чего-то нахимичил - теперь скачивается только ПЕРВАЯ страница форума, остальные ссылаются на сетевой ресурс а не на оффлайн-папку.
Воистину лучшее - враг хорошего.
А я старый твой фильтр-лист сохранить не догадался...
Уж поправь пожалуйста - нужно еще стратегию всю выкачать...
24-07-2014 22:12
Опытный ворчун
я просто перенес фильтры форумов в начало. Сейчас буду пробовать другие варианты.
25-07-2014 17:49
Опытный ворчун
-*sortorder=desc*

И форумы с большим кол-вом сообщений (и с длинными темами!) не всегда выкачиваются полностью с уровнем вложенности 4, нужно ставить больше.
Обновил рекомендацию по настройкам в посте.

отредактировано: 26-07-2014 08:54 - JimmyM

25-07-2014 20:23
Дон Кихот Камрадский
Спасибо! Попробую стратегию с этим фильтром сдернуть.
26-07-2014 09:02
Опытный ворчун
Сдается мне, надо проверять и заново качать форумы с длинными темами, вроде Флейма, Star Wars, 4x4, возможно, Литературы, RPG (с длиннющей темой в Готике), и возможно, другие. Там нужна большая степень вложенности, иначе страницы в середине длинных тем не выкачиваются

Вообще, наверное, нужно лимит ставить на максимум, все равно условия по форумам жесткие.

отредактировано: 26-07-2014 09:21 - JimmyM

26-07-2014 10:20
Дон Кихот Камрадский
Похоже да...
И какую степень вложенности ставить? Там 20 максимально в списке - а можно от руки больше писать?
В Поле Битвы в SW - почти 3000 страниц - это ж какая вложенность нужна?! HTTrack ее потянет?
Сейчас Литературу перекачаю...
26-07-2014 10:27
Опытный ворчун
я думаю, HTTrack прекрасно понимает числа, введенные от руки, и вложенность 150 он тоже поймет. я SW не скачивал, сложно сказать, сколько там нужно. Но, по-моему, это самая длинная тема на камраде.
26-07-2014 10:29
Дон Кихот Камрадский
Ну сейчас еще SW поставлю с вложенностью 1000 (!!!!) - сожрет, не сожрет?
Поглядим, что выйдет.
26-07-2014 10:48
Дон Кихот Камрадский
Лит-ру, Флейм, SW, Сталкера, RPG - беру на себя. Всё - с вложенностью 1000.
Если сможешь - скачай 4х4 и еще чего там большое найдешь...

Не... 1000 - кажись перебор. Виснет основательно на разборе HTML. Оставляю 1000 на SW - деваться некуда, пусть жует до победного конца, остальные перекачиваю на 20.

отредактировано: 26-07-2014 11:04 - Skiminok

26-07-2014 11:10
Дон Кихот Камрадский
КАЖИСЬ - ВСЁ...
Недоступен больше Камрад. Что успели - то успели...
26-07-2014 12:20
Опытный ворчун
Ожил. Мучение по выкачке продолжается
26-07-2014 13:02
Дон Кихот Камрадский
JimmyM
Забирай себе 4х4 и RPG с подфорумами.
Я беру Литературу, Флейм, SW (c вложенностью 1000 - 2750 страниц не шутка) и корневой Сталкер. Подфорумы сталкера небольшие, думаю, их не надо пперекачивать.
26-07-2014 21:33
Опытный ворчун
в общем, прихожу к выводу, что единственный нормальный способ выкачивания - выкачивать из-под логина, может тогда нормально слинкуется. Идешь вперед по страницам - всё хорошо, идешь обратно по страницам - доходишь до невыкачанных. Т.е. httrack выкачивает форум по несколько раз: для разных цепочек ссылок - свои версии форума... Возможно, впрочем, это из-за той остановки утром на час - сменились номера сессии (&s=...).
26-07-2014 22:02
Дон Кихот Камрадский
JimmyM
Я после той остановки заново качаю SW, Лит-ру, Флейм и Сталкера. 9 часов уже качаю - 8 гигов, 50.000 файлов конца еще не видать - для каждого форума. Может я с вложенностью 1000 - того? Погорячился маленько? Но в любом случае - ссылки когда-нибудь же закончатся, не будет же оно по циклу качать?!
26-07-2014 22:14
Опытный ворчун
у меня тоже на каждом форуме выходит по 40-70 тысяч файлов. как-то странно httrack качает. возможно, имеет смысл выкачать отдельно длинные темы...

P.S. попробую сейчас модераторский форум выкачать, посмотрим сколько файлов сделает...

отредактировано: 26-07-2014 22:25 - JimmyM

27-07-2014 11:10
Дон Кихот Камрадский
JimmyM
Слушай, я не знаю что делать... Эти 4 форума все еще качаются - каждый уже по 20 гигов, по 150000 файлов... А конца всё не видно.
Можно конечно бить до упора - у меня полтерабайта свободных на харде, каталог NTFS, насколько помню, позволяет больше 4 миллионов файлов - но кто такими архивами пользоваться будет?
Их только чтоб удалить с харда - полчаса надо...
Что делать будем? Докачивать - или перекачать с другими настройками, как думаешь?
27-07-2014 12:13
Опытный ворчун
Возможно имеет смысл выкачать отдельно длинные темы, а не весь форум.

httrack совершенно точно делает 2 копии для первых 9 страниц каждой темы (если их больше одной). Наверное, там немного отличаются адреса.
Дальше дублирование идет, похоже, потому, что в процессе выкачивания меняется номер сессии в адресе. Возможно имеет смысл ставить "выкачивать Html-и первыми", но нет уверенности что это поможет.

Я сейчас поставил качаться из-под логина, мне кажется, так меньше получается и лучше линкуется (по крайней мере там явно указывается номер сессии и не получится дублирования если сессия сменилась). Но в одной из выкачек логин слетел и он начал качать с номером сессии. Сейчас буду перезапускать.

Скачались О сайте, Lada Racing Club, Стратегии с подфорумами.

P.S. Если нужен анализатор для получения Cookie, то вот trail-версия. Запускаешь прослушку, например, IE - логинишься на сайт, смотришь в логе Cookie там, где в Host указан kamrad.ru. Cookie там здоровый, наверное нужен пользователь, пароль и сессия (А может быть сессия и не лишняя, возможно из-за нее у меня слетел логин при выкачке)
Я оставил что-то такое:
Cookie: sessionhash=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx;
__utmc=xxxxxxxxx;bbuserid=xxxxx;bbpassword=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
27-07-2014 12:31
Дон Кихот Камрадский
В-общем так:
Всё останавливаю. Всё убиваю.
Запускаю снова со своим логин-паролем, которые ввожу в поля HTTracka (Правильно? Так?)
Вложенность ставлю максимальную, рекомендованную HTTrackом - 20. Остальные настройки - твои.

Такое пойдёт? Или чего еще поменять?
Закрыть