Kamrad-Ru
11:29 21-07-2014 о выкачивании архивов
Одиночный форум выкачивается HTTrack-ом за обозримое время (у меня получалось от 3 до 8 часов) с вот такими настройками Scan Rules:

+*.png +*.gif +*.jpg +*.jpeg +*.css +*.js -ad.doubleclick.net/* -mime:application/foobar
+*.zip +*.tar +*.tgz +*.gz +*.rar +*.z +*.exe
-http://kamrad.ru/index.php?s=*
-*forumid=*
+*forumid=20
+*forumid=20&*
-*/postings.php*
-*/editpost.php*
-*/sendtofriend.php*
-*/printthread.php*
-*/member2.php*
-*/search.php*
-*/member.php*
-*/private.php*
-*sortfield=title.htm
-*sortfield=postusername.htm
-*sortfield=replycount.htm
-*sortfield=views.htm
-*sortfield=lastpost.htm
-*sortorder=asc*
-*sortorder=desc*
-*/postings.php*
-*/newreply.php*
-*/moderator.php*
-*/photolist.php*
-*/buddylist.php*
-*/memberlist.php*
-*/calendar.php*
-*/register.php*
-*/usercp.php*
-*/photolist-2.php*
-*/photolist-3.php*
-*/misc.php*
-*/forumconfig.php*
-*newreply.php*
-*newthread.php*
-*goto=*
-*#post*
-*threadid=74425#
-*/poll.php*
+*goto=lastpost*

Выделенное число - номер конкретного форума, того, который нужно качать (20). Должны быть перечислены все необходимые форумы.
Возможно, некоторые условия излишни.

Другие параметры выкачки

Limits:

Max mirroring depth - 4 (для маленьких форумов с темами до 10 страниц) или 7-20 (во вложенных форумах, и в зависимости от макимального кол-ва страниц форума и кол-ва страниц в самой длинной теме)
Max external depth - 0
Max transfer rate - пишите максимум, 1000000, например, или больше.
Max connections/seconds - 100
Max number of links - максимум - 10 000 000

Flow Control:

Max connections - 15

Выделенные параметры нужно указать еще раз после запуска (меню Mirror - Modify Options), потому что программа на старте игнорирует их по соображениям чрезмерной загрузки сайта, взятым из прошлого века.


P.S. Выкачивается под незарегистрированным юзером, спецфорумы не будут видны. Кому что надо, у вас еще есть примерно 12 часов - качайте.

P.P.S. Предполагается, что у нас будут архивы форумов Лейна, Литературы, Флейма, Кино, Мафии, CRPG, RPG (без конкурса по Обливиону), Игры, Квесты, Убей Ламера, Вебдизайн.
Остальное - если нужно - качайте.
Комментарии:
Kamrad-Ru
19:57 21-07-2014
При указанных условиях Scan Rules не подхватываются ссылки "последняя страница" (но после входа на любую по номеру вы сможете перейти на последнюю), чтобы подхватывались, попробуйте добавить

+*goto=lastpost*

но это минимум по 25 лишних ссылок на каждой странице форума.

P.S. ...и не факт, что решит проблему.

отредактировано: 24-07-2014 05:52 - JimmyM

JimmyM
05:56 24-07-2014
Позор на мою седую голову

из-за пропущенного * в строчке

-http://kamrad.ru/index.php?s=*

вытягивалась главная страница Камрада и теоретически программа могла выкачать другой форум, подходящий по номеру (если он короткий) к условиям.
как вариант, можно попробовать более явно указывать номер форума
т.е., например, вместо
+*forumid=118*
писать
+*forumid=118
+*forumid=118&*

P.S. И фильтр работает последовательно, поэтому добавление форумных страниц должно работать до фильтров, отсекающих добавление новой темы, сортировки и т.д.

отредактировано: 24-07-2014 20:59 - JimmyM

Skiminok
21:45 24-07-2014
JimmyM
Ты кажись чего-то нахимичил - теперь скачивается только ПЕРВАЯ страница форума, остальные ссылаются на сетевой ресурс а не на оффлайн-папку.
Воистину лучшее - враг хорошего.
А я старый твой фильтр-лист сохранить не догадался...
Уж поправь пожалуйста - нужно еще стратегию всю выкачать...
JimmyM
22:12 24-07-2014
я просто перенес фильтры форумов в начало. Сейчас буду пробовать другие варианты.
JimmyM
17:49 25-07-2014
-*sortorder=desc*

И форумы с большим кол-вом сообщений (и с длинными темами!) не всегда выкачиваются полностью с уровнем вложенности 4, нужно ставить больше.
Обновил рекомендацию по настройкам в посте.

отредактировано: 26-07-2014 08:54 - JimmyM

Skiminok
20:23 25-07-2014
Спасибо! Попробую стратегию с этим фильтром сдернуть.
JimmyM
09:02 26-07-2014
Сдается мне, надо проверять и заново качать форумы с длинными темами, вроде Флейма, Star Wars, 4x4, возможно, Литературы, RPG (с длиннющей темой в Готике), и возможно, другие. Там нужна большая степень вложенности, иначе страницы в середине длинных тем не выкачиваются

Вообще, наверное, нужно лимит ставить на максимум, все равно условия по форумам жесткие.

отредактировано: 26-07-2014 09:21 - JimmyM

Skiminok
10:20 26-07-2014
Похоже да...
И какую степень вложенности ставить? Там 20 максимально в списке - а можно от руки больше писать?
В Поле Битвы в SW - почти 3000 страниц - это ж какая вложенность нужна?! HTTrack ее потянет?
Сейчас Литературу перекачаю...
JimmyM
10:27 26-07-2014
я думаю, HTTrack прекрасно понимает числа, введенные от руки, и вложенность 150 он тоже поймет. я SW не скачивал, сложно сказать, сколько там нужно. Но, по-моему, это самая длинная тема на камраде.
Skiminok
10:29 26-07-2014
Ну сейчас еще SW поставлю с вложенностью 1000 (!!!!) - сожрет, не сожрет?
Поглядим, что выйдет.
Skiminok
10:48 26-07-2014
Лит-ру, Флейм, SW, Сталкера, RPG - беру на себя. Всё - с вложенностью 1000.
Если сможешь - скачай 4х4 и еще чего там большое найдешь...

Не... 1000 - кажись перебор. Виснет основательно на разборе HTML. Оставляю 1000 на SW - деваться некуда, пусть жует до победного конца, остальные перекачиваю на 20.

отредактировано: 26-07-2014 11:04 - Skiminok

Skiminok
11:10 26-07-2014
КАЖИСЬ - ВСЁ...
Недоступен больше Камрад. Что успели - то успели...
JimmyM
12:20 26-07-2014
Ожил. Мучение по выкачке продолжается
Skiminok
13:02 26-07-2014
JimmyM
Забирай себе 4х4 и RPG с подфорумами.
Я беру Литературу, Флейм, SW (c вложенностью 1000 - 2750 страниц не шутка) и корневой Сталкер. Подфорумы сталкера небольшие, думаю, их не надо пперекачивать.
JimmyM
21:33 26-07-2014
в общем, прихожу к выводу, что единственный нормальный способ выкачивания - выкачивать из-под логина, может тогда нормально слинкуется. Идешь вперед по страницам - всё хорошо, идешь обратно по страницам - доходишь до невыкачанных. Т.е. httrack выкачивает форум по несколько раз: для разных цепочек ссылок - свои версии форума... Возможно, впрочем, это из-за той остановки утром на час - сменились номера сессии (&s=...).
Skiminok
22:02 26-07-2014
JimmyM
Я после той остановки заново качаю SW, Лит-ру, Флейм и Сталкера. 9 часов уже качаю - 8 гигов, 50.000 файлов конца еще не видать - для каждого форума. Может я с вложенностью 1000 - того? Погорячился маленько? Но в любом случае - ссылки когда-нибудь же закончатся, не будет же оно по циклу качать?!
JimmyM
22:14 26-07-2014
у меня тоже на каждом форуме выходит по 40-70 тысяч файлов. как-то странно httrack качает. возможно, имеет смысл выкачать отдельно длинные темы...

P.S. попробую сейчас модераторский форум выкачать, посмотрим сколько файлов сделает...

отредактировано: 26-07-2014 22:25 - JimmyM

Skiminok
11:10 27-07-2014
JimmyM
Слушай, я не знаю что делать... Эти 4 форума все еще качаются - каждый уже по 20 гигов, по 150000 файлов... А конца всё не видно.
Можно конечно бить до упора - у меня полтерабайта свободных на харде, каталог NTFS, насколько помню, позволяет больше 4 миллионов файлов - но кто такими архивами пользоваться будет?
Их только чтоб удалить с харда - полчаса надо...
Что делать будем? Докачивать - или перекачать с другими настройками, как думаешь?
JimmyM
12:13 27-07-2014
Возможно имеет смысл выкачать отдельно длинные темы, а не весь форум.

httrack совершенно точно делает 2 копии для первых 9 страниц каждой темы (если их больше одной). Наверное, там немного отличаются адреса.
Дальше дублирование идет, похоже, потому, что в процессе выкачивания меняется номер сессии в адресе. Возможно имеет смысл ставить "выкачивать Html-и первыми", но нет уверенности что это поможет.

Я сейчас поставил качаться из-под логина, мне кажется, так меньше получается и лучше линкуется (по крайней мере там явно указывается номер сессии и не получится дублирования если сессия сменилась). Но в одной из выкачек логин слетел и он начал качать с номером сессии. Сейчас буду перезапускать.

Скачались О сайте, Lada Racing Club, Стратегии с подфорумами.

P.S. Если нужен анализатор для получения Cookie, то вот trail-версия. Запускаешь прослушку, например, IE - логинишься на сайт, смотришь в логе Cookie там, где в Host указан kamrad.ru. Cookie там здоровый, наверное нужен пользователь, пароль и сессия (А может быть сессия и не лишняя, возможно из-за нее у меня слетел логин при выкачке)
Я оставил что-то такое:
Cookie: sessionhash=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx;
__utmc=xxxxxxxxx;bbuserid=xxxxx;bbpassword=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Skiminok
12:31 27-07-2014
В-общем так:
Всё останавливаю. Всё убиваю.
Запускаю снова со своим логин-паролем, которые ввожу в поля HTTracka (Правильно? Так?)
Вложенность ставлю максимальную, рекомендованную HTTrackом - 20. Остальные настройки - твои.

Такое пойдёт? Или чего еще поменять?
JimmyM
12:47 27-07-2014
Skiminok Не так. Чтобы качать из-под логина, тебе нужно в Browser ID в поле Additional HTTP Header ввести header Cookie, выловленный HTTP Analyzer-ом

P.S. Еще один хитрый момент выяснился, оказывает эта черезчур умная программа игнорирует выставленные параметры, "чтобы не перегружать сайт". Лимит на кол-во connection и на ширину канала лучше еще раз выставить после запуска. Иначе он качает только на 250 Kb/s

отредактировано: 27-07-2014 13:00 - JimmyM

Skiminok
00:15 28-07-2014
JimmyM
Джимми, я сдаюсь... Ни черта у меня не выходит - сделал вроде как ты говоришь - вообще качать не хочет. Весь день сегодня долбался, по всякому. Затрахался уже, мозги не варят...
Если можешь - выкачай сам Литературу, Флейм, SW и корень Сталкера.
У меня или монстры на 40 гигов получаются, или сразу вылет, или каша какая-то непонятная...
JimmyM
00:43 28-07-2014
Ты бы написал в течение дня, что не получается, разобрались бы. Для выкачки под логином я убрал строчку "-*sortfield=lastpost.htm" из условий, но вряд ли она сильно влияла.
Совсем не качает, если неудачно указать Cookie. Это должна быть одна строка, стоять первой в поле Additional HTTP Headers, в ней должны быть логин, пароль и хэш сессии, у меня сейчас стоит так:
Cookie:bbuserid=10852; bbpassword=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx; __utmb=xxxxxxxxx.x.xx.xxxxxxxxxx; sessionhash=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx; __utmc=xxxxxxxxx
- где bbuserid - твой номер на форуме, xxxx...xxxx - числовые параметры, которые надо посмотреть HTTPAnalyzer-ом. Можно одновременно качать под несколькими сессиями (т.е. с разным sessionhash). Остальной мусор из оригинальной cookie не нужен.

Флейм, 4x4 с длинной темой, Autosport и Сталкер запущены, но пока непонятно, что получится. Литературу запущу утром, наверное. SW - не уверен, что успею скачать. В теории для SW под логином нужна вложенность около 80, но реально скорее всего достаточно будет 40, если он будет идти по страницам с двух концов.
Остались нескачанными Куплю-продам и Объявлены в розыск.
Skiminok
00:54 28-07-2014
У меня теперь проблема - как монстров с харда убрать.
300000 файлов в каталоге не стирается ничем - напрочь виснет и стандартная удалялка и Тотал... Придется видно подключать пустой хард, перебрасывать на него все ценное, а этот форматировать на фиг.
JimmyM
00:59 28-07-2014
ну, у меня проще, пустой хард (он умирал в самом начале эпопеи с выкачкой). Я просто с него ничего не стираю, а делаю архивы из готового и перебрасываю их на другие винты. Потом не буду стирать - просто отформатирую его А так да, легко не сотрется, это ж NTFS с его $I30

P.S. Запустил Литературу и SW, но думаю, что-нибудь да не скачается. 6 закачек сразу - многовато... ладно, доброй ночи
JimmyM
19:42 28-07-2014
Чертов httrack В общем, хоть ему и прописано -*#post* он все равно для каждого "URL сообщения" делает отдельный файл! поэтому их так много
Skiminok
20:14 28-07-2014
Да уж... Ну ведь немного уже вроде осталось.
А у меня провайдер завыделывался - падает канал каждые 15-20 минут минут на пять... Весь вечер такая ерунда. Не могу понять - это у них что-то глючит - или это они лично для меня устроили - за 200 гигов трафика в двое суток?
JimmyM
20:27 28-07-2014
поставил -*post*post* , посмотрим

Звездным войнам - не судьба за 4 часа докачаться. Сталкер запустил заново, есть слабые шансы.
Остались нескачанными Куплю-продам и Объявлены в розыск. Не знаю, стоит ли их запускать.
Skiminok
20:50 28-07-2014
А литература?
JimmyM
20:53 28-07-2014
скачал, но не паковал еще. Т.е. теоретически у диска еще есть шанс сдохнуть и всё запороть Он, наверняка, бедный, думает об этом.
Skiminok
20:56 28-07-2014
Skiminok
Ой, не дай Бог сглазишь! А у тебя там еще флейм же скачанный?

Куплю-продам и Объявлены в розыск - думаю, вряд ли кому нужны...
JimmyM
21:41 28-07-2014
Да, флейм скачан. Выкачиваю отдельно Поле Битвы из SW и топовый форум STALKER-а.
JimmyM
22:14 28-07-2014
непохоже, что сталкер успеет до полуночи... [изображение]
JimmyM
17:37 29-07-2014
интересные результаты получаются, если убирать ссылки

-*/showthread.php?s=&postid=*

это ссылки под надписями "URL сообщения". Работает медленнее, но закачивает быстрее за счет меньшего кол-ва файлов.
morbid
17:40 29-07-2014
Скажите, а вы это что, правда потом все перечитывать будете?
Skiminok
19:23 29-07-2014
morbid
Нет, конечно - всё подряд вряд ли кто перечитывать будет.
Но чтобы это всё БЫЛО - очень хочется. Важно то, что в любой момент можно перечитать то, что хочется перечитать...
Зачем... Ну, объяснить я не смогу наверное. Это также сложно, как объяснить зачем нужна домашняя библиотека - хоть в электронке, хоть в бумаге.
Прочитал книгу - ну и в мусорник ее, зачем на полку ставить?
Также - зачем нужны старые фотки - снял, выложил в фейсбучек, похвастался - и в корзину их. Уже ж посмотрел?
Теперешнему поколению, научившемуся жить только сегодняшним днем, у которого нет прошлого от слова совсем и удобное мини-будущее - только до даты выпуска нового айпадика и даты выхода нового блокбастерика - этого просто не объяснить.
Я не тебя имею в виду (если что) просто хочу сказать: объяснить (если чел сам не чувствует) что такое кусок твоей жизни и почему ты не хочешь, чтобы он пропал - наверное нельзя.
morbid
19:27 29-07-2014
У меня целый шкаф книг, которые выкинуть рука не подымается. Но я при любом переезде-ремонте или перестановке его выкину - ибо за последние 10 лет ни разу не открыл даже ни одну из них (а зачем, если куда проще и быстрее найти эту книгу прямо с телефона?). А спотыкаюсь я об него каждый божий день.
У меня умерло более пяти больших ресурсоф-форумов и прочего, но я все равно к тому моменту уже перестал на них ходить.

Не знаю. Прошлое остается в прошлом. Это как мертвых людей не хоронить, а держать дома в банках со спиртом.
JimmyM
19:32 29-07-2014
morbid Всё - нет, но отдельные темы я иногда с удовольствием перечитываю. А, например, коллективные романы, вроде, Икспедиции или Поля Битвы - можно перегнать в PDF и читать как обычные книжки в метро
Skiminok
19:37 29-07-2014
Я тоже отдельные перечитываю с огромным удовольствием. Знаешь, morbid, жаль, что тебя не было с нами тогда, году в 2002-м - это был самый расцвет Камрада. Тебе бы понравилось, уверен. Интереснейшие люди, яркие страсти, настоящее творчество... Здорово. Правда, ОЧЕНЬ здорово.
morbid
19:38 29-07-2014
Skiminok я если чо еще раньше с камрада сюда на жру и пришел. А на камрад попал через тему про Морровинд, прохождение которого я там искал. Но как-то оно не поперло, к тому же у меня были еще разные ресурсы тогда, где я периодически бывал. Это ж сейчас все свелось к фейсбучеку и жру.

З.Ы. Искпедиция - совершенно нечитабельна, по-крайней мере для меня. Ибо это как роман-буриме, в качестве игры - ок. А как отдельное произведение никому не интересно, кроме тех, кто принимал участие. И то только потому, что у них с этим воспоминания связаны, шутки и т.д. Это как пьянки стенографировать.
JimmyM
19:42 29-07-2014
Так, кстати, скачивание STALKER-а и SW накрылось в очередной раз из-за глюка httrack-а, который похоже 3 уровня вложенности для внешних сайтов, выставленные для другого скачивания, перенес на эти и начал скачивать какие-то посторонние форумы, гигов на 30 накачал Непонятно, когда отключают Камрад, - я может быть еще раз запущу заново, но это - в последний раз...
Skiminok
19:48 29-07-2014
morbid
А Искпедиция (также как и Женский роман, Сказка Рассказанная Нами, Плейт-Примус и прочие форумные игры) никогда и не была литературным произведением - это ж игра-текстовка! Кстати, сейчас они очень популярны в сети (правда - почему-то в основном анимешной тематики, да еще и с некоторым хентайным ароматом) - а мы это придумали раньше всех! Фактически это кассилевская Швамбрания, только в интернете. У нее нет целостности - потому делать из нее книгу нет смысла. Хотя отдельные главы - на мой взгляд - хорошего литературного качества, перечитываются вкусно. И тоггда - очень многим нравилась.
morbid
19:50 29-07-2014
Skiminok ну так я ж говорю - интересно только непосредственным участникам и только при условии, что они знают друг друга какое-то время или лично или по форуму. И придумали ее задолго до интернетов, если чо.
Skiminok
19:51 29-07-2014
JimmyM
Ну, Из Сталкера выкачаны "Сто Рентген", из SW - "Поле Битвы" - самые страшные по объему треды.
А остальное, без этих тем - я тогда выкачал и выложил. Может, какие потери и есть внутри - но лучше, чем ничего.
morbid
19:52 29-07-2014
Я там даже своих монстриков нашел. Но хранить это?

http://kamrad.ru/showthread.php?s=&...%F0%F9%E8%EA%E8
Skiminok
19:55 29-07-2014
morbid
И придумали ее задолго до интернетов, если чо.
Я ж и говорю - кассилевская Швамбрания.
В 1914-м году два еврейских мальчика, стоя в углу и ковыряя в носу, создали Новый Мир!
И понятия не имели, какую мощь наберет придуманная ими игра-болталка через 100 лет.
Skiminok
19:56 29-07-2014
morbid
Класс!!! Так ты значит в Бале Монстров тогда участвовал?! Круть!
Это - как раз и СОХРАНЕНО.
morbid
20:06 29-07-2014
Skiminok ну по форумам у меня тогда лидировали ультимовские форумы, амор.ру и всевозможные рисовательные. Так что на камраде я тусил исключительно в конкурсе этом и еще в прохождениях.
Поэтому как-то особо не проникся ни разу. И швамбрания тоже как-то не проперла особо.
JimmyM
19:33 31-07-2014
в общем, я - всё. SW так нормально и не выкачались, httrack по каким-то левым сайтам лазил и выкачивал, wiki, еще что-то, а сам форум нормально так и не скачал...
Skiminok
20:01 31-07-2014
Ну, что вышло, то и вышло... Итак работа проведена гигантская, в советские времена тебе бы присвоили звание "Герой Онлайнового Труда"
Еще раз спасибо огромное - если бы не ты, не было бы у нас этого камрадского архива.
SW вроде бы в полном объеме перенесли на новый сервер - так что он сохранился и без нас.
А всё остальное - тут. В целости и сохранности - греет душу.
Хотя все равно надежда не уходит, что всё как-то утрясется - Волос сейчас пытается проблему решить, Маринка с ним... Ну и мы старики - куда денемся?
JimmyM
20:11 31-07-2014
Да, чего там тебе спасибо за поддержку и участие. Вряд ли это всё много кому надо, но пусть будет

Ну, в этом плане я согласен с Alexvn, что мертвый форум держать смысла большого нет, как бы ни мучала ностальгия. Разве что очень малой кровью и (почти) за бесплатно, как место, где когда-нибудь можно случайно встретить знакомое по временам юности лицо.
JimmyM
22:38 31-07-2014
Сам (верхний) форум RPG так и не докачался, вот что. Забыл про него. У тебя его нет?
ну, ладно, в принципе.
Skiminok
23:46 31-07-2014
JimmyM
Гм... У меня его тоже нет...
Ну сейчас поставлю - со стандартными настройками и и вложенностью 10. Пусть качается.
Skiminok
00:13 01-08-2014
Знаешь, я кажется понял, как этим архивом пользоваться оптимально - ему нужно хард выделить.
Есть у меня старенький USB-хард на 200 гигов - вот туда все разархивировать, и пусть сидит.
Нужно что - просто USBшку воткнул и пользуйся.