Aleosha
17:40 25-07-2009
Сервер работает, дневничок парсится. Для себя я разделяю этот процесс на три этапа:
1. Разобрать дневник на составляющие
2. Засунуть их в MySQL
3. Обработать результат
Пока что DOMDocument не порадовал. Хожу вокруг да около, а до сути добраться не могу. Удалось пока достать время записи, заголовок и текст. Осталась еще дата, ID записи и правильный парсинг групп.

Комментарии:
DMZ
22:25 25-07-2009
Я бы конечно на Perl такое делал, но вот пример как можно распарсить главную страницу на голом DomDocument

http://showmecode.com/code/9903/
http://the-island.ru/u/journals-parser.phps

Работает только для стиля Standard, кажется
Aleosha
00:10 26-07-2009
Спасибо. Это ты сам написал?
DMZ
06:30 26-07-2009
Ага
Aleosha
09:47 26-07-2009
Красиво. У меня схоже, только не пользовался DOMXPath. Ну, и обработку даты я у тебя "украду"
DMZ
10:33 26-07-2009
О. Я еще осознал, что если парсить главную страницу, то текст «под катом» не попадет в базу
Лучше сразу парсить комменты
Тут и текст полный и дату можно сразу скушать
Aleosha
17:49 26-07-2009
Насчет даты ты прав. Хотя я собирался делать такой парсинг только страницам, у которых есть хотя бы один комментарий.