25-07-2009 17:40
Сервер работает, дневничок парсится. Для себя я разделяю этот процесс на три этапа:
1. Разобрать дневник на составляющие
2. Засунуть их в MySQL
3. Обработать результат
Пока что DOMDocument не порадовал. Хожу вокруг да около, а до сути добраться не могу. Удалось пока достать время записи, заголовок и текст. Осталась еще дата, ID записи и правильный парсинг групп.

Группы: [ *.CFG ]
Комментарии:
25-07-2009 22:25
Камрад
Я бы конечно на Perl такое делал, но вот пример как можно распарсить главную страницу на голом DomDocument

http://showmecode.com/code/9903/
http://the-island.ru/u/journals-parser.phps

Работает только для стиля Standard, кажется

26-07-2009 00:10
Спасибо. Это ты сам написал?

26-07-2009 06:30
Камрад
Ага

26-07-2009 09:47
Красиво. У меня схоже, только не пользовался DOMXPath. Ну, и обработку даты я у тебя "украду"

26-07-2009 10:33
Камрад
О. Я еще осознал, что если парсить главную страницу, то текст «под катом» не попадет в базу
Лучше сразу парсить комменты
Тут и текст полный и дату можно сразу скушать

26-07-2009 17:49
Насчет даты ты прав. Хотя я собирался делать такой парсинг только страницам, у которых есть хотя бы один комментарий.

Ваш комментарий:
Гость []
[смайлики сайта]
Автоматическое распознавание URL
Не преобразовывать смайлики
Cкрыть комментарий
Закрыть