arts 19.10.2011 08:56 Psi+

Пстач, чем распарсить 25-гиговый bson?

dev, bson, ?
1. kb 19.10.2011 08:57

Питоном же)

2. artskb /1 19.10.2011 08:58 Psi+

Што, парсер писать? Лениво же:-) Да и спецификацию формата курить надо:-)

3. alxrt 19.10.2011 08:59 nyaka497C62B7

Самописной парсилкой (ваш К.О.)
А если серьезно, то можно на питоне том же написать скриптик, который в два этапа всё это парсит: сперва делает индексы записей, а потом их обрабатывает.

4. kbarts /2 19.10.2011 08:59 c8541125

а стандартный, который в pymongo чем плох?)

5. artskb /4 19.10.2011 09:01 Psi+

Там же целиком скармливать надо, не?

6. kbarts /5 19.10.2011 09:02 c8541125

в смысле что у тебя один толстый BSON-документ или много обычных? можешь их разбивать по "1\x00\x00\x00" и "\x00" и скармливать

7. artskb /6 19.10.2011 09:04 Psi+

Один, да.

8. kbarts /7 19.10.2011 09:05 c8541125

аа. а в нём что? вложенные документы "поменьше" есть?

9. artskb /8 19.10.2011 09:11 Psi+

Есть, ~70 млн.

10. artsarts /9 19.10.2011 09:12 Psi+

Это, собсно, дамп монгоколлекции.

11. kbarts /9 19.10.2011 09:12 c8541125

ну вот подсчетом вот тех кодов что я кидал сверху ты можешь выделить поддокументы "поменьше", скармливая их. потом заменить их на пустоту (или айдишники) и распарсить этот "более худой" документ

12. kbarts /10 19.10.2011 09:12 c8541125

может тогда mongorestore просто сделать??

13. artskb /12 19.10.2011 09:13 Psi+

У меня тут система 32-битная.

14. kbarts /13 19.10.2011 09:13 c8541125

это печально) но проще и быстрее всего таки поднять виртуалку с 64 битами, наверное.

15. artsarts /13 19.10.2011 09:14 Psi+

А серваки с монгой делом заняты, туда тоже не стоит пихать.

16. artskb /14 19.10.2011 09:14 Psi+

На 32-битном хосте? Это реально?:-)

17. kbarts /16 19.10.2011 09:15 c8541125

не знаю) почему нет? :)

18. artskb /17 19.10.2011 09:16 Psi+

Насколько я помню, нет.

19. gelraenarts /18 19.10.2011 09:23

нет ничего невозможного, только по-моему нету ПО которое такое умело бы, а если бы и было — то тормозило б шо ппц.

20. utros 19.10.2011 15:22 pedobook

FTW bson?

21. kbutros /20 19.10.2011 15:25 c8541125

binary json такой себе

22. utroskb /21 19.10.2011 15:35 pedobook

Хуита.
gawk'ом парсить.

23. kbutros /22 19.10.2011 15:40 c8541125

ты хочешь лишиться arts'а? лучше с livecd убунты 64бит загрузиться, сделать mongorestore, вынуть данные, переложить во что-то вменяемое и перегрузиться обратно

24. utroskb /23 19.10.2011 15:42 pedobook

Костыли %)

25. kbutros /24 19.10.2011 15:46 c8541125

один раз — не костыли. костыли — это то, что у артса 32-битная система, потому он не может сделать просто mongorestore big_bson_file

Do you really want to delete ?