Самописной парсилкой (ваш К.О.) А если серьезно, то можно на питоне том же написать скриптик, который в два этапа всё это парсит: сперва делает индексы записей, а потом их обрабатывает.
ну вот подсчетом вот тех кодов что я кидал сверху ты можешь выделить поддокументы "поменьше", скармливая их. потом заменить их на пустоту (или айдишники) и распарсить этот "более худой" документ
ты хочешь лишиться arts'а? лучше с livecd убунты 64бит загрузиться, сделать mongorestore, вынуть данные, переложить во что-то вменяемое и перегрузиться обратно
Питоном же)
Што, парсер писать? Лениво же:-) Да и спецификацию формата курить надо:-)
Самописной парсилкой (ваш К.О.)
А если серьезно, то можно на питоне том же написать скриптик, который в два этапа всё это парсит: сперва делает индексы записей, а потом их обрабатывает.
а стандартный, который в pymongo чем плох?)
Там же целиком скармливать надо, не?
в смысле что у тебя один толстый BSON-документ или много обычных? можешь их разбивать по "1\x00\x00\x00" и "\x00" и скармливать
Один, да.
аа. а в нём что? вложенные документы "поменьше" есть?
Есть, ~70 млн.
Это, собсно, дамп монгоколлекции.
ну вот подсчетом вот тех кодов что я кидал сверху ты можешь выделить поддокументы "поменьше", скармливая их. потом заменить их на пустоту (или айдишники) и распарсить этот "более худой" документ
может тогда mongorestore просто сделать??
У меня тут система 32-битная.
это печально) но проще и быстрее всего таки поднять виртуалку с 64 битами, наверное.
А серваки с монгой делом заняты, туда тоже не стоит пихать.
На 32-битном хосте? Это реально?:-)
не знаю) почему нет? :)
Насколько я помню, нет.
нет ничего невозможного, только по-моему нету ПО которое такое умело бы, а если бы и было — то тормозило б шо ппц.
FTW bson?
binary json такой себе
Хуита.
gawk'ом парсить.
ты хочешь лишиться arts'а? лучше с livecd убунты 64бит загрузиться, сделать mongorestore, вынуть данные, переложить во что-то вменяемое и перегрузиться обратно
Костыли %)
один раз — не костыли. костыли — это то, что у артса 32-битная система, потому он не может сделать просто mongorestore big_bson_file