30 июня 2013 г.

Полный бэкап Google Reader

Оригинал статьи: Full Google Reader Backup

Итак, Reader мёртв, что подтверждает Михай Парпарита (Mihai Parparita), один из бывших разработчиков Google Reader. Им ещё можно будет пользоваться пару дней, но лучше всего экспортировать свои данные уже сейчас.

Однако сервис Google Takeout хоть и позволяет экспортировать данные Reader, но не все: подписки, заметки, отмеченные (starred) сообщения, сообщения, которыми поделился пользователь (shared), которые были отмечены как понравившиеся (liked), список читателей (followers) и читаемых (following), сообщения, которыми поделились с пользователем. Михай Парпарита написал несколько Python-скриптов, которые загружают из аккаунта Google Reader всё, включая полное содержание сообщений из всех подписок. Нужно установить Python 2.7, обладать некоторыми навыками работы с командной строкой и иметь много свободного места на диске: мой (Алекса, автора GOS — ЖсG) полный бэкап занял более 5 Гб при 250 подписках, а бэкап через Takeout — 125 Мб.

Как это сделать под Windows 7/8:
— установить Python отсюда (установщик Python 2.7.5 для Windows),
— загрузить архив от Михая и распаковать файлы,
— открыть папку — должен быть список подпапок типа «base», «bin», «feed_archive»,
— щёлкнуть правой кнопкой мыши с зажатой клавишей Shift по свободному месту в папке и выбрать «Открыть окно команд (Open command-line window here)»,
— скопировать нижеприведённый код, вставить его в окно командной строк и нажать Enter (предполагается, что Python был установлен в папку c:\python27):
set PYTHONPATH=%cd%
c:\python27\python reader_archive\reader_archive.py --output=download

— в умолчальном браузере откроется веб-страница, нужно будет нажать «Подтвердить (Accept)», скопировать код авторизации и вставить его в окно командной строки,
— дождаться, пока скрипт загрузит все файлы.

Михай также начал писать скрипт навигации по скачанному архиву. На это потребуется некоторое время; скрипт для скачивания определённо был нужен прямо сейчас.

Также есть скрипт для загрузки архива подписок. «В Google Reader имеется (как правило) копия всех сообщений из блогов и других сообщений из потоков, опубликованных с момента запуска сервиса в конце 2005 года (при условии, что хотя бы один пользователь Reader подписывался на данный поток). Это превращает его в неоценимый источник данных по сайтам, которых уже нет в онлайне, это можно использовать как механизм для резервирования данных». В сообщении GOS от 2007 года приводится альтернативный способ загрузки истории подписок. Также можно загрузить свой OPML-файл на этот сайт, который сохраняет данные о подписках.

«Я не виню Google в том, что эскпорт через Takeout сохраняет не все данные. Экспорт всех 612 599 прочитанных сообщений в моём аккаунте (не говоря уже о сотнях тысяч сообщений из подписок, рекомендаций и т. д.) даёт 4 Гб данных. Пусть я один из немногих, [у кого такой объём данных], — в 99-м персентиле (чем у меня есть официальное право гордиться) — давать возможность экспорта даже нескольких сотен мегабайтов данных каждому пользователю — это невыполнимо. На самом деле, я счастлив оттого, что Takeout вообще поддерживает экспорт [из Reader], поскольку, насколько я понимаю, это имеет место лишь 20 % времени», говорит Михай Парпарита, проработавший в команде Google Reader 5 лет.

На вопрос, какую альтернативу Reader он считает достойной, Михай отвечает: «Не могу выбрать между NewsBlur и Digg Reader».

От переводчика

Ну, NewsBlur на мощной машине и для замороченного гика — это ещё можно понять. Но Digg Reader? Нет, всё-таки самая лучшая альтернатива — это InoReader. А вот зачем экспортировать для офлайн-доступа все сообщения из всех своих подписок — это вообще за пределами моего понимания.