miércoles, 30 de noviembre de 2011

Wikipedia sin conexión a Internet

Aunque había leído algo al respecto hará un par de años, esta semana he vuelto a interesarme por la posibilidad de "descargarme la Wikipedia". Que ¿qué sentido puede tener algo así en un mundo hiper-conectado? Puede que me hayan influido las tensiones provocadas por EEUU, Reino Unido e Israel en Oriente Medio, que para algunos analistas significan la antesala de una Tercera Guerra Mundial. Aunque no hay que ser tan drástico para encontrarle la utilidad: usarla simplemente como respaldo para cuando falle la conexión a Internet (por cualquier causa "normal" ;) o cuando simplemente no haya una disponible...

Debido a las licencias abiertas de los contenidos de Wikipedia (exceptuando parte de las imágenes), esta opción de descargarlos no solo está permitida, sino documentada e incluso alentada por Wikimedia Foundation, la fundación que hay detrás de esta impresionante obra colaborativa.

Hay que tener en cuenta que Wikipedia, a pesar de su apariencia más superficial, no esta formada por un conjunto inmenso de documentos HTML estáticos, sino que se trata de un sistema gestor de contenidos o CMS, es decir una aplicación web que almacena y recupera información en una base de datos y a partir de ella genera dinámicamente las páginas web que visitamos con nuestro navegador. Aunque existen herramientas y técnicas para automatizar la descarga de los documentos (estáticos o dinámicos) de una web, debido a su impacto en los servidores (y más si se trata de unos con el volumen de datos y conexiones como los que alojan Wikipedia) no podrán utilizarse con Wikipedia. Pero hay una opción mejor para todos, ya que ellos mismos publican los volcados periódicos de su base de datos en un formato estándar (XML y SQL). Obviamente esto no le sirve al usuario final, que tendrá que recurrir a alguna de las transformaciones y/o recopilaciones que ciertos grupos de individuos se dedican a hacer a partir de estos volcados para facilitar su lectura, o bien con una navegador web estándar o con un visor específico.

Las alternativas más interesantes actualmente son las siguientes:
  • CDPedia: proyecto que recopila todo el texto y parte de las imágenes de la Wikipedia en español en formato HTML para su uso desde CD o DVD.
  • Kiwix: es una combinación de los datos en formato comprimido (ZIM) más un visor propio distribuido como software libre para distintos sistemas operativos. Las versiones en inglés y español datan del 2010 y la versión en inglés está limitada a 45.000 artículos.
  • Okawix: se trata de un visor que permite descargar el contenido de cualquier proyecto de Wikimedia (no solo Wikipedia) con o sin imágenes para su posterior lectura offline.
  • WikiTaxi: es una aplicación portable para Windows, gratuita para uso personal, que permite leer y buscar directamente en cualquiera de los volcados oficiales de la Wikipedia (no incluye imágenes).
En fin, parecen opciones más que suficientes (que además pueden complementarse) para preservar el conocimiento depositado por miles de voluntarios en Wikipedia y poder acceder al mismo sin depender de la disponibilidad de una conexión a Internet. De momento he empezado por descargar CDPedia; más información próximamente...