Luego de una práctica de la Comunidad 2.0 del SEDIC, me dispuse a ver qué tanto afecta el acceso que se tiene a este blog luego de hacer parte de varias redes sociales, comentar en blogs y dedicarle mucho tiempo a mi microblog, comparado luego de un año donde disminuí considerablemente mi actividad. Esto es lo que muestra Google Analytics sobre las visitas a mi sitio:
Puede verse que efectivamente el participar en la blogósfera, twitósfera y demás esferas de la web social influyen las referencias que se hace a un sitio web. Pero ¿Es cierto el dicho «no importa que bien o mal pero que hablen de mi»? Hace un tiempo escuché de un buzz negativo, donde Empleados de Dominos Pizza publicaron un nada agradable video en Youtube para sus consumidores y cómo la marca se defendió. Más allá de eso existe la necesidad de medir si efectivamente la impresión que tienen nuestros «usuarios» afecta las visitas que tenemos y la visibilidad que podemos obtener.
Pero vamos por partes: La cibermetría sirve para medir cualquier tipo de información que existe en la red
Ahora bien, hace falta realizar un estudio cibermétrico de cómo las personas de una determinada comunidad reaccionan, consumen y producen información a partir de la información que nosotros producimos, comentamos o reutilizamos. Es muy fácil hablar de marketing viral, pero una forma de optimizarlo es conocer las tendencias y exactamente en qué lugares se está produciendo información referente a un determinado tema. En mi caso puedo medir el impacto que tuvo el uso de redes sociales en las referencias a mi blog, gracias a Google Analytics puedo ver fechas, lugares de consulta y sitios de referencia pero ¿Qué hay de la gente que comenta cierto tema y no enlaza a mi blog sino a otro que trate un tema similar o incluso a otra fuente? Este método garantizaría la exahustividad en la búsqueda de información para recuperación de información en sistemas distribuidos. Dicha recuperación de información se hace especialmente útil si la comunidad que consume y produce información es una comunidad científica.
Luego de revisar mis estadísticas puedo ver que el porcentaje de accesos por sitios de referencia es mayor en el 2008, aunque el número de visitas aumentó en el 2009 gracias al etiquetado y el aumento en la cantidad de los contenidos.
En este documento presentamos mi hermano Leonardo y yo la arquitectura de información de la Wiki de Hiperterminal; un portal basado en arquitectura social destinado a almacenar, organizar y publicar información relacionada con la ciencia de la información.
Hoy presentaré este trabajo en el Teledu 2009, ya había publicado el artículo anteriormente y como es costumbre, dejo esta presentación a su disposición para cualquier comentario.
Gracias a toda la gente de Colombia, Venezuela, Cuba, México y especialmente a los de Perú. He aprendido bastante de sus experiencias.
Luego de revisar varios proyectos de diferentes sectores que tienen en común haber publicado información en la web veremos las ventajas y desventajas de haber usado este medio.
Los tres proyectos que analizaré son la publicación de trabajos discográficos, la digitalización de museos y la ciberpolítica de Barack Obama.
El músico:
Nine Inch Nails Live @ Pukkelpop – Hasselt, Belgium, 8.18.07
Nine Inch Nails publicó su primer trabajo bajo licencias Creative Commons cuando en marzo del 2008 lanzó su Ghosts I – IV conformado por cuatro segmentos y un total de 36 tracks. Los seguidores de la banda podían descargar el primer disco (Ghost I) y el arte en formato pdf de manera gratuita. Habían varias maneras de adquirir este trabajo además de la descarga gratuita: Por U$ 5 puedes descargar todos los 36 tracks, por U$ 10 un cd doble más un booklet, por U$75 Adquirias los 2 cds un dvd y un blu-ray. y por último con una edición especial donde por U$300 adquirias el trabajo inclusive con la firma de Reznor. Este sistema garantizaba que Reznor iba a recibir por lo menos U$5 por su trabajo y aquel comprador podía redistribuir las grabaciones, y si así fuera, todos los demás seguidores de la banda podrían tener acceso a los archivos sonoros sin incurrir en ningún delito. Según el sitio oficial de NIN se vendieron todos los 2500 paquetes de edición ultra especial [1] y además Amazon anunció a los Ghosts I-IV como el álbum más vendido del 2008 [2].
Como dicen en este post de CreativeCommons.org [3]: Los fans entendieron que pagar por descargas en mp3 apoyaría directamente a la música que les gusta, mucho más en este caso donde el artista no tuvo a una disquera como intermediaria y la banda recurre a otros mecanismos para generar ganancias como geolocalizar las descargas de sus trabajos para saber a qué sitios ir de gira como lo mencioné en un post anterior [4], mecanismo que sirvió para realizar el tour de su posterior trabajo, The Slip, también licenciado bajo Creative Commons y donde bajo un giño de complicidad del propio Reznor se publicaron grabaciones en video (cerca de 300 Gb de información equivalente a 400 horas de material en concierto según reporta Radio Cápsula [5]) para que sean los mismos fans quienes editen este material. En conclusión: Mayor promoción, trabajo en equipo y beneficios mutuos para el artista y los seguidores de la banda.
Hace algunos días se habló bastante sobre el acceso a museos a través de Google Earth. Tomé mi computador e hice la visita al Museo del Prado, en Madrid. Anteriormente ya había visitado museos en mundos virtuales [6], pero la experiencia de ver obras con un detalle tan alto me impactó por el hecho de que tal vez ni en el mismo museo pueda llegar a ver tantos detalles como cuando se usa Google Earth. El resultado: Mayor accesibilidad; hay una forma más de poder distrutar de estas obras de arte. Hay que tener en cuenta los derechos de las obras digitalizadas. Estas obras son patrimonio de la humanidad, pero puede que Google al digitalizar cualquier obra esté adquiriendo los derechos de las que aún no son patrimonio público (como lo hace Facebook a su antojo [7] aunque luego se haya retractado [8] ). Además, si después de un tiempo Google decide cobrar por consultar información estaríamos en serios problemas no solo al visitar el Museo del Prado, sino también toda la información que adquiere de nosotros en sus diferentes servicios como Gmail, Google Docs, GCalendar, etc. Esperemos que no olviden el Don’t be evil.
El político:
»]
El último aspecto a analizar es el gran cambio que se vió en la manera de hacer política en los Estados Unidos. Obama se valió de gran cantidad de servicios de la web 2.0 para llegar a cada nicho que existía en la web, invadió gran cantidad de redes sociales y se expandió gracias al boca a boca en la red. Luego de ganar las elecciones de su país, tiene accesso a una gran cantidad de ciudadanos que pueden participar de una manera más fácil, mediante internet. Change.gov [9] permitía realizar consultas populares, mediante Youtube [10] el presidente de los Estados Unidos le habla a su país y al mundo. La toma de decisiones puede ser mucho más rápida. debido a que hay una gran cantidad de maneras de capturar y procesar información en tiempo real. Las ventajas de publicar información en la web en este caso son la transparencia como lo manifiesta Obama en el comunicado sobre transprencia y gobierno abierto titulado «MEMORANDUM FOR THE HEADS OF EXECUTIVE DEPARTMENTS AND AGENCIES» [11].
¿Los problemas? El principal costo que estamos pagando por esto es pérdida de nuestra privacidad. Tanto así que podemos pensar en la privacidad como anormalía histórica [13].
Estamos registrando todo en la web, es un mundo perfecto para un documentalista. Cada paso que damos queda almacenado en la red y puede googlearse (buscarse en Google). Por ello hay que tomar medidas preventivas de seguridad. Al navegar debemos ser conscientes que lo que publiquemos no nos pertenecerá y será muy dificilmente controlable, así que es mejor cuidar lo que se publica. Somos dueños de lo que callamos y esclavos de lo que publicamos.
Desafortunadamente hay información que producimos nosotros registrada por terceros que deberíamos controlar. ¿Qué hay de multas de tránsito o las sentencias judiciales? Hay que regular a quienes tienen dicha información y la publican que puede perjudicarnos en el futuro. Tal vez seamos reportados en sistemas de deudores morosos y luego de cierto tiempo deben haber mecanismos que garanticen nuestra salida de estos informes. Es debatible el hecho de regular al productor de la información o a aquél que la recupera (como puede ser un buscador). [14]
Entre las ventajas de la publicación de contenidos en la web está el networking, el software libre y la mayor difusión que puede obtener alguien con pocos recursos. En la otra mano está nuestra privacidad. El truco es saber manejar nuestra imágen pública. Recuerden que nunca sabemos quién nos sigue en línea y es posible que no haya botón de borrar en la web [15]. Por ejemplo ¿Alguna vez has intentado eliminar tu cuenta de correo de Gmail? Es un reto interesante.
Queda claro que con semejante capacidad de publicación de contenidos que una persona tiene al alcance de su computador la biblioteca se debe convertir en una redifusora de contenidos como muy acertadamente lo anota Álvaro Cabezas:
Pero para eso la web 2.0 nos enseña que remezclar, reutilizar y compartir son valores positivos a adoptar en nuestro propio entorno. Si el papel de la biblioteca es filtrar y seleccionar contenidos de calidad y difundirlo a los usuarios, entonces reutilizar la información de fuentes externas de calidad y redifundirla a través de la web/blog o por cualquiera de los canales de comunicación que utilice ésta es totalmente pertinente y forma parte del genoma mismo de la biblioteca. [16].
Además, la gran apertura al conocimiento que se genera al publicar contenido en la web es impresionante. Ahora es posible consultar el material de clase de cursos del MIT[17] (Massachusetts Institute of Technology) bajo licencias Creative Commons.
El primer encuentro sobre bibliotecas y tecnologías de información y comunicación Bibliotic 2009 ya publicó los talleres de capacitación que se ofrecerán; a nuestro cargo se encuentra el taller «Bibliotecas 2.0». Los talleres que se dictarán son:
Internacionalización y Generación de Redes en Revistas indexadas
Administración de repositorios digitales con Dspace
Gestión electrónica de revistas con Open Journal System
Si usted quiere participar con una ponencia puede ver aquí los requisitos para poder hacerlo. recuerde, esta es una actividad colaborativa, entre más participe mejor será.
La web social no ha sido ajena a las unidades de información, es por esto que ahora pueden encontrarse catálogos en línea (OPAC del inglés On line Public Access Catalog) Sociales. ¿Qué tiene de diferente un OPAC tradicional a uno social? Básicamente que los usuarios pueden comentar, recomendar, calificar y compartir los registros bibliográficos allí almacenados mediante herramientas de la web social o web 2.0.
Actualmente pueden encontrarse varias herramientas desarrolladas bajo licencias libres, es decir, que pueden descargarse sin tener que pagar a terceros por su uso como SOPAC2, oBiblioOPAC o Scriblio. Ésta última fue la que más me llamó la atención por la facilidad y flexibilidad que permite; está basada en WordPress y el principio es que modifica mediante plugins este administrador de contenidos para que pueda usarse como un catálogo en la red. En algunas «pruebas de laboratorio» he podido trabajar con este software y a pesar de que me parece tremendamente útil para cualquier biblioteca 2.0, aún no existe la versión en español; además que servicios como WorldCat que tienen hasta aplicaciones para Facebook tampoco son una solución, alguna vez traté de buscar un libro por este medio a ver qué biblioteca bogotana lo tenía y me llevé una gran sorpresa cuando el libro más cercano estaba a medio mundo de distancia.
¿Quieres verla más de cerca y con notas? Click aquí
Buscando manuales de Scriblio, revisando conversaciones en listas de correos encontré a bastantes usuarios de habla hispana que están tratando de implementar esta herramienta en sus unidades de información sin mucho éxito y la experiencia llega a ser «frustrante» como en algún momento lo mencionó Julio Santillán de Perú. En la web encontré a Oskar Calvo de Documentados.com (España) con quien nunca he hablado en persona pero que gracias a la web decidimos trabajar en Scriblio en castellano. Es así que presento a ustedes ES.scriblio.net, el espacio en español patrocinado por los desarrolladores de este software con quienes he venido trabajando desde hace un tiempo.
Scriblio en español busca crear una comunidad de usuarios de este software en nuestra lengua, inicialmente brindar manuales y tutoriales para paulatinamente traducir este programa en su totalidad. No esperamos hacer este trabajo solos, así que si alguien quiere aportar, tiene sugerencias, encuentra errores o puede facilitarnos plugins, a propósito del Thank a Plugin Developer Day, es bienvenido, ya que hay casos exitosos de implementación de Scriblio en instituciones como la Hong Kong University of Science and Technology, o Lamson Library de la Plymouth State University por mencionar algunos ejemplos.
Nunca había tomado un papel protagónico en mis actividades de networking o trabajo colaborativo en la web, pero estar al frente de este proyecto me ha gustado por la buena voluntad de todos los participantes. Espero así poder aportar algo al software libre que tantos beneficios me ha dado, pienso que es una de las pocas oportunidades para aquellos que no tienen oportunidad.
¿Será muy dificil que las bibliotecas colombianas aparezcan en Worldcat? Aquí les dejo el enlace donde pueden hacer parte de Worldcat por si les interesa, parece que tiene buenos beneficios.
Código de barras 2D o QR code de Hiperterminal.com
Hace algún tiempo he venido cruzándome con este tipo de imágenes. Lastimosamente no he visto ninguna de estas más que en la web y la razón es muy simple: No tenemos la tecnología suficiente para leerlas.
¿De qué se trata? Pues es muy simple: Enlaza un sitio real con un sitio web mediante un lector de código de barras 2D. Por ejemplo en este cuadro expuesto en Nueva York:
Obama y Semapedia
Si se fijan al lado izquierdo hay un pequeño adhesivo. Ampliado se ve así:
Semapedia – Código 2D
Yo hice la prueba con un Blackberry Curve 8310 (gracias a mi jefa que me lo prestó) y estuve navegando por Semapedia.org que es un sitio que te permite generar el código en 2D a una página de Wikipedia. Allí encontré el software que requería para leer este código; se trata del BeeTagg que luego de ser instalado captura el código mediante la cámara fotográfica para luego remitirte al sitio web que enlaza. En el caso del código en el cuadro de Obama lleva a este sitio de Wikipedia modificado especialmente para móviles. En conclusión ese código en 2D es un link, exactamente es un código QR.
¿Cuánto tiempo tardará en llegar esa tecnología a un país como Colombia? No conozco mucha gente que tenga este tipo de celulares, (¿qué más diciente que para poder leer este código tuve que pedir prestado un celular?) mucho menos personas que usen los stickers para dejar enlaces a Wikipedia mediante Semapedia, aunque sería bastante interesante que esto ocurriera. A pesar de que internet móvil está creciendo todavía hace falta esperar un poco para que este tipo de tendencias surjan en un país tercermundista como el nuestro. Una prueba más de la brecha digital.
El texto escrito el 21 de agosto de 1998 titulado «Catalogación versus metadata: ¿Vino viejo en odres nuevos?» [1] habla sobre el cambio de paradigma y las ideas que suponían esta nueva manera de describir los documentos, el dejar de lado el uso de las fichas bibliográficas y su tradicional información allí almacenada para migrar a OPACS e implementar el uso de metadatos para describir los cada vez más abundantes documentos electronicos.
Entre las posibilidades que se enunciaban para reaccionar ante la llegada de los metadatos estaba el catalogar como si nada hubiera pasado, mantener la estructura usada en catalogación en los metadatos, pero evidentemente estos modelos son bastante diferentes y hasta opuestos. El primero fue pensado en un principio para documentos en una biblioteca y el segundo es usado para hallar un documento en una red. Al menos la experiencia obtenida al desarrollar la catalogación debe dar luces sobre los errores cometidos para no repetirlos en el desarrollo de un modelo como el de los metadatos a la hora de automatizar una biblioteca o cualquier unidad de información.
Hasta el momento estos dos modelos parecen muy similares pero ¿Dónde está la diferencia?. Tim Berners Lee señaló que los metadatos estaban totalmente enfocados al uso de computadores y es ahí donde se separan estos modelos: El objetivo de la catalogación son los usuarios de una biblioteca, mientras que el objetivo de los metadatos son los desarrolladores de software, quienes tienen una herramienta más para que sus programas de computador recuperen documentos.
Otra característica que diferencia a los metadatos de la catalogación es que en el primero son los autores del documento quienes generan sus propios descriptores, mientras que el primero usa lenguajes estructurados para este fin.
Empiezan a notarse grandes diferencias en este punto. Ya vemos claramente que los metadatos se usan para encontrar recursos en una red, pero no para describirlos, cosa que si ocurre en la catalogación pero así mismo podría inferirse que la catalogación está orientada a describir el documento sin que le interesen las posibles búsquedas que el usuario realiza No pasa así con el modelo de metadatos Dublin Core, pero éste tiene un problema: Los usuarios son volubles y pueden variar su comportamiento y los metadatos que se incluyeron inicialmente pueden servir para un determinado contexto, pero este puede variar, así el metadato no aportaría en nada.
Otra característica de los metadatos es que tienen una referencia unívoca con un documento, las diferentes versiones y formatos no afectan esta relación, así mismo no se necesita un referencista que guíe al usuario hacia el documento porque puede obtenerse su ubicación de manera inmediata mediante un enlace o link (que favorece a la hora de usar URN) pero de nada sirve si el enlace está roto, si esto ocurre los metadatos de un documento no sirve para nada.
Se mencionó el uso de Dublin Core simple y Dublin Core cualificado, lo que nos hace pensar en que se requiere la ayuda de terceras partes para validar su uso. Volvemos a un punto que seguramente ya superó la catalogación.
Subyace la idea de que los catalogadores antes que temer a este nuevo modelo deben seguir su evolución, porque de hecho no se trata de vino viejo en odres nuevos.
Como catalogadores estamos en la obligación de adquirir conocimientos sobre las diferentes maneras de manejar la información, la mejor manera de realizar nuestro trabajo es comparando. Hay quienes conocen la catalogación desde hace bastante tiempo y tienen sus reticencias a la hora de usar los metadatos, así mismo, empiezan a ejercer la profesión los nativos digitales, aquellos quienes no pueden concebir la vida sin un computador porque desde que tienen memoria pueden acceder a ellos. El conocimiento que se adquieren en el uso de uno o de otro modelo no debe ser una doctrina, es decir, podemos ser eclécticos y tomar lo mejor de cada modelo. No necesariamente son mutuamente excluyentes como lo demuestra el advenimiento de las RDA (Resource Description and Access) que sustituirán a las reglas de catalogación angloamericanas (RCAA2) y además de contar con el respaldo de la IFLA (International Federation of Library Associations) incluyen interoperabilidad con los metadatos [2]. Llegamos así a poner en el mismo nivel dos vertientes que se pensaban incompatibles.
Diez años después de la publicación de «Catalogación versus metadata» podemos ver los avances en el desarrollo del RDA que esta semana (exactamente el 2008-11-03) se publica el borrador completo del contenido del RDA para discusión como lo mencionan en su sitio oficial [3]. Como lo mencionó el maestro Ageo García en una conferencia recientemente para presentar el RDA en la Pontificia Universidad Javeriana, en esta ocasión latinoamérica tiene la capacidad de aportar, no solo de recibir los estándares y las reglas de catalogación para que las usemos sino que además podemos adaptarlas a nuestras necesidades y funcionar bajo estándares internacionales; oportunidad única para acortar la brecha informacional que de por si ya es bastante amplia.
[1] GRADMANN, Stefan. Catalogación versus metadata: ¿Vino viejo en odres nuevos?. [en línea]. [consultado 5 de nov. de 2008]. disponible en <http://www.ifla.org/IV/ifla64/007-126s.htm>
Recientemente me pidieron evaluar dos sitios web y dar mi opinión sobre cuál de los dos recomendaría a un estudiante de arte. El primer sitio es sobre Miguel Ángel, mientras que el segundo trataba sobre Jacopo.
¿Qué pasos debería seguir para verificar su validez? A simple vista los dos parecían creíbles, pero empecé revisando los sitios que alojaban las páginas. Ahí encontré una pista que me pareció importante: la página de Michelangelo.com estaba plagada de errores, enlaces rotos y problemas de comunicación con la base de datos, mientras que la página de Jacopo estaba dentro del hosting de la Universidad de Michigan.
Mi diagnóstico luego de revisar estos aspéctos es que la página de Miguel Ángel era falsa, mientras que la página de Jacopo era confiable. ¿Qué opinión hubieras dado?
Así como este experimento realizado por algunos estudiantes de la Universidad de Michigan para crear un artista falso hay varios sitios en la web con información falaz. Además, hoy en día cualquiera tiene la capacidad de publicar información en la web pero nadie está obligado a publicar información verídica. ¿A quién creerle? Lo que aprendí es que debo:
Verificar la autoridad de quien publica información.
Verificar el contenido, su calidad, profundidad, relevancia, etc.
No resultó fácil encontrar información sobre estos temas. Recomendación: Leer Modern Information Retrieval de Ricardo Baeza-Yates y Berthier Ribeiro-Neto. Capítulo 9.
Para hacer recuperación de información en paralelo se toman grandes colecciones de documentos, se indexan para poder recuperar cada partición del documento y almacenan en varios dispositivos, es decir, pueden existir un documento de 3 Gb almacenado en tres discos de 1Gb que se reconstruye a partir del index. Así, si tenemos una gran cantidad de documentos podemos realizar varias búsquedas simultáneas para recuperar diversos documentos almacenados en diferentes discos, no es necesario esperar a que un proceso termine para empezar el siguiente. Para esto Google usa la indexación de la web.
Mapas conceptuales de las redes sociales que conforman el ecosistema económico en Cleveland y Silicon Valley.
Descentralizado Vs. Distribuido
En cuanto a la recuperación de información distribuida un buen ejemplo es la blogósfera: Muchos nodos son capaces de producir, consumir e intercambiar información. Se crean redes distribuidas que a diferencia de las redes centralizadas o las descentralizadas nunca van a estar incomunicadas dado que siempre habrá un camino que las una. El problema de la recuperación de información distribuida es su heterogeneidad: No sabemos qué formato nos vamos a enfrentar, su idioma o la calidad de su contenido. Para esto se usa el pagerank, para valorar la información y darle prioridad a la hora de recuperarla.
La diferencia entre Cleveland y Silicon Valley que mencionan en Nomada hablan sobre la paradoja del declive de Cleveland, ya que está altamente jerarquizada mientras que Silicon Valey presentan una topología de red distribuida que no necesariamente obedece a las jerarquías de sus nodos. Puede verse en la imágen que si un nodo central de Cleveland se desconecta dejará por fuera de la red a varios nodos que dependen de él.
[Actualización del 2008-10-28 con comentarios de clase del profesor Leonardo Machett]
Los militares usaron una tipología de red distribuida para comunicarse, dicha red evolucionó a Internet, la red de redes. Imagínese las búsquedas en una red centralizada, que además respondía a sus usuarios de manera secuencial, es decir, hasta que no se haya recuperado una solicitud de información no se puede realizar la siguiente bísqueda. Ahora imagínese que Google no podrá completar su solicitud hasta que se hayan respondido todas las solicitudes anteriores. ¿Cuánto tardaría?
Para poder responder varias consultas al tiempo se realiza la recuperación de información en paralelo.
Entre las características de la recuperación de información distribuida encontramos que la información almacenada puede ser heterogénea. Es decir, puede buscar cierta información que no se encuentra en texto como el usuario lo espera, sino que su formato está en audio.
Otra característica emergente de la recuperación de información distribuida son las difernecias entre el idioma en que se recupera la información y la profundidad de los contenidos recuperados. Quien escribe puede ser un experto en un tema o un principiante, inclusive un embustero (como ya lo comentaré en un post siguiente)
Referencias
ARCHITECTURE & LANGUAGE IMPLEMENTATION. Distributed and parallel information retrieval. [en línea]. [consultado 21 de oct. De 2008]. Disponible en <http://www-ali.cs.umass.edu/Darch/>