Etiqueta: Recuperación de información

Conversatorios blogueros: Los espacios personales en Internet en relación con las ideas de lo público y lo privado

altaircc on livestream.com. Broadcast Live Free

Estuve en Campus Party 2010 como invitado a los conversatorios blogueros con estos invitados. Para la charla recoré mis posts anteriores. En la charla una de las cosas que hice fue mencionar las mariposas amarillas que aparecen de la camisa de Pablo Arrieta, es una referencia a su charla «Leyendo pixeles desde el Caribe«, así como Habeas Data. Saqué lo del uso de diversos roles de un libro titulado «La vida en la pantalla» que mencioné en un post anterior

Casualmente Veronica Juárez, estuvo hablando sobre Protección de Datos Personales vs las Redes Sociales el mismo día. A continuación su presentación:

[slideshare id=4655895&doc=protecciondatos-100630222841-phpapp01]

Muchas gracias a los organizadores de Campus Party por la invitación, sobre todo a @Coloresmari

julio 1, 2010
Mediateca Humberto Monroy // Proyecto Génesis y la historia del Rock en Colombia

Este fue el diseño que implementamos para el proyecto final de Modelado de Unidades de Información Digitales, una mediateca que almacene información sobre un tema que me gusta bastante y creo que se ha descuidado en términos patrimoniales: El Rock en Colombia. En este proyecto tuvimos que enfrentar varios problemas, aquí anotaré las soluciones que les dimos. Aunque hay detalles que están en proceso nos gustaría buscar la forma de mantener este proyecto y alimentarlo poco a poco, a ver qué resulta.

El Proyecto Génesis busca centralizar información sobre el rock en Colombia. Tiene tres aspéctos claves en su desarrollo: El derecho de autor en entornos digitales, el componente social de la plataforma y la parte técnica.

El derecho de autor: Entramos en la discusión del uso de material multimedia en entornos digitales, material que fácilmente hace parte del patrimonio de nuestro país y que además puede llegar a ser complicado encontrar, hablando de discos del rock en colombia en sus primeros años, por ejemplo. Cuando un libro deja de editarse, las bibliotecas pueden copiar este material, por excepciones y limitaciones de la ley. El problema es que una copia física se comporta de manera diferente que una copia digital, donde es mucho más fácil que se distribuya a cientos o miles de personas. ¿Qué propusimos? Un sistema de licenciamiento que va desde el dominio público, pasando por toda la gama de licencias Creative Commons, hasta llegar al Copyright. Hemos contactado a algunos de los protagonistas de esta época del rock y les parece bien usar nuestra plataforma (Gracias a Tania Moreno), esto nos anima a continuar con el proyecto y buscar abrir la mayor cantidad de contenidos posible.

El componente social de la plataforma: Esta plataforma permite que cualquier usuario pueda registrarse y subir su propio contenido. No queremos atarnos a estar pendientes de todo el contenido producido por nuevas bandas colombianas, así que pensamos en darle la posibilidad a la gente interesada en este tema que aporte contenido a la mediateca sin perder el control de su contenido, usando las licencias que mejor se adapten a lo que quieren hacer con su material. Actualmente estamos en pruebas cerradas, mientras adaptamos las categorías de cada publicación los usuarios solo se pueden dar de alta con el perfil «suscriptores»; más adelante podemos darles permisos de autores.

La parte técnica: Para la mediateca usamos una brillante idea de Daniel Gil, un bibliotecario a quien respeto por su gran labor, implementada en la Biblioteca Hotrats, donde luego de abandonar el uso de Scriblio, recurrió a varios plugins de WordPress para adecuar un blog a las necesidades de un OPAC. Al igual que Daniel usamos Kau Boy’s AutoCompleter para el buscador y Custom Taxonomies para agregar campos especiales a cada publicación, como tipo de licencia. El usar una taxonomía personalizada nos ayudó a mantener autoridades de materia y de autor en las publicaciones. Usamos un tema minimalista para centrar la atención en los contenidos, además de usar un tema liviano para facilitar su carga, teniendo en cuenta que vamos a trabajar una mediateca que en web puede resultar crítico si los contenidos son muy pesados.

Entre otros plugins que usamos está Embed Iframe para poder agregar frames a las publicaciones, como mapas de Tagzania. Usamos WPtouch iPhone Theme para detectar si nos visitan desde un iPhone o iPod Touch y adecuar el blog a este dispositivo. Para terminar agregamos WPaudio para que si en una publicación se agrega un archivo de audio, automáticamente se reemplace el enlace por un reproductor y poder escuchar enseguida el archivo desde la web. Hicimos la prueba con un tema de Banda Nueva, publicación que protegimos por contraseña mientras aclaramos el tema de derechos de autor de este material. Para evitar este tipo de inconvenientes nos gustaría trabajar en este proyecto.

Estamos en una primera fase de adecuación de la plataforma. Según como se vayan dando las cosas estaremos publicando nuestros avances.

junio 3, 2010
Web semántica y Mashups por Tim Berners-Lee

Este semestre ví una asignatura llamada «Sistemas de Organización del Conocimiento». Un tema que a mí particularmente me gusta bastante y donde tratamos temas como los tesauros, ontologías (recomendada esta lectura) y hablamos un poco de la web semántica. Vimos uno de estos videos, en uno de ellos hablan sobre mashups. No voy a explicar aquí de qué se trata la web semántica y los mashups si el mismo Sir Tim Berners-Lee puede explicarlo.

Tim Berners-Lee: El año en que los datos de libre acceso se globalizaron

Tim Berners-Lee acerca de la futura Web

Ahora pensemos en esto: ¿Para qué sirve la web semántica y los mashups en las bibliotecas? .

junio 2, 2010
Arquitectura y métricas de información // Usando Balsamiq Mockups

finalmetricas-davidramirez-balsamiq

Aquí puedes descargar el documento Proyecto Final: Base de datos bibliográfica en pdf (846Kb).

Este documento lo presenté a finales del semestre pasado en la materia «Métricas para arquitectura de información». En él planteo la realización de una base de datos bibliográfica y su arquitectura de información. El valor agregado de este documento es usar los indicadores bibliométricos para recuperar información de una mejor manera.

Para realizar la diagramación del sitio usé Balsamiq Mockups. Aquí una presentación de esta excelente herramienta:

abril 15, 2010
Repositorios digitales para bibliotecas // Probando Eprints

Eprints

He estado haciendo pruebas con varios repositorios digitales en estos días y entre las cosas interesantes con las que me he topado son este cuadro comparativo de repositorios y este video que te permite instalar Eprints en Ubuntu. Yo probé el video al pie de la letra con una versión 9.10 de Ubuntu y todo funcionó a la perfección. Recomendación: Crear un nuevo usuario en Ubuntu para instalar Eprints, se debería crear un Virtual Host para que no haya conflicto entre http://myrepo.localdomain y Localhost y el procedimiento para hacer eso no está explicado en el tutorial. Aquí el video:

[youtube:http://www.youtube.com/watch?v=ycPUHjZPJXI]
Puedes verlo en Youtube si prefieres.

El sitio oficial de Eprints es www.eprints.org donde puede probarse un live cd, hay manuales de instalación para Windows y RedHat o Fedora (además de la nuestra, Ubuntu / Debian) y todo con miras a apoyar el acceso abierto.

Puedes probar este software funcionando en demoprints3.eprints.org o revisar el repositorio dedicado a la bibliotecología y ciencia de la información en eprints.rclis.org.

marzo 17, 2010
Acceder a Wave desde tu iPod o iPhone // Manual de Google Wave

Encontré una Guía completa a Google Wave. Además, si quieres probar Google Wave en tu IPhone o IPod ingresa desde él a http://AppIt.us y desde allí a Wave. Así Safari ya no te dará problemas 😉

Además al ingresar desde Safari puedes pulsar «+» y aparece la opción «Añadir a pantalla de inicio», lo que deja un acceso desde la pantalla inicial de tu IPod o IPhone.

noviembre 16, 2009
URL para buscar el significado de una palabra en RAE

Para buscar el significado de una palabra en el diccionario de la Real Academia Española escribe en la barra de navegación

http://rae.es/palabra-que-buscas.

Este truco lo vi por primera vez en el blog de Guapacho y aunque parezca una nimiedad me ha resultado extremadamente útil.

octubre 18, 2009
¿Qué es eso de métricas para arquitectura de información?

Este semestre estoy viendo una materia llamada «Métrica y arquitecturas de información». La primera vez que escuché el nombre me sonó a algo que tenía que ver con bibliometría aunque no estaba muy seguro de su relación con arquitecturas de información, tema que ya he tratado anteriormente en este post.

Pues bien, en esta materia hemos analizado bases de datos bibliográficas y comparando las opciones que presentan en cuanto a la búsqueda, recuperación de información, puntos de acceso (como autor, tipo de documento -artículo, libro, etc.), depuración y presentación de resultados de búsquedas. La he encontrado particularmente útil ahora que estoy a cargo de un OPAC o catálogo de biblioteca y me he dado cuenta que los resultados de las búsquedas muchas veces se pasan por alto a la hora de diseñar sitios en internet, como si lo único que importara es que la base de datos hiciera su query y trajera cualquier cantidad de información, sin importar si es relevante o pertinente, si le estamos dando a nuestros usuarios toneladas de información para que se pierda en ella.

Para hacer una pequeña prueba he decidido usar uno de los sitios más consultados en Colombia, el sitio del diario www.eltiempo.com donde hice una búsqueda simple sobre la primer noticia que encontré en su portada

Portada de ElTiempo.com 2009-10-02

Ingresé «Rio de Janeiro, sede de los Juegos Olímpicos de Verano de 2016» en el buscador y obtuve 11 resultados:

Resultados de búsqueda en ElTiempo.com 2009-10-02″

Esto puede darme a entender que no se estan usando los títulos como puntos de acceso, o que la única forma que pueda acceder a una noticia desde el buscador es que la noticia esté en Archivo y tenga al menos un día de anterioridad. En todo caso se están recuperando documentos a partir de stop words como lo demuestra la última noticia recuperada: «¿U2 en Colombia? ¿Que al Campín no le va a ocurrir nada? ¡No seamos ingenuos!» a partir de las palabras «de» y «los» que coinciden con nuestra búsqueda inicial y son stop words.

ElTiempo.com realiza depuraciones en sus búsquedas por portal, secciones y fecha, ordenacion de resultados por relevancia y más antiguo y más reciente primero. Me pareció un muy buen método el uso de la «Línea de tiempo» para mostrar las noticias por densidad vs. años aunque mi clase de Métricas para arquitectura de información me ha enseñado a trabajar más en las posibilidades que le brindas al usuario para recuperar información en entornos web. Imagino que el realizar una búsqueda con palabras poco usadas como «Olímpicos» te genera estos pocos resultados, habría que hacer la prueba con palabras más frecuentes en las noticias a ver qué tal reacciona el buscador al recuperar muchos más resultados.

Aclaro: este es apenas un ejercicio académico, felicitaciones a los desarrolladores del sitio de noticias por su buen trabajo y su reciente actualización; siempre van a haber comentarios sobre lo que se pordía mejorar y este es solo uno de ellos, tal vez fuera de lugar. Al final de este post dejo un taller común para métricas y arquitectura de información y su respuesta.

¿Debemos dejarle siempre todo el trabajo de búsqueda y recuperación a Google?

Métricas para arquitectura de información

Descargar

octubre 2, 2009
Web 3.0 y ciencias de la web por Ricardo Baeza-Yates de Yahoo!

Encontré este video donde Ricardo Baeza-Yates, director del laboratorio de Research de Yahoo! en Barcelona a quien ya he mencionado en este blog al escribir sobre recuperación de información paralela y distribuida. Habla sobre las ciencias de la web, tocando temas como la web semántica o web 3.0 pasando por la web social, las comunidades, el compartir conocimiento y la manera como los investiga.

Me parece interesante que menciona la diferencia cultural entre Asia contra Europa y Estados Unidos, eso significa que el idioma puede ser una barrera importante a la hora de encontrar información de avanzada, ya que no tenemos acceso a múltiples noticias que pueden interesarnos al estar producidas en chino, por ejemplo y aunque Baeza-Yates no ve mayor inconveniente en esto me parece que pueden haber detalles importantes que se pierden en las traducciones o adaptaciones.

Por otro lado presenta el paradigma de búsqueda semántica muy ligado con la web social, es decir, no es únicamente enfocarse en el hecho de que las máquinas procesen algoritmos para crear inteligencia artificial y que buscadores puedan responder a preguntas en lenguaje natural, sino que piensa que la web social y la participación aportan un valor importante, lógicamente porque las máquinas necesitan entradas para engrosar los términos que pueden ligar y ese trabajo muy difícilmente lo harán las mismas máquinas.

Además se habla de la cantidad de información que se pierde debido a la brecha digital. Esto es un problema porque la web social por un lado ofrece visibilidad en la web, pero por otro tiene riesgos sobre la propiedad intelectual del material que se sube. De todas maneras es sorprendente la cantidad gigantezca de información en la web y que dicha información es ínfima dado el potencial de producción de información mundial.

Un sistema social necesariamente está relacionado con un sistema de reputación. Esta idea tiene una gran problemática al entender que lo social está lleno de errores, de caos. Una pregunta puede estar mal formulada, pero su interpretación puede contener conceptos muy válidos que se adquieren a través del contexto y el significado que dicha pregunta adquiere en ese contexto.

Creo que hay muchos temas que avanzan con mucha velocidad, me preocupa un poco que además de la brecha digital también debamos cargar con la cruz de contar con el acceso a la información y no saber usarla.

julio 30, 2009
Arquitecturas de Información // Diseñando espacios digitales

El próximo martes 7 de Julio de 2009 a las 5 pm (-5 GMT) estaré en los Paneles blogueros del Campus Party. El panel se titula «Arquitectura de información para la web: Dificultades de ejercer una profesión desconocida» donde compartiré con Mario Carvajal [web, twitter], Juan Diego Velasco [web 1, web 2, twitter], Natalia Vivas Velasco [web, twitter], Mauricio Candamil Llano [web, twitter], Edwin Arley Bernal Holguin [web 1, web 2, twitter] y Juan David Vargas Pulido [web, twitter] y con el público asistente al Campus una conversación sobre lo que implica trabajar en arquitecturas de información en Colombia, visto desde la comunicación social, ingenierías y por mi parte desde la ciencia de la Información y Bibliotecología.

Para contextualizar el tema empiezo contando qué es la arquitectura de información:

Arquitectura de información es, según el Information Architecture Glossary por Kat Hagedorn, El arte y ciencia de organizar información para ayudar a la gente a satisfacer sus necesidades de información. La arquitectura de información involucra investigación, análisis, diseño e implementación. El desarrollo de arquitecturas de información puede darse de arriba hacia abajo o viceversa. Es decir, podemos desarrollar una AI empezando por elegir el hardware hasta llegar a una interfaz de usuario (de abajo hacia arriba) o empezar por el contexto de la información que se requiere e ir desarrollando las necesidades que dicha herramienta desde la interfaz hasta llegar al hardware.

Aunque la arquitectura de información se ha relacionado siempre con aspectos digitales, cabe notar que la teoría dice que cualquier infraestructura que ayude a la gente a satisfacer sus necesidades de información es válida, así, el biblioburro me parece una excelente solución desde el punto de vista de la arquitectura de información para llegar a lugares de difícil acceso del norte de Colombia, lugares que pueden no tener carreteras y donde no existen bibliotecas, el señor Luis Soriano carga a Alfa y Beto, un par de burros, con varios documentos que llevan información a la parte central baja del Magdalena. Igualmente en la bibliotecología se usan arquitecturas para presentar información a los usuarios de las unidades de información, dichas arquitecturas han saltado a los medios digitales potenciando la investigación en dicho campo debido a las bibliotecas virtuales, los catálogos en línea y un sin fin de herramientas que pueden usarse en bibliotecas 2.0.

Me parece interesante cómo una profesión como la arquitectura de información puede mutar con aplicaciones tan centradas en el usuario, quienes tienen completa libertad de decidir cómo quiere ver su información. Sitios como el panel de administración de las cuentas en WordPress, La interfaz de Sonidolocal o el panel de administración de Netvibes me hacen pensar en el trabajo del arquitecto de información podría verse como un trabajo en vía de extinción, pero por el contrario es el arquitecto quien puede ofrecer una gran variedad de matices, desde decidir cómo presentar la información en un sitio web estático hasta optar por la posibilidad de crear interfaces de las anteriormente nombradas, con una libertad muy grande para los usuarios.

Panel de administración de Netvibes. El usuario decide qué información mostrar y su ubicacción.

Encontré Websort, un sitio para hacer Card Sorting en la web, una técnica para organizar la información en un sitio web que puede ser útil a la hora de organizar información para la web. Por otro lado hace poco se lanzó el primer número de la revista Journal of Information Architecture, puede consultarse en http://journalofia.org/

julio 6, 2009