Etiqueta: Recuperación de información

  • Marketing viral // Buzz marketing, Social Media Optimization (SMO) y Cibermetría

    Luego de una práctica de la Comunidad 2.0 del SEDIC, me dispuse a ver qué tanto afecta el acceso que se tiene a este blog luego de hacer parte de varias redes sociales, comentar en blogs y dedicarle mucho tiempo a mi microblog, comparado luego de un año donde disminuí considerablemente mi actividad. Esto es lo que muestra Google Analytics sobre las visitas a mi sitio:

    Estadísticas de Hiperterminal.com Mayo 2008 vs Mayo 2009
    Estadísticas de Hiperterminal.com Mayo 2008 vs Mayo 2009 Click para ampliar

    Puede verse que efectivamente el participar en la blogósfera, twitósfera y demás esferas de la web social influyen las referencias que se hace a un sitio web. Pero ¿Es cierto el dicho «no importa que bien o mal pero que hablen de mi»? Hace un tiempo escuché de un buzz negativo, donde Empleados de Dominos Pizza publicaron un nada agradable video en Youtube para sus consumidores y cómo la marca se defendió. Más allá de eso existe la necesidad de medir si efectivamente la impresión que tienen nuestros «usuarios» afecta las visitas que tenemos y la visibilidad que podemos obtener.

    Pero vamos por partes: La cibermetría sirve para medir cualquier tipo de información que existe en la red

    [slideshare id=1459098&doc=cibermetria-wilsoncastao-090519102539-phpapp02]

    ¿Qué es Social Media Optimization (SMO)? En el blog de Rohit Bhargava se pueden encontrar las 5 reglas de la SMO. En resúmen:

    1. Aumenten su “linkeabilidad”
    2. Hagan que sea simple taggear y guardar los contenidos
    3. Recompensen los links entrantes
    4. Ayuden a que su contenido viaje por la red
    5. Fomenten los mashups

    Vía DenkenUber (en español).

    Ahora bien, hace falta realizar un estudio cibermétrico de cómo las personas de una determinada comunidad reaccionan, consumen y producen información a partir de la información que nosotros producimos, comentamos o reutilizamos. Es muy fácil hablar de marketing viral, pero una forma de optimizarlo es conocer las tendencias y exactamente en qué lugares se está produciendo información referente a un determinado tema. En mi caso puedo medir el impacto que tuvo el uso de redes sociales en las referencias a mi blog, gracias a Google Analytics puedo ver fechas, lugares de consulta y sitios de referencia pero ¿Qué hay de la gente que comenta cierto tema y no enlaza a mi blog sino a otro que trate un tema similar o incluso a otra fuente? Este método garantizaría la exahustividad en la búsqueda de información para recuperación de información en sistemas distribuidos. Dicha recuperación de información se hace especialmente útil si la comunidad que consume y produce información es una comunidad científica.

    Luego de revisar mis estadísticas puedo ver que el porcentaje de accesos por sitios de referencia es mayor en el 2008, aunque el número de visitas aumentó en el 2009 gracias al etiquetado y el aumento en la cantidad de los contenidos.

    Encontré la International Journal of Scientometrics, Informetrics and Bibliometrics por si les interesa el tema. Además Álvaro Cabezas escribió «Desarrollando indicadores basados en la web«.

    Actualización: Encontré este video vía read/write.

  • Arquitectura de información // La Wiki de Hiperterminal

    En este documento presentamos mi hermano Leonardo y yo la arquitectura de información de la Wiki de Hiperterminal; un portal basado en arquitectura social destinado a almacenar, organizar y publicar información relacionada con la ciencia de la información.

    Proyecto de Arquitectura de Información: Wiki de Hiperterminal

    En el siguiente documento hicimos el levantamiento de la información inicial.
    REQ Toma de Requisitos para proyecto de Arquitectura de Información, por David y Leonardo Ramirez

    Descargas:
    Texto
    Formulario

  • Objetos Virtuales de Aprendizaje, e-Learning y web 2.0

    [slideshare id=1173752&doc=ovaelerning20-davidramirez-090320065548-phpapp02]

    Hoy presentaré este trabajo en el Teledu 2009, ya había publicado el artículo anteriormente y como es costumbre, dejo esta presentación a su disposición para cualquier comentario.

    Gracias a toda la gente de Colombia, Venezuela, Cuba, México y especialmente a los de Perú. He aprendido bastante de sus experiencias.

  • Acceso abierto y publicación en la web // El museo, el músico y el político

    Luego de revisar varios proyectos de diferentes sectores que tienen en común haber publicado información en la web veremos las ventajas y desventajas de haber usado este medio.

    Los tres proyectos que analizaré son la publicación de trabajos discográficos, la digitalización de museos y la ciberpolítica de Barack Obama.

    El músico:

    Nine Inch Nails Live @ Pukkelpop - Hasselt, Belgium, 8.18.07
    Nine Inch Nails Live @ Pukkelpop – Hasselt, Belgium, 8.18.07

    Nine Inch Nails publicó su primer trabajo bajo licencias Creative Commons cuando en marzo del 2008 lanzó su  Ghosts I – IV conformado por cuatro segmentos y un total de 36 tracks. Los seguidores de la banda podían descargar el primer disco (Ghost I) y el arte en formato pdf de manera gratuita. Habían varias maneras de adquirir este trabajo además de la descarga gratuita:  Por U$ 5 puedes descargar todos los 36 tracks, por U$ 10 un cd doble más un booklet, por U$75 Adquirias los 2 cds un dvd y un blu-ray. y por último con una edición especial donde por U$300 adquirias el trabajo inclusive con la firma de Reznor. Este sistema garantizaba que Reznor iba a recibir por lo menos U$5 por su trabajo y aquel comprador podía redistribuir las grabaciones, y si así fuera, todos los demás seguidores de la banda podrían tener acceso a los archivos sonoros sin incurrir en ningún delito. Según el sitio oficial de NIN se vendieron todos los 2500 paquetes de edición ultra especial [1] y además Amazon anunció  a los Ghosts I-IV como el álbum más vendido del 2008 [2].

    Como dicen en este post de CreativeCommons.org [3]: Los fans entendieron que pagar por descargas en  mp3  apoyaría directamente a la música que les gusta, mucho más en este caso donde el artista no tuvo a una disquera como intermediaria y la banda recurre a otros mecanismos para generar ganancias como geolocalizar las descargas de sus trabajos para saber a qué sitios ir de gira como lo mencioné en un post anterior [4], mecanismo que sirvió para realizar el tour de su posterior trabajo, The Slip, también licenciado bajo Creative Commons y donde bajo un giño de complicidad del propio Reznor se publicaron grabaciones en video (cerca de 300 Gb de información equivalente a 400 horas de material en concierto según reporta Radio Cápsula [5]) para que sean los mismos fans quienes editen este material. En conclusión: Mayor promoción, trabajo en equipo y beneficios mutuos para el artista y los seguidores de la banda.

    El Museo:

    [slideshare id=952357&doc=davidramirezvisitamuseodelprado-1232930717222652-1&w=425]

    Hace algunos días se habló bastante sobre el acceso a museos a través de Google Earth. Tomé mi computador e hice la visita al Museo del Prado, en Madrid. Anteriormente ya había visitado museos en mundos virtuales [6], pero la experiencia de ver obras con un detalle tan alto me impactó por el hecho de que tal vez ni en el mismo museo pueda llegar a ver tantos detalles como  cuando se usa Google Earth. El resultado: Mayor accesibilidad; hay una forma más de poder distrutar de estas obras de arte. Hay que tener en cuenta los derechos de las obras digitalizadas. Estas obras son patrimonio de la humanidad, pero puede que Google al digitalizar  cualquier obra esté adquiriendo los derechos de las que aún no son patrimonio público (como lo hace Facebook a su antojo [7] aunque luego se haya retractado [8] ). Además, si después de un tiempo Google decide cobrar por consultar información estaríamos en serios problemas no solo al visitar el Museo del Prado, sino también toda la información que adquiere de nosotros en sus diferentes servicios como Gmail, Google Docs, GCalendar, etc. Esperemos que no olviden el Don’t be evil.

    El político:

    »]Barack Obama en la intimidad

    El último aspecto a analizar es el gran cambio que se vió en la manera de hacer política en los Estados Unidos. Obama se valió de gran cantidad de servicios de la web 2.0 para llegar a cada nicho que existía en la web, invadió gran cantidad de redes sociales y se expandió gracias al boca a boca en la red. Luego de ganar las elecciones de su país, tiene accesso a una gran cantidad de ciudadanos que pueden participar de una manera más fácil, mediante internet. Change.gov [9] permitía realizar consultas populares, mediante Youtube [10] el presidente de los Estados Unidos le habla a su país y al mundo. La toma de decisiones puede ser mucho más rápida. debido a que hay una gran cantidad de maneras de capturar y procesar información en tiempo real. Las ventajas de publicar información en la web en este caso son la transparencia como lo manifiesta Obama en el comunicado  sobre transprencia y gobierno abierto titulado «MEMORANDUM FOR THE HEADS OF EXECUTIVE DEPARTMENTS AND AGENCIES» [11].

    [slideshare id=972568&doc=obama-en-internet-1233346317141980-2]

    Obama En Internet: Análisis de la Estrategia de Marketing en Medios Digitales, por Ventas en internet.com

    Entre otros líderes mundiales que usan canales en Youtube se encuentran El Senado y la Cámara de Representantes de Estados Unidos,  Obama (como individuo) y McCain , El Vaticano, La Reina Elizabeth II, La Reina Rania de Jordania, el Gobierno Británico, el Primer Ministro Japonés Faduka, la Unión Europea y el Foro Económico Mundial en Davos 12.

    ¿Los problemas? El principal costo que estamos pagando por esto es pérdida de nuestra privacidad. Tanto así que podemos pensar en la privacidad como anormalía histórica [13].

    Estamos registrando todo en la web, es un mundo perfecto para un documentalista. Cada paso que damos queda almacenado en la red y puede googlearse (buscarse en Google). Por ello hay que tomar medidas preventivas de seguridad. Al navegar debemos ser conscientes que lo que publiquemos no nos pertenecerá y será muy dificilmente controlable, así que es mejor cuidar lo que se publica. Somos dueños de lo que callamos y esclavos de lo que publicamos.

    Desafortunadamente hay información que producimos nosotros registrada por terceros que deberíamos controlar. ¿Qué hay de multas de tránsito o las sentencias judiciales? Hay que regular a quienes tienen dicha información y la publican que puede perjudicarnos en el futuro. Tal vez seamos reportados en sistemas de deudores morosos y luego de cierto tiempo deben haber mecanismos que garanticen nuestra salida de estos informes. Es debatible el hecho de regular al productor de la información o a aquél que la recupera (como puede ser un buscador).  [14]

    Entre las ventajas de la publicación de contenidos en la web está el networking, el software libre y la mayor difusión que puede obtener alguien con pocos recursos. En la otra mano está nuestra privacidad. El truco es saber manejar nuestra imágen pública. Recuerden que nunca sabemos quién nos sigue en línea y es posible que no haya botón de borrar en la web [15]. Por ejemplo ¿Alguna vez has intentado eliminar tu cuenta de correo de Gmail? Es un reto interesante.

    Queda claro que con semejante capacidad de publicación de contenidos que una persona tiene al alcance de su computador  la biblioteca se debe convertir en una  redifusora de contenidos como muy acertadamente lo anota Álvaro Cabezas:

    Pero para eso la web 2.0 nos enseña que remezclar, reutilizar y compartir son valores positivos a adoptar en nuestro propio entorno. Si el papel de la biblioteca es filtrar y seleccionar contenidos de calidad y difundirlo a los usuarios, entonces reutilizar la información de fuentes externas de calidad y redifundirla a través de la web/blog o por cualquiera de los canales de comunicación que utilice ésta es totalmente pertinente y forma parte del genoma mismo de la biblioteca. [16].

    Además, la gran apertura al conocimiento que se genera al publicar contenido en la web es impresionante. Ahora es posible consultar el material de clase de cursos del MIT[17] (Massachusetts Institute of Technology) bajo licencias Creative Commons.

    Referencias

    [1] NINE INCH NAILS. Ghosts – Order Options. [en línea]. [consultado 26 de ene. de 2009]. disponible en <http://ghosts.nin.com/main/order_options>

    [2] AMAZON. MP3 Downloads: Best music of 2008 . [en línea]. [consultado 26 de ene. de 2009]. disponible en <http://www.amazon.com/b/ref=amb_link_7866952_18?ie=UTF8&node=1240544011>

    [3] CREATIVE COMMONS. NIN’s CC-Licensed Best-Selling MP3 Album . [en línea]. [consultado 26 de ene. de 2009]. disponible en <http://creativecommons.org/weblog/entry/11947>

    [4] RAMÍREZ, David. El plan de Nine Inch Nails . [en línea]. [consultado 26 de ene. de 2009]. disponible en <http://creativecommons.org/weblog/entry/11947>

    [5] RADIO CÁPSULA. NIN sigue sorprendiendo con su estrategia web . [en línea]. [consultado 29 de ene. de 2009]. disponible en <http://www.radiocapsula.org/2009/01/28/nin-sigue-sorprendiendo-con-su-estrategia-web/>

    [6]RAMÍREZ, David. Museos virtuales // De visita por Second Life . [en línea]. [consultado 29 de ene. de 2009]. disponible en <http://www.hiperterminal.com/2009/01/01/museos-virtuales-de-visita-por-second-life/>

    [7] THE CONSUMERIST. Facebook’s New Terms Of Service: «We Can Do Anything We Want With Your Content. Forever.». [en línea]. [consultado 20 de feb. de 2009]. disponible en <http://consumerist.com/5150175/facebooks-new-terms-of-service-we-can-do-anything-we-want-with-your-content-forever>

    [8] BOTERO, Carolina. Facebook sobre la importancia de “términos y condiciones de uso” en sitios para “comunidad”. [en línea]. [consultado 26 de feb. de 2009]. disponible en <http://www.karisma.org.co/carobotero/index.php/2009/02/18/facebook-sobre-la-importancia-de-terminos-y-condiciones-de-uso-sitios-para-comunidad/>

    [9] ESTADOS UNIDOS. THE WHITE HOUSE. Obama-Biden transition project. [en línea]. [consultado 26 de feb. de 2009]. disponible en <http://change.gov/>

    [10] ESTADOS UNIDOS. THE WHITE HOUSE. Canal de Youtube. [en línea]. [consultado 26 de feb. de 2009]. disponible en <http://www.youtube.com/whitehouse>

    [11] OBAMA, Barack. Memorandum for the heads of executive departments and agencies. [en línea]. [consultado 26 de feb. de 2009]. disponible en <http://www.whitehouse.gov/the_press_office/TransparencyandOpenGovernment/>

    [12] AMÉRICA LATINA. GOOGLE.  Los líderes del mundo en Youtube. [en línea]. [consultado 26 de feb. de 2009]. disponible en <http://googleamericalatinablog.blogspot.com/2009/01/los-lderes-del-mundo-en-youtube.html>

    [13] DANS. Enrique. La privacidad como anomalía histórica. [en línea]. [consultado 26 de feb. de 2009]. disponible en <http://www.enriquedans.com/2008/12/la-privacidad-como-anomalia-historica.html>

    [14] CABEZAS. Álvaro. Condenados por encontrar. [en línea]. [consultado 26 de feb. de 2009]. disponible en <http://documentacion.lacoctelera.net/post/2008/02/28/condenados-encontrar>

    [15] DAVIS. Lidija. The unforeseen consequences of  the social web.  [en línea]. [consultado 26 de feb. de 2009]. disponible en <http://www.readwriteweb.com/archives/social_web_unforeseen_consequences.php>

    [16] CABEZAS. Álvaro. El usuario como generador, y la biblioteca como redifusora de contenidos. [en línea]. [consultado 26 de feb. de 2009]. disponible en <http://www.lacoctelera.com/documentacion/post/2008/11/19/el-usuario-como-generador-y-biblioteca-como-redifusora-de>

    [17] MASSACHUSETTS INSTITUTE OF TECHNOLOGY. MIT open courseware. [en línea]. [consultado 26 de feb. de 2009]. disponible en <http://ocw.mit.edu/OcwWeb/web/home/home/index.htm>

    Otras lecturas y fuentes relacionadas en mi delicious.com/hiperterminal.

  • Primer encuentro de bibliotecas en tecnologías de información y comunicación // Talleres Bibliotic 2009

    talleres-bibliotic2009
    Bibliotic 2009

    El primer encuentro sobre bibliotecas y tecnologías de información y comunicación Bibliotic 2009 ya publicó los talleres de capacitación que se ofrecerán; a nuestro cargo se encuentra el taller «Bibliotecas 2.0». Los talleres que se dictarán son:

    • Internacionalización y Generación de Redes en Revistas indexadas
    • Administración de repositorios digitales con Dspace
    • Gestión electrónica de revistas con Open Journal System
    • Bibliotecas 2.0
    • Búsqueda de información avanzada en Internet
    • Redes sociales para intercambio de conocimiento

    Para mayor información visite este sitio

    Si usted quiere participar con una ponencia puede ver aquí los requisitos para poder hacerlo. recuerde, esta es una actividad colaborativa, entre más participe mejor será.

    Puede consultar el sitio oficial de Bibliotic o ver posts anteriores en hiperterminal.com

  • Semapedia.org // Enlazando la realidad con la web mediante móviles

    Código de barras 2D
    Código de barras 2D o QR code de Hiperterminal.com

    Hace algún tiempo he venido cruzándome con este tipo de imágenes. Lastimosamente no he visto ninguna de estas más que en la web y la razón es muy simple: No tenemos la tecnología suficiente para leerlas.

    ¿De qué se trata? Pues es muy simple: Enlaza un sitio real con un sitio web mediante un lector de código de barras 2D. Por ejemplo en este cuadro expuesto en Nueva York:

    Obama y Semapedia
    Obama y Semapedia

    Si se fijan al lado izquierdo hay un pequeño adhesivo. Ampliado se ve así:

    Semapedia - Código 2D
    Semapedia – Código 2D

    Yo hice la prueba con un Blackberry Curve 8310 (gracias a mi jefa que me lo prestó) y estuve navegando por Semapedia.org que es un sitio que te permite generar el código en 2D a una página de Wikipedia. Allí encontré el software que requería para leer este código; se trata del BeeTagg que luego de ser instalado captura el código mediante la cámara fotográfica para luego remitirte al sitio web que enlaza. En el caso del código en el cuadro de Obama lleva a este sitio de Wikipedia modificado especialmente para móviles. En conclusión ese código en 2D es un link, exactamente es un código QR.

    ¿Cuánto tiempo tardará en llegar esa tecnología a un país como Colombia? No conozco mucha gente que tenga este tipo de celulares, (¿qué más diciente que para poder leer este código tuve que pedir prestado un celular?) mucho menos personas que usen los stickers para dejar enlaces a Wikipedia mediante Semapedia, aunque sería bastante interesante que esto ocurriera. A pesar de que internet móvil está creciendo todavía hace falta esperar un poco para que este tipo de tendencias surjan en un país tercermundista como el nuestro. Una prueba más de la brecha digital.

    Entre otros sitios que encontré está Tigtags.com quienes se dedican a generar códigos en 2D no solo para Wikipedia como lo hace Semapedia. Entre los estudios de casos de este sitio se encuentra una aplicación de Facebook para agregar amigos mediante el código.

    Add to friends gear app on Facebook
    Add to friends gear app on Facebook

    ¿Qué te parece? ¿Has visto el código en algún lugar? ¿lo usarías?

    Aquí un blog en español dedicado a los códigos QR

  • Adaptando la catalogación a las nuevas tecnologías // Metadatos y RDA

    [slideshare id=260167&doc=introduccin-a-metadatos-1202674290323124-3&w=425]

    Presentación de Anansi

    El texto escrito el 21 de agosto de 1998 titulado «Catalogación versus metadata: ¿Vino viejo en odres nuevos?» [1] habla sobre el cambio de paradigma y las ideas que suponían esta nueva manera de describir los documentos, el dejar de lado el uso de las fichas bibliográficas y su tradicional información allí almacenada para migrar a OPACS e implementar el uso de metadatos para describir los cada vez más abundantes documentos electronicos.

    Entre las posibilidades que se enunciaban para reaccionar ante la llegada de los metadatos estaba el catalogar como si nada hubiera pasado, mantener la estructura usada en catalogación en los metadatos, pero evidentemente estos modelos son bastante diferentes y hasta opuestos. El primero fue pensado en un principio para documentos en una biblioteca y el segundo es usado para hallar un documento en una red. Al menos la experiencia obtenida al desarrollar la catalogación debe dar luces sobre los errores cometidos para no repetirlos en el desarrollo de un modelo como el de los metadatos a la hora de automatizar una biblioteca o cualquier unidad de información.

    Hasta el momento estos dos modelos parecen muy similares pero ¿Dónde está la diferencia?. Tim Berners Lee señaló que los metadatos estaban totalmente enfocados al uso de computadores y es ahí donde se separan estos modelos: El objetivo de la catalogación son los usuarios de una biblioteca, mientras que el objetivo de los metadatos son los desarrolladores de software, quienes tienen una herramienta más para que sus programas de computador recuperen documentos.

    Otra característica que diferencia a los metadatos de la catalogación es que en el primero son los autores del documento quienes generan sus propios descriptores, mientras que el primero usa lenguajes estructurados para este fin.

    Empiezan a notarse grandes diferencias en este punto. Ya vemos claramente que los metadatos se usan para encontrar recursos en una red, pero no para describirlos, cosa que si ocurre en la catalogación pero así mismo podría inferirse que la catalogación está orientada a describir el documento sin que le interesen las posibles búsquedas que el usuario realiza No pasa así con el modelo de metadatos Dublin Core, pero éste tiene un problema: Los usuarios son volubles y pueden variar su comportamiento y los metadatos que se incluyeron inicialmente pueden servir para un determinado contexto, pero este puede variar, así el metadato no aportaría en nada.

    Otra característica de los metadatos es que tienen una referencia unívoca con un documento, las diferentes versiones y formatos no afectan esta relación, así mismo no se necesita un referencista que guíe al usuario hacia el documento porque puede obtenerse su ubicación de manera inmediata mediante un enlace o link  (que favorece a la hora de usar URN) pero de nada sirve si el enlace está roto, si esto ocurre los metadatos de un documento no sirve para nada.

    Se mencionó el uso de Dublin Core simple y Dublin Core cualificado, lo que nos hace pensar en que se requiere la ayuda de terceras partes para validar su uso. Volvemos a un punto que seguramente ya superó la catalogación.

    Subyace la idea de que los catalogadores antes que temer a este nuevo modelo deben seguir su evolución, porque de hecho no se trata de vino viejo en odres nuevos.

    Como catalogadores estamos en la obligación de adquirir conocimientos sobre las diferentes maneras de manejar la información, la mejor manera de realizar nuestro trabajo es comparando. Hay quienes conocen la catalogación desde hace bastante tiempo y tienen sus reticencias a la hora de usar los metadatos, así mismo, empiezan a ejercer la profesión los nativos digitales, aquellos quienes no pueden concebir la vida sin un computador porque desde que tienen memoria pueden acceder a ellos. El conocimiento que se adquieren en el uso de uno o de otro modelo no debe ser una doctrina, es decir, podemos ser eclécticos y tomar lo mejor de cada modelo. No necesariamente son mutuamente excluyentes como lo demuestra el advenimiento de las RDA (Resource Description and Access) que sustituirán a las reglas de catalogación angloamericanas (RCAA2) y además de contar con el respaldo de la IFLA (International Federation of Library Associations) incluyen interoperabilidad con los metadatos [2]. Llegamos así a poner en el mismo nivel dos vertientes que se pensaban incompatibles.

    Diez años después de la publicación de «Catalogación versus metadata» podemos ver los avances en el desarrollo del RDA que esta semana (exactamente el 2008-11-03) se publica el borrador completo del contenido del RDA para discusión como lo mencionan en su sitio oficial [3].  Como lo mencionó el maestro Ageo García en una conferencia recientemente para presentar el RDA en la Pontificia Universidad Javeriana, en esta ocasión latinoamérica tiene la capacidad de aportar, no solo de recibir los estándares y las reglas de catalogación para que las usemos sino que además podemos adaptarlas a nuestras necesidades y funcionar bajo estándares internacionales; oportunidad única para acortar la brecha informacional que de por si ya es bastante amplia.

    Encontré que está en construcción este sitio: www.rdaonline.org


    Referencias

    [1] GRADMANN, Stefan. Catalogación versus metadata: ¿Vino viejo en odres nuevos?. [en línea]. [consultado 5 de nov. de 2008]. disponible en <http://www.ifla.org/IV/ifla64/007-126s.htm>

    [2] BIBLIOBLOG. RDA, las nuevas reglas de catalogación. [en línea]. [consultado 5 de nov. de 2008]. disponible en <http://www.citafgsr.org/weblogs/biblioblog/archives/005827.html>

    [3] JOINT STEERING COMITEE FOR DEVELOPMENT OF RDA. RDA: Resource Description and Access. [consultado 5 de nov. de 2008]. disponible en <http://www.collectionscanada.gc.ca/jsc/rda.html>

  • Veracidad y confiabilidad en internet // El día que me timaron

    Recientemente me pidieron evaluar dos sitios web y dar mi opinión sobre cuál de los dos recomendaría a un estudiante de arte. El primer sitio es sobre Miguel Ángel, mientras que el segundo  trataba sobre Jacopo.

    ¿Qué pasos debería seguir para verificar su validez? A simple vista los dos parecían creíbles, pero empecé revisando los sitios que alojaban las páginas. Ahí encontré una pista que me pareció importante: la página de Michelangelo.com estaba plagada de errores, enlaces rotos y problemas de comunicación con la base de datos, mientras que la página de Jacopo estaba dentro del hosting de la Universidad de Michigan.

    Paso dos: Revisar su contenido. La página de Miguel Ángel vendía posters, mientras que la de Jacopo hablaba sobre sus pinturas, la técnica empleada y su ubicación física. Si el usuario de la información era un estudiante de artes no le iba a presentar un sitio que le vendiera afiches.

    Paso tres: Revisar el autor. Unos diseñadores de sitios web contra la Universidad de Michigan. ¡Nada que hacer! ¿Cómo no le iba a creer a la prestigiosa Universidad de Michigan?

    Mi diagnóstico luego de revisar estos aspéctos es que la página de Miguel Ángel era falsa, mientras que la página de Jacopo era confiable. ¿Qué opinión hubieras dado?

    Me faltó usar un recurso más: Buscar otros sitios que hablan sobre el artísta, en este caso, los sitios que hablan sobre Jacopo di Poggibonsi. Donde encontré una página no enlazada que develaba la verdad sobre éste artista.

    Así como este experimento realizado por algunos estudiantes de la Universidad de Michigan para crear un artista falso hay varios sitios en la web con información falaz. Además, hoy en día cualquiera tiene la capacidad de publicar información en la web pero nadie está obligado a publicar información verídica. ¿A quién creerle? Lo que aprendí es que debo:

    • Verificar la autoridad de quien publica información.
    • Verificar el contenido, su calidad, profundidad, relevancia, etc.
    • Verificar la intención del autor.
    • Verificar otros documentos sobre el mismo tema.

    Creo en el buen proceder de las personas por el dilema del prisionero que mencionó en un post anterior, pero no siempre la intención de un autor es comunicar la verdad.

    Para terminar un pequeño ejercicio: ¿Qué opinan de Genpets.com?

  • Recuperación de información Distribuida y en Paralelo

    [slideshare id=677414&doc=recuperacin-de-informacin-distribuida-y-paralela2-1224623224042122-9&w=425]

    No resultó fácil encontrar información sobre estos temas. Recomendación: Leer Modern Information Retrieval de Ricardo Baeza-Yates y Berthier Ribeiro-Neto. Capítulo 9.

    Para hacer recuperación de información en paralelo se toman grandes colecciones de documentos, se indexan para poder recuperar cada partición del documento y almacenan en varios dispositivos, es decir, pueden existir un documento de 3 Gb almacenado en tres discos de 1Gb que se reconstruye a partir del index. Así, si tenemos una gran cantidad de documentos podemos realizar varias búsquedas simultáneas para recuperar diversos documentos almacenados en diferentes discos, no es necesario esperar a que un proceso termine para empezar el siguiente. Para esto Google usa la indexación de la web.

    Mapas conceptuales de las redes sociales que conforman el ecosistema económico en Cleveland y Silicon Valley.
    Mapas conceptuales de las redes sociales que conforman el ecosistema económico en Cleveland y Silicon Valley.

    Descentralizado Vs. Distribuido

    En cuanto a la recuperación de información distribuida un buen ejemplo es la blogósfera: Muchos nodos son capaces de producir, consumir e intercambiar información.  Se crean redes distribuidas que a diferencia de las redes centralizadas o las descentralizadas nunca van a estar incomunicadas dado que siempre habrá un camino que las una. El problema de la recuperación de información distribuida es su heterogeneidad: No sabemos qué formato nos vamos a enfrentar, su idioma o la calidad de su contenido. Para esto se usa el pagerank, para valorar la información y darle prioridad a la hora de recuperarla.

    La diferencia entre Cleveland y Silicon Valley que mencionan en Nomada hablan sobre la paradoja del declive de Cleveland, ya que está altamente jerarquizada mientras que Silicon Valey presentan una topología de red distribuida que no necesariamente obedece a las jerarquías de sus nodos. Puede verse en la imágen que si un nodo central de Cleveland se desconecta dejará por fuera de la red a varios nodos que dependen de él.

    [Actualización del 2008-10-28 con comentarios de clase del profesor Leonardo Machett]

    Los militares usaron una tipología de red distribuida para comunicarse, dicha red evolucionó a Internet, la red de redes. Imagínese las búsquedas en una red centralizada, que además respondía a sus usuarios de manera secuencial, es decir, hasta que no se haya recuperado una solicitud de información no se puede realizar la siguiente bísqueda. Ahora imagínese que Google no podrá completar su solicitud hasta que se hayan respondido todas las solicitudes anteriores. ¿Cuánto tardaría?

    Para poder responder varias consultas al tiempo se realiza la recuperación de información en paralelo.

    Entre las características de la recuperación de información distribuida encontramos que la información almacenada puede ser heterogénea. Es decir, puede buscar cierta información que no se encuentra en texto como el usuario lo espera, sino que su formato está en audio.

    Otra característica emergente de la recuperación de información distribuida son las difernecias entre el idioma en que se recupera la información y la profundidad de los contenidos recuperados. Quien escribe puede ser un experto en un tema o un principiante, inclusive un embustero (como ya lo comentaré en un post siguiente)


    Referencias

    ARCHITECTURE & LANGUAGE IMPLEMENTATION. Distributed and parallel information retrieval. [en línea]. [consultado 21 de oct. De 2008]. Disponible en  <http://www-ali.cs.umass.edu/Darch/>

    BANCHERO, Santiago. Propuesta de plan de tesis [versión entregada]. [en línea]. [consultado 21 de oct. De 2008]. Disponible en <http://camaronbitmap.blogspot.com/2007/02/propuesta-de-plan-de-tesis-versin.html>

    EXPLORADORES ELECTRÓNICOS. Topologías de red. [en línea]. [consultado 21 de oct. De 2008]. Disponible en <http://www.exploradoreselectronicos.net/e4pedia/Imagen:Topolog%C3%ADas_de_red.gif>

    GARCIA-MOLINA, Hector y TOMASIC, Anthony. Issues in parallel information retrieval.[en línea]. [consultado 21 de oct. De 2008]. Disponible en <http://www.cs.cmu.edu/~tomasic/doc/1994/TomasicGarciaDEB1994.pdf>