Vicente Luque, M Carmen Fernández, Carlos Delgado
Andrés Marín, Carlos García
Área Ingeniería Telemática
Dept. Tecnologías de las Comunicaciones
Universidad Carlos III de Madrid
Avda. Universidad, 30, E-28911 Leganés (Madrid), Spain
http://www.it.uc3m.es/~per
Resumen
El Periotrónico es un proyecto de prensa electrónica creado para integrar en una misma aplicación todas las posibilidades que ofrece actualmente la comunicación en Internet (multimedia, audio, vídeo, navegación hipertextual, etc). La aplicación se está desarrollando intentando obtener el máximo beneficio de las tecnologías Web (XML, Java, JavaScript, CSS, push-pull, etc). Este documento pretende dar una visión general de como estas tecnologías afectan al concepto de prensa así como una breve descripción de su integración en la arquitectura que se está desarrollando.
El World Wide Web no sólo ha dado a conocer Internet al mundo entero, sino que ha producido un crecimiento espectacular de su utilización en un breve periodo de tiempo. Este novedoso medio de comunicación ha hecho posible un aumento de varios órdenes de magnitud tanto en la velocidad como en la cantidad de información disponible.
La aplicación de la tecnología del Web al periodismo tiene un interés particular para nosotros. Mientras que cada vez aparecen más servidores de información especializados en temas muy concretos del conocimiento humano, se espera que sean los periódicos los que faciliten por la red la información de actualidad, aquella información de última hora que nos mantenga bien informados y que nos permita profundizar aún más en su adquisición si así lo requerimos.
Un periódico o revista electrónica tiene características especiales que le distinguen de las ediciones impresas en papel. Los mecanismos de hipertexto permiten un acceso directo a la información en contraposición a la lectura secuencial que suele seguirse en una diario impreso. Además, los periódicos electrónicos son instantáneos, interactivos (al contrario de la televisión), carecen de limitaciones del espacio físico del papel, son actualizables continuamente, permiten la inclusión de elementos multimedia (que pueden ir desde las imágenes de una cierta calidad hasta el audio o el vídeo), y son programables (y por tanto personalizables). Por si fuera poco, incluso tienen menores costes de producción y de difusión. Estas características han sido tenidas muy en cuenta por numerosos grupos editoriales, tal y como lo demuestran los más de 4000 periódicos y revistas existentes actualmente en la red.
En este artículo presentamos el trabajo que estamos desarrollando en el Área de Ingeniería Telemática de la Universidad Carlos III de Madrid dentro del proyecto El Periotrónico: Concepción y Desarrollo de un Periódico Personalizable. Proyecto que llevamos a cabo conjuntamente con los departamentos de Biblioteconomía y Documentación y el de Humanidades y Comunicación de la Universidad Carlos III de Madrid.
El esquema del resto del artículo es el siguiente: en la sección 2 se revisan las distintas tecnologías implicadas, a continuación se explican las decisiones de diseño (sección 3) que hemos tomado en la realización del periódico electrónico; la sección 4 explica la arquitectura de la herramienta: el cliente del periodista, la base de datos de noticias, el servidor de noticias y el visor del cliente. La sección 5 presenta las conclusiones del trabajo.
Una de las razones del éxito de la tecnología Web es su simplicidad. Los usuarios no necesitan apenas formación para navegar por una página Web y gracias a la enorme cantidad de herramientas existentes la creación de páginas HTML es un proceso sencillo. Por otra parte también se ha observado en estos últimos años la evolución en la concepción de los documentos. Así hemos pasado de los documentos de texto unidimensionales que no contienen información sobre sí mismos a documentos HTML bidimensionales(contienen etiquetas que describen sus elementos) y permiten la navegación.
Pero la funcionalidad de los documentos HTML es bastante limitada ya que por una parte el estilo y la lógica del documento están predefinidos y por otra parte la misma simplicidad de la tecnología Web hace que no se aproveche la capacidad de procesamiento de la máquina cliente, que ha quedado convertida en un simple visualizador, obligando así a conectarse al servidor para cualquier interacción (como filtrar los resultados de una consulta en una base de datos, etc) Surge por tanto la necesidad de emplear documentos más complejos que puedan interaccionar con el usuario de forma independiente del servidor y que puedan ser presentados, almacenados, catalogados, consultados e incluso enviados de forma más eficiente.
Tanto los plug-ins como Java permiten añadir funcionalidad al Web, pero ambos obligan al navegador a interpretar programas independientes del propio documento. Las grandes compañías están dirigiendo sus esfuerzos hacia una concepción orientada a objetos del documento, tanto Microsoft como Netscape han propuesto un modelo de objetos [5] para su estandarización por el World Wide Web Consortium. La idea común es considerar tanto el documento en sí mismo como los elementos predefinidos por HTML que contiene (cabeceras, listas, tablas, etc ) como objetos programables y definir su presentación mediante hojas de estilo [3] y su lógica, así como la forma de responder frente a eventos de usuario mediante JavaScript.
Este nuevo paso permite interaccionar parcialmente al usuario con el documento sin necesidad de conectarse con el servidor (ej: formularios que validan si todos sus campos están correctamente rellenos antes de ser enviados al servidor). El problema actual radica en que las etiquetas HTML son demasiado limitadas y cambiantes ([4]), por eso surge la necesidad de un lenguaje más potente como XML [1] que permita catalogar, almacenar y buscar información de los documentos de forma estructurada, y que proporcione mecanismos de hipertexto más ricos y flexibles.
XML es el nuevo lenguaje de marcado ``extensible'' diseñado por el organismo regulador de tecnología del Web (W3 Consortium) que permite el uso en Internet de SGML (un estándar de marcado que lleva funcionando desde hace años en muchos dominios dedicados a la publicación de información escrita). XML permite ``inventar'' conjuntos de etiquetas de marcado de textos para dominios particulares de usuarios, facilitando así la creación de lenguajes personalizados. De este modo los documentos se convierten en contenedores de objetos definidos por nosotros mismos (mediante etiquetas personalizadas) que incluyan instrucciones sobre como deben ser procesados (JavaScript), presentados (CSS) y que puedan interaccionar con otros programas (Java, plug-ins, etc). La estructura lógica del documento (información relativa a las etiquetas que contiene) puede definirse en un fichero aparte llamado DTD (Document Type Definition) y pueden crearse programas que validen esta estructura.
Las últimas tendencias en periodismo electrónico se están enfocando en el uso de la tecnología PUSH, que permite que se puedan recibir las noticias del servidor del periódico sin que sea necesaria la intervención del usuario lector. De esta forma, el lector del periódico ya no tiene necesariamente que solicitar una recarga de su página de titulares de noticias cada vez que quiera ver qué novedades han acontecido, sino que esa actualización se realiza automáticamente. Es el propio servidor de noticias el que se encarga de mantener actualizadas las páginas que están visualizando sus clientes. En este sentido, se ha empezado a hablar ya de canales o conexiones entre clientes y servidores de Web en los que la información es actualizada de forma continua. En la actualidad existen algunos tipos de canales funcionando en Internet (como los canales CDF de Microsoft).
La aproximación del ``PULL inteligente'' consiste en que el propio cliente el encargado de conectarse automáticamente con el servidor para actualizar su información. Esto lleva a una descentralización del control, el servidor se ve liberado de una buena parte de la carga, posibilitando el acceso a un mayor número de usuarios simultáneamente.
En el diseño de un periódico electrónico, la tecnología empleada debe ser escogida con cuidado: lo que es usado hoy se volverá obsoleto antes de lo que uno se imagina. Las tecnologías que hemos considerado en este trabajo son: XML, PUSH/PULL inteligente, CSS, Java y JavaScript.
En la actualidad, el contenido de información ``pura'' en los documentos de HTML de un periódico electrónico de primera generación (como puede ser EL PAIS DIGITAL o EL MUNDO) ocupa (en media) entre el 50% y el 70% de su tamaño físico en bytes. El resto de la página contiene etiquetas HTML que sirven para dar formato al documento dentro de la pantalla (tablas con bordes invisibles para lograr el efecto de columnas, espaciadores, colores, fuentes y tamaños de letra, botones de navegación, ...) y que, además de ser fijos y establecidos de una forma no configurable por el lector (pues están embebidos en los documentos HTML), apenas varían entre las distintas páginas de un mismo periódico.
En este sentido resulta útil poder separar el contenido de un documento de los aspectos de presentación. Una de las decisiones básicas de nuestro proyecto es la selección de XML como lenguaje de etiquetado para la descripción de contenidos, en lugar de basarnos en la tecnología actual de HTML. Basándonos en la definición de etiquetas de HTML estos principios, hemos definido sobre XML nuestro propio lenguaje JML (Journalism Mark-up Language) y hemos formalizado su gramática de acuerdo con las normas de XML mediante la expresión de su DTD (document type definition).
Dentro de la tecnología PUSH, hemos considerado la utilización de canales CDF, pero son específicos de algunos fabricantes, y no funcionan en otros navegadores. Además la tecnología PUSH requiere mantener recursos en el servidor en función del número de usuarios y del servicio que se le quiera dar. Este hecho unido a la personalización del periódico, nos hizo decidirnos por una combinación de la tecnología PUSH con el PULL inteligente. La principal desventaja del ``PULL inteligente'' radica en que el periódico no tiene un mecanismo directo para evaluar las preferencias de sus lectores.
Todas estas decisiones en cuanto a la selección de las distintas tecnologías van orientadas a conseguir uno de los principales objetivos de diseño fijados: la personalización. La elaboración de un periódico personalizado permite atender a las necesidades específicas de los distintos lectores.
El proceso de personalización tiene lugar en dos fases. La primera consiste en la personalización de los contenidos por parte del servidor antes de enviar la noticia al lector. En una segunda fase se describen los distintos aspectos de la personalización en la presentación (que abarca tanto la estructura y formato con que se muestra la información en la pantalla como la estrategia de navegación escogida) La figura 1 ilustra las distintas fases en el proceso de personalización.
Figure 1: Personalización del periódico electrónico
Nuestro sistema está compuesto por varios elementos, como puede verse en la figura 2. Por una parte, los periodistas hacen uso del cliente para periodistas mediante el cual pueden etiquetar la noticia e insertarla en un repositorio. De este repositorio o base de datos, se extraen los distintos elementos que componen las noticias (texto, vídeo, imagen, etc) y el servidor se encarga de su composición en formato JML atendiendo a aspectos adicionales como el perfil del usuario, la inserción de publicidad, etc, para su envío.
El cliente, recibe así una edición personalizada del periódico en formato JML y la preprocesa en su visor mediante un plug-in que la transforma en formato HTML. Este plug-in será prescindible cuando los navegadores sean capaces de presentar documentos XML de de forma nativa, igual que ahora ocurre con HTML.
El perfil de usuario puede hacer referencia a un usuario concreto o a una comunidad virtual de distintos lectores que dispongan del mismo perfil. De cara a estas comunidades virtuales se podría optimizar el proceso de generación del periódico mediante el uso de tablas de hash y caches en el servidor.
Figure 2: Arquitectura del servidor de noticias
Esta nueva concepción del periodismo afecta también al proceso de creación y edición de las noticias. Por una parte, el periodista no se ve limitado por el espacio físico de una columna de papel, tiene a su disposición nuevas formas de comunicación para presentar la información a sus lectores (imágenes de alta calidad, animaciones, sonido, vídeos, etc), además ya no tiene porqué dirigirse a un público concreto, puede escribir noticias ``multidimensionales'' permitiendo presentar distintas líneas de información con distintos niveles de profundidad que permitan una posterior personalización por parte del usuario, es decir una noticia que pueda leerse de varias formas. Todas estas nuevas posibilidades enriquecen y a la vez complican el proceso de creación de una noticia. Por una parte el periodista debe elegir los elementos multimedia más adecuados para presentar una noticia, y por otra debe considerar cuántos niveles de profundidad o desde cuántos enfoques quiere hacerla accesible.
El editor debe considerar además que las noticias ``envejecen'' con el paso del tiempo, y requieren por tanto un mantenimiento constante, o un parámetro que mida su obsolescencia (ej.: una etiqueta que haga referencia a la ``importancia'' de la noticia).
Desde el punto de vista tecnológico todo esto se reduce a una sola cosa: Necesitamos tener en el documento información relativa a su estructura (metadatos).
El lenguaje de etiquetado debe ser ``transparente'' para el periodista, por tanto la herramienta de generación de noticias consiste básicamente en una aplicación multiplataforma con un interfaz gráfico amigable que le permita insertar fácilmente información estructurada (inserción automática de etiquetas) y mantener actualizado el periódico de una forma fácil y cómoda sin necesidad de disponer de conocimientos técnicos especiales.
Esta aplicación escrita en Java presenta al periodista una ventana formulario con campos fácilmente rellenables en los que se insertan los metadatos de la noticia que está publicando (autor, título, sección a la que pertenece, importancia, ...). De esta forma, el periodista se preocupa sólo por el contenido de la noticia y su estructura interna, no por la apariencia física que va a tener ésta ante el lector (la cual depende de sus preferencias).
El cuerpo de la noticia puede ser editado con cualquier herramienta externa, que bien puede ser un simple editor de textos, o un editor genérico de (XML/JML). Las versiones más recientes de Emacs tienen extensiones para SGML, y otras herramientas como ADEPT-Editor permiten además de la inserción automática de etiquetas, la validación de la gramática descrita en el DTD. Una vez confeccionada la noticia y si todos los campos del formulario se han rellenado correctamente se procede a su inserción en la base de datos que se describe en el punto siguiente.
La base de datos almacena todos los elementos de información (noticias, reportajes, fotografías, ...) publicados por el periódico hasta la fecha actual. La principal novedad es la importancia que se atribuye a los metadatos introducidos por el periodista y la estrecha relación que guardan con las etiquetas JML definidas en la gramática (DTD).
Estas etiquetas corresponden a campos de la base de datos que podríamos clasificar en tres grandes grupos: los campos básicos del documento (identificador de la noticia, título, autor, etc), la información sobre su contenido (sección, género, etc) y la información para la gestión (nivel de importancia de cada noticia, enlaces, etc). En el siguiente apartado se describen estos campos con mayor detalle.
Los metadatos particularizados para dominios concretos (en nuestro caso documentos periodísticos) proporcionan una gran potencia y flexibilidad tanto para la creación y almacenaje de los documentos como para su posterior recuperación mediante búsquedas, etc.
Este repositorio de noticias puede estar mantenido por cualquier servidor de base de datos relacional que tenga interfaz SQL y que permita accesos por red. Para nuestras pruebas, hemos seleccionado el servidor de base de datos de libre distribución MySQL, que funciona de forma fiable en muy variadas plataformas y sistemas operativos, y más concretamente, en una red de máquinas Linux. Esta base de datos se puede sustituir por otras que también dispongan de interfaz SQL comoMS SQL Server de Microsoft, Oracle, Informix, etc. El acceso a la base de datos queda restringido al cliente para periodistas y al servidor de noticias, que es el encargado de hacer llegar la información a los lectores del periódico.
El cliente de periodistas puede acceder a la base de datos tanto para crear contenido, como para modificarlo, usando para ello un formulario que permita insertar correctamente las modificaciones en el elemento adecuado del documento.
Por otra parte el servidor de noticias accede a la base de datos mediante consultas SQL. Estas consultas se basan en el perfil del usuario cuando el servidor funciona en modo publicación o en los distintos campos de búsqueda introducidos en un formulario por el lector cuando el servidor funciona en modo hemeroteca.
Cada uno de los elementos almacenados en la base de datos contiene información sobre sí mismo (metadatos) que sirven para confeccionar los documentos en JML que se le presentan al lector. Ejemplos de estos metadatos son:
<JML> <JML_HEAD> <JML_TITLE> Kosovo y nosotros </JML_TITLE> <JML_DATE> 3 abril de 1998</JML_DATE> <JML_PLACE> Kosovo, Yugoslavia </JML_PLACE> <JML_SECTION> Opinión </JML_SECTION> <JML_AUTHOR> Gurutz Jáuregui </JML_AUTHOR> </JML_HEAD> <JML_BODY> <IMPORTANCE LEVEL=0>La nueva crisis en los Balcanes...</IMPORTANCE> <IMPORTANCE LEVEL=1>En primer lugar, no conviene olvidar que...</IMPORTANCE> <IMPORTANCE LEVEL=0>Por ello, Europa no puede ampararse...</IMPORTANCE> <IMPORTANCE LEVEL=2>A ello hay que añadir que...</IMPORTANCE> </JML_BODY> </JML>
Una de los principales novedades a la hora de ``servir'' las noticias a los lectores del periódico es la personalización. Mientras que antes el periódico debía llegar a un equilibrio entre el espacio disponible y los contenidos a tratar para llegar mediante una edición única y homogénea a la mayor cantidad de público posible. Ahora las nuevas tecnologías ofrecen la posibilidad de personalizar los contenidos y su nivel de profundidad de detalle para atender las necesidades de cada uno de sus lectores individualmente. Esta capacidad de personalización es uno de los valores añadidos más importantes de la prensa electrónica.
Esta nueva funcionalidad requiere llevar a cabo un proceso de selección de noticias en el servidor que se adecue a los intereses de cada lector. Mediante este proceso de selección de noticias se consigue no sólo un mejor acercamiento del lector a la información que le interesa, sino además un aprovechamiento más útil de la capacidad de transmisión (ancho de banda) de la red.
Para llevar a cabo la selección de las noticias será necesario caracterizar a los distintos lectores. Esta caracterización puede ser individual (si se tienen en cuenta las preferencias de cada lector de forma personal) o por grupos afines (se incluye al lector en el grupo de lectores interesados por unos mismos contenidos) y se llevará a cabo mediante la elaboración de perfiles de usuario a partir de formularios que rellene el propio lector la primera vez que se conecte.
El envío de los documentos JML a los usuarios se realiza mediante tecnología PUSH combinada con pull-inteligente.
El servidor es una capa intermedia entre la base de datos y el lector y proporciona los servicios de publicación y hemeroteca digital. Consta de un servidor Web y uno o varios programas CGI que atienden las peticiones de los lectores.
El servidor es capaz de construir el periódico mediante consultas SQL basadas en el perfil del lector. Este fichero contiene información sobre sus preferencias (parte de ellas declaradas por el mismo lector en el proceso de suscripción al periódico, parte de ellas aprendidas por el sistema a partir de las peticiones pasadas).
La personalización de contenidos afecta a la cantidad y al tipo de información que recibe el lector del periódico, y es considerada antes de que esa información sea enviada . En nuestra primera versión del proyecto, esta caracterización se captura en un formulario HTML que se almacena en el ordenador del cliente y del cual el servidor tiene copia. Entre la información referente a las preferencias de contenidos del lector figurarán:
Para cada una de las dimensiones anteriormente mencionadas, el lector del periódico puede indicar su grado de interés, que sumado al grado de importancia asignado por el periódico a la noticia en sí misma y teniendo en cuenta su antig"uedad permite decidir su nivel de resalte en pantalla.
Además, el servidor de noticias considera la existencia de un interés editorial o información adicional que el periódico desee introducir en todas las ediciones individualizadas (publicidad, editorial, opinión del periódico, etc.), y se añade al documento antes de su envío.
Este tipo de acceso es más costoso para el periódico, pues supone una mayor carga de trabajo para su servidor, además, requiere que el número de clientes simultáneos que hacen uso de la hemeroteca digital no sobrepase cierto límite con el fin de no ralentizar el funcionamiento del sistema.
Sin embargo, la posibilidad de abrir a los clientes la posibilidad de acceder a noticias con cierta antig"uedad, de realizar investigaciones en el periódico mediante búsquedas dirigidas por temas, hace pensar que muy probablemente, en la medida en la que esa hemeroteca tenga más contenidos y abarque mayores periodos de tiempo, se pueda ofrecer como un servicio de valor añadido muy importante para el periódico.
Tras la primera fase de personalización de contenidos en el servidor, al cliente le llega una versión del periódico con una información precisa, actualizada e individualizada donde encuentra las noticias presentadas no sólo según su nivel de importancia objetivo (en el panorama de la actualidad) sino también introduciendo un grado de subjetividad (según sus intereses particulares).
Una vez que el lector ha recibido el periódico puede especificar aún más el nivel de personalización seleccionando la forma de presentar los contenidos en pantalla y la estrategia de navegación.
La herramienta del cliente consiste simplemente en un navegador Web con soporte XML (como se espera que sean los futuros Netscape Navigator 5.0 o Microsoft Internet Explorer 5.0). Mientras dichos navegadores no estén disponibles, se podrán utilizar visores de HTML tradicionales con un plug-in que incorpore un filtro que transforme JML en HTML.
Dentro de los aspectos de presentación hacemos referencia no sólo a la forma de estructurar la información presentada (posición de las distintas ``cajas'', colores, tamaño de fuente, etc) sino también a la estrategia de navegación escogida. A diferencia del caso anterior esta personalización tiene lugar en la máquina cliente, después de que le ha llegado la información.
La estructuración de las distintas cajas en la pantalla así como el formato de la misma podría hacerse mediante hojas de estilo en cascada (CSS) que permiten asociar un formato predeterminado (posición, color, tamaño de fuente, etc) a los distintos elementos estructurales de JML.
En principio, aunque el periódico proporcione algunas CSS por defecto que definan su estilo, podría ofrecerse al cliente la posibilidad de crear sus propias hojas de estilo.
Por otra parte la navegación puede hacerse atendiendo a diversos criterios.
Los criterios de navegación arriba descritos pueden combinarse o cambiar de uno a otro según los intereses del lector.
La tradicional concepción del periodismo se ha visto alterada por el espectacular crecimiento de Internet. Como consecuencia ha aparecido una nueva forma de periodismo: el periodismo electrónico. Nuestro enfoque va más allá de la simple publicación electrónica del material tradicional y de nuevos elementos multimedia.
Hemos presentado JML, un lenguaje de marcado que hemos desarrollado basándonos en XML. JML incluye aspectos semánticos de las noticias, haciendo posible la personalización del periódico y facilitando su almacenamiento y consulta.
La personalización hace posible la diferenciación de contenidos, presentación y navegación. Los aspectos que hemos tenido en cuenta en la personalización son el perfil del lector, su historial y su pertenencia a una comunidad virtual.
También hemos descrito la implementación realizada de un servicio de hemeroteca digital. Con la posibilidad de consultas ``semánticas'' (gracias a la utilización de JML) sobre la base de datos de noticias del periódico.
El trabajo en el que se basa este documento ha sido parcialmente financiado por el proyecto TEL97-0788 de la CICYT. Queremos agradecer las aportaciones de nuestros compañeros Peter T. Breuer, Pilar Diezhandino, Tony Hernández, Natividad Martínez, Tomás Nogales, A. Rodríguez de las Heras y Luis Sánchez de la Universidad Carlos III de Madrid. Agradecemos también la ayuda prestada por El PAIS Digital y Fundesco.
http://www.w3.org/TR/REC-xml
http://www.w3.org/TR/1998/PR-CSS2-19980324
http://www.w3.org/TR/REC-html40-971218
http://www.w3.org/TR/WD-DOM-19980318
http://www.ltg.ed.ac.uk
http://www.arbortext.com/editor.html
http://ftp.sunet.se/pub/unix/databases/relational/mysql/index.html
Diseño de un periódico electrónico personalizado
This document was generated using the LaTeX2HTML translator Version 96.1 (Feb 5, 1996) Copyright © 1993, 1994, 1995, 1996, Nikos Drakos, Computer Based Learning Unit, University of Leeds.
The command line arguments were:
latex2html -split 0 evi98.tex.
The translation was initiated by Vicente Luque Centeno on Wed Jul 1 16:02:09 MET DST 1998