

INTRODUCCIÓN.
El lenguaje XML (eXtensible Markup Language) comenzó a desarrollarse en septiembre de 1996 auspiciado por el W3C con un claro propósito: diseñar un lenguaje de marcas optimizado para Internet. XML debía combinar la simplicidad de HTML con la capacidad expresiva de su predecesor, SGML. En su definición participaron empresas como Microsoft, IBM, Sun Microsystems, Novell y Hewlett-Packard. La versión 1.0 fue ratificada por el W3C en la conferencia sobre SGML/XML celebrada en Washington en diciembre de 1997. En pocos años, XML se ha convertido en el lenguaje con mayor impacto en el desarrollo de aplicaciones de publicación de contenidos para Internet e Intranet.
La edición de documentos XML persigue los siguientes objetivos: Distinguir el contenido y la estructura de los documentos de su presentación en papel o en pantalla, hacer explícita su estructura y sus contenidos informativos, crear documentos que puedan intercambiarse y procesarse con facilidad en sistemas informáticos heterogéneos. Para alcanzar estos objetivos XML propone un formato en el que se intercalan marcas en el texto de los documentos con el objeto de distinguir las partes o elementos estructurales del mismo. Las principales características del lenguaje son la posibilidad de marcado descriptivo, con un conjunto de marcas abierto. En HTML y XML se intercalan marcas en los documentos.
La principal diferencia entre uno y otro está en la función de estas marcas. En XML las marcas tienen la función de diferenciar los contenidos informativos de los documentos, frente al uso que se hace en HTML, donde las marcas sirven para indicar cómo se deben visualizar los contenidos. Por otra parte, mientras que HTML nos indica qué marcas podemos utilizar cuando creamos un documento, XML no especifica un conjunto válido de marcas, sino que nos ofrece las reglas que nos permiten crear nuevos vocabularios o conjuntos de marcas aplicables para la codificación de distintos tipos de documentos.La distinción entre la estructura y la presentación de los documentos. En XML se establece una clara diferencia entre la estructura de un documento y su presentación. Las marcas de un documento XML no indican nada sobre cómo debe presentarse el documento. Para indicar cómo se debe presentar un documento en pantalla o en papel, será necesario crear una hoja de estilo aparte, y asociarla posteriormente al documento.
EVOLUCIÓN DEL LENGUAJE. Desde su formulación inicial en 1997 el lenguaje XML ha dado lugar a un elevado número de iniciativas relacionadas con el intercambio y la codificación de contenidos y metadatos. XML se ha convertido en una opción unánimemente aceptada para facilitar su gestión y recuperación. La lista de iniciativas es amplia, y si bien no todas ellas han logrado el mismo nivel de aceptación, contamos con numerosos ejemplos de la aplicación exitosa de este lenguaje en los ámbitos académicos, empresariales e institucionales.
Durante el año 2004 se publicaron nuevas propuestas e iniciativas relacionadas con el uso del lenguaje y hemos visto cómo algunas de sus especificaciones han continuado evolucionando hacia la madurez. Como ejemplos podemos citar la continua publicación de nuevas versiones de aplicaciones informáticas destinadas a trabajar con XML, el diseño de nuevos vocabularios o la adopción del lenguaje en distintos ámbitos de trabajo. Más concretamente, debe ponerse de relieve la publicación definitiva de la primera versión del vocabulario UBL (Universal Business Language) para el intercambio de documentos comerciales, y la elección del gobierno de Dinamarca de este vocabulario para sus proyectos de Administración electrónica; el desarrollo del vocabulario DITA (Darwin Information Typing Architecture) por OASIS para la codificación y reutilización de documentación técnica; o el lanzamiento de nuevas versiones de programas informáticos como DB XML de Sleepycat Software, Astoria 4.3 o la adquisición de Advent Publishing por parte de Arbortext.
Por otro lado, las líneas de trabajo que recibieron una mayor atención a lo largo del 2004 y que han logrado unos resultados más productivos son las siguientes:
Un interés creciente en las especificaciones orientadas a la integración de aplicaciones informáticas mediante el intercambio de datos a través de los llamados "servicios web". Este interés se ha materializado en la publicación de nuevas especificaciones que facilitan la orquestación y coordinación de los interfaces entre aplicaciones (BPEL4WS, BPML, etc.) o el intercambio de datos XML en formato binario.
Un mayor respaldo por parte de los organismos de normalización internacional a las especificaciones destinadas a lograr la estandarización del comercio electrónico entre empresas. Prueba de ello es la publicación como norma ISO de las especificaciones ebXML , y la reciente actualización del estándar UDDI (Universal Description and Discovery). Estos dos estándares han vuelto a despertar un interés que se vio ralentizado en años anteriores por la reducción de las inversiones en tecnologías de la información y la desconfianza en los mercados relacionados con Internet.
En la celebración del décimo aniversario de la fundación del W3C (World Wide Web Consortium), con un simposio celebrado el 1 de diciembre en Boston al que asistieron un amplio número de directivos de las principales empresas de tecnologías de la información se destacó, nuevamente, la presencia entre los patrocinadores del evento de empresas tecnológicas rivales, lo que demuestra el consenso alcanzado unánimemente en torno a los estándares publicados por el W3C. Entre las comunicaciones presentadas en este evento se destacó el impacto del Web y de sus estándares y tecnologías, entre ellas el lenguaje XML y su función en la creación, gestión y difusión de información y contenidos. A modo de ejemplo, en la presentación de Denis Lacroix (Amadeus e-Travel) y Teri Richman (Nacional Association of Conveniente Stores) titulada Impact on Science and Industry se citaron los servicios web y la web semántica cómo las dos tecnologías clave de la futura Internet, ya que facilitan la interacción de aplicaciones informáticas a partir de una representación estandarizada de la información que hace posible su comprensión, recuperación y tratamiento. En los dos casos se trata de tecnologías basadas en el uso de XML. En otro apartado de su presentación titulado significativamente " Cómo el W3C ha ayudado a nuestra industria ", Teri Richman incluía una mención a los lenguajes HTML y XML como medios que han hecho posible el intercambio de datos a escala global..
Estas contribuciones son tan sólo una muestra del protagonismo alcanzado por el lenguaje XML desde su creación hace ya 8 años y del reconocimiento de su importancia en los procesos de creación, gestión, y sobre todo intercambio de contenidos y conocimiento.
Pero cuando nos referimos a la gestión de contenidos vemos que no siempre se asocia este término a la utilización del lenguaje XML. ¿Qué relación podemos establecer entre esta práctica y el formato? ¿A qué nos referimos cuando hablamos de gestión de contenidos?
DEFINICIÓN DE GESTIÓN DE CONTENIDOS.
La elaboración de una definición de gestión de contenidos encontraríamos las mismas dificultades que encontramos al hablar de gestión documental o de gestión de conocimiento. Esta dificultad se debe, principalmente, al uso que de este término se viene haciendo en diferentes contextos. Por una parte, el mercado de aplicaciones informáticas ha acuñado su propia definición. Existe un conjunto de aplicaciones informáticas que presentan unas características comunes bajo este nombre. Esto ha hecho que actualmente, y por extensión, el término gestión de contenidos se haya equiparado al conjunto de funciones que forman parte integral de este tipo de programas. Por otra parte, la gestión de contenidos también puede equipararse a un planteamiento más amplio enfocado a la gestión global de los recursos de información de una institución o empresa mediante tecnologías web (Internet e Intranet). Este enfoque da a la tecnología un papel facilitador, y el mayor peso recae en los aspectos relacionados con la identificación de recursos de información internos y externos, su valoración, gestión y tratamiento eficiente. Se trata de una propuesta que puede verse como una evolución de la gestión documental tradicional y, si nos remontamos más atrás en el tiempo, en iniciativas como el Information Resources Management (IRM) propuesto por Horton en la década de los 80.
Una tercera definición de gestión de contenidos procede del área de la gestión de publicaciones y documentos electrónicos. En este ámbito, se usa el término para referirse a la aplicación de una serie de técnicas y herramientas para la codificación, almacenamiento y distribución de publicaciones en formato digital. Es en este ámbito donde la utilización de los lenguajes de marcas " inicialmente SGML y posteriormente XML " ha sido una constante debida a su carácter abierto, la independencia de proveedores y de plataformas hardware/software específica, y la posibilidad de reutilizar el mismo contenido en múltiples productos y publicaciones . En los tres casos se pueden encontrar puntos comunes. El más importante de ellos, la nece]sidad de utilizar tecnologías de la información y sistemas informáticos para el almacenamiento y distribución de información de naturaleza textual.
La función de XML en la gestión de contenidos
Una vez hemos definido las funciones que caracterizan una aplicación de gestión de contenidos, es necesario dar respuesta a dos cuestiones: ¿qué función cumple el lenguaje XML en este tipo de sistemas? y ¿cuáles son las ventajas que podemos obtener de su aplicación?
En los apartados anteriores hemos señalado algunas características de las aplicaciones de gestión de contenidos que nos recuerdan los principales aspectos del lenguaje XML. Así, hemos señalado entre las ventajas de la gestión de contenidos la clara diferenciación entre los contenidos propiamente dichos y las plantillas que se utilizan para su edición y visualización, de forma que es posible reutilizar un mismo contenido en distintos contextos. Como recordaremos, esta es una de las principales ventajas del formato XML: la distinción entre contenidos y presentación.
Otros de los aspectos donde se manifiesta el potencial del lenguaje XML aplicado a la gestión de contenidos es la gestión del repositorio de metadatos asociados a las distintas páginas. Son numerosos los sistemas de metadatos propuestos en los últimos años para la recuperación de información que han optado por XML como formato de codificación. En este grupo tendríamos Dublin Core, MARCXML, MODS, etc. Pero donde resulta más evidente la aplicación de XML es en los procesos de intercambio, transferencia e integración de información. De hecho, si bien sería posible obviar la utilización de XML en el almacenamiento de contenidos y en la gestión de metadatos, la integración y sindicación de contenidos resultaría prácticamente inabordable sin la utilización de este formato.
En los siguientes apartados se incluye una breve descripción de cada una de estas áreas de aplicación.
XML como base para el almacenamiento de contenidos
Los contenidos gestionados y publicados a través del sitio web pueden almacenarse de distinta forma, aunque para garantizar su posterior reutilización y recuperación debemos considerar las ventajas que ofrece XML como lenguaje de almacenamiento frente a otras alternativas como HTML.
Debemos citar la importancia que en los últimos años están alcanzando las llamadas bases de datos XML nativas. Con este término nos referimos a bases de datos que almacenan y gestionan una colección de documentos XML sin realizar ningún tipo de transformación previa. En este modelo, el documento XML es la principal unidad de almacenamiento de la información. Contrasta este tipo de bases de datos con las bases de datos relacionales, en las que la información se guarda en una colección de tablas formadas por campos y registros, con una estructura sumamente rígida que debe ser predefinida con anterioridad, y que en muchas ocasiones no da cabida a la flexibilidad que exige el almacenamiento de documentos de naturaleza textual.
Entre los principales exponentes de las bases de datos XML nativas podemos destacar sistemas comerciales como Tamino, de la empresa alemana Software AG, Textil, o el sistema código abierto DBXML, que se puede obtener gratuitamente.
No obstante, como señalamos inicialmente, una aplicación de gestión de contenidos no tiene que estar vinculada, forzosamente, a una base de datos XML nativa. Aunque se opte por almacenar los textos en formato XML, cabe la opción de guardarlos en un sistema de bases de datos relacional utilizando los tipos de datos que permiten guardar y gestionar campos de texto de longitud variable.
Para facilitar la edición de contenidos en XML, los principales proveedores de herramientas de edición han publicado utilidades que permiten la interacción entre éstas y el repositorio de datos de la aplicación de gestión de contenidos. Encontramos ejemplos de esta integración en las propuestas de las empresas Altova, Blast Radius, XYEnterprise o Stylus.
XML como modelo para la representación de metadatos
Algunos de los sistemas de metadatos que se han publicado en los últimos años han optado por el lenguaje XML como principal mecanismo de representación y codificación de los mismos. Las ventajas de usar XML frente a otras alternativas se encuentran en su orientación hacia Internet, la facilidad de su intercambio y posterior procesamiento utilizando una única sintaxis común, y la opción de combinar e intercalar los metadatos dentro del texto completo de los documentos. Así, sería posible codificar un texto usando un conjunto de etiquetas o marcas relevantes para ese tipo de información, y agregarle metadatos descriptivos o administrativos como parte de la cabecera de dicho documento, codificados en cualquier otro vocabulario siempre que éste también esté basado en la sintaxis XML.
Si se opta por usar XML para la codificación de los metadatos debe considerarse la necesidad de disponer de un sistema de indexación y recuperación que permita discriminar documentos a partir del contenido de elementos o atributos específicos. Es decir, el sistema de búsqueda no sólo debe permitir la búsqueda en texto completo (esto es, poder recuperar el documento si contiene una combinación de palabras en particular), sino también si dichas palabras aparecen dentro de un elemento específico o en alguno de sus elementos descendientes. Sólo de esta forma se pueden obtener las ventajas de la organización jerárquica de la información que caracteriza al lenguaje XML.
En este sentido, las bases de datos XML nativas incorporan este tipo de herramientas y utilidades de búsqueda. Las aplicaciones de gestión de contenidos que utilizan otro sistema de repositorio (normalmente una base de datos relacional), presentan aquí algunas limitaciones, ya que esta tecnología no suele incorporar herramientas de indexación adaptadas a las características del formato.
XML como medio de intercambio e integración de contenidos
Señalábamos con anterioridad la función primordial de XML como facilitador del intercambio y agregación de contenidos. Decíamos que es en este área donde mayor y más evidente se hace la capacidad y el potencial del formato en las actividades relacionadas con la gestión de contenidos.
Pues bien, debemos recordar que XML no se trata, únicamente, de un formato para codificar textos y documentos, sino de una familia de especificaciones que establece la forma en la que se pueden procesar y presentar dichos textos. Especificaciones como XSLT, DOM o XPath hacen posible procesar documentos XML basados en distintos vocabularios mediante distintos lenguajes de programación (Visual Basic, Java, etc.), utilizando un modelo común, estándar y claramente documentado.
La posibilidad de obtener a través de la red documentos XML y procesarlos con facilidad para cualquier fin (por ejemplo, para integrarlos en un repositorio o base de datos, o para visualizarlos como parte de nuestro sitio web), nos ofrecen una flexibilidad extrema y abre las puertas a cualquier tipo de integración.
Conclusiones
En los anteriores apartados se han descrito las principales características de la gestión de contenidos, y hemos visto como este término está estrechamente vinculado a un tipo de aplicaciones informáticas que ha surgido en los últimos años como respuesta a la problemática derivada de la gestión de sitios web.
En relación al lenguaje XML, se han señalado el potencial que ofrece la aplicación de este lenguaje en los procesos de gestión de contenidos, sea como formato para el almacenamiento de los contenidos y metadatos, o como herramienta para la integración y el intercambio de contenidos procedentes de aplicaciones o de organizaciones externas.
Estas son las principales áreas de aplicación del formato en la gestión de contenidos, y podríamos encontrar distintos escenarios de su utilización; dependiendo del escenario, la importancia dada a una o a otra será mayor o menor.
De esta forma, si pensamos en aplicaciones orientadas al comercio electrónico entre empresas, donde el intercambio de documentos comerciales estructurados resulta clave, el mayor protagonismo recaerá en el uso de XML como formato de intercambio. Sin embargo, si pensamos en aplicaciones orientadas a la publicación de información, se dará una mayor relevancia a la aplicación del lenguaje como medio de almacenamiento de la información y como formato para la creación y edición de los documentos.
De hecho, una de las diferencias que suele hacerse al tratar de la aplicación de XML en la gestión de documentos y contenidos, es entre la gestión de documentos persistentes frente a los documentos transaccionales.
Con el primer término se hace referencia a los documentos que se crean en formato XML, usando herramientas de edición, y que se almacenan en ese formato, sin hacer ningún tipo de transformación; se trata de documentos dirigidos a personas (editores, lectores, autores, etc.), que se almacenan de forma permanente. Por documentos transaccionales se entiende cualquier documento que se genera con el único fin de intercambiar una información a través de Internet, en formato XML, pero cuyo ciclo de vida finaliza en cuanto el documento es recibido y procesado por la organización receptora. En el caso de los documentos transaccionales se trata de documentos volátiles, que tienen como única finalidad facilitar el intercambio de información y que normalmente se crean a partir de la información disponible en cualquier otro sistema o base de datos. Los documentos transaccionales son los documentos que hacen posible las transacciones propias del comercio electrónico entre empresas, la función que ha correspondido tradicionalmente al modelo EDI (Electronic Data Interchange) y a su familia de estándares X12, EDIFACT, etc.
Cabría la opción de ampliar el alcance de la gestión de contenidos para referirnos también a este tipo de información. Como hemos visto, la amalgama de tecnologías que hacen posible la gestión de contenidos, y la posibilidad de optar por distintas alternativas para su almacenamiento y gestión, hacen difícil dar una única definición, y siempre quedan aspectos abiertos que nos permiten ampliar dicho alcance para incluir o excluir cuestiones concretas.
En cualquier caso, se hace manifiesto el potencial del lenguaje en estos distintos escenarios, como demuestra la adopción que del mismo han realizado los principales proveedores de sistemas informáticos que, a la larga, son quienes han dotado a esta disciplina de un significado.
Esta información es un compendio de la bibliografía que se cita a continuación. En el próximo tema, se tratará específicamente la descripción de archivos en línea. EAD.
BIBLIOGRAFIA -
- WIKIPEDIA . Concepto de XML
- Eduardo Peis y Antonio A. Ruiz-Rodríguez. EAD (Encoded Archival Description): Desarrollo, estructura, uso y aplicaciones [en linea]. "Hipertext.net", núm. 2, 2004.
- EAD (Encoded Archival Description), archivos en línea.
- Ricardo Eíto Brun. XML y la gestión de contenidos [en línea].
No hay comentarios:
Publicar un comentario