Análisis de contenidos
© de esta edición, Fundació Universitat Oberta de Catalunya (FUOC)
Av. Tibidabo, 39-43, 08035 Barcelona
Autoría: Manela Juncà Campdepadrós
Producción: FUOC
Todos los derechos reservados

Índice
- Introducción
- 1.El resumen humano y automático
- 1.1.Tipos de resúmenes
- 1.2.Resumen automático
- 2.La indización y la recuperación: lenguajes documentales y lenguaje natural
- 3.Calidad y coherencia en la representación de contenidos
- Bibliografía
Introducción
-
UNO 50-103-90, preparación de resúmenes.
-
UNO 50-121-91, métodos para el análisis de documentos, determinación de su contenido y selección de términos de indización.
-
Las normativas propias de cada lenguaje documental: vocabulario, combinaciones, mantenimiento, actualización.
Materia |
Historia medieval - Terminología |
Resumen |
Este es un libro poco corriente. Ni diccionario ni manual, significa una nueva y eficaz forma de introducción –a la vez analítica y sintética– a los problemas de la historia de la Edad Media. En efecto, a partir del análisis de medio centenar de conceptos fundamentales y de su evolución semántica, el profesor Pierre Bonnassie, de la Universidad de Toulouse, consigue definir, con insólita precisión, las grandes cuestiones que hoy tiene planteadas la historia medieval. El resultado es un texto innovador, de uso obligado para profesores y estudiantes, que encontrarán en él un instrumento de trabajo insustituible. |
1.El resumen humano y automático
-
Extraer términos de indización de su texto, es decir, indizar a partir del resumen.
-
Hacer búsquedas de palabras clave que no se encuentran en el título.
-
Servir de control bibliométrico, al comparar los términos usados en una ecuación de búsqueda con los términos que aparecen en un resumen y así establecer la pertinencia de la recuperación.
-
Ayudar a la difusión desde los servicios de alerta.
-
Brevedad. Se tienen que omitir datos preliminares o temas del conocimiento común.
-
Pertinencia. El resumen se tiene que adecuar al mensaje principal del documento, sin obviar o interpretar los datos.
-
Claridad y coherencia. Frases completas, dotadas de coherencia lineal y global.
-
Profundidad. Varía en función del tipo de resumen o de los diferentes niveles de detalle que se persigan.
-
Consistencia lingüística. Un resumen se tiene que adaptar a las pautas lingüísticas en uso y tiene que tener en cuenta las reglas morfológicas y sintácticas correspondientes.
-
Proximidad cronológica entre las ediciones del documento original y el resumen. Es importante que el tiempo transcurrido entre la publicación del original y el resumen no sea excesivo, especialmente en ámbitos científicos y técnicos.
-
El resumen es la presentación abreviada y precisa de un documento, sin interpretación ni crítica y sin mención expresa del autor del resumen.
-
El resumen puede ser redactado por el autor del documento, un especialista en la materia, la editorial, un documentalista o un programa informático.
-
El resumen es útil en dos fases de la cadena: en los procesos de selección y adquisición que se da en la primera fase de la cadena y en la fase de salida, donde es un excelente instrumento de recuperación.
-
La principal utilidad del resumen es la de difundir la información, pero además, el resumen tiene otras utilidades, como determinar la pertinencia, evitar la lectura del texto completo en documentos marginales y ayudar a la búsqueda automatizada.
-
Los resúmenes automatizados incorporados en los catálogos son muy útiles para extraer términos de indización del texto, para hacer búsquedas de palabras clave que no se encuentran en el título, para servir de control bibliométrico y ayudar a la difusión a través de los servicios de alerta.
1.1.Tipos de resúmenes
-
Monografías, informes, tesis: 500 palabras.
-
Artículos de revista, capítulos de monografías: 250 palabras.
-
Comunicaciones breves: 100 palabras.
-
El resumen informativo consigna el tema central, temas adicionales, naturaleza y objetivo del documento, metodología, resultados, conclusiones y anexos. La idea de fondo es que un resumen informativo puede sustituir en ocasiones a la lectura del documento original.
-
El resumen indicativo consigna sólo las ideas centrales del documento. Su lectura no puede sustituir a la lectura del original.
-
El resumen selectivo consigna sólo una parte concreta del documento. El más habitual es el resumen de conclusiones, pero también hay otros tipos, como la reseña (review).
1.2.Resumen automático
Oración 1: |
Tropical (2) storm (6) Gilbert (7) formed (1) in (0) the (0) eastern (1) Caribbean (1) and (0) strengthened (1) into (0) a (0) hurricane (7) Saturday (4) night (2). |
Oración 2: |
There (0) were (0) no (0) reports (1) of (0) casualties (1). |
-
SweSum (1)
-
Módulo 1: Análisis morfosintáctico. En este módulo se determina la categoría léxica de cada palabra: sustantivo, verbo, adjetivo, artículo, preposición, etc. También se determina el lema. Estas operaciones permiten distinguir las palabras con significado (sustantivos, adjetivos, verbos) de las vacías (artículos, preposiciones, pronombres, etc.). El lema permite agrupar todas las palabras que son flexiones de otra (info/informar/información/informador/informacional/etc.). El producto final es un listado con las palabras puntuadas y un listado de frases candidatas.
-
Módulo 2: Ponderación de frases. Este módulo recibe las palabras etiquetadas por el módulo anterior, y su función es escoger entre todas las frases candidatas. Para hacerlo se ayuda de diversos submódulos que ponderan las frases según los parámetros siguientes: la frecuencia, la presencia de palabras indicativas (buscan palabras como importante, esencial, conclusiones, etc.), buscan frases que contengan palabras que aparezcan en el título, o que tengan nombres propios, o que la tipografía sea destacada (negritas, cursivas, tamaño superior, etc.) y seleccionan frases que aparezcan en posiciones destacadas en el texto (al principio de cada párrafo, al final a modo de conclusión).
-
Módulo 3: Detección de anáforas. Una vez tiene las frases seleccionadas, puede ser que se dé el caso de anáforas mal resueltas (una frase contiene una anáfora que se encontraba en la frase previa y que no ha sido seleccionada). El programa busca las anáforas (especialmente los demostrativos pronominales o pronombres personales, por ejemplo este, aquel, lo que, eso) y su posición en la frase: al principio, entre las seis primeras palabras, en otras posiciones.
-
Módulo 4: Selección de frases. Este módulo computa toda la información recogida en las fases anteriores: frases candidatas, puntuaciones, detección de anáforas. Selecciona las frases candidatas de puntuación más alta hasta llegar al tanto por ciento pedido por el usuario. Si entre estas frases hay alguna que contenga una anáfora, se selecciona la frase anterior (que contiene la palabra a la cual se está haciendo referencia) siempre y cuando forme parte de las frases candidatas y no sobrepase la longitud del resumen.
-
Módulo 5: Postprocesado del extracto. Su función es detectar expresiones que conectan partes del texto, ya sea para mostrar causalidad, contraposición, etc. Son expresiones del tipo por lo tanto, en contra, etc. Como en el caso de las anáforas, si forman parte de una frase seleccionada, se procura incluir en el resumen la frase con la cual están relacionadas.
-
Los resúmenes automáticos (extracts) son una de las soluciones aportadas por el PLN para hacer frente al manejo de grandes volúmenes de información en línea.
-
Los primeros en trabajar en el campo de la automatización de los resúmenes fueron Hans Peter Luhn en el año 1958 y Edmundson en 1969.
-
Las técnicas han evolucionado de los primeros cómputos sobre la frecuencia de las palabras, o la posición de una frase dentro de un documento, a las técnicas basadas en conocimiento y recursos lingüísticos o en métodos estadísticos y de aprendizaje automático.
-
La base de todas las técnicas es el cómputo de la frecuencia de las palabras. A partir de esta base estadística, se incorporan otras técnicas para dotar al programa de más conocimiento y paliar la escasa coherencia del resultado, por ejemplo la resolución de la anáfora o se aplican programas que proporcionen relaciones como las de sinonimia o hiperonimia o mecanismos para detectar y eliminar la redundancia.
-
Los expertos consideran que la tecnología actual no tiene problemas para detectar las frases con más significado, pero sí para ordenarlas según su importancia.
2.La indización y la recuperación: lenguajes documentales y lenguaje natural
“Indizar es la acción de describir o identificar un documento con relación a su contenido.”
Norma UNE 50-121-91.
-
Profesionales (documentalistas), que llevan a cabo la tarea de indización de manera individual o en equipo. A su vez, los equipos pueden indizar de manera centralizada o coordinada.
-
Amateurs (usuarios de Internet que indizan de manera social o tagging, por ejemplo, en Delicious).

-
por la forma del término (un código será una clasificación, dos palabras separadas por guión será un encabezamiento de materia);
-
por un número de términos en plural (nos dice que se trata de descriptores, habrá que averiguar si son controlados –de un tesauro– o libres –descriptores libres o tags);
-
por el tipo de fuente (un catálogo o un buscador usan siempre el mismo tipo de lenguaje);
-
por la institución que hay tras él;
-
por la experiencia del documentalista.
2.1.Lenguaje natural y lenguaje documental
2.1.1.Número de términos
2.1.2.Control de las formas
Modelo |
Ejemplo |
---|---|
Sustantivo |
Pintura |
Sustantivo + adjetivo |
Pintura medieval |
Sustantivo + preposición + sustantivo |
Pintores de vitrales |
-
Se acostumbra a usar el singular para expresar conceptos abstractos. Así, por ejemplo, es solidaridad y no solidaridades.
-
No se permite el uso de siglas; se prefiere la expresión entera del concepto y en la lengua del servicio de información y documentación (SID (5) ). Por ejemplo, Organización del Tratado del Atlántico Norte.
-
Es preferible la expresión natural del concepto compuesto, y no su forma inversa. Es correcto Objetos de arte, y no Arte, objetos de.
2.1.3.Control del significado
-
Hispanoamericanos.
-
Iberoamericanos.
-
Latinoamericanos.
-
Sudamericanos.
-
Servicio, del latín servitium, que ha dado lugar a oficios religiosos, lavabos, misiones militares, cubiertos para comer y, en deportes, poner la pelota en juego. Y en todos ellos permanece la idea de ser útil.
-
Crucero, del latín crux, significando ‘cruz’, intersección entre las dos naves de una iglesia, encargado de llevar la cruz a la cabeza de una procesión, viaje de placer por el mar, etc. En estos significados la idea es la de la forma de cruz, el cruzar como ir de un extremo a otro.
-
Columna, del latín columna, que usamos para referirnos a los pilares arquitectónicos, las partes verticales de una página impresa de un diario, en física la forma que adoptan algunos fluidos, como “columnas de humo”, en el ámbito militar, la formación de barcos o soldados. Y la idea que permanece es la de verticalidad.
2.1.4.Relaciones de significado de los términos
6 Ciencias aplicadas. Medicina. Tecnología 63 Agricultura y ciencias relacionadas 639 Caza. Pesca 7 Bellas artes. Juegos. Deportes 79 Diversiones. Espectáculos. Juegos 799 Caza deportiva. Pesca deportiva.
TE Pesadilla
TR Interpretación de los sueños
TR Sueño fisiológico
TR Sueño REM
TR Trastornos de consciencia
Ventajas |
Inconvenientes |
|
---|---|---|
Lenguaje natural |
Amigable
Actualizado
Económico
|
Dificulta la búsqueda
Poco preciso
|
Lenguaje documental controlado |
Unívoco
Facilita la búsqueda
|
Caro
Poco actualizado
|
-
El control del número de términos del vocabulario: los lenguajes documentales son entrópicos, tienden a la selección, a la restricción del vocabulario.
-
El control de las formas: los lenguajes controlados, controlan las formas plural/singular, el uso de acrónimos y siglas y la construcción de las frases.
-
El control del significado: los lenguajes controlados controlan la sinonimia y la polisemia. Decimos que las palabras son sinónimas cuando tienen el mismo significado. Decimos que dos palabras son polisémicas cuando el mismo signo lingüístico tiene más de un significado. La sinonimia provoca silencio documental y la polisemia y variantes provocan ruido documental. El control terminológico del vocabulario garantiza el criterio de univocidad que tienen que tener los lenguajes documentales controlados, según el cual un concepto se representa con un término y un término sólo puede tener un significado.
-
Las relaciones de significado entre los términos son las relaciones de genérico, específico o relacionado que puede tener un término con respecto a otro. En el lenguaje natural estas relaciones son implícitas pero en los lenguajes documentales hay que hacerlas explícitas a través de una secuencia jerárquica o una presentación alfabética.
2.2.Cómo se indiza
-
Dos fases: análisis del texto y traducción (Chaumier, 1988; Fidel, 1994).
-
Tres fases: análisis del texto, identificación de conceptos y traducción (Amat, 1989; Norma UNE 50-121-91).
-
Cuatro fases: análisis del texto, identificación de conceptos, traducción y establecer enlaces sintácticos entre descriptores (Slype, 1991).
-
Cinco fases: registro de datos, análisis del texto, identificación de conceptos, traducción y examen de la indización.
Mitología india americana.
CDU259.2 LEMACMitologia ameríndia LEM del CSIC Indios de América - Religión y mitología
-
Chesneaux, Jean. ¿Hacemos tabla rasa del pasado? México: Siglo XXI Editores 1981.
Su materia es Historia, historiadores, historiografía. En el catálogo de la Biblioteca Nacional de España (BNE (8) ) lo encontramos indizado como Historia.
-
Mallol, Tomas. Si la memòria no em falla. Girona: CCG Ediciones 2005.
Su materia es Memorias, cine, coleccionismo. En la Biblioteca de Catalunya (BC (9) ) lo encontramos indizado como Cine amateur.
-
El tema.
-
Los nombres personales que puedan ser interesantes de indizar.
-
Los nombres geográficos.
-
Las fechas cronológicas.
-
La forma en que se presenta el documento: artículo, estadística, formulario o divulgación, científico, etc.
-
El tipo de SID y perfil de usuario. No es lo mismo indizar para una base de datos genérica que para una específica.
-
El tipo de documento. No se indiza con el mismo número de descriptores una monografía que un artículo de revista, una tesis, etc.
Exhaustividad baja |
Exhaustividad media |
Exhaustividad alta |
---|---|---|
Baremo 1-3 |
Baremo 4-6 |
Baremo 7... |
Ejemplo de uso: catálogo de una biblioteca pública |
Ejemplo de uso: bases de datos de una biblioteca especializada en astronomía |
Ejemplo de uso: bases de datos de una biblioteca especializada en astrofotografía |
Errores fotográficos Fotografía astronómica |
Astrofotografía Errores fotográficos Descubrimientos Identificación de objetos celestes Objetos erróneos |
Alineaciones planetarias Defectos de lavado Deficiencias de la emulsión Diámetros erróneos Efectos de redondeo Errores en el negativo Errores en el positivado Errores en las lentes Objetos inéditos Objetivos Oscilaciones del microscopio Partículas de polvo Rayadas Reflejos del sol Retoques digitales |
Materia |
Correcto, y por lo tanto: |
Incorrecto por: |
|
Específico |
Genérico |
Demasiado específico |
|
Diplomacia |
Diplomacia |
Relaciones internacionales |
Embajadores |
-
Cuando el indizador considere que un exceso de especificidad puede ser negativa en la recuperación; por ejemplo, puede decidir que un modelo muy específico de una máquina se indice con el nombre más genérico de este tipo de máquinas.
-
Cuando la idea no esté plenamente desarrollada en el documento, o sólo se haga alusión a ella.
-
Cuando se esté a la espera de validar el término más específico.
Concepto tal como sale en el texto |
Traducción |
Lenguaje documental utilizado |
---|---|---|
Tragicomèdia |
791.221.28 |
Classificación Decimal Universal (CDU) |
Eolític |
Edat de la pedra |
Lista de encabezamientos de materia en catalán |
Matriz |
Útero |
Lista de encabezamientos del CSIC |
Monarquía absoluta |
Absolutismo |
Tesauro de Historia contemporánea del CSIC |
-
Consulta el lenguaje y encuentra el concepto a la primera. Entonces indiza con este término de indización. Por ejemplo, buscaba “Eolític” y encuentra que tiene que indizar “Absolutismo”.
-
Consulta el lenguaje y encuentra el concepto o las partes del concepto repartidos por el lenguaje. Entonces tiene que conocer las reglas de combinación de las partes integrantes del término de indización. Ejemplos:
-
Una notación con CDU como 391.91(961.3) “Tatuajes de la isla de Samoa” está formada por 2 elementos, tatuajes + Samoa. Estos elementos van colocados en un orden determinado por las reglas de precoordinación de la CDU (primero la clase principal + auxiliar).
-
Un encabezamiento construido con la LEM del CSIC como Agua-Aspectos económicos está formado por dos partes: Agua + Aspectos económicos, que es un encabezamiento y un subencabezamiento respectivamente y van en este orden.
-
-
Consulta el lenguaje y no encuentra el concepto. Entonces el indizador tiene que conocer las obras de referencia que su SID considera como autoridades reconocidas en la materia. Estas obras de referencia son diccionarios, enciclopedias, otros lenguajes documentales (especialmente los tesauros construidos de acuerdo con las normas ISO y UNE 50-106 y UNE 50-125), atlas, etc.
-
Hay lenguajes, como tesauros, donde el indizador tiene que proponer el término nuevo como descriptor candidato y esperar a que la dirección del tesauro lo valide como descriptor. Mientras tanto indiza con un término más genérico.
2.3.Lenguajes documentales
2) las listas de encabezamientos de materia,
3) las listas de autoridades,
4) los tesauros,
5) las listas de descriptores libres, y
6) las listas de palabras clave o indización automática.
Lenguaje documental |
Su término de indización se conoce como |
Ejemplo |
---|---|---|
Sistemas de clasificación |
Notación o símbolo de clase |
351.851:069 (Ley de Museos) |
Listas de encabezamientos de materia |
Encabezamiento |
Francés-argot |
Listas de autoridades |
Autoridad, identificador o descriptor |
Bécquer, Gustavo Adolfo, 1836-1870 |
Tesauro |
Descriptor |
Ramon Berenguer III el Gran NA: [1097-1131] |
Listas de descriptores libres |
Descriptor |
Semana_santa |
Listas de palabras clave |
Palabra clave |
Metro |
Una palabra |
Más de una |
---|---|
Navidad |
Semana Santa |
CDU |
DDC |
LCC |
---|---|---|
94 |
483 |
RE 1-994 |
Historia |
Diccionarios de griego clásico |
Oftalmología |
-
los sistemas de clasificación,
-
las listas de encabezamientos,
-
las listas de autoridades, y
-
los tesauros.
Concepto |
Libre |
Controlado |
---|---|---|
Limpieza |
Higiene, Limpieza, Profilaxis, Aseo, Sanidad, Desinfección |
CDU: 613 LEMAC: Higiene |
-
Catalunya – Congresos – Arqueología submarina
-
Arqueología submarina – Congresos – Catalunya
-
Congresos – Arqueología submarina – Catalunya
-
Arqueología submarina – Congresos – Catalunya
Clase 1 |
Clase 3 |
Clase 6 |
---|---|---|
123 Libertad y necesidad 123.1 LIBERTAD. INDETERMINISMO 123.11 Casualidad 123.2 NECESIDAD 123.21 Fatalismo |
342.7 DERECHOS FUNDAMENTALES. DERECHOS HUMANOS. DERECHOS Y DEBERES DE LOS CIUDADANOS 342.71 Nacionalidad. Ciudadanía 342.72/.73 Derechos de los ciudadanos. Derechos civiles. El Estado y el ciudadano 342.721 Libertad individual. Habeas corpus |
62-23 ENGRANAJES. ELEMENTOS MECÁNICOS DE TRANSMISIÓN. DISPOSITIVOS TRANSPORTADORES Y DE SUJECIÓN 62-231 Estructuras de los mecanismos de transmisión 62-231.2 Sistemas lineales. Pares cinemáticos 62-231.21 Sistemas sin grados de libertad. Acoplamiento automático. Centrado automático 62-231.22 Sistemas con un grado de libertad. Cojinete. Barra de guía. Par de roscado (tornillo y tuerca) |
-
las listas de encabezamientos de materia,
-
las listas de autoridades,
-
los tesauros,
-
la lista de descriptores libres, y
-
las listas de palabras clave.
Sistemas de clasificación |
Listas de encabezamientos de materia |
Listas de autoridades |
Tesauros |
Lista de descriptores libres |
Lista de palabras clave |
||
---|---|---|---|---|---|---|---|
Según la naturaleza de los términos |
Codificado |
X |
|||||
Natural |
X |
X |
X |
X |
X |
||
Según el nivel de control sobre los términos |
Libre |
X |
X |
||||
Controlado |
X |
X |
X |
X |
|||
Según el nivel de coordinación de los términos |
Precoordinado |
X |
X |
||||
Poscoordinado |
X |
X |
X |
X |
|||
Según la forma de agrupar los términos o estructura |
Jerárquico |
X |
X |
||||
Alfabético |
X |
X |
X |
X |
X |
||
Según el nivel de análisis |
Por materias |
X |
X |
||||
Por conceptos |
X |
X |
X |
||||
Por palabras clave |
X |
2.3.1.Clasificar y recuperar con sistemas de clasificación
Sistemas de clasificación en la Web
-
Universal Decimal Classification Consortium Homepage (2002, 1 de agosto) [en línea]. La Haia: UDC Consortium. Act. 2002-08-01. [Fecha de consulta: 10 de octubre del 2008.]
-
https://www.oclc.org/dewey/resources/summaries/default.htm, 025.431: The Dewey blog [en línea]. [Fecha de consulta: 10 de octubre del 2008.]
-
Online Computer Library Center. Dewey services, Dewey decimal classification for use with OCLC's online cataloging services [en línea]. [Fecha de consulta: 10 de octubre del 2008.]
-
Library of Congress Classification system [en línea]. [Fecha de consulta: 1 de octubre del 2008.]
Clasificación en la actualidad

2 Religión |
7 Arte |
---|---|
27 Cristianismo. Iglesias cristianas |
72 Arquitectura 726 Arquitectura religiosa 726.5 Arquitectura de las iglesias 726.54 Iglesia |
Religión |
Arte |
---|---|
Iglesia |
Arquitectura religiosa |
-
Los códigos son internacionales y, por lo tanto, la codificación permite el intercambio (en red de ámbito nacional o internacional).
-
Permite ordenar el fondo y disponerlo en anaqueles de manera altamente significativa.
-
Permite elaborar tanto productos bibliográficos como bibliografías nacionales o selectivas (existe constancia de que la CDU se usa al menos en treinta bibliografías nacionales).
-
Permite confeccionar índices y guías por materias.
-
Permite difundir de forma selectiva la información (DSI).
-
diccionarios en miniatura,
-
pintura en miniatura,
-
modelismo en miniatura.
-
la figura humana en escultura,
-
la figura humana en pintura,
-
la figura humana en los esmaltes.
-
Es analítica y, por lo tanto, permite describir con precisión el contenido de un documento.
-
Es flexible y no queda desfasada con rapidez.
-
Es fácilmente automatizable, ya que los documentos se pueden buscar en conjunto o para cada faceta.
-
Su aplicación es compleja.
-
Hay muchas materias que no se pueden representar fácilmente con facetas (conceptos de tipo mental que no son objetos).
-
No todos los documentos tienen todas las facetas, lo que hace que la notación no sea homogénea.
-
DDC, https://dublincore.org/documents/dcmes-qualifiers/#ve-DDC
-
IMT, https://dublincore.org/documents/dcmes-qualifiers/#ve-IMT
-
LCC, https://dublincore.org/documents/dcmes-qualifiers/#ve-LCC
-
LCSH, https://dublincore.org/documents/dcmes-qualifiers/#ve-LCSH
-
MESH, https://dublincore.org/documents/dcmes-qualifiers/#ve-MESH
-
NLM, https://dublincore.org/documents/dcmes-qualifiers/#ve-NLM
-
TGN, https://dublincore.org/documents/dcmes-qualifiers/#ve-TGN
-
UDC. https://dublincore.org/documents/dcmes-qualifiers/#ve-UDC
Dublin Core Metadata Initiative: Metadata Terms https://dublincore.org/documents/2010/10/11/dcmi-terms/
Las siglas corresponden a IMT: Internet Assigned Numbers Authority https://www.iana.org/assignments/media-types/
NLM: National Library of Medicine Classification https://wwwcf.nlm.nih.gov/class/
TGN: Tesaurus Getty de nombres geográficos https://www.getty.edu/research/tools/vocabulary/tgn/index.html
Contextos en los que clasificamos
-
Ordenaciones no significativas (también conocidas como numéricas): son aquellas en las que no existe relación con el contenido del documento. Por ejemplo, ordenar según el número asignado a la llegada. Es una ordenación útil en los SID que no den acceso libre a los anaqueles y en los que la recuperación la haga el documentalista. Apropiado para los SID que tengan su colección en el depósito y no en la sala de lectura. Es el método más empleado en archivos.
-
Ordenaciones con significado limitado: se ordenan por algún criterio como, por ejemplo, la lengua del documento, el autor o el tema. Es la ordenación que encontramos en librerías, en bibliotecas personales o en bibliotecas pequeñas.
-
Ordenaciones altamente significativas: se ordena a partir de un cuadro de clasificación, de forma que los contenidos afines se colocan uno junto a otro. Es apropiada para los SID de libre acceso como las bibliotecas públicas y universitarias. Un ejemplo sería ordenar siguiendo las clases de la CDU.
-
Ordenaciones no significativas: prensa, boletines, revistas...
-
Ordenaciones con significado limitado: novelas. Se hace distinción entre novela histórica, ciencia-ficción, biografías, etc. Dentro de cada grupo, las novelas se ordenan alfabéticamente por autores.
-
Ordenaciones altamente significativas: todo el resto de la colección. Es el grueso más importante.
-
la primera es satisfacer la curiosidad del usuario, ya que puede recorrer los anaqueles buscando un ítem que le resulte atractivo, y
-
la segunda es que muchas veces, a partir de un documento, localiza a su alrededor otros ítems interesantes.
-
Auxiliares comunes independientes = (0...) (1/9) (=...) y “...”
-
Firmas + /
-
Clase expresada como número simple (por ejemplo, 622.341.1)
-
Colon (:), doble colon (::), auxiliar de lengua, de forma, de lugar, de razas, de tiempo, asterisco, A/Z,.00,-0-1/-9,.0’.
-
Número simple siguiente.
En The role of classification schemes in internet resource description and discovery, de www.ukoln.ac.uk, en el año 2001 se contabilizaron treinta y cinco sistemas de clasificación diferentes usados en distintos portales y directorios temáticos.
Y en Beyond Bookmarks: Schemes for Organizing the Web, https://www.public.iastate.edu/CYBERSTACKS/CTW.htm, encontraréis una lista de las bases de datos organizadas según el sistema de clasificación que usan, ya sea alfabético, numérico o alfanumérico.
-
Open Directory project Dmoz https://www.dmoz.es/
-
ISBN https://www.mcu.es/libro/ce/agenciaisbn/infgeneral/tablacdu.html
-
The WWW Virtual Library https://vlib.org/
-
Librarian’s Internet Index https://www.ipl.org/div/subject/index.html
-
Buscopio https://www.buscopio.net/esp/
-
The www virtual library https://vlib.org/
-
Infomine https://infomine.ucr.edu/
Recuperación con sistemas de clasificación
Argumentos a favor |
Argumentos en contra |
---|---|
|
|

Para más información sobre las categorías en la Wikipedia, leed las páginas de categorización:
https://ca.wikipedia.org/wiki/viquip%C3%A8día:Categoritzaci%C3%B3
Y sobre la sobrecategorización, consultad:
https://es.wikipedia.org/wiki/wikipedia:Sobrecategorizaci%C3%B3n

-
Las categorías tienen que ser esenciales y delimitantes, no se pueden crear categorías accesorias o subjetivas.
-
Antes de crear una categoría nueva, hay que comprobar si ya existe y si consta con un sinónimo o un nombre similar.
-
Se tiene que procurar evitar la sobrecategorización (10) o categorización redundante: no hay que que colocar un artículo en dos categorías cuando una ya contiene la otra.
2.3.2.Indexar y recuperar con listas de encabezamientos y listas de autoridades
Listas de encabezamientos de materia y de autoridades en la Web
-
Lista de encabezamientos de materia en catalán (LEMAC) (www.bnc.es/lemac/)
-
LENOTI (www.bnc.es/lenoti/)
-
Biblioteca de Catalunya. Lista de encabezamientos de materia en catalán [en línea]. [Fecha de consulta: 1 de septiembre del 2009.]
-
CSIC Autoridades de materia (https://aleph.csic.es/f?func=hilo&hilo_name=find-b&local_base=MAD10)
-
Lista de encabezamientos para las bibliotecas públicas (www.mcu.es/bibliotecas/mc/lembp/index.html)
-
Library of Congress Subject headings 1909 - hasta la actualidad (https://authorities.loc.gov/)
-
Bilindex (www.bilindex.com/)
-
Laval Répertoire de vedettes-matière (RVM) de la Universidad Laval (www.bibl.ulaval.ca/mieux/chercher/ch_vedettes_matiere)
-
RAMEAU (https://rameau.bnf.fr/)
Elementos de una lista
Encabezamiento |
Subencabezamiento |
|
---|---|---|
Simple |
Alpes |
Lesiones |
Compuesto |
Alpes Dolomitas |
Accidentes y lesiones |
Encabezamiento + subencabezamiento |
Subencabezamiento solo |
---|---|
Alpinismo-Accidentes y lesiones (Subd. geog.) No encontraremos Accidentes y lesiones como subencabezamiento solo que podamos combinar con otros encabezamientos. |
Despido (Subd. geog.) Nota de alcance: bajo grupos de profesionales y tipos de empleados. |
-
un nombre propio: documento sobre la vida de William Shakespeare;
-
un nombre de institución presente o histórica: documento sobre el congreso de Viena 1814-1815;
-
un título uniforme: interpretaciones de la obra Fortunata y Jacinta;
-
un lugar geográfico: documento sobre Holanda;
-
un nombre de empresa, entidad, etc.: documento sobre la fábrica AEG.
Equivalencia: de un término sinónimo al término aceptado |
Usado por: Representaciones teatrales Teatro – Representaciones |
|
Jerarquía |
Genérica |
Término genérico: Espectáculos |
Específica |
Término específico: Adaptaciones teatrales Ballet Mimo Pantomima Sombras chinescas Teatro alternativo Teatro de calle Teatro de marionetas Teatro de variedades |
|
Asociación: evoca otros encabezamientos que podrían ser útiles en la búsqueda |
Término relacionado: Actores Arte dramático Compañías teatrales Crítica teatral Directores de teatro Escuelas de arte dramático Festivales teatrales Industria del espectáculo Teatro (Género literario) Teatro y sociedad Teatros |
-
enciclopédicas (o universales o generales) y
-
especializadas.
Encabezamiento |
Subdivisiones |
De forma o género |
||
---|---|---|---|---|
De tema |
Geográficas |
Cronológicas |
||
Alpes |
Clima |
Argentina |
1952 |
Informe |
Recuperación con listas de encabezamientos y autoridades




2.3.3.Indexación y recuperación con tesauros
Tesauros en la Web
Temática |
Nombre del tesauro |
---|---|
Agricultura |
|
Astronomía |
|
Biblioteconomía |
|
Biología |
|
Ciencia |
|
Demografía |
|
Economía |
|
Educación |
|
Empresa |
|
Geografía |
|
Geología |
|
Historia |
|
Lengua y literatura |
Traces. Base de datos de lengua y literatura catalanas - Tesauro |
Matemáticas |
|
Propiedad industrial |
|
Psicología |
|
Sociología |
|
Topónimos |
|
Urbanismo |
|
Genéricos |
¿Cómo se indiza con un tesauro?

Documento |
Indización |
---|---|
Programa electoral presentado por Convergència i Unió de Sant Andreu de Llavaneres en las elecciones municipales del 2007 y que también contiene la lista de candidatos de este partido. |
Partidos políticos Programa electoral Elecciones municipales 2007 Candidaturas electorales Convergència i Unió (proveniente de LENOTI) Sant Andreu de Llavaneres (proveniente de la GEC) |

Creación de un tesauro
-
cronológicamente,
-
alfabéticamente, o
-
según el proceso.

-
[Historia económica]
-
[Economía general]
-
[Economía agraria]
-
[Economía pesquera]
-
[Economía industrial]
-
[Comercio]
-
[Hoteleria y turismo]
-
[Finanzas]
-
[Economía de la empresa]
Recuperación con tesauro
-
recogida de conceptos,
-
traducción al lenguaje, y
-
formulación de la búsqueda.
2.3.4.Indización con listas de descriptores libres: etiquetas e Indización social
Descriptores libres en la Web
-
Delicious (https://www.delicious.com): Diigo (https://www.diigo.com) y Mr Wong (https://www.mister-wong.com) son servicios de gestión de direcciones de interés a través de la Web. Permiten guardar y recuperar en la Red las direcciones de interés, que clásicamente se almacenaban desde el navegador localmente en el ordenador, de forma que son consultables en línea y no solo de forma local.
-
Tagzania (https://www.tagzania.com): se trata de un sistema que usa folksonomías sobre la API del potente Google Maps. Es un mashup de geolocalización de fotografías similar a Panoramio (https://www.panoramio.com) que ofrece otras funcionalidades de valor añadido a los mapas.
-
Flickr (https://www.flickr.com): es un sitio web de Yahoo para organizar fotografías digitales que funciona como una red social. Es un servicio muy utilizado por los usuarios de blogs como depósito de fotos.
-
YouTube (https://www.youtube.com): es un sitio web para compartir vídeos, clips de películas, clips de televisión y vídeos musicales, así como contenido aficionado. Los usuarios no registrados pueden ver vídeos, y los usuarios registrados pueden subir un número ilimitado de vídeos.
-
Blogger (https://accounts.google.com): se trata de un servicio para crear y publicar un blog de una forma muy fácil.
-
Buzzillions (www.buzzillions.com): es una página web que recoge cerca de diecisiete millones de críticas de productos de una amplia gama de categorías (electrónica, moda, salud, etc.). Las recomendaciones provienen de personas reales (no se pagan por las revisiones), con la intención de asesorar a nuevos compradores a partir del grado de satisfacción de los productos.
Etiquetas e indización social
“cada cual es autor, editor y documentalista a la vez”.
-
Para la indización: descriptores libres o etiquetas o tags. El conjunto de tags sedenomina nube de tags, que sería lo más parecido a un lenguaje documental.
-
Para la acción de indizar libremente: tagging o etiquetado social y, más específicamente, cuando se trata de describir los recursos web, social bookmarking o website bookmarking.
-
Para el conjunto de tags de todos los usuarios: folksonomías o clasificación hecha por el pueblo.

Se han hecho varios estudios sobre la consistencia de indizar con etiquetas entre indizadores a la hora de indizar imágenes e incluso emociones con resultados muy buenos de coherencia entre usuarios (emociones identificadas de manera homogénea). Un ejemplo lo tenéis a Knautz and Stock (2010) y a Ransom and Rafferty (2011):
Kathrin Knautz; Wolfgang G. Stock (2010). “Collective indexing of emotions in videos”. Journal of Documentation (vol. 67, núm. 6, págs. 975-994).
N. Ransom; P. Rafferty (2011). “Facets of user-assigned tags and their effectiveness in image retrieval”. Journal of Documentation (vol. 67, núm. 6, págs. 1.038-1.066).
-
Colección propia: catálogo indizado de forma controlada (sistemas de clasificación + listas de encabezamientos + lista de autoridades / tesauros + lista de autoridades) y automática (lista de palabras clave).
-
Recursos electrónicos de la Web: directorios temáticos o guías temáticas (sistemas de clasificación) + Delicious (lista de descriptores libres otags).
-
Delicious de la Universidad de Barcelona, CRAI (www.delicious.com/craiubreferencia).
-
Delicious de la Universidad Nacional de Educación a Distancia (UNED) (https://delicious.com/brelreferencia20).
-
Delicious de la Universidad Complutense de Madrid (https://delicious.com/bibliotecacps).
Tipo de etiquetado |
Beneficio social |
Motivación |
---|---|---|
El etiquetado egoísta: etiquetar en beneficio propio; suelen ser etiquetas muy significativas para el usuario pero no para la comunidad. Ej.: “para_leer”. |
Si las etiquetas son más personales, se crea mucho ruido. A medida que el usuario indiza etiquetas más consistentes, aumenta el beneficio social. |
Alta, para beneficio propio. |
El etiquetado amiguista: etiquetar para compartir en un grupo reducido (amigos, compañeros, familia). Se usan etiquetas identificativas dentro del grupo pero desconocidas para otros. Ej.: Tinet. |
Muy útil dentro del grupo, pero aporta poco al resto de las comunidades. |
Alta, para compartir y reforzar el sentimiento de comunidad dentro de un grupo. |
El etiquetado altruista: etiquetar para compartir con todo el mundo. Se escogen etiquetas generalmente comprensibles y conocidas. Ej.: música_funky. |
Muy alto. Es la que más contribuye, la más generosa. |
Baja. No hay un beneficio directo asociado, salvo la satisfacción personal. |
El etiquetado populista: etiquetar para conseguir que algo resulte más atractivo y tenga más visitas. Ej.: Muy_interesante. |
Ninguno. Es corred basura (spam). |
Alta. Quien indiza así busca un beneficio directo y evidente. |
-
Puede haber un recurso con muchas etiquetas (exhaustividad alta) y recursos con pocas etiquetas (exhaustividad baja).
-
Puede haber documentos indizados para muchas personas que nos darán enfoques diferentes sobre el mismo documento o puede haber documentos sin indizar.
-
En la personal, personomia, cada usuario confecciona su propio índice de etiquetas.
-
En la colectiva, cada usuario comparte sus etiquetas y contribuye a generar un índice global de etiquetas o folksonomía. Este aspecto resulta muy interesante en indización, porque un documento descrito por cien usuarios con etiquetas coincidentes es una indización más fiable (en el sentido de recuperable) que la que haría el autor. Hassan Montero habla de indización por agregación.
-
Las folksonomías estrechas onarrow, que son del tipo “un documento, un indizador”, es decir, solo el autor puede etiquetar el contenido; sería el caso de Flickr.
-
Las folksonomies generales obroad, en las que un documento puede ser etiquetado por varias personas, como es el caso de los marcadores sociales.
-
el uso de sustantivos cuantitativos y no cuantitativos;
-
la elaboración de etiquetas compuestas (por ejemplo, con un espacio o guión entre unitérminos);
-
la evaluación de la calidad o aplicaciones de cada ítem;
-
el uso de enlaces a diccionarios que actúen como autoridades y controlen la forma de la etiqueta;
-
el añadido de nombres personales provenientes de listas de autoridades y del rol que tiene con el concepto que se etiqueta;
-
el añadido de todo tipo de facetas (faceted tagging): geográficas (nombres geográficos provenientes de lenguajes controlados como tesauros), de tiempo, de forma, de género.
La recuperación con descriptores libres
Ventajas |
Inconvenientes |
---|---|
1) La comunidad se beneficia de un volumen ingente de documentación medianamente descrita. Su calidad puede ser discutible, pero está operativa, es accesible. 2) Se rompe la subjetividad de un único indizador. 3) Los puntos de acceso son más diversos. 4) No necesita traducción de los conceptos del lenguaje natural de los documentos a un lenguaje artificial. 5) Se trata de un tipo de lenguaje rápido y fácil de actualizar. 6) Se adapta perfectamente a los usuarios y tipos de SID, ya que es un lenguaje hecho a medida. 7) No hace falta una formación previa de los analistas. Precisamente la ausencia de reglas y principios hacen innecesaria la formación. 8) Indizan texto pero también imagen fija (foto) y en movimiento (vídeo, película). 9) El vocabulario presenta una autoridad de usuario. 10) El número de indizadores aumenta la tasa de consistencia. |
1) Todos los que se derivan del lenguaje natural:
2) Ego-centered tag o etiquetas con términos vacíos para la comunidad, puesto que solo tienen sentido individualmente. 3) Nivel de exhaustividad diverso, no todos los documentos están indizados con el mismo grado. |
2.3.5.Indización automática
¿Cómo se indiza automáticamente?
-
excluir la documentación audiovisual, imagen fija (fotografías) o en movimiento (vídeo) que habitualmente no va acompañada de texto;
-
excluir también toda la documentación que pertenezca a intranets (donde hace falta contraseña) y toda la que se genere de forma dinámica (contenida en bases de datos), lo que conocemos como Internet invisible y que se calcula que supera en cinco veces la Web visible.
-
Palabras con significado que se vuelven vacías.
En un centro especializado en medicina del deporte todos los documentos harán referencia a medicina del deporte y, por lo tanto, dicha palabra estará vacía en ese contexto.
-
Palabras vacías que se vuelve importantes en la indización.
En un texto de historia, los números (1319-1387), numerales (Pere III) y los adjetivos pueden tener una gran carga significativa (el Ceremonioso). En este ejemplo podemos observar que Pere III el Ceremonioso 1319-1387 podría quedar indizado como Pere si no se mantienen algunas palabras vacías.
-
recuperación de la información,
-
extracción de la información,
-
búsqueda de respuestas,
-
traducción automática,
-
generación de resúmenes, y
-
reconocimiento del habla.
Palabra |
Morfología |
Palabra dentro de la frase |
Sintaxis |
Palabra dentro del texto |
Semántica |
Marcadores |
Ejemplos |
---|---|
Estructuradores de la información |
Primero, segundo. Por un lado, por otro. Después, entonces. |
Conectores |
Incluso, es más. Así pues, por lo tanto. Aun así, sin embargo. |
Reformuladores |
Es decir, a saber, en otras términos. En todo caso, en cualquier caso. |
Operadores argumentadores |
En realidad, en el fondo. En concreto, en particular. |
Marcadores conversacionales |
Naturalmente, sin duda. ¿Verdad? ¿Eh? |
-
numéricamente: primero, segundo, etc.;
-
en el espacio: por un lado, por otro;
-
en el tiempo: después, entonces, en fin.
-
Categorización basada en reglas.
-
Categorización basada en el aprendizaje automático a partir de documentos ejemplares.
-
Una combinación de los dos modelos anteriores. Es la opción que mejores resultados da, pero hay que dedicar un tiempo al diseño de las reglas y al entrenamiento de documentos ejemplares.
-
Ex CDU en SKOS (https://www.udcc.org/udcsummary/exports.htm),
-
LCSH en SKOS (https://id.loc.gov/techcenter/metadata.html),
-
la clasificación Dewey (https://oclc.org/developer/documentation/dewey-web-services/using-api).
La recuperación de información indizada automáticamente
-
Se seguirán indizando de manera intelectual con lenguajes controlados (clasificaciones, encabezamientos de materia, autoridades y tesauros) las fuentes de información lo bastante valiosas para que el resultado no esté condicionado por la inversión económica, como por ejemplo las bases de datos de artículos en ciencias de la salud, como MESH.
-
El uso de vocabularios controlados altamente formalizados y un PLN cada vez más potente propiciarán la implementación de ontologías. Se crearán ontologías de forma automática y manual, y se indizará automática y manualmente a partir de ontologías.
-
Se indizará de manera semiautomática o semiasistida la gran mayoría de la Web, que por sus dimensiones no permite otras posibilidades. Y se espera que cada vez más los documentos electrónicos vengan de serie con metadatos. Tales metadatos, a su vez, pueden haber sido generados de manera intelectual o por un robot automático.
-
Se indizará socialmente con lenguajes libres como los descriptores libres o etiquetas, sobre todo la información audiovisual que no es fácilmente indizable de manera automática por no incluir texto. En este sentido, se está investigando en robots que reconozcan formas simples en las imágenes; de todos modos, hasta que no sean una realidad, la mejor opción son las etiquetas de los internautas.
3.Calidad y coherencia en la representación de contenidos
-
El documentalista 1 ha asignado los descriptores A, B, C, D, E, F.
-
El documentalista 2 ha asignado los descriptores A, C, D, F, G, H.
-
Hay 4 descriptores idénticos A, C, D, F y un total de 8 descriptores diferentes. Tasa de coherencia = 4/8 = 50% (van Slype, 1991, p. 123).
-
Examinar el documento para identificar su contenido: el analista tiene que examinar con precisión el documento. La lectura completa es a menudo impracticable, pero sí que tiene que prestar atención al título, resumen, sumario, introducción, ilustraciones y palabras o frases destacadas en una tipografía diferente.
-
Seleccionar los conceptos principales de los contenidos: el analista tiene que identificar las nociones que son elementos esenciales de la descripción del contenido, tiene que ser consciente del número de conceptos (criterio de exhaustividad) y la exactitud de los mismos (criterio de especificidad).
-
Traducir a un lenguaje documental: para traducir el concepto inicial escrito en lenguaje natural a un lenguaje documental hay que consultar el listado del lenguaje buscando la forma aceptada.
3.1.La calidad del indizador
3.1.1.Errores técnicos
3.1.2.Errores éticos
Para ampliar este tema, recomendamos la lectura de Carmen Caro y R. San Segundo, Lenguajes documentales y exclusión social (https://dialnet.unirioja.es/servlet/articulo?codigo=1300420), donde se analizan encabezamientos que ponen bajo el mismo término genérico a las madres solteras y a los delincuentes dentro del grupo de marginados sociales, o que relacionan dos términos tan dispares como anarquismo e idiotez. Los sistemas de clasificación también cometen errores éticos al mantener, por ejemplo, la rúbrica de la clase 159.922.76 para niños con defectos físicos, mentales y superdotados.
3.1.3.¿Cómo se mide la calidad de un indizador?
Descriptor |
Documen- talista |
Doc 1 |
Doc 2 |
Doc 3 |
Doc 4 |
Doc 5 |
Doc 6 |
Doc 7 |
Doc 8 |
Doc 9 |
Doc 10 |
---|---|---|---|---|---|---|---|---|---|---|---|
Cadaqués |
A |
x |
x |
x |
x |
x |
x |
x |
x |
||
B |
x |
x |
x |
x |
|||||||
Parque natural |
A |
x |
x |
x |
x |
||||||
B |
x |
x |
x |
||||||||
Cala Culip |
A |
x |
x |
x |
|||||||
B |
x |
x |
3.2.Evaluación de la recuperación
Pertinentes |
No pertinentes |
Total |
|
---|---|---|---|
Extraídos |
A (aciertos) |
B (ruido) |
A + B (recuperados) |
No extraídos |
C (pérdidas) |
D (correctamente rechazados) |
C + D (no recuperados) |
Total |
A + C (total de documentos relevantes) |
B + D (total de documentos no relevantes) |
A + B + C + D (colección entera) |
Pertinentes |
No pertinentes |
Total |
|
---|---|---|---|
Extraídos |
5 |
2 |
7 |
No extraídos |
3 |
30 |
33 |
Total |
8 |
32 |
40 |
3.2.1.Microevaluación: silencio y ruido
3.2.2.Macroevaluación: exhaustividad y precisión
Microevaluación |
Macroevaluación |
||
---|---|---|---|
Silencio |
Ruido |
Exhaustividad |
Precisión |
c / a + c |
b / a + b |
a / a + c |
a / a + b |
3.3.El papel del vocabulario en la recuperación
3.3.1.Falta de especificidad del lenguaje documental

-
Un vocabulario específico permite una precisión alta, pero complica el hecho de conseguir una exhaustividad alta. También influye en la consistencia, ya que si los términos son muy cercanos, se puede dudar entre uno u otro.
-
Un vocabulario poco específico facilita la búsqueda genérica y minimiza las incorrecciones de la indización y, en consecuencia, aumenta la exhaustividad, pero dificulta una precisión alta.
-
Con todo, según Lancaster, es mejor un exceso de especificidad que lo contrario, ya que si queremos aumentar la exhaustividad solo hay que recurrir a los TG. En cambio, la falta de especificidad provoca que no se pueda aumentar la precisión.
3.3.2.Coordinaciones falsas
3.3.3.Relaciones incorrectas entre términos
Documento del diseño de aviones con ordenadores |
Documento del diseño de ordenadores |
---|---|
Diseño Aviones (4) Ordenadores (2) |
Diseño Ordenadores (4) |
-
Catalunya en la pintura (por ejemplo, la visión de Sorolla sobre el litoral catalán).
-
Pintura en Catalunya (todos aquellos pintores que han pintado en Catalunya).
-
Industriales de la pintura catalanes (pintores de paredes).
Aumento de la especificidad |
Aumenta la precisión. |
Disminuye la consistencia. |
|
Disminuye la exhaustividad. |