Iedra nació como un buscador inverso: en vez de ir de la palabra a la definición, permite ir de la idea a la palabra. Si buscas «prismas que coronan los muros», encuentras almena. Ese camino inverso ya funciona bien cuando sabes describir lo que buscas. Pero a veces no tienes una definición en mente, sino un campo: quieres explorar el vocabulario de la arquitectura militar, o de la botánica, o de las emociones. Ahí la búsqueda textual no basta.
Para eso existen los diccionarios ideológicos: organizan el léxico por campos de significado, de modo que se pueda llegar a la palabra partiendo del concepto. El más importante en español es el Diccionario ideológico de la lengua española de Julio Casares, publicado en 1942, todavía muy usado y sin equivalente real en español. Casares distribuyó todo el vocabulario en 38 grandes clases —Religión, Zoología, Alimentación, Sentimiento, Milicia, Comercio…— subdivididas en unos 2.000 grupos, siguiendo la estela del Thesaurus de Roget para el inglés (1852).
Iedra ahora tiene algo parecido: una clasificación por temas que agrupa las palabras del DLE en 35 categorías con subcategorías. Se puede navegar desde la página de temas o filtrar desde la búsqueda avanzada.
Qué no es
Conviene ser honesto desde el principio: esto no es un diccionario ideológico. Un diccionario ideológico de verdad, como el de Casares, establece relaciones analógicas finas entre palabras: sinónimos, antónimos, hipónimos, expresiones relacionadas, todo agrupado en campos semánticos densos y cuidadosamente revisados por un lexicógrafo. Es un trabajo artesanal de décadas.
Lo que hace Iedra es más superficial: asigna a cada palabra una categoría temática principal y, opcionalmente, categorías secundarias. Almena va a Guerra y milicia > Fortificación y defensa. Bisturí va a Salud y medicina > Tratamiento y terapia. Es una clasificación gruesa, útil para explorar y filtrar, pero no pretende sustituir la riqueza de un diccionario ideológico real.
Hay una diferencia importante en cómo se trata la polisemia. Casares clasifica por acepciones: la palabra banco aparece en el grupo de mobiliario por el asiento, en el de finanzas por la entidad bancaria y en el de peces por el banco de peces. Cada sentido va a su sitio. Iedra no llega a tanto: clasifica por palabra, de modo que banco tiene una categoría principal (Economía y comercio > Dinero y finanzas) y categorías secundarias que recogen los otros sentidos relevantes. No es tan limpio como lo de Casares, pero permite que al buscar palabras de mobiliario aparezca banco sin perder de vista que es ante todo un término financiero.
Donde sí se afina es en las homógrafas: palabras que se escriben igual pero tienen orígenes distintos. El DLE las trata como entradas separadas (con superíndice: adagio¹, adagio²), y Iedra las clasifica por separado. Adagio¹ (del latín adagium) va a Lengua y comunicación > Retórica y figuras; adagio² (voz italiana) a Música y danza > Teoría musical. De las ~90.000 palabras del DLE, unas 2.200 tienen múltiples entradas homógrafas, y en 1.738 casos las entradas acabaron con temas distintos.
Nuestra taxonomía vs. la de Casares
Los 38 cuadros sinópticos de Casares tienen más de ochenta años. En lo concreto coinciden bastante con los nuestros: Alimentación, Vestido, Vivienda, Medicina, Milicia, Agricultura, Transportes… son dominios universales y atemporales. Las diferencias están en los extremos:
Casares separa más lo abstracto. Tiene cuadros dedicados a Existencia y Cambio, Relación/Orden/Causalidad, Forma, Colocación, Valoración… conceptos filosóficos que en Iedra quedan repartidos entre categorías como Filosofía, Espacio o Cantidad. Su enfoque viene de la tradición de Roget, que clasificaba el conocimiento en seis clases metafísicas (Relaciones abstractas, Espacio, Materia, Intelecto, Voluntad, Afectos). Bonito para un diccionario analógico, pero poco práctico para un filtro de búsqueda.
A Casares le faltan dominios modernos. No tiene categorías para deporte, informática, medio ambiente ni medios de comunicación. Ochenta años se notan.
Su granularidad es inconsistente. Botánica y Zoología son cuadros enteros, pero todo el arte, la literatura, la música y el lenguaje van juntos en un único cuadro (nº 29). Iedra los separa en cuatro categorías.
Hemos optado por una taxonomía propia de 35 categorías con 2-6 subcategorías cada una, pensada para dos cosas que Casares no necesitaba resolver: que un clasificador automático pueda asignarlas con precisión razonable, y que funcionen como filtros de búsqueda en una interfaz web.
Solapamientos aparentes
Con 35 categorías, hay pares que a primera vista parecen redundantes. En todos los casos la distinción es entre la disciplina y la experiencia cotidiana:
Cantidad y númerovs.Ciencia > Matemáticas. Cantidad recoge el vocabulario cotidiano de la proporción y la abundancia (doble, escaso, acrecentar). Matemáticas es la disciplina formal (algoritmo, asíntota, abscisa). La misma distinción que hace Casares con su cuadro nº 22 (Cantidad) separado del nº 2 (Física y Química).Habla y conversaciónvs.Lengua y comunicación. Habla es el acto: gritar, susurrar, abuchear, callar. Lengua es el sistema: gramática, fonética, sufijo, abreviatura.Cuerpo humanovs.Salud y medicina. El cuerpo como cosa (fémur, pupila, sudor) vs. el cuerpo como paciente (diagnóstico, aspirina, sarampión).Emocionesvs.Moral y ética. Lo que se siente (alegría, miedo, ira) vs. lo que se juzga (virtud, deshonra, rectitud).Mente y pensamientovs.Filosofía. La cognición como proceso (recordar, imaginar, decidir) vs. como disciplina (ontología, epistemología, axioma).Sonido y ruidovs.Música y danza. El fenómeno físico (estruendo, crujir, eco) vs. la actividad artística (violín, sonata, compás).Materia y sustanciasvs.Ciencia > Química. Los materiales del mundo (bronce, cera, vapor) vs. la ciencia que los estudia (molécula, oxidación, valencia).
La clasificación
La clasificación la hace un modelo de lenguaje. Cada palabra se clasifica a partir de su definición en el DLE, sus marcas lexicográficas y su etimología. No a partir de la palabra en sí: banco acaba en Economía, no en Vivienda, porque su primera acepción es la entidad financiera. Las marcas ayudan a desambiguar: si tiene Med., probablemente va a Salud; si tiene Mar., a Transporte > Navegación.
Clasificar es una tarea donde los modelos de lenguaje funcionan bastante bien. Leen una definición y eligen entre una lista cerrada de categorías. Cada clasificación lleva asociado un nivel de confianza (alto, medio o bajo). De las 90.485 palabras clasificadas, el 80% tiene confianza alta, el 19% media y solo el 2% baja.
Los casos más difíciles son las palabras que habitan varios mundos a la vez. Operación acaba en Ciencia > Matemáticas como tema principal, pero tiene categorías secundarias en Salud > Tratamiento, Economía > Comercio y Guerra > Combate: cuatro campos en una sola palabra. Temperamento va a Mente y pensamiento pero también a Música > Teoría musical, porque en música un temperamento es un sistema de afinación. Y el récord lo tiene bote, con seis etimologías distintas en seis categorías: del salto al recipiente, de la embarcación a la cabra.
Números
De las 89.738 palabras del DLE, 88.589 están clasificadas (98,7%). Las 1.149 restantes son sobre todo sufijos, prefijos y formas sin definición propia. La distribución por categorías:
| Categoría | Palabras |
|---|---|
| Naturaleza | 9.688 |
| Salud y medicina | 5.990 |
| Ciencia y tecnología | 4.855 |
| Lengua y comunicación | 4.535 |
| Sociedad y convivencia | 4.297 |
| Alimentación y cocina | 3.837 |
| Espacio y lugar | 3.668 |
| Agricultura y ganadería | 3.312 |
| Economía y comercio | 3.099 |
| Moral y ética | 3.043 |
No sorprende que Naturaleza domine: flora y fauna pesan mucho en cualquier diccionario. Sonido y ruido, en el otro extremo, tiene unas 500 palabras.
Si encuentras alguna palabra claramente mal clasificada, escríbeme.