Terminó el adviento, pero Iedra sigue creciendo. Estos primeros días de enero han traído dos novedades que merece la pena contar: una integración mucho más rica del diccionario de María Moliner y un nuevo filtro de categoría gramatical en la búsqueda avanzada.
Diccionario de María Moliner: ahora con datos estructurados
Iedra lleva años usando el diccionario de María Moliner para enriquecer las búsquedas. Hasta ahora, su contenido se indexaba para búsqueda full-text y aparecía el chip [moliner] en los resultados cuando una palabra tenía entrada en ese diccionario, pero poco más. Los datos del Moliner no se mostraban en detalle ni se podían usar como filtros.
Eso ha cambiado. Un nuevo parser extrae datos estructurados de las 87.000 entradas de la tercera edición del Diccionario de uso del español, lo que permite mostrarlos y buscar por ellos.
El Moliner es un diccionario peculiar. María Moliner lo concibió como un diccionario de uso, pensado para quien escribe y necesita encontrar la palabra justa. Por eso incluye información que otros diccionarios no recogen: sinónimos, usos geográficos, niveles de registro, y sobre todo, nombres científicos de plantas y animales.
En la ficha de cada palabra, si existe entrada en el Moliner, aparece ahora una caja específica con:
- Sinónimos: Palabras de significado equivalente o relacionado.
- Locuciones: Las expresiones fijas que incluye el Moliner, distintas a veces de las del DLE.
- Nombres científicos: La taxonomía latina de plantas y animales.
- Uso geográfico: Dónde se usa la palabra (España, América, regiones concretas).
- Registro: Si es coloquial, vulgar, literario, técnico…
Por ejemplo, en abeja verás que el Moliner incluye tres nombres científicos (Apis mellifera, Xylocopa brasilianorum, Xylocopa violacea), sinónimos y cinco locuciones. En roble aparecen Quercus robur y Quercus petraea, con sinónimos como carvajo, carvallo o robre. Y en tomate encontrarás Lycopersicon esculentum, con la marca de uso geográfico México y registro informal.
Una nota sobre los datos: el formato original del CD-ROM del Moliner almacena los sinónimos y el catálogo de términos relacionados como texto plano, sin separadores claros entre las distintas entradas. Por ejemplo, para perro el campo de sinónimos contiene De perros Perro jateo perro zorrero Sabueso A espetaperros Perro, donde es difícil saber dónde termina un sinónimo y empieza el siguiente. Por eso Iedra muestra estos campos como texto libre en lugar de como listas de enlaces. No es ideal, pero es más honesto que inventarse una estructura que no existe en los datos originales.
Las locuciones del Moliner también se integran en el buscador de locuciones. Ahora, al buscar expresiones, aparece un badge indicando si la locución viene del DLE, del Moliner o de ambos. Esto es útil porque los dos diccionarios no siempre coinciden: a veces el Moliner recoge expresiones que el DLE no incluye, o viceversa.
Búsqueda por nombre científico
En la búsqueda avanzada hay un nuevo filtro de nombre científico. Puedes buscar Apis mellifera, Quercus robur o cualquier otro nombre de la taxonomía latina, y Iedra encontrará las palabras que corresponden a esa especie. La búsqueda es case-insensitive: puedes escribir apis mellifera, APIS MELLIFERA o Apis Mellifera y obtendrás los mismos resultados.
No hace falta escribir el nombre completo. Puedes buscar solo por género (Apis, Quercus) o solo por epíteto específico (mellifera, robur). Así es fácil encontrar todas las palabras relacionadas con un género taxonómico, o buscar cuando solo recuerdas parte del nombre científico.
Filtro de categoría gramatical
La búsqueda avanzada tiene un nuevo filtro: categoría gramatical.
Hasta ahora, si querías buscar solo sustantivos o solo verbos, tenías que usar el filtro de marcas lexicográficas y seleccionar las marcas correspondientes: nombre femenino, nombre masculino, verbo transitivo, verbo intransitivo… Pero las marcas del DLE son bastante heterogéneas, y encontrar la combinación correcta para filtrar por categoría gramatical era engorroso.
El nuevo filtro simplifica esto. Iedra mapea automáticamente las marcas del DLE a once categorías normalizadas: sustantivo, adjetivo, verbo, adverbio, pronombre, preposición, conjunción, interjección, artículo, contracción y afijo.
El filtro permite selección múltiple: si seleccionas varias categorías, Iedra buscará palabras que puedan funcionar como todas ellas. Por ejemplo, seleccionando “sustantivo” y “adjetivo” encontrarás palabras que pueden ser ambas cosas según el contexto, como joven, español, ciego o rico. Es una forma de descubrir palabras gramaticalmente versátiles.
Muchas palabras tienen varias categorías gramaticales según la acepción (bajo puede ser adjetivo, sustantivo, adverbio o preposición). Iedra indexa todas las categorías de cada palabra, lo que hace posible este tipo de búsquedas cruzadas.
Estas novedades aprovechan los datos de formas distintas: la extracción estructurada del Moliner los hace visibles y buscables, y el filtro gramatical simplifica el uso de las marcas del DLE. Es un ejemplo de cómo mejorar un diccionario no es solo cuestión de añadir más texto, sino de extraer estructura de ese texto.
Si encuentras errores en los datos del Moliner o en la extracción de categorías gramaticales, escríbeme.