Qué cambió en el DLE: comparador entre versiones

Cuando la RAE lanza una nueva versión del DLE, anuncia a bombo y platillo las incorporaciones más llamativas (el año pasado fue farlopa, streaming y bocachancla). Pero pasa por alto miles de cambios silenciosos que ocurren bajo el capó: acepciones retocadas, etimologías corregidas, sinónimos añadidos, locuciones que aparecen y desaparecen sin previo aviso. No existe un changelog del DLE.

Iedra viene a llenar ese hueco. A partir de hoy, la ficha de cualquier palabra que haya variado entre las versiones 23.7 y 23.8.1 incluye un desplegable con las diferencias detectadas. Y la búsqueda avanzada permite filtrar por tipo de cambio.

Qué se compara (y qué no)

El DLE tiene copyright, así que Iedra no almacena ni muestra definiciones completas. Lo que compara son metadatos: número de acepciones, marcas lexicográficas, sinónimos, antónimos, locuciones, combinaciones estables y etimologías.

Para detectar cambios en las definiciones sin copiar el texto, cada acepción se representa como un hash (una huella digital): si la huella cambia entre versiones, algo se ha editado, aunque no se pueda mostrar la redacción exacta. Las etimologías sí se muestran íntegras, porque son datos factuales (no prosa de autor).

Qué muestra la ficha de cada palabra

Los cambios se agrupan por bloque etimológico. Esto es clave en palabras con homógrafos: adagio, por ejemplo, en la 23.8.1 tiene una entrada para «Del latín adagium» (el proverbio) y otra para «Voz italiana» (el tempo musical). Si la RAE añadió un bloque nuevo, se indica como tal; si modificó uno existente, se desglosa:

  • Etimología: el antes y el después. En archipiélago se ve cómo pasó de un simple «Del italiano arcipelago» a una cadena completa que llega hasta el griego Aigaîon pélagos (‘mar Egeo’).
  • Acepciones: cuántas se mantienen, cuántas son nuevas y cuáles se han eliminado o retocado. En chapa: «19 sin cambios, +6 nuevas».
  • Marcas, sinónimos y antónimos: qué etiquetas lexicográficas han cambiado y qué sinónimos o antónimos se han ganado o perdido.
  • Locuciones y combinaciones estables: igual, con los nombres concretos.

Para las palabras nuevas del DLE 23.8.1 (como streaming o hashtag), se indica simplemente que es una palabra nueva.

Filtros por tipo de cambio

La búsqueda avanzada tiene un nuevo grupo de filtros: «Cambios entre versiones del DLE». Ocho checkboxes:

Se combinan entre sí y con el resto de filtros. Se puede buscar, por ejemplo, palabras de origen árabe cuya etimología haya cambiado, o verbos que hayan ganado acepciones.

Los números

De las ~90.000 palabras del DLE, unas 7.700 presentan algún cambio entre la versión 23.7 y la 23.8.1. Lo más frecuente es la adición de sinónimos (~2.000 palabras) y la modificación de acepciones (~1.900). Unas 280 palabras tienen la etimología retocada.

Una nota técnica sobre el ruido

Para los curiosos: el comparador usa un hash MD5 de cada acepción tras un proceso de normalización. Esto es vital, porque el propio parser de Iedra mejora con el tiempo: sin normalizar mayúsculas, superíndices o formatos de referencia cruzada, el sistema devolvía casi 2.000 falsos positivos (palabras que parecían haber cambiado cuando en realidad lo que había cambiado era cómo las extraía el código). También hay un puñado de palabras (como acidemia o hexagonal) donde la diferencia es tan específica que es más limpio excluirlas que intentar normalizar el artefacto.

Internamente, cada versión se almacena como una lista de snapshots por bloque etimológico, no como un blob único por palabra. Esto importa porque los homógrafos son efectivamente palabras distintas: cada uno tiene su propia etimología, acepciones, sinónimos, etc. Para alinear bloques entre versiones se usa un algoritmo híbrido: primero por texto de etimología idéntico, luego por solapamiento de contenido (Jaccard ≥50%). Lo que sobra se marca como añadido o eliminado. De las ~90.000 palabras del DLE, unas 2.400 tienen múltiples bloques etimológicos, y unas 140 cambiaron de número de bloques entre versiones.

El sistema está listo para digerir futuras versiones del DLE sin cambios de código: basta con añadir el JSON de la nueva versión y reindexar.


Si curioseando encuentras algún dato que no cuadre, escríbeme.