Lista de Frecuencias de Palabras del Castellano de Chile (Lifcach)
Scott Sadowsky & Ricardo Martínez Gamboa
Bajar: LIFCACH (ZIP) · Readme (RTF)
Espejo 1 (Hostei): LIFCACH (RAR) · Readme (RTF)
Espejo 2 (Mediafire): LIFCACH (ZIP) · Readme (RTF)
Descripción
La Lista de Frecuencias de Palabras del Castellano de Chile (Lifcach) es un conjunto de 102 listas de frecuencias léxicas derivadas de los distintos subcorpora del Corpus Dinámico del Castellano de Chile (Codicach), un corpus del español escrito contemporáneo de Chile desarrollado por Sadowsky entre 1997 y 2002; este corpus contenía aproximadamente 450 millones de palabras a la hora de elaborar la Lifcach (actualmente contiene alrededor de 800 millones de palabras). La Lifcach también contempla una lista no ponderada de frecuencias totales (la columna titulada Total Occurrences), la cual es simplemente la suma de las frecuencias de las 102 listas individuales (en otras palabras, es la lista de las frecuencias del Codicach en su totalidad).
Aunque podría existir la tentación de interpretar la lista Total Occurrences como una lista representativa del castellano de Chile en general, recomendamos encarecidamente no hacerlo. El Codicach es un corpus oportunista que privilegia, entre otras cosas, los medios de prensa escritos; tal como está estructurado, no pretende ser una muestra representativa de la variante lingüística nacional, al estilo del BNC. Sin embargo, la naturaleza modular del Codicach y de las 102 listas individuales de la Lifcach permite a los investigadores utilizar una o más de estas listas de manera independiente; combinarlas según sus propias necesidades; o ponderar las listas individuales de la Lifcach para así crear una nueva lista de frecuencias que sea representativa según los criterios del investigador.
La Lifcach contiene 477.293 lemas, derivados de aproximadamente 4,5 millones de types extraídos de los 450 millones de palabras de texto corrido que contemplaba el Codicach al momento de elaborar la Lifcach.
Elaboración de la Lifcach
A continuación se presentan los pasos de la creación de la Lifcach:
- Se generaron listas de frecuencias de types en base a las palabras de texto corrido de cada uno de los 102 subcorpora del Codicach.
- Se lematizó y etiquetó con categorías gramaticales (POS) cada una de las listas de frecuencias de types con el programa MS-Tools v2.0 de la Universitat Politecnica de Catalunya (para más información sobre MS-Tools, comuníquese con Lluís Padró).
- Se eliminaron los aproximadamente 300.000 lemas con una frecuencia de 1 (hápax legómenos). La eliminación de estos lemas representa un intento de establecer un equilibrio entre la completitud de las listas y el tamaño y procesabilidad de los archivos.
- Las listas de frecuencias de lemas resultantes se incorporaron en un archivo CSV, y luego se calcularon las frecuencias totales.
Es preciso hacer una advertencia respecto de esta metodología. La utilización de listas de frecuencias de types en vez de palabras de texto corrido en el proceso de lematización y etiquetado POS surgió de una necesidad práctica relacionada con la velocidad del software y los recursos computacionales disponibles en el momento de la elaboración de la Lifcach. En consecuencia, el software debió analizar palabras como canto sin disponer de la información necesaria para determinar si una instancia dada de esta palabra correspondía al verbo cantar o al sustantivo canto. La eliminación del contexto redujo la precisión del etiquetado y lematización, aunque mucho menos de lo que sucedería en el caso del inglés, gracias a la compleja morfología del castellano.
También debe notarse que el software de etiquetado POS y lematización que se utilizó está basado en el castellano de España, un dialecto nacional que es un tanto alejado del castellano de Chile.
Los autores están preparando un nuevo conjunto de listas de frecuencia, Lifcach II, para subsanar estas deficiencias.
Advertencia
La Lifcach no debe abrirse en versiones antiguas de Microsoft Excel. La última versión de este programa que hemos probado (Excel 2007) funciona correctamente, pero versiones anteriores sólo pueden abrir las primeras 65.000 filas (aproximadamente). Sugerimos utilizar Excel 2007, Microsoft Access, Open Office, Quattro Pro, o un software de estadística adecuado.
Uso
La Lifcach está protegida por las leyes de propiedad intelectual (Copyright © 2006 Scott Sadowsky & Ricardo Martínez Gamboa). La Lifcach puede utilizarse libre y gratuitamente para fines académicos que no tengan fines de lucro, siempre que se cite la fuente. Se prohíbe expresamente todo uso o aplicación comercial de la Lifcach que no cuente con el consentimiento escrito previo de los autores.
Más información
Para más información sobre la Lifcach, véase el archivo README.
