Inicio > Mis eListas > terraeantiqvae > Mensajes

 Índice de Mensajes 
 Mensajes 106 al 135 
AsuntoAutor
... la historia se David Sa
RE: Jericó Ana VAZQ
Re: ... la histori oscar go
Fw: Herodot, defin Claudius
Pueblos del Sudest Alberto
Precocidad en la f Alberto
Re: Pueblos del Su Ana Mari
RE: respuesta Ana Mari
Re: Pueblos del Su David Sa
Re: El lenguaje y David Sa
Re: Sudeste Asiáti David Sa
Re: Lengua y polít David Sa
Fwd Pelasgians - e David Sa
Sobre el nombre Sa David Sa
Diversidad y Forta David Sa
Re: Lengua y polít David Sa
¿Quién escribió la David Sa
Re: Agradecimiento David Sa
Re: Precocidad en David Sa
Precocidad en la f Alberto
Re:_El_lenguaje_y_ Alberto
Re:_Agradecimiento Ana Mari
RE: respuesta Ana Mari
Re: Re:_El_lenguaj David Sa
Las cartas de Pabl David Sa
RE: A pregunta de José Lui
El alfar de Campos José Lui
Tras la pista de J José Lui
Encuentran restos José Lui
Relgión Antigua (A David
 << 30 ant. | 30 sig. >>
 
Terrae Antiqvae
Página principal    Mensajes | Enviar Mensaje | Ficheros | Datos | Encuestas | Eventos | Mis Preferencias

Mostrando mensaje 2010     < Anterior | Siguiente >
Responder a este mensaje
Asunto: ¿Quién escribió las cartas de San Pablo? (part e II)
Fecha:Jueves, 17 de Octubre, 2002  22:56:23 (+0200)
Autor:David Sanchez <davius_sanctex @.....es>

 
 
Estaba yo preparando mi mensajito sobre el análisis estadístico del léxico de las cartas de Pablo, y mira por donde me he topado con un artículo realmente interesante (bueno a mi me pareció la leche):
 
El artículo discute la posbilidad de reconocer automáticamente si un texto fue escrito por un determinado autor? o si es posible que un ordenador (no-parlante, claro ;-) podría llegar a identificar el tema principal del texto y contruir herramientas de clasificación automatica de textos. [Eso no solo revolucionaría la interpretación de textos históricos que es de lo que yo quería hablar, sino que los buscadores de internet serían mucho más eficientes].
Además el artículo expone dos éxitos importntes:
(1) Plantea un método muy sencillo que consiste en comprimir y decomprimir archivos en formato *.zip [cosa que puede hacer cualquier ordenador casero fácilismamente] para identificar si dos textos han sido escritos o no por el mismo autor.
(2) Con una modificiación del mismo método partiendo de la declaración universal de los derechos humanos, logra que un ordenador reconstruya las relaciones de parentesco entre esas lenguas con un alto nivel de precisión. Como puede verse:
 
 
 
Puede verse que las relaciones de bajo nivel son plenamente correctas y solo cuando se hacen agrupaciones de más alto rango agrupar al subfamiliar en familas se cometen errores [pero recordemos que también los lingüistas que han propuesto identificaciones erroneas han cometido las equivocaciones en el alto nivel]. Es interesante además que el algoritmo clasifica al ingles a medio camino entre las lenguas románicas y germánicas, justo lo que haría cualquier lingüista que solo dispusiera de documentos en inglés contemporáneo y no tuviera información histórica sobre su pasado. Además el vasco no es agrupado en el bajo nivel con ninguna otra lengua mostrando solo parecidos superficiales en altos niveles]. La verdad es que me pareció impresionante que con un procedimiento tan simple como el que describe el artículo pudieran lograrse resultados tan buenos. Da miedo, un dia ya veo substituidos a los lingüistas por ordenadores jajajajaj
 
________________
El artículo explica otras muchas cosas interesantes:
(A) el análisis de la entropía estadística podría ser clave para la continuación del proyecto del genoma humano. Decodificar solo la parte que contiene genes en el ADN ha llevado años, y aún existe la posibilidad de que la parte que no esté constituida por genes todavía contenga información útil (sólo una parte menor del ADN contiene genes).
(B) no solo explica eso sino que explica que en el enfoque de Chaitin-Kolmogorov la entropía de una secuencia es la mínima longitud que debe tener un programa de ordanador (en términos de 1's y 0's) capaz de generar dicha secuencia! Esa idea teórica está detrás del algoritmo de Lempel-Ziv que de hecho es el que usan los compresores para comprimir archivos en formato *.zip (de hecho <zi-> viene de Ziv!!! [Curiosamente este algoritmo de compresión tiene la curiosa propiedad de que a medida que el numero N de simbolos de la cadena de la secuencia original tiende a infinito, la relación de compresión Lf/L0 ---> s: entropía media por carácter; es decir los archivos grandes en general pueden comprimirse mejor].
(C) Por (A) puede estimarse la cantidad información no-redundante de una secuencia (texto, secuencia de ADN o archivo electrónico); algo que en general es dificil de medir por otros métodos) simplemente zipeandolo y viendo el tamaño !!!! (esto daría una cota superior).

 En fin muy recomendable, naturalmente en inglés y con un poquito de matemáticas [pero no más allá de sumas restas multiplicaciones y divisiones tranquis!!!)
 
David S.