Ultimas imágenes de la ciencia I

| | Comentarios (3)

Bojowald.jpgChris Anderson es el editor-jefe de la revista Wired.

Un tipo al que se le ha dado por arrojar piedras cognitivas sobre lugares conocidos, a la vista de todos.

El mas reciente de estos lanzamientos es la idea según la cual la avalancha de datos y lo in-acotable de sus fuentes es en la actualidad tal que el método científico ha quedado obsoleto. Voy a tratar en este post de traducir el artículo y comentarlo.

El carozo del artículo de la Wired es que la posibilidad de recolección de hechos y cifras crece hasta llegar a los llamados por los estadísticos grandes números, haciendo que ahora más sea diferente, es decir lo cuantitativo sea cualitativo.

"Todos los modelos están equivocados, pero algunos son útiles" dijo el estadístico George Box hace 30 años y al decir esto quizás se equivocaba, pero su idea si que sería era productiva.

Increíblemente para nosotros los argentinos, Google demuestra que teníamos razón cuando atábamos todo con alambre: el asunto es que así funciona.

Es decir que empresas como Google, que han crecido en (y producido) una época de abundantes datos masivos, no tienen que conformarse con modelos, independientemente si están equivocados o no.

Hace sesenta años, dice la Wired, las computadoras apenas producían Kilobytes de información legible. Hace veinte años tuvimos los primeros Megabytes bajados de Internet. Hace diez años, el primer motor de búsqueda que documentaba Terabytes de datos. Ahora Google está llegando a la mayoría de edad: son los hijos de la Edad petabyte.

En la escala petabyte, la información no es una cuestión de simples de tres y cuatro dimensiones taxonómicas. Se requiere un enfoque totalmente diferente: hay que ver los datos matemáticamente primero y dejar el contexto para más adelante.

La filosofía de Google es que no sabemos por qué un sitio es mejor que otro, pero las matemáticas sí. Confiamos en los enlaces entrantes y los hits, no en la semántica.

En una intervención reciente, Peter Norvig, director de investigación de Google, propuso una actualización a la máxima de George Box : "Todos los modelos están equivocados, y sin embargo se puede tener éxito sin ellos."

Pareciera que la propuesta es que en este mundo de grandes cantidades de datos las matemáticas aplicadas pueden sustituir a las herramientas de conversión de datos en información en las que confiábamos hasta ahora. Primero los datos, despues los modelos y no viceversa.

Y van más allá: cada teoría del comportamiento humano, desde la lingüística a la sociología ya no pueden manejar tantos datos. La taxonomía, la ontología o la psicología:¿ Que saben sobre por qué la gente hace lo que hace? La cuestión es que hacen, y ahora podemos analizar y medir todo esto con una fidelidad sin precedentes.

Profetizan: con suficientes datos, las cifras hablan por sí solas.

¿Y la ciencia? Pues está haciendo todo alrevés, dice Chris Anderson: si el método científico se articula en torno a hipótesis comprobables con lo único que nos encontraremos es con la mente de los científicos.

Los modelos son lo que prueba entonces, y los experimentos confirman o falsean los modelos teóricos de cómo funciona el mundo. Esta es la manera de hacer ciencia ha trabajado durante cientos de años, educando a su vez generaciones de científicos.

Los científicos están entrenados en reconocer causalidades o determinaciones y comprender los mecanismos subyacentes que conectan unos elementos con otros. Una vez que hay un modelo, se pueden conectar a los conjuntos de datos con confianza.

Pero al enfrentarse a datos masivos, este enfoque de la ciencia (hipótesis > modelo > pruebas) se está convirtiendo en obsoleto.

Por ejemplo Newton propuso modelos que fueron aproximaciones de la "verdad". Hace un siglo, basados en estadísticas, contamos con otro modelo, el de la física cuántica.

En la actualidad existe una mejor manera dice Chris Anderson. Los Petabytes nos permiten decir: "La correlación es suficiente." Podemos dejar de buscar modelos.

Podemos analizar los datos sin hipótesis acerca de lo que podría mostrar. Podemos arrojar números en clusters y dejar que los algoritmos encuentren patrones donde la ciencia clásica no puede.

Neoevolución

El mejor ejemplo práctico de que vivíamos equivocados es el programa de secuenciación de genes de J. Craig Venter: usando secuenciadores de alta velocidad y superordenadores analiza estadísticamente los datos que le proveen inmensos ecosistemas. El Océano, la atmósfera, en fin, cualquier lugar donde pueda haber vida le sirve para descubrir miles de especies desconocidas de bacterias y otras formas de vida, así como el DNA que las codifica.

No solo descubrir vida, también diseñarla, patentarla y en el futuro facturar millones.

Es posible que Venter no pueda decir casi nada sobre las especies que encuentra, no sabe a que se parecen, cómo viven, o cualquier otra cosa acerca de su morfología.

Es más, ni siquiera conoce la totalidad de su genoma: todo lo que consigue son secuencias que, a diferencia de cualquier otra secuencia en la base de datos, deberían representar una nueva especie.

Matemáticas biológicas: cada secuencia nueva se puede correlacionar con otras secuencias que se le asemejen. Venter puede hacer conjeturas, pero las hace al modo google.

En esto se basa Chris Anderson para preguntarse: ¿Qué puede hacer la ciencia para aprender de Google?

3 comentarios

Ahora entiendo. Pero lamento decirte nuevamente que, NO.
uy no entendí yo.
Perdon, porque en lo escueto se esconde lo importante. En realidad es casi como una afirmacion de lo que habiamos conversado antes. Quiza no existe El metodo cientifico, sino muchos, varios, diversos y por sobre todo, el mas apropiado para algo (ciencia dura!=ciencia blanda). En realidad, mas allá de las bondades y debilidades de cada método, quizás se acomoda mejor para tratar o sistematizar algun estudio particular. El hecho de que la Duda Metódica no sea aplicable a todos los campos, no lo convierte en un método menos valido para algún tipo de investigacion. Si bien el enfoque del autor es muy valioso y sin duda, sistematiza el algo que muchos vivimos y pensamos a diario, no determina o invalida ninguno en particular. El hecho de que existan Petabytes de información, tampoco asegura que la respuesta sea necesariamente la mas correcta. Es decir, la cantidad de datos no es condicion necesaria, sino que es un aditamento que desde algun punto la convierte en mas valioso. En Unix, en la filosofia original, existe un paradigma muy especial. Menos es mas. Los comandos, eran algunas Pocas utilidades, con pocas variaciones, que permitian hacer Muchas cosas. Pero en conjunto, paradojicamente. Lo importante era la relacion. Quiza el enfoque de la generacion masiva de datos, pueda ser útil para eso, para generar masivamente datos, que en realidad esconden lo mas importante. La o las relaciones que existen en esos datos. Generar millones de números sin ton ni son es un ejercicio no muy complejo de programacion, pero, que sirvan es algo a lo google. Quiza las relaciones importantes son unas pocas que se esconden como patrones, que se repiten una y otra vez. Patrones que, no son a simple vista reconocibles. Probablemente, la neoevolución, sea implocion sobre el pasado. Sobre un mensaje, que ya tenemos, pero que perdemos de vista. Quiza la tendencia, o la vanguardia, no tenga que ver con crecer sobre los mismos pilares, sino romperlos para simplificar.

Escribir un comentario

Nube de tags

Octubre 2008

Dom Lun Mar Mié Jue Vie Sáb
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  

Enlaces