The Fuel Behind aGoodCause

The summer of 2017 was a world-wind of tragedy, narrowly escaping death, and massive medical expenses that were extremely daunting. One late evening in July, my healthy and beautiful wife was sitting…

Smartphone

独家优惠奖金 100% 高达 1 BTC + 180 免费旋转




Las variables y las Cosas

Se dice frecuentemente que los economistas habitamos ese mundo entre las ciencias blandas y duras. Recuerdo una meetup que una sociologa nos arengaba para que nos reconozcamos cientistas sociales. Igualmente ningun economista cuerdo defendería que la suya es una ciencia dura.

Todo esto viene a colación porque le entré a Foucault, que no es un autor que nos hayamos encontrado en la carrera y es mi excusa para esta interpretación, que de hecho se centra solo en el prefacio y el capitulo 2 de “Las Palabras y las Cosas” y como me ayudó a pensar la limpieza de un set de datos.

Todo comenzó con un trabajo de scrapeo de datos. Cuando une hace este tipo de ejercicios, los datasets resultantes tienen muchos errores y el proceso de limpieza suele ser algo engorroso.

Este, particularmente, tiene muchos datos duplicados que es necesario eliminar, pero el problema era que, al duplicarse, esos datos se corregían. ¿Que significa esto? Que habia dos registros que estaban referidos a la misma cosa, pero que tenian ligeras diferencias en sus features en el dataset y era imposible detectar inmediatamente. Entonces, ¿cual era el grado de similitud que debían tener dos registros para determinar si eran el mismo o no?

“Las palabras y las cosas” nace de un texto de Borges que provoca en Maicol Foucault una inquietud que lo llevó a escribir casi 400 páginas acerca de como las palabras se relacionan con las cosas, dice:

Este texto (El de Borges) cita “cierta enciclopedia china” donde está escrito que “los animales se dividen en:

a) Pertenecientes al emperador

b) Embalsadmados

c)Amaestrados

d)Lechones

e)Sirenas

f)Fabulosos

g)Perros suetos

h)Incluidos en esta clasificacion

i)Que se agitan como locos

j)Innumerables

k)Dibujados (…)

l)etc…

m)Que acaban de romper el jarron

n)Que de lejos parecen moscas”

En definitiva se pregunta que espacio habitan los animales de la enciclopedia China y llega a decir:

Tanto la enciclopedia China citada por Borges y la taxonomia que propone nos conducen a un pensamiento sin espacio, a palabras y categorías sin fuego ni lugar” lo cual implica que “existiría así, en el otro extremo, una cultura orientada al ordenamiento de la extension” refiriendose a occidente y a que la misma taxonomia, escrita en Francia en el siglo XX, estaría dispuesta sobre un espacio ordenado, hasta podría decirse una serie de ejes cartesianos.

Y a continuación, describe lo que para mí, fue el disparador de estas palabras: “Cuando levantamos una clasificación reflexionada, cuando decimos que el gato y el perro se asemejan menos que dos galgos … ¿cual es la base a partir de la cual podemos establecerlo con certeza? ¿A partir de que “tabla”, según que espacio de idenetidades, de semejanzas, de analogias, hemos tomado la construmbre de distribuir tantos cosas diferentes y parecidas?”

Y ahí esta también, el eje de mi problema, ¿cual es el la tabla, el espacio, la semejanza suficiente que me permite crear un modelo que distinga si dos registros se refieren a la misma cosa? ¿Cual es el set de features que mejor hacen referencia a la cosa en cuestión?

Lo que busca Foucault en el libro es descrubir y explorar ese espacio y su evolución historica, hacer una arqueología de ese espacio que permite la comparación de las cosas, mi objetivo era mas humilde, la creación de un modelo que sea lo suficientemente bueno para determinar si dos registros ocupan el mismo espacio y por ende, refieren a la misma cosa.

Comienza el capitulo 2 del libro, hablando de las formas de la similitud, a lo cual ya llegaré. Pero me gustaría arrancar por el segundo titulo del capitulo, “Las Signaturas”

La cual, a grandes razgos define como la marca que revela la similitud; lo cual permite la comparación. La verdad, estuve un rato largo haciendome lío de si era equivalente hablar de signatura a hablar de feature pero termine llegando a la conclusión que es algo así pero no tanto. Voy a definir la signatura en un dataset, de un registro, a aquella transformación de los features que permita una mejor representación de la cosa, es decir, al proceso de ingenieria de feature.

Para Foulcaut, “no hay semejanza sin signatura”,bueno, no hay modelo sin ingenieria de features (puede resultar que justo te llegue un dataset perfecto, que no necesite ningun tipo de variable nueva o transformación, en ese caso, te envidio mucho)

Alternativamente, puede pensarse a la signatura como el modelo (de clasificación) mismo, que revela el % de similitud que tiene con una clase dada, pero no me gusta demasiado esta analogia porque “Es necesario que las similitudes ocultas se señales en la superficie de las cosas; es necesaria una marca visible” y si la signatura esa depositada en la cosa, no es el modelo.

Ahora bien, ¿cuales son las formas de la similitud y cual me permitiria determinar si dos registros son el mismo?

La convenientia o conveniencia:

una semejanza ligada al espacio en la forma de “cerca y mas cerca” …. pertenece menos a las cosas mismas que al mundo en el que ellas se encuentran”

Hay varias formas de calcular similitud de registros, una de ellas es convertir a vectores numericos y calcular la distancia coseno que los separa, en sí, esto no calcula que tan distintos o parecidos son los atributos de los elementos sino que los mapea al plano numerico y calcula el angulo que existe entre ellos (dada esa conversión).

También cabría el calculo de la distancia geografica entre dos puntos, si es que hay, dentro de las variables del dataset, la latitud y la longitud; cosa que en este caso tenía, pero no me ayudo en la identificación, porque la distancia relevante, sería 0km, a no ser que; en la duplicación; haya habido corrección en ese dato, en cuyo caso solo sirve cuando es 0km para determinar si es el mismo lugar.; de diferir hay dos alternativas: es otro lugar u hay una corrección que justo afecto a esto.

Aemulatio o emulación: “una especie de conveniencia que estaría libre de la ley del lugar…por medio de esta emulacion, las cosas puede imitarse”

En este caso, los elementos de una cosa emulan a los elementos de la otra, y Foulcaut lo que hace es determinar que una es analogia de la otra, lo cual pone en pie de desventaja o jerarquiza ya que “en esta justa, lo dos rivales no tienen un valor ni una dignidad iguales”

La forma de similitud calculable que podría asociar a esta forma de semejanza es la variacion relativa de un registro por el otro, es decir la medicion de que tan mas o menos es:

max(X, Y)-min(X, Y)/max(X,Y) — 1

Y la desiguladad se da por cual es la base de comparación, en este caso el maximo. Suponiendo que sea X, el resultante es la variacion de Y respecto a X.

Analogia:se superponen la convenientia y la aemulatio. Al igual que esta, asegura el maravilloso enfrentamiento de las semejanzas a traves del espacio, pero habla de ajuste, de ligas y de junturas”

Al ser una mixtura de las dos formas quele precedieron, en el mejor de los casos es una combinacion de los calculos mecionados mas arriba. Pero la posterior descripcion que hace el autor de la analogia la asociaría más criterios esteticos, y artisticos. Si paletas de colores son distintas o los grados de similitud de los acordes en una cancion que cambia de tónica. Aunque sería interesante la exploracion de la extensión de la analogia no ví como una vía.

Simpatia: “Aqui no existe ningun camino determinado de antemano, ninguna distancia esta supuesta, ningun encadenamiento prescrito…sucita el movimiento de las cosas en el mundo y provoca los acercamientos mas distantes. Es el principio de movilidad; atrae lo pesado, hacia la pesantez de suelo y lo ligero hacia el éter del sol…”

Por más bella que me resulte la simpatía, no me resulta operativa para la tarea; quiza se pueda usar para comparar gravedades de distintos cuerpos celestes en el plano fisico, Pero a decir verdad, que bueno que las capacidades del lenguaje van más allá de lo tabulable en un set de datos estructurados.

Asique me sirvió pensar la convenienicia y la emulación para determinar el grado de similitud; luego el proceso concreto se materializó comparando uno contra todos, para cada uno de los registros lo cual daba como resultado un ser de pares ordenados de tamaño exponencial, y de allí calcular cuales eran los elementos que cumplian con la propiedad transitiva de similitud:

Si A~B y B~C entonces A~C donde “~” es un resultado positivo para la clasificación de duplicados.

No fue esta la unica vía para determinarlo, y no fue tampoco tan así que operativamente se justificó el empleo de tales tecnicas referenciando al pelado de Foulcaut, pero fue un ejercicio mental que me ayudo a encontrar una solución; pero lo que me llevo a escribir estas palabras fue que muchas veces se pone en duda el valor de los aportes de las ciencias sociales en la tarea y muchas veces se hace demasiado enfasis en lo tecnico, pero a veces, aunque sea solo a veces, las ciencias blandas permiten mas flexibilidad de pensamiento que las duras.

Add a comment

Related posts:

Endlessly

Magnolias blooming. “Endlessly” is published by Randy Shingler in Haiku Hub.

Create beautiful forms with Flutter

Creating good looking forms on mobile is not a trivial task. The kind of layouts that are available on native development tools as well as cross-platform frameworks (e.g. Xamarin, React Native etc.)…

All Means All

There is a story about a mission in a primitive country, where doctors and nurses attempted to save lives by teaching about good hygiene and nutrition, along with providing simple medical care. A…