Como sabéis estoy ingestando en #elasticsearch los estados del #fediverso para hacer análisis de datos, por ahora lleva unos 1,434,630 estados que comparto desde mi instancia y podéis ver desde API de búsquedas https://elastic.manalejandro.com/mastodon/_search si quieres clonarte el índice solo tienes que reindexarlo en tu elasticsearch local de la siguiente forma:

curl http://tuelasticsearch:9200/_reindex -H 'Content-Type: application/json' -d \ '{ "source": { "remote": { "host": "https://elastic.manalejandro.com" }, "index": "mastodon" }, "dest": { "index": "mastodon" } }'

in reply to Ale

@ale He sido parte de proyectos académicos que han hecho cosas así... Y te recomiendo muy mucho que montes una web con una declaración de uso y finalidad de los datos, tanto por ti como por los demás vía API. No hace falta gran cosa, pero la transparencia en esto te puede salvar de muchísimos dolores de cabeza en el futuro.

Creo que esto puede ser muy interesante, así que te animo a ponerlo "en orden" para que sea lo más útil posible. Cualquier cosa, te echo una mano!

in reply to Ariadna Vigo

@arivigo@fosstodon.org aunque esté usando información pública al alcance de cualquiera sin necesidad de registro y no esté sujeta a la LOPD por no ser datos de caracter personal ¿tengo que dar explicaciones de para que se van a usar? ¿estos hola mundo no pertenecen a nadie no?

$ curl -s "https://elastic.manalejandro.com/mastodon/_search?pretty&q=status.content:hola%20mundo" | jq .hits.hits[]._source.status.content | sed -e 's/<[^>]>//g' "Hola, mundo." "Hola mundo!" "¡Hola mundo! – Multi-Sitio Reisub¡Hola mundo! – Multi-Sitio Reisub*homelinux.nsupdate.infohttps://homelinux.nsupdate.info/admin/22/11/2020/hola-mundo/ https://friendicarg.nsupdate.info/display/69172192-1960-a25c-4e59-4dc540356502" "Hola Fedora 34" "Hola" "Hola" "Hola a totes!" "Hola putos" "Hola a totes!" "Hola"

Estaría bien hacer unos términos de uso para saber en que se van a usar los datos, no como en muchas instancias federadas, por lo menos lo hago público y comparto la info con el/la/le que tenga curiosidad 🤔

in reply to Ale

@ale No te lo digo por la LOPD, que no aplica, sino por los ToS de las instancias... para que te ahorres malentendidos por el uso de datos alojados en esas instancias. Por eso te digo que en tu caso no hace falta gran cosa: simplemente una web así en "bona fide" que diga justamente lo que me acabas de poner y listo.

Otro tema es el contenido que esté protegido por derechos de autor: fotos, ilustraciones o textos que puedan ser creativos (no "Hola mundo" 😆). Ahí cuidado, pero eso es otro tema.