Diffbot

Diffbot est une plateforme d’intelligence artificielle spécialisée dans l’extraction automatisée de données structurées à partir de pages web, en transformant le contenu HTML non structuré en données propres, normalisées et exploitables (souvent au format JSON-LD ou RDF).

Licence : (gratuit pour petits volumes) → pas open source
Moins transparent que Wikidata ou les outils libres (OpenRefine, GROBID)
Dépend de ce qui est publié sur le web → surreprésentation des contenus anglophones, institutionnels, médiatiques
Extraction à grande échelle → vérifier les conditions d’utilisation et le droit d’auteur

Niveau

intermediaire

Vous cherchez un autre mot ? Essayez la recherche rapide ci-dessous :

Partager cette page