Traitement du langage naturel : Quels sont les outils d’analyse de sujet plus efficaces des open source pour le texte?

Par exemple : si im lecture un amis messages sur facebook ou twitter ou leur blog, il serait assez facile pour moi de déterminer que poste 1 est principalement un commentaire négatif sur « Jessica Simpson » et « I love lucy » et le poste 2 est principalement un commentaire positif sur « Snooki » et « baby doll ».  Mais comment pourrais je faire cela automatiquement? Quels sont les outils là-bas que je pourrais utiliser?

Réponse

  • Carrot2 (http://project.carrot2.org/) est l’expression clé extraction cum outil de clustering, il essayer de générer exact phrase clé complète pour l’ensemble de documents.
  • Cornac (http://mahout.apache.org/) est la fouille de textes apache et un projet d’apprentissage machine. Il peut être utilisé avec map-reduce et solr/lucene. Ainsi, il peut être utilisé pour cornac soutien rubrique modèle algo comme LDA et clustering algorihmss. Cornac peut donc être utilisé pour la catégorie modélisation sur données volumineuses.
  • Mallet (http://mallet.cs.umass.edu/) est outil d’exploration de texte UMASS. Il peut utilisé pour la modélisation de la rubrique.  Il prend en charge la LDA, algorithme de PAM pour la modélisation de la rubrique.
  • Kea (http://www.nzdl.org/Kea/index.html) est l’outil d’extraction de phrase-clé sous surveillance. Kea peut être formé sur la formation dataset pour la modélisation de la rubrique. Kea également utiliser ontologie ou informations de vocabulaire contrôlé pour l’extraction de mots clés.


Tags: Traitement du langage naturel, Outils de traitement de langage naturel