MLconf 2015 Seattle : Comment pouvez-vous utiliser topologie pour machine d’approche des difficultés d’apprentissage?

Topologie est l’étude et la description de la forme. Des problèmes de données volumineuses, forme surgit parce que vous avez une notion de similitude ou de la distance entre les points de données. Cela peut être quelque chose comme la distance euclidienne, corrélations, une distance de graphe valué ou même quelque chose de plus ésotériques. Forme est exploité en apprentissage automatique en faisant appel à des informations supplémentaires telles que « mes données a bien défini groupes ou classes », « ce résultat est linéaire », « mon signal est périodique ». Puis, vous utiliserez des outils spécialisés d’appliquer des modèles basés sur cette information.

L’hypothèse concernant le modèle approprié est en fait une hypothèse sur la forme des données.  Si vous choisissez un modèle linéaire, alors vous êtes disant que les données ont la forme d’un sous-espace vectoriel linéaire, un modèle mesurant périodicité indique que les données se trouve sur une « boucle » et le clustering déclare que les données a bien définie des morceaux - toutes les descriptions de la forme.

Il n’y a aucun recensement de toutes les formes possibles et différents « types » de forme peuvent apparaître dans un seul ensemble de données - vous pouvez avoir une région où il y a un comportement périodique alors que les autres parties des données diviser en groupes claires.  Dans les ensembles de données complexes dimensionnelles élevées, il est impossible d’émettre le shape sous-jacent de la données et pire encore que, il peut être difficile à détecter même si vous avez choisi un mauvais modèle.

Topologie ajoute la capacité de comprendre et de décrire la forme sans imposer d’informations modèle supplémentaires, qui peuvent être biaisées et induire en erreur. Cela conduit à un certain nombre d’avantages concrets, tels que l’amélioration du modèle prédictif et une meilleure compréhension de vos données.

Cela semble être un point insignifiant, mais peut être la clé pour résoudre des problèmes complexes avec un haut degré de précision. Un exemple simple de ceci vient de modèles prédictifs de l’hôpital. Hôpitaux veut mesurer comment malade les gens et de recueillent une variété de renseignements cliniques (tension artérielle, fréquence cardiaque, température, le rythme respiratoire, des niveaux d’oxygène etc.) ou l’information génétique (niveaux d’expression de gène). En général, elles s’adaptent à un modèle de régression linéaire qui prédit comment les patients « malades ». L’hypothèse sous-jacente est qu’il existe une relation linéaire proche entre les symptômes et de la « maladie ».

David Schneider, chercheur à l’école de médecine de Stanford, a données d’expression pour les personnes à différents stades de la malaria. Examinés à l’aide de TDA, il a trouvé les patients tout en étant situé sur un cercle assis à l’intérieur d’un espace de dimension élevé (~ 1000 caractéristiques). Alors qu’avec le recul, le cercle est évident, votre chemin d’être en bonne santé et maladie puis à sain ne suit pas monter et descendre par le même ensemble de symptômes, et pourtant personne n’avait pensé à chercher le cercle.

Des ensembles de données monde plus réels que je regarde sont plus grandes et plus compliqué que cet exemple et nous trouvons une variété de structures — cluster, les fusées éclairantes, les boucles et les structures de dimensions plus élevées, tout en apparaissant dans un seul ensemble de données. Il est presque impossible à deviner ou à l’hypothèse des structures droite avance et TDA est un outil pour comprendre vos données de manière impartiale.

Les détails de la façon d’inclure des informations topologiques tout en construisant un modèle sont techniques et dépasse le cadre de cette réponse.

Il s’agit d’une réponse modifiée d’une interview de trois partie j’ai fait avec kdnuggets que vous pouvez trouver ici : Interview : Anthony Bak, Ayasdi sur la complexité des données gestion par le biais de topologie


Tags: Informatique, Résolution de problèmes, Données scientifiques, Apprentissage automatique, Intelligence artificielle, Topologie, MLconf 2015 Seattle, Analyse de données topologiques