STATISTICA










Voir aussi les pages suivantes :
Fonctionnalités Communes aux Systèmes Entreprise de STATISTICA
et Présentation des Systèmes Entreprise de STATISTICA



Sommaire

Cliquez ici pour plus d'informations sur les techniques de Data Mining (en anglais).

Voir aussi les Dernières Success Stories (en anglais)

Exécutez vos analyses depuis un simple navigateur Web
Flyer de STATISTICA Data Miner Brochure de STATISTICA Data Miner 
                   (en anglais)


Des "Solutions Packagées" Adaptées à vos Besoins Spécifiques

Les "Solutions Packagées" de STATISTICA Data Miner sont constituées de services de consulting pour le développement initial du modèle, de sessions de formations et de projets (modèles) spécifiques de STATISTICA Data Miner, développés spécifiquement pour des domaines et applications particuliers. Chaque solution est composée au minimum de deux jours de consulting sur site et de différents modèles relatifs au domaine spécifique. Financièrement compétitives, les solutions actuellement proposées sont les suivantes :

  • Solutions CRM pour les Applications de Segmentation de Clientèle

  • Solutions CRM pour les Applications de VPC (Vente Par Correspondance)

  • Solutions pour la Gestion du Risque

  • Solutions pour la Gestion du Risque et le Traitement des Demandes de Prêts

  • Solutions pour la Gestion et la Prévision des Événements Rares

  • Solutions de Séries Chronologiques et de Prévisions Commerciales
  • Spécificités de STATISTICA Data Miner

    Le système le plus efficace et le plus complet d'outils conviviaux pour l'ensemble de votre processus de data mining - allant des requêtes sur les bases de données à la production des rapports finaux.
    • À notre connaissance, la gamme la plus complète de méthodes de data mining (par exemple, la sélection la plus riche de techniques de clustering, d'architectures de réseaux de neurones, d'arbres de décision (classification ou régression), de modélisation multivariée (notamment MARSplines), et de nombreuses autres techniques prédictives ; la plus large gamme de graphiques et de procédures de représentation) ;
    • Une gamme complète de projets de data mining (solutions), prêts à l'emploi, conçus pour évaluer des modèles alternatifs (en utilisant les méthodes du bagging (voting, averaging), boosting, stacking, meta-learning, etc...), et pour produire des rapports de synthèse de qualité ;
    • Une interface-utilisateur très simple, basée sur le glisser-déplacer, utilisable par les novices, tout en étant flexible, personnalisable et donnant accès en un seul clic, aux scripts sous-jacents ;
    • Des outils interactifs et puissants d'exploration des données (drilling, slicing, dicing), avec la gamme la plus complète d'outils interactifs de visualisation et de graphiques exploratoires ;
    • Possibilité de gérer/traiter plusieurs flux de données simultanément ;
    • Optimisé pour traiter des jeux de données gigantesques (avec notamment des options de sélection/filtrage, même sur plus d'un million de variables, et/ou de tirage d'échantillons aléatoires simples ou stratifiés en utilisant les procédures d'échantillonnage aléatoire certifiées DIEHARD ; voir la page Benchmarks comparatifs des performances sur de gros jeux de données (en anglais)) ;
    • Accès optimisé en lecture (et en écriture) sur de grosses bases de données, grâce à la technologie IDBD (Interface Directe avec les Bases de Données) qui lit les données de façon asynchrone directement sur les serveurs de bases de données distants (en utilisant le calcul partagé si le serveur permet ce type de traitement), sans avoir à "importer" les données ni créer de copie en local ;
    • Un moteur de déploiement flexible s'intégrant dans un environnement de développement personnalisé, vous permettant de gérer des objets (noeuds) analytiques optimisés du data mining grâce aux scripts standard et rapides en Visual Basic (VB est intégré dans le système) ;
    • Déploiement très rapide et efficace grâce aux fichiers PMML (Predictive Models Markup Language) en syntaxe XML pour réaliser des prévisions, classifications prédictives ou clustering prédictifs sur de gros jeux de données ; les modèles peuvent être partagés entre les versions monoposte ou par WebSTATISTICA Data Miner (version Client-Serveur), voir ci-dessous ;
    • Écriture des valeurs prévues, classifications, probabilités de classification, résidus de la prévision,... dans les bases de données externes pour vos analyses futures. Grâce à la technologie IDBD (Interface Directe avec les Bases de Données) qui permet de lire/écrire des informations dans une base de données externe, vous pouvez analyser et calculer les scores sur des jeux de données très importants (c'est-à-dire mettre à jour les valeurs prévues, probabilités de classification,... dans la base de données) ;
    • Architecture ouverte, basée sur la technologie COM, options d'automatisation illimitées et possibilités d'extensions personnalisées (grâce aux langages standard VB (intégré), Java, ou C++) ;
    • Options bureautique ou Client-Serveur,
    • L'Architecture Multithreading et en Traitement Distribué (proposée dans la version Client-Serveur) permet d'atteindre des niveaux de performance incomparables, grâce à la technologie du traitement parallèle, utilisée dans les super-ordinateurs, et qui permet de répartir les calculs sur les différents ordinateurs du serveur (travaillant en parallèle) pour traiter rapidement les projets intensifs de data mining ;
    • Options d'intégration complète avec le web (grâce à WebSTATISTICA qui permet de réaliser toutes les opérations de data mining, notamment la construction interactive de modèles, à partir du navigateur Internet de tout ordinateur connecté au Web). Ce système entreprise ultra-sophistiqué d'analyse des données et de data mining vous permet de gérer vos projets par l'intermédiaire du Web, et permet à vos collaborateurs situés "à l'autre bout du couloir ou à l'autre bout du monde" de travailler ensemble.

    STATISTICA Data Miner est véritablement une application unique en terme de richesse, de puissance, de technologie et de souplesse des interfaces-utilisateur disponibles :

    Cliquez ici pour plus d'informations sur les spécificités de STATISTICA Data Miner

    Haut de la Page

    Data Miner dans les installations Client-Serveur de WebSTATISTICA.
    La version bureautique de STATISTICA Data Miner est conçue pour l'environnement Windows. La version Client-Serveur de STATISTICA Data Miner est en revanche indépendante de la plate-forme sur le poste Client et se présente dans une interface basée sur le navigateur Internet ; la partie Serveur fonctionne avec les principaux systèmes d'exploitation des serveurs Web (par exemple, UNIX Apache) et avec les serveurs Wintel.
    Haut de la Page

    Technologie Avancée du Logiciel = Interface-Utilisateur Élégante et Efficace

    Les noeuds et "objets" d'analyse de STATISTICA. Au coeur de STATISTICA Data Miner, plus de 300 procédures STATISTICA ultra-optimisées, efficaces et très rapides, sont présentées à l'utilisateur sous forme de noeuds, permettant de spécifier les relations entre les procédures (objets) et de contrôler la logique du projet (ainsi que le "flux" de données). Cette architecture flexible et personnalisable permet de "transporter" l'ensemble des fonctionnalités des procédures statistiques et analytiques dans un environnement de data mining sous la forme d'objets analytiques autonomes. Derrière chaque noeud, des scripts élémentaires (objets d'analyse) en langage Visual Basic, accessibles par les utilisateurs avancés du système STATISTICA Data Miner, vont définir le flux des données au travers du projet, tandis que les analyses numériques sont réalisées par les procédures analytiques de STATISTICA. Ces objets, qui permettent de nettoyer et/ou filtrer les données, ou d'analyser ces données, sont organisés dans l'Explorateur de Noeuds.
    Les noeuds disponibles dans l'explorateur de noeuds (et donc disponibles pour le projet de data mining) sont les suivants :
    Création d'un projet de data mining. Vous n'avez qu'à connecter ces noeuds dans l'espace de travail du data mining.

    L'espace de travail du data mining est un environnement analytique très efficace, convivial et organisé dans lequel vous pouvez vous déplacer et connecter des données, des analyses et des résultats en déplaçant simplement des icônes que vous connectez entre elles par des flèches. Vous pouvez ouvrir, modifier et exécuter simultanément autant d'espaces de travail de data mining que vous le souhaitez et déplacer des noeuds (objets) d'un espace de travail ou d'un explorateur de noeuds à un autre. L'espace de travail se divise en quatre sections :

  • Source des données. Cette section permet de spécifier la ou les sources des données (par exemple, des fichiers de données STATISTICA, la représentation des données pour le traitement direct de données situées sur des serveurs distants, des programmes générant des données par programmation, pour une utilisation en modélisation avancée).
  • Préparation des données, nettoyage, transformation. Les noeuds contenus dans cette section acceptent une ou plusieurs sources de données en entrée, et vont créer une ou plusieurs sources de données (filtrées, nettoyées, transformées) pour vos analyses ultérieures.
  • Modélisation, classification, prévision, analyse des données. Les noeuds situés dans cette section vont réaliser les analyses numériques.
  • Rapports. Cette section contient les résultats des analyses.


    La création d'un projet de Data Mining est simple : sélectionnez tout d'abord une source de données ; appliquez ensuite tout type de préparation, nettoyage ou transformation des données que vous jugez nécessaire ; connecter alors les analyses souhaitées à vos données nettoyées ; il ne vous reste alors plus qu'à étudier et/ou publier les résultats. La plupart des utilisateurs de STATISTICA Data Miner n'auront jamais besoin d'aller au-delà de cette simple interface-utilisateur interactive.




    Spécifier des modèles complexes. L'interface-utilisateur simple -- basée sur des sélections à la souris dans des menus et explorateurs -- vous permet de mettre en oeuvre des modèles même très avancés. Vous pouvez sélectionner parmi plusieurs "modèles" souples et complets de projets pour traiter les tâches les plus courantes en data mining. Par exemple, pour trouver un bon modèle permettant d'évaluer le risque-client des nouveaux clients sur la base de données historiques contenant différents indicateurs (prédicteurs) potentiellement intéressants, vous pouvez simplement sélectionner le projet Modèles Avancés de Régression.




    Tout ce qu'il vous reste alors à faire est de connecter vos données historiques, spécifier les variables à analyser, puis "entraîner" le projet ; ainsi, en quelques secondes seulement (le temps de sélectionner le fichier de données, les variables, l'outil "flèche" permettant de connecter les données), le programme va automatiquement :

    Après avoir appliqué ces techniques de pointe pour la modélisation de relations linéaires, non-linéaires ou même chaotiques, vous êtes prêt(e) pour le déploiement. Connectez tout simplement la source des nouvelles données (nouveaux clients) au noeud Calculer la Meilleure Prévision de Tous les Modèles, et le programme va automatiquement appliquer les modèles entraînés afin d'obtenir la meilleur prévision possible.

    Rapidité. Les noeuds analytiques (objets) offrent toutes les fonctionnalités de STATISTICA, encapsulées dans des noeuds que vous pouvez personnaliser à façon en utilisant le langage standard Visual Basic. Les analyses sont réalisées par les modules analytiques optimisés de STATISTICA, qui n'ont cessé d'être améliorés au cours des deux dernières décennies pour augmenter la rapidité et la capacité de traitement ainsi que la précision (voir également la page Test sur la Précision (en anglais)).

    Grands jeux de données. STATISTICA Data Miner utilise un certain nombre de technologies, spécifiquement développées pour optimiser le traitement de grands jeux de données, et permet de gérer des problèmes de calcul de grande envergure sur des bases de données très importantes. Vous pouvez par exemple traiter des jeux de données comportant plus d'un million de données, et filtrer automatiquement (par diverses méthodes) ces variables pour ne retenir que les meilleurs prédicteurs ou les variables les plus pertinentes (voir également le paragraphe Sélection et Filtrage des Prédicteurs et la page Benchmarks comparatifs des performances sur de gros jeux de données (en anglais)).

    Personnaliser les analyses. Vous pouvez personnaliser les analyses ou opérations de nettoyage/filtrage implémentées par les noeuds de STATISTICA Data Miner en double-cliquant simplement sur les icônes respectives. Chaque icône offre des options pour personnaliser entièrement les opérations respectives. Par exemple, le fait de cliquer sur un noeud de réseau de neurones va ouvrir une boîte de dialogue (ainsi qu'une aide associée à cette boîte) pour personnaliser l'analyse spécifique (pour modifier le nombre d'itérations, le nombre de couches dans le réseau, le niveau de détail des résultats, etc...).

    Enregistrement du projet. L'ensemble du projet (espace de travail) peut être enregistré avec toutes les personnalisations, les sources de données intermédiaires, les commentaires, etc... Les analyses de routine (par exemple, pour la mise à jour régulière d'un ensemble de modèles complexes de classification basés sur différentes méthodes) peuvent être enregistrées et être appliquées à tout moment en cliquant sur un simple bouton ("mise à jour").

    Note Technique : Les Scripts des Noeuds de STATISTICA Data Miner. Les routines de calcul de STATISTICA Data Miner sont extrêmement rapides et ultra-optimisées. Par exemple, dans l'environnement Client-Serveur de WebSTATISTICA, le programme va automatiquement tirer profit des architectures multi-processeurs et/ou des différents ordinateurs du serveur (à condition de disposer du matériel nécessaire), pour évaluer les modèles par plusieurs processus simultanés (multithreading, calcul distribué). En outre, les routines de traitement ultra-optimisées sont sans commune mesure avec celles d'autres logiciels comme vous pourrez le constater dans les comparaisons deux à deux qui ont été réalisées (voir la rubrique Benchmarks sur la page d'accueil du site www.statsoft.com pour plus d'informations). Les utilisateurs avancés trouveront cependant la personnalisation du système particulièrement simple : Chaque noeud de STATISTICA Data Miner est constitué d'un script STATISTICA Visual Basic standardisé (qui appelle les procédures respectives de STATISTICA), vous donnant accès à des fonctions supplémentaires et une interface-utilisateur, permettant de personnaliser davantage les analyses. Il n'est pas nécessaire de modifier ou de personnaliser ces scripts. Toutefois, si votre département informatique ou des consultants souhaitent insérer des algorithmes propriétaires dans STATISTICA Data Miner, la procédure est très simple. Vous pouvez effectuer autant d'opérations numériques, propriétaires ou ultra-personnalisées, que vous le souhaitez à l'intérieur de ces scripts, pour modifier l'aspect des données, ou appliquer l'un des milliers de fonctions analytiques disponibles sous forme de simples appels de fonctions depuis C++ ou STATISTICA Visual Basic. Cette architecture ouverte généraliste de STATISTICA Data Miner offre de nombreux avantages spécifiques (pour un logiciel de data mining) ; vous trouverez davantage d'informations dans la section traitant des Spécificités).

    Déploiement des solutions. Les résultats des analyses réalisées par STATISTICA Data Miner peuvent être déployées (appliquées à de nouvelles données ou utilisées dans d'autres systèmes automatisés de traitement des données) de plusieurs façons.
    Haut de la Page

    Utiliser STATISTICA Data Miner avec de Grosses Volumétries de Données

    Tous les produits de la gamme STATISTICA, notamment STATISTICA Data Miner, ont été spécifiquement optimisés pour traiter efficacement des jeux de données gigantesques (voir la page Benchmarks comparatifs des performances sur de gros jeux de données (en anglais)), avec des millions d'observations (enregistrements) et des millions de variables (champs).

    Traiter des bases de données dépassant les capacités de stockage de votre ordinateur local. STATISTICA Data Miner (et éventuellement d'autres produits de la gamme STATISTICA) peut traiter directement les informations contenues dans des bases de données (distantes) grâce à sa technologie optimisée d'Interface Directe avec les Bases de Données (IDBD), qui combine les ressources du serveur de bases de données et de l'ordinateur local pour (a) réaliser les requêtes (en utilisant l'unité centrale du serveur où se trouve la base de données) et en même temps (b) traiter les enregistrements récupérés "à la volée" sur la machine locale (en utilisant le CPU de l'ordinateur local (client)). Vous pouvez ainsi traiter des bases de données dépassant les capacités de stockage de votre machine en local, et gagner significativement en performances puisque vous n'avez pas besoin d'importer préalablement les données sur la machine en local avant de pouvoir les traiter. La plupart des formats courants de bases de données sont compatibles, et vous disposez d'outils puissants pour définir la connexion à la base de données (requête).

    Traiter des bases de données avec de très nombreuses variables (champs) : Les fonctionnalités de Sélection et Filtrage des Prédicteurs. Lorsque le nombre de variables du fichier de données d'entrée est extrêmement important, STATISTICA Data Miner peut sélectionner automatiquement des sous-ensembles de variables, parmi même plus d'un million de variables (candidates) pour du data mining prédictif. Des algorithmes très rapides et efficaces vont sélectionner les variables (caractéristiques) susceptibles d'être les prédicteurs les plus pertinents du fichier de données courant, sans introduire de biais dans la construction ultérieure des modèles de data mining prédictif.

    Traitement de fichiers de données avec de très nombreuses observations (enregistrements) : Échantillonnage aléatoire souple et efficace. Les produits de la gamme STATISTICA (notamment STATISTICA Data Miner) peuvent traiter des fichiers de données avec un nombre d'observations (enregistrements) pratiquement illimité et offrent des procédures d'accès aux données fortement optimisées. Toutefois, l'utilisation de tous les enregistrements dans les analyses lorsque le nombre d'enregistrements est très important est (a) parfaitement inutile, (b) très long, et (c) souvent irréaliste voire impossible (dans certains cas extrêmes, la simple lecture des enregistrements peut prendre plusieurs heures). Pour accélérer le processus analytique, STATISTICA Data Miner comporte des outils sophistiqués pour tirer des échantillons aléatoires ou des échantillons aléatoires stratifiés issus de jeux de données énormes (bases de données). L'utilisateur peut rapidement tirer des échantillons aléatoires simples ou systématiques, de la taille souhaitée, avec ou sans remise, à partir de très nombreuses données (par exemple, avec plusieurs millions d'enregistrements) pour ses analyses ultérieures utilisant des outils de modélisation sophistiqués pouvant nécessiter plusieurs passages dans les données (par exemple les réseaux de neurones, les modèles linéaires généralisés, etc...). Le sous-échantillonnage aléatoire est basé sur le générateur validé de nombres aléatoires de STATISTICA. Notez que STATISTICA est l'un des rares logiciels à avoir passé avec succès les tests les plus poussés et les plus reconnus d'échantillonnage aléatoire (la série de tests DIEHARD (en anglais)).

    Évaluation des projets en calcul distribué et en multithreading dans l'environnement Client-Serveur. L'installation WebSTATISTICA Client-Serveur de STATISTICA Data Miner offre d'autres avantages pour le traitement de très gros jeux de données. Le programme va automatiquement tirer parti de l'architecture multiprocesseurs et/ou des différents ordinateurs du serveur (à condition de disposer du matériel nécessaire), pour évaluer les modèles par plusieurs processus simultanés. En considérant la baisse des prix du matériel informatique en général et des serveurs puissants en particulier (avec plusieurs processeurs, ou des installations multi-serveurs), la possibilité de WebSTATISTICA Data Miner pour tirer pleinement parti de ces architectures offre une flexibilité infinie pour étendre et développer le système afin d'explorer des bases de données même immenses.

    Haut de la Page

    Outils de Data Mining

    STATISTICA Data Miner offre la gamme la plus complète de techniques statistiques, exploratoires et de représentation disponible sur le marché, y compris des procédures de pointe, ultra-efficaces, de réseaux de neurones/machine learning et de classification. En outre, toutes les fonctionnalités analytiques de STATISTICA sont accessibles pour le data mining, sous forme de plus de 300 noeuds encapsulés que vous pouvez sélectionner dans un Explorateur de Noeuds, structuré et personnalisable, pour les déplacer dans l'espace de travail du data mining.

    Les outils spécialisés de data mining sont optimisés pour une rapidité et une efficacité optimale. Ils peuvent être classés en cinq grandes catégories (chacune comprenant différents modules STATISTICA, certains n'étant proposés que dans l'environnement de STATISTICA Data Miner) :

    Explorateur/Segmenteur Général avec Drill-Down. Un grand nombre de noeuds analytiques vous permet de créer des graphiques exploratoires, de calculer des statistiques descriptives, de croiser vos données, etc... Ces noeuds peuvent être connectés aux sources de données d'entrée, mais aussi à tous les résultats intermédiaires. Un module spécialisé de STATISTICA (STATISTICA Drill-Down Interactif) permet d'explorer de façon interactive les données en forant (drill-down) les variables sélectionnées, ou les catégories ou intervalles de valeurs de ces variables. Par exemple, vous pouvez effectuez un drill-down selon le Sexe, pour n'afficher la distribution du Revenu que pour les femmes ; vous pouvez poursuivre sur un groupe de revenu spécifique, pour explorer (par exemple créer une synthèse graphique pour) les variables sélectionnées, pour les femmes et pour ce groupe de revenu sélectionné uniquement. L'une des spécificités de STATISTICA Drill-Down Interactif est la possibilité qu'il offre de sélectionner et désélectionner les variables et les catégories utilisées pour le drill-down, dans n'importe quel ordre. Vous pourriez donc ensuite désélectionner la variable Sexe et afficher les graphiques et statistiques sélectionnées pour ce groupe de Revenu particulier, mais pour les hommes et les femmes ensemble cette fois. Une autre spécificité du Drill-Down Interactif est la diversité des méthodes de catégorisation ("slicing") proposées. Ainsi, le module Drill-Down Interactif fournit une souplesse énorme pour forer vos données ("slicing-and-dicing"). Vous pouvez utiliser STATISTICA Drill-Down Interactif sur des données brutes, des connexions à des bases de données pour le traitement direct de bases de données distantes ou pour tout résultat intermédiaire calculé dans un projet de STATISTICA Data Miner.

    Classification Supervisée et Non Supervisée. STATISTICA Data Miner propose la plus grande sélection d'outils pour appliquer les techniques de classification du data mining (et construire les modèles déployables respectifs), notamment les modèles linéaires généralisés (pour des réponses binomiales et multinomiales), les Arbres de Décision (Classification), les Modèles d'Arbres de Classification et de Régression (GTrees), les Modèles CHAID, les Classifications (avec les techniques de CAH pour de nombreuses données, et de classification généralisée par les k-moyennes et EM avec des options de validation croisée par v-ensembles pour déterminer automatiquement le meilleur nombre de clusters), et les Modèles Généraux d'Analyse Discriminante (avec notamment la sélection par recherche exhaustive des meilleurs prédicteurs). En outre, les nombreuses méthodes avancées de classification par réseaux de neurones disponibles dans STATISTICA Réseaux de Neurones sont disponibles dans STATISTICA Data Miner et peuvent être utilisées à la place ou en complément d'autres techniques de classification.

    Modélisation Générale et Exploration Multivariée. STATISTICA Data Miner propose la plus grande sélection d'outils pour construire des modèles déployables de data mining, basés sur des techniques linéaires, non linéaires ou de réseaux de neurones ainsi que des outils d'exploration de données. L'utilisateur a aussi la possibilité de construire des modèles prédictifs basés sur des techniques multivariées généralistes. En résumé, STATISTICA offre un ensemble complet de techniques, avec des modèles linéaires et non-linéaires de régression, des modèles linéaires généralisés, des modèles additifs généralisés, des arbres de régression et modèles CHAID, ou des méthodes avancées de réseaux de neurones ou de MARSplines (multivariate adaptive regression splines). STATISTICA Data Miner offre également diverses techniques qui ne sont généralement par proposées dans les logiciels de data mining, comme les méthodes PLS (pour la sélection des prédicteurs à partir d'un grand nombre de variables), les analyses de survie (pour analyser des données contenant des observations censurées, par exemple en recherche médicale et dans les études de contrôle qualité du secteur industriel), les techniques de modélisation d'équations structurelles (pour construire et évaluer la validité de modèles confirmatoires linéaires), l'analyse des correspondances (pour analyser la structure de tables complexes), l'analyse factorielle et l'analyse de proximité (pour explorer un grand nombre de variables), et bien d'autres.

    Prévisions et Séries Chronologiques. STATISTICA Data Miner inclut une vaste sélection de techniques de prévision traditionnelles (c'est-à-dire non basées sur les réseaux de neurones), notamment par l'ARIMA, le lissage exponentiel avec des composantes saisonnières, la décomposition spectrale de Fourier, la décomposition saisonnière, l'analyse des décalages polynomiaux ou par régression, etc...), ainsi que des méthodes neuronales pour des données de séries chronologiques.

    Modélisation par Réseaux de Neurones. Cet outil contient la gamme la plus complète de méthodes de réseaux de neurones disponible sur le marché. Cette puissante composante de STATISTICA Data Miner offre des outils pour aborder efficacement la plupart des problèmes du data mining (notamment la classification, la détection des structures cachées et des prévisions puissantes). L'une des particularités de la Modélisation par Réseaux de Neurones est que le SIP (Solveur Intelligent de Problèmes) et les Assistants automatiques utilisent des méthodes d'Intelligence Artificielle afin de vous aider à résoudre les problèmes les plus difficiles qui peuvent survenir lors d'analyses neuronales avancées (comme la sélection de la meilleure architecture du réseau et la sélection du meilleur groupe de prédicteurs). Cet explorateur offre la plus vaste sélection de procédures et d'architectures de réseaux de neurones, avec des algorithmes ultra-optimisés : perceptrons multicouches, réseaux RBF (Fonction Radiale de Base), réseaux de neurones probabilistes (PNN), réseaux de neurones de régression généralisée (GRNN), cartes auto-organisatrices de Kohonen, modèles linéaires, réseaux en composantes principales et réseaux de clusters. Vous pouvez également évaluer des ensembles de réseaux de ces architectures. Les méthodes d'estimation utilisent les algorithmes de rétro-propagation, de descente du gradient conjugué, quasi-Newton, de Levenberg-Marquardt, de propagation rapide, delta-barre-delta, LVQ, de segmentation, et bien plus encore. Vous disposez en outre d'options pour la validation croisée, le bootstrap, le sous-échantillonnage, l'analyse de sensibilité, etc...

    Haut de la Page

    Modules Spécialisés de Data Mining

    La plupart des fonctions analytiques utilisées dans STATISTICA Data Miner sont pilotées par les moteurs de calcul des modules inclus dans divers produits de la gamme STATISTICA (voir la page Les Produits STATISTICA pour davantage d'informations sur ces modules) :

    Cependant, certains modules comportent des techniques ultra-spécialisées de data mining et autres techniques de modélisation de data mining qui ne sont proposées que dans STATISTICA Data Miner. Vous trouverez ci-dessous des informations techniques concernant ces modules.

    SÉLECTION ET FILTRAGE DES PRÉDICTEURS. Ce module va automatiquement sélectionner des sous-ensembles de variables à partir de jeux de données gigantesques ou de bases de données connectées pour un traitement direct (voir la page IDBD). Le module peut traiter un nombre quasi-illimité de variables : le programme peut scanner plus d'un million (!) de variables en entrée pour en sélectionner les prédicteurs de la régression ou de la classification. Plus particulièrement, le programme comporte diverses options pour sélectionner les variables ("caractéristiques") susceptibles d'être utiles ou informatives dans des analyses spécifiques ultérieures. Les algorithmes spécifiques du module Sélection et Filtrage des Prédicteurs vont sélectionner les variables prédictives continues et catégorielles qui présentent une relation avec les variables dépendantes continues ou catégorielles, que cette relation soit simple (par exemple, linéaire) ou complexe (non-linéaire, non-monotone). Ainsi, le programme ne biaise pas la sélection en faveur d'un modèle en particulier que vous pourriez utiliser pour découvrir une meilleure règle finale, une équation, etc... pour réaliser la prévision ou la classification. Diverses options avancées de sélection des prédicteurs sont également disponibles. Ce module est particulièrement utile en complément de l'Interface Directe avec les Bases de Données (IDBD) (qui évite d'avoir à copier ou importer les données d'entrée sur la machine en local), puisqu'elle permet d'examiner de longues listes de variables en entrée, de sélectionner les candidats potentiels contenant l'information pertinente pour les analyses souhaitées, et de sélectionner automatiquement ces variables pour les analyses ultérieures avec d'autres noeuds du projet du data miner. Les sous-ensembles de variables ainsi sélectionnées par ce module pourront alors être soumises à d'autres méthodes de sélection des prédicteurs par réseaux de neurones, MAR Splines, classification ou régression linéaire, ou CHAID. Ces options permettent à STATISTICA Data Miner de gérer des fichiers de données de plusieurs giga ou téraoctets (voir la page Benchmarks comparatifs des performances sur de gros jeux de données (en anglais).

    Haut de la Page

    RÈGLES D'ASSOCIATION. Ce module comporte une implémentation complète de l'algorithme de détection a priori des règles d'association (également connu sous le nom "panier de la ménagère") du type "les clients qui commandent le produit A, commandent aussi généralement le produit B ou C" ou "les salariés satisfaits de l'initiative X, se plaignent également souvent de la question Y mais sont contents de la question Z" (voir Agrawal et Swami, 1993 ; Agrawal et Srikant, 1994 ; Han et Lakshmanan, 2001 ; voir également Witten et Frank, 2000). Le module STATISTICA Règles d'Association vous permet de traiter rapidement les associations (relations) sur de grands jeux de données, avec des "niveaux" prédéfinis pour la détection. Plus précisément, le programme va détecter des relations ou des associations entre des modalités spécifiques de vos variables catégorielles, dans de grands jeux de données. Il s'agit d'une tâche courante dans de nombreux projets de data mining s'appliquant à des bases de données contenant l'enregistrement des transactions des clients (par exemple, les articles achetés par chaque client), et dans le domaine du "text mining". Comme dans tous les modules de STATISTICA, les données contenues dans des bases de données externes peuvent être traitées directement par le module STATISTICA Règles d'Association (voir les informations concernant la Technologie IDBD) afin de permettre au programme de gérer efficacement des tâches analytiques très lourdes.

    Les résultats peuvent être affichés dans des tableaux, mais aussi dans des graphiques en 2D et en 3D où les fortes associations sont représentées par des traits épais entre les éléments respectifs.


    Haut de la Page

    DRILL-DOWN INTERACTIF. L'une des étapes préliminaires dans de nombreux projets de data mining consiste à explorer les données de façon interactive, afin d'avoir une première "impression" des types de variables des analyses, et de leurs possibles relations. L'objectif du Drill-Down Interactif est de fournir une combinaison d'outils graphiques, d'analyse exploratoire et de croisements qui vont vous permettre d'étudier rapidement la distribution des variables des analyses, leurs relations avec d'autres variables, et d'identifier les observations appartenant à des sous-groupes spécifiques dans les données.

    Comment Fonctionne le Drill-Down Interactif. La métaphore du forage ("drill-down") dans le contexte du data mining résume bien les opérations élémentaires de ce processus analytique : le programme vous permet de sélectionner des observations issues de grands jeux de données en sélectionnant des sous-groupes sur la base de modalités spécifiques ou d'intervalles de valeurs de certaines variables intéressantes (par exemple le Sexe et le Montant Moyen de la Commande dans l'exemple ci-dessus) ; d'une certaine manière, vous pouvez mettre en évidence les "couches les plus profondes" ou les "strates" de vos données en étudiant des sous-ensembles d'observations de plus en plus petits, déterminés par des filtres logiques de plus en plus complexes.

    Drilling "up." La nature interactive du Drill Down vous permet non seulement de forer les données ou les bases de données par drill-down (en sélectionnant des groupes d'observations avec des filtres de sélection de plus en plus spécifiques et complexes), mais également d'effectuer l'opération inverse ("drill-up") : vous pouvez, à tout moment, sélectionner des groupes de variables (catégories) précédemment sélectionnées et les désélectionner dans la liste des conditions du drill-down ; lors du traitement des données, le programme ne va retenir que les observations répondant à ces nouveaux filtres de sélection logiques, et actualiser les résultats en conséquence.

    Applications du Drill-Down Interactif. L'exemple illustré précédemment est très simple, et ne présente que les fonctionnalités élémentaires du programme. La véritable puissance de STATISTICA Drill-Down Interactif réside dans les différents résultats auxiliaires qui peuvent être mis à jour automatiquement lors de l'exploration interactive par drill-down/up. Vous pouvez sélectionner une liste de variables à étudier, et calculer pour les observations sélectionnées :

  • des statistiques descriptives et des tables de fréquences ;
  • des boîtes à moustaches synthétisant la distribution de variables continues ;
  • des nuages de points matriciels synthétisant la relation entre des variables continues ;
  • toutes les autres analyses statistiques et graphiques disponibles dans STATISTICA en extrayant les observations appartenant au sous-ensemble actuel ;

    Par exemple, vous pouvez analyser les types d'achats effectués par des clients selon différents critères démographiques, étudier l'efficacité de certains médicaments dans différents groupes de traitement, selon différentes tranches d'âges, etc..., ou extraire les clients potentiels pour un nouveau produit, à partir d'une base de données de clients existants, sur la base d'une étude minutieuse de segments apparents (marchés) identifiés par drill-down.

    Haut de la Page

    CLASSIFICATION GÉNÉRALISÉE EM & K-MOYENNES. Le module STATISTICA Classification Généralisée EM (Expectation Maximization) et k-Moyennes est une extension des techniques de classification proposées dans le module généraliste STATISTICA Classifications. Ce module a été spécifiquement conçu pour traiter de gros jeux de données, permettre la classification de variables continues et/ou catégorielles, et offrir la possibilité de réaliser un apprentissage non supervisé complet (clustering) pour la reconnaissance de structure, avec toutes les options nécessaires au déploiement de la classification prédictive. Diverses options de validation croisée (notamment des options de validation croisée modifiée par v-ensembles) permettent de choisir automatiquement et d'évaluer une solution finale optimale pour un problème de classification ; vous n'avez pas besoin de spécifier le nombre de clusters avant l'analyse puisque le programme va utiliser des méthodes automatiques (basées sur la validation croisée) pour choisir une solution de classification optimale (nombre de clusters) ! La technique de Classification avancée EM proposée dans ce module est parfois appelée classification probabiliste ou classification statistique. Le programme va classer les observations en fonction des variables continues et catégorielles, en supposant différentes distributions pour les variables des analyses (comme spécifié par l'utilisateur). Divers graphiques (par exemple, les tracés des distributions de la classification EM) et tableaux numériques sont produits, ainsi que des statistiques détaillées de la classification pour chaque observation. Ces méthodes sont optimisées pour traiter de très gros jeux de données, et différents résultats permettent de simplifier les analyses ultérieures en utilisant l'affectation des observations aux classes. Vous pouvez également déployer les solutions de la classification (en langage C, C++, C#, Visual Basic, ou PMML (basé sur la syntaxe XML)), pour classer de nouvelles observations.

    Haut de la Page

    MODÈLES ADDITIFS GÉNÉRALISÉS (GAM). Le module STATISTICA Modèles Additifs Généralisés met en oeuvre les méthodes développées et vulgarisées par Hastie et Tibshirani (1990) ; vous trouverez davantage d'informations dans l'ouvrage de Schimek (2000). Le programme permet de traiter des variables prédictives continues et catégorielles. Remarque : STATISTICA propose une gamme complète de méthodes pour ajuster des modèles non-linéaires à vos données, comme le module d'Estimation Non Linéaire, les Modèles Linéaires Généralisés, les Modèles d'Arbres de Classification et de Régression, etc...

    Fonctions de répartition et de liaison. Le programme permet à l'utilisateur de choisir parmi une large gamme de fonctions de répartition pour la variable dépendante, et de fonctions de liaison pour les effets des variables prédictives sur la variable dépendante :

    Fonction de liaison Log : f(z) = log(z)
    Fonction de liaison Inverse : f(z) = 1/z
    Fonction de liaison Identité : f(z) = z

    Distribution Binomiale :

    Fonction de liaison Logit : f(z)=log(z/(1-z))

    Lissage du nuage de points. Le programme utilise un lissage cubique avec des degrés de liberté définis par l'utilisateur pour trouver une (fonction de) transformation optimale des variables prédictives.

    Résultats statistiques. Le programme va reporter un ensemble complet de résultats statistiques pour permettre d'évaluer l'adéquation du modèle, son ajustement et à interpréter les résultats. En particulier, les résultats incluent : l'historique des itérations de l'ajustement du modèle, des statistiques de synthèse avec notamment le R2 global (calculé à partir de la statistique de déviance), les degrés de liberté du modèle et des statistiques descriptives détaillées concernant des réponses prévues, les résidus et le lissage des variables prédictives. Les graphiques de résultats comprennent les tracés des réponses observées selon les résidus, des valeurs prévues selon les résidus, les histogrammes des valeurs observées et des résidus, les droites de Henry des résidus, et les tracés des résidus partiels de chaque prédicteur, représentant un ajustement par lissage spline cubique de la solution finale ; pour les réponses binaires (par exemple, pour les modèles logit), les courbes de Lift peuvent également être calculées.

    Haut de la Page

    MODÈLES D'ARBRES DE CLASSIFICATION ET DE RÉGRESSION (GTrees). Ce module met en oeuvre l'ensemble des méthodes décrites par Breiman, Friedman, Olshen et Stone (1984) sous la dénomination C&RT. Cependant, le module GTrees contient diverses extensions et options qui ne sont pas généralement par présentes dans l'implémentation de cet algorithme et qui s'avèrent particulièrement utiles pour les applications de data mining.

    Interface-Utilisateur ; spécification des "modèles". En plus des analyses standard (décrites par Breiman, et al.), l'implémentation de ces méthodes dans STATISTICA vous permet d'utiliser des modèles de type ANOVA/ANCOVA avec des variables prédictives continues et/ou catégorielles, et leurs interactions. Trois interfaces-utilisateur différentes vous sont proposées pour spécifier les modèles ; elles sont analogues aux méthodes proposées dans GLM (Modèle Linéaire Général), GLZ (Modèles Linéaires Généralisés), GRM (Modèles Généraux de Régression), GDA (Modèles Généraux d'Analyse Discriminante) et PLS (Modèles PLS), décrites plus en détail dans les sections respectives. En résumé, vous pouvez spécifier vos modèles de type ANOVA/ANCOVA dans des boîtes de dialogue, à l'aide d'Assistants, ou en syntaxe de commande (du modèle) ; en-outre, la syntaxe de commande est compatible entre les modules, ce qui vous permet d'appliquer rapidement des modèles identiques à des analyses très différentes (par exemple, pour comparer la qualité de la classification en utilisant GDA ou GTrees).

    Élagage de l'arbre, sélection, validation. Le programme propose un grand nombre d'options pour contrôler la construction de l'arbre, son élagage et la sélection de la meilleure solution (celle qui ajuste le mieux). Pour les variables dépendantes continues (critères), l'élagage de l'arbre peut être basé sur la variance, ou sur un élagage de type FACT. Pour les variables dépendantes catégorielles (critères), l'élagage de l'arbre peut être basé sur les erreurs de mauvaise classification, la variance ou un élagage de type FACT. Vous pouvez spécifier le nombre maximum de noeuds de l'arbre ou le n minimum par noeud. Des options permettent de valider le meilleur arbre de décision, en utilisant la validation croisée par V-ensembles, ou en appliquant l'arbre de décision aux nouvelles observations d'un échantillon de validation. Pour les variables dépendantes catégorielles (critères), c'est-à-dire pour des problèmes de classification, vous pouvez choisir diverses mesures pour modifier l'algorithme et évaluer la qualité de l'arbre de classification final. Vous pouvez spécifier des probabilités a priori et des risques de mauvaise classification personnalisés ; la qualité d'ajustement peut être mesurée par le coefficient de Gini, le Chi-deux et le G-deux.


    Valeurs manquantes et division des remplaçants. Vous pouvez gérer les valeurs manquantes des prédicteurs en permettant au programme de déterminer les divisions des variables remplaçantes, c'est-à-dire des variables similaires à la variable respective utilisée pour une division particulière (noeud).

    Modèles de type ANOVA/ANCOVA. En plus des analyses traditionnelles de type CART®, vous pouvez combiner des variables prédictives continues et catégorielles dans des modèles de type ANOVA/ANCOVA et réaliser les analyses utilisant une matrice du modèle pour les variables prédictives. Ceci vous permet d'évaluer et de comparer des modèles prédictifs complexes, et d'apprécier leur efficacité en termes de prévision et de classification à l'aide de diverses techniques analytiques (par exemple Modèle Linéaire Général, Modèles Linéaires Généralisés, Modèles Généraux d'Analyse Discriminante, etc...).


    Explorateur d'arbres. Outre les représentations graphiques standard des arbres obtenus, vous pouvez afficher ces arbres dans un explorateur qui vous permet de réduire ou de développer les noeuds de l'arbre, et ainsi vérifier rapidement les principales informations de la classification ou du noeud respectif de l'arbre. Par exemple, vous pouvez mettre en surbrillance (cliquer sur) un noeud particulier dans l'explorateur et immédiatement observer la classification et le taux de mauvaise classification de ce noeud particulier. L'explorateur d'arbres est une fonctionnalité très efficace et intuitive pour examiner la structure d'arbres complexes, en utilisant des méthodes qui sont assez répandues dans les applications Windows pour visualiser des informations structurées de façon hiérarchique. Vous pouvez afficher plusieurs explorateurs simultanément, avec l'arbre final et différents sous-arbres obtenus après segmentation d'arbres plus importants, et en plaçant les différents explorateurs les uns à côté des autres afin de comparer la structure des arbres et des sous-arbres. L'explorateur d'arbres de STATISTICA est une innovation importante dans l'aide à l'interprétation d'arbres de décision complexes.

    Arbres de Décision Interactifs. Vous pouvez aussi étudier les arbres de façon interactive, soit à l'aide des outils de balayage de STATISTICA, soit en plaçant les graphiques de grands arbres dans des fenêtres graphiques avec des barres de défilement pour inspecter ces graphiques importants dans des fenêtres déroulantes.

    Résultats statistiques. Le module STATISTICA GTrees propose un grand nombre de résultats. Vous pouvez accéder aux résultats de synthèse de chaque noeud, aux résultats détaillés des classifications, aux gains, coûts de classification... Vous pouvez également produire différentes synthèses graphiques, notamment des histogrammes (pour les problèmes de classification) de chaque noeud, des tracés détaillés des variables dépendantes continues (par exemple, des droites de Henry, des nuages de points), et des tracés parallèles de coordonnées pour chaque noeud, donnant une vue synthétique de la structure des réponses pour des problèmes importants de classification. Comme dans toutes les procédures statistiques de STATISTICA, tous les résultats numériques peuvent être utilisés en entrée d'autres analyses, ce qui vous permet d'explorer rapidement et de poursuivre l'analyse des observations d'un noeud particulier (par exemple, vous pouvez utiliser le module GTrees pour produire une première classification des observations, puis utiliser le meilleur groupe de variables dans le module GDA afin de trouver d'autres variables pour les classifications ultérieures).

    Générateurs de code C, C++, STATISTICA Visual Basic, SQL. L'information contenue dans l'arbre final peut être rapidement incorporée dans vos propres programmes personnalisés ou requêtes de bases de données grâce aux options complémentaires de générateur de code C, C++, STATISTICA Visual Basic, ou SQL. Le langage STATISTICA Visual Basic est généré sous une forme qui peut être aisément incorporée dans des noeuds personnalisés pour STATISTICA Data Miner.

    Haut de la Page

    MODÈLES CHAID (Chi-square Automatic Interaction Detection). Comme pour l'implémentation des Modèles d'Arbres de Classification et de Régression (GTrees) dans STATISTICA, le module Modèles CHAID est la mise en oeuvre complète de la technique originale, mais permet également d'étendre ces méthodes à l'analyse des modèles du type ANOVA/ANCOVA.

    CHAID Standard. L'analyse CHAID peut porter à la fois sur des variables dépendantes continues et catégorielles (critères). Diverses options permettent de contrôler la construction des arbres hiérarchiques : l'utilisateur contrôle le n minimum par noeud, le nombre maximum de noeuds et les probabilités pour diviser ou fusionner les catégories. L'utilisateur peut également effectuer une recherche exhaustive de la meilleure solution (CHAID Exhaustif). Vous pouvez calculer les statistiques de validation par V-ensembles pour évaluer la stabilité de la solution finale. Pour les problèmes de classification, vous pouvez également spécifier des coûts de mauvaise classification personnalisés.

    Modèles de type ANOVA/ANCOVA. Outre l'analyse CHAID traditionnelle, vous pouvez combiner des variables prédictives continues et catégorielles dans des modèles de type ANOVA/ANCOVA et réaliser les analyses utilisant une matrice du modèle pour les prédicteurs. Ceci vous permet d'évaluer et de comparer des modèles complexes de prédicteurs, et d'apprécier leur efficacité en termes de prévision et de classification à l'aide de diverses techniques analytiques (par exemple, Modèles Linéaires Généraux, Modèles Linéaires Généralisés, Analyse Discriminante Générale, Modèles d'Arbres de Classification et de Régression, etc...). Voir aussi la description de GLM (Modèle Linéaire GénéraL) et Modèles d'Arbres de Classification et de Régression (GTrees), ci-dessus pour plus d'informations.


    Explorateur d'arbres. Comme les résultats binaires utilisés pour synthétiser les arbres de classification et de régression binaires (voir GTrees), vous pouvez étudier les résultats de l'analyse CHAID dans l'explorateur d'arbres de STATISTICA. L'explorateur d'arbres est une fonctionnalité très efficace et intuitive pour examiner la structure d'arbres complexes, et comparer plusieurs solutions côte à côte (dans plusieurs explorateurs d'arbres), en utilisant des méthodes qui sont assez répandues dans les applications Windows pour visualiser des informations structurées de façon hiérarchique. L'explorateur d'arbres de STATISTICA est une innovation importante dans l'aide à l'interprétation d'arbres de décision complexes. Pour plus d'informations, voyez également la description de l'explorateur d'arbres dans le cadre des Modèles d'Arbres de Classification et de Régression (GTrees).

    Résultats statistiques. Le module STATISTICA Modèles CHAID propose un grand nombre de résultats. Vous pouvez accéder aux résultats de synthèse de chaque noeud, aux résultats détaillés des classifications, coûts de classification... Vous pouvez également produire différentes synthèses graphiques, notamment des histogrammes (pour les problèmes de classification) de chaque noeud, des tracés détaillés des variables dépendantes continues (par exemple, des droites de Henry, des nuages de points), et des tracés parallèles de coordonnées pour chaque noeud, donnant une vue synthétique de la structure des réponses pour des problèmes importants de classification. Comme dans toutes les procédures statistiques de STATISTICA, tous les résultats numériques peuvent être utilisés en entrée d'autres analyses, ce qui vous permet d'explorer rapidement et de poursuivre l'analyse des observations d'un noeud particulier (par exemple, vous pouvez utiliser le module GTrees pour produire une classification préliminaire des observations, puis utiliser le meilleur sous-ensemble de variables dans le module GDA afin de trouver d'autres variables pour les classifications ultérieures).

    ARBRES DE DÉCISION INTERACTIFS (ARBRES DE CLASSIFICATION ET DE RÉGRESSION). Outre les modules de construction automatique d'arbres (par exemple, Modèles d'Arbres de Classification et de Régression, Modèles CHAID), STATISTICA Data Miner offre également des outils spécifiques pour construire ces arbres de façon interactive. Vous pouvez choisir la méthode (binaire) des Modèles d'Arbres de Classification et de Régression ou la méthode CHAID pour construire l'arbre (de décision), et à chaque étape, développer l'arbre de façon interactive (en choisissant la variable et le critère de division) ou de façon automatique. Lorsque vous développez les arbres de manière interactive, vous avez le contrôle de tous les aspects sur la manière de sélectionner et évaluer les candidats à chaque division, sur la manière de catégoriser les intervalles de valeurs des prédicteurs, etc... Les outils interactifs qui sont proposés dans ce module vous permettent de développer et élaguer les arbres afin d'évaluer rapidement la qualité de l'arbre de classification ou de régression et de calculer toutes les statistiques auxiliaires à chaque étape pour explorer la nature de chaque solution. Cet outil est extrêmement utile en data mining prédictif ainsi qu'en analyse exploratoire des données, et offre toutes les options nécessaires au déploiement automatique, pour la prévision ou la classification prévue de nouvelles observations (voir également la description de ces options dans le cadre des modules CHAID et Modèles d'Arbres de Classification et de Régression).

    BOOSTING. Les recherches les plus récentes sur les algorithmes statistiques et de machine learning indiquent que certaines tâches "difficiles" d'estimation et de prévision (classification prévue), en utilisant des arbres boostés simples, peuvent produire des prévisions plus précises que des architectures de réseaux de neurones ou un seul arbre complexe. STATISTICA Data Miner contient un module avancé de Boosting permettant d'appliquer cette technique à des tâches de data mining prédictif. Vous avez le contrôle de tous les aspects de la procédure d'estimation et disposez de synthèses détaillées à chaque étape des procédures d'estimation afin de pouvoir suivre et évaluer la progression au cours des étapes successives. Les résultats sont constitués de la plupart des statistiques de synthèse standard de classification et de régression qui sont calculées dans le module Modèles d'Arbres de Classification et de Régression. Vous disposez également de méthodes automatiques pour le déploiement de la solution finale de l'arbre boosté pour la prévision de la classification ou de la régression.

    FORÊTS ALÉATOIRES. Le module STATISTICA Forêts Aléatoires intègre l'algorithme des Forêts Aléatoires développé par Breiman. Cet algorithme peut également s'utiliser sur des problèmes de régression. Une forêt aléatoire est constituée de différents arbres élémentaires de classification, chacun étant en mesure de produire une réponse à partir d'un ensemble de valeurs des prédicteurs. Vous avez un contrôle total de tous les aspects de la procédure d'estimation et des paramètres du modèle, notamment la complexité des arbres ajustés aux données, le nombre maximum d'arbres composant la forêt, la manière d'arrêter l'algorithme lorsque des résultats pertinents ont été produits, etc... Ce module permet de traiter efficacement des jeux de données gigantesques avec un nombre considérable de variables (sans suppression de variables). Les résultats intègrent la plupart des statistiques de synthèse standard de classification et de régression calculés par le module Modèles d'Arbres de Classification et de Régression. Des méthodes automatiques sont disponibles pour le déploiement de la solution finale des Forêts Aléatoires pour les prévisions de la classification ou de la régression.

    SUPPORT VECTOR MACHINES. Cette méthode permet d'effectuer des tâches de régression et de classification en construisant des bornes de décision non-linéaires. En raison de la nature de l'espace des prédicteurs sur lequel ces bornes sont trouvées, les Support Vector Machines peuvent offrir une grande flexibilité dans la gestion des tâches plus ou moins complexes de classification et de régression. STATISTICA SVM intègre quatre types de modèles de Vecteurs de Support avec différents noyaux en plus des fonctions de base, notamment linéaire, polynomial, fonction radiale de base et sigmoïde. Ce module permet également de traiter des données déséquilibrées. La validation croisée, technique bien connue, permet de déterminer la meilleure valeur des différents paramètres du modèle parmi un ensemble de valeurs possibles. De nombreux graphiques et feuilles de données permettent de tester la qualité de l'ajustement et vous aident à interpréter les différents résultats. Des méthodes automatiques sont disponibles pour le déploiement de la solution finale des Support Vector Machines pour les prévisions de la classification ou de la régression.

    K PLUS PROCHES VOISINS. STATISTICA K Plus Proches Voisins est une méthode basée sur la mémoire qui, contrairement aux autres méthodes statistiques, ne nécessite aucun apprentissage (c'est-à-dire, aucun modèle à ajuster). Elle entre dans la catégorie des Méthodes de Prototypes. Elle fonctionne sur le principe intuitif que les objets les plus proches ont plus de chances d'appartenir à une même catégorie. Ainsi, dans les K Plus Proches Voisins, les prévisions s'appuient sur un ensemble d'exemples prototypes qui sont utilisés pour prévoir de nouvelles données sur la base d'un vote majoritaire (pour les tâches de classification - "voting") ou moyen (pour les tâches de régression - "averaging") sur un ensemble des K plus proches prototypes. Cette méthode permet de gérer des jeux de données gigantesques avec à la fois des prédicteurs catégoriels et continus. La validation croisée, technique bien connue, permet d'obtenir des estimations des paramètres du modèle qui sont inconnus. De nombreux graphiques et feuilles de données permettent de tester la qualité de l'ajustement et vous aident à interpréter les différents résultats. Des méthodes automatiques sont disponibles pour le déploiement de la solution finale des K Plus Proches Voisins pour les prévisions de la classification ou de la régression.

    MAR Splines (MULTIVARIATE ADAPTIVE REGRESSION SPLINES). Le module STATISTICA MAR Splines (Multivariate Adaptive Regression Splines) est l'implémentation complète de la technique initialement proposée par Friedman (1991 ; Multivariate Adaptive Regression Splines, Annals of Statistics, 19, 1-141) ; dans STATISTICA Data Miner, les options MARSplines ont été améliorées pour permettre de traiter des problèmes de régression et de classification, avec des prédicteurs continus et catégoriels.

    Le programme, qui en termes de fonctionnalités peut être considéré comme une généralisation et une modification des Arbres de Régression et de Classification et Régression Multiple (GC&RT) pas-à-pas, a été spécifiquement développé (optimisé) pour traiter de très gros jeux de données. De nombreux résultats et diagnostiques étendus vous permettent d'évaluer, graphiquement et par des tableaux, la qualité de la solution MAR Splines.

    Générateurs de code C/C++, C#, STATISTICA Visual Basic, PMML basé sur la syntaxe XML. L'information contenue dans le modèle peut être rapidement incorporée dans vos propres programmes grâce aux options facultatives (complémentaires) de générateur de code C/C++/C#, STATISTICA Visual Basic, ou PMML (basé sur la syntaxe XML). Le langage STATISTICA Visual Basic est généré sous une forme qui peut être aisément incorporée dans des noeuds personnalisés pour STATISTICA Data Miner. Les fichiers PMML (Predictive Models Markup Language) contenant l'information pour le déploiement peuvent être utilisés avec les options de Déploiement Rapide de Modèles Prédictifs pour calculer les prévisions sur un grand nombre d'observations de manière très efficace ; les fichiers PMML sont totalement portables, et l'information de déploiement produite par la verion bureautique de STATISTICA Data Miner peut être utilisée dans WebSTATISTICA Data Miner (c'est-à-dire au niveau du serveur dans les installations Client-Serveur), et réciproquement.

    QUALITÉ D'AJUSTEMENT. Le module STATISTICA Qualité d'Ajustement calcule diverses statistiques de qualité d'ajustement pour des variables de réponse continues et catégorielles (pour des problèmes de régression et de classification). Ce module est un outil spécifiquement développé pour inclure des applications de data mining dans les projets "d'évaluation compétitive de modèles" afin de choisir la meilleure solution. Le programme utilise en entrée les valeurs prévues ou les classifications calculées par l'un des modules de régression ou de classification de STATISTICA, et calcule de nombreuses statistiques d'ajustement et synthèses graphiques pour chaque classification ou réponse ajustée. Les statistiques de Qualité d'ajustement des réponses continues comportent les écarts des moindres carrés (LSD), l'écart moyen, l'erreur quadratique relative, l'erreur absolue relative, et le coefficient de corrélation. Pour les problèmes de classification (pour des variables de réponse catégorielles), le programme va calculer le Chi-deux, le G-deux (le Chi-deux du maximum de vraisemblance), le pourcentage de désaccord (taux de mauvaise classification), la perte quadratique, et des statistiques de perte d'informations.

    DÉPLOIEMENT RAPIDE DE MODÈLES PRÉDICTIFS. Le module de Déploiement Rapide de Modèles Prédictifs vous permet de charger un ou plusieurs fichiers PMML (Predictive Models Markup Language) contenant l'information nécessaire au déploiement, et de calculer très trapidement (en un seul passage sur les données) les prévisions pour un très grand nombre d'observations (pour un ou plusieurs modèles). Vous pouvez générer les fichiers PMML dans la plupart des modules de data mining prédictif (ainsi que par les options de Classification Généralisée EM & k-Moyennes). Le langage PMML est un ensemble de conventions de syntaxe standard basé sur XML (Extensible Markup Language), particulièrement bien adapté au partage de l'information de déploiement dans une architecture Client-Serveur (par exemple, par l'intermédiaire de WebSTATISTICA).

    Les options de Déploiement Rapide de Modèles Prédictifs constituent la manière la plus rapide et la plus efficace pour calculer des prévisions à partir de modèles déjà entraînés. Tous les modèles sont déjà pré-programmés sous une forme générique dans un programme compilé ultra-optimisé ; le code PMML ne fournit que les paramètres estimés, etc... des modèles entraînés, ce qui permet au module de Déploiement Rapide de Modèles Prédictifs de calculer les prévisions ou les classifications prévues (ou l'affectation aux clusters) en un seul passage sur les données. En fait, vous aurez du mal à "battre" les performances (en termes de rapidité de calcul) de cet outil, même si vous écrivez votre propre code compilé en C++, à partir du code de déploiement (C, C++, ou C#) produit par les modèles respectifs.

    Remarque : le module de Déploiement Rapide de Modèles Prédictifs va également calculer automatiquement les statistiques de synthèse de chaque modèle, et si les classifications ou les valeurs observées sont disponibles, le programme va automatiquement calculer les indices de qualité d'ajustement des modèles participants, notamment les courbes de Gain et de Lift pour un ou plusieurs modèles (avec des courbes de lift et de gain superposées), pour des problèmes de classification binaires ou multinomiaux (catégories multiples).

    Haut de la Page

    La version Client-Serveur de STATISTICA Data Miner et le Data Mining par WebSTATISTICA

    Dans la version bureautique de STATISTICA Data Miner, tous les calculs sont réalisés sur l'ordinateur en local, et les ressources d'autres ordinateurs ne sont utilisées que si l'Interface Directe avec les Bases de Données (IDBD) externes est établie. L'IDBD est une technologie qui permet de lire les données de manière asynchrone, directement sur les serveurs distants de bases de données (en utilisant la technologie du calcul distribué si le serveur permet ce type de traitement), sans avoir à "importer" préalablement les données, ni à créer de copie des données en local. Les enregistrements sont récupérés et envoyés à l'ordinateur STATISTICA de façon asynchrone par la CPU du serveur de base de données, tandis que STATISTICA les traite simultanément en utilisant la CPU de l'ordinateur local.

    L'Architecture Client-Serveur. Lorsque vous utilisez une version Client-Serveur de STATISTICA Data Miner, l'ordinateur local ne pilote que l'interface-utilisateur du Data Miner, et tous les calculs sont réalisés sur le serveur. L'architecture Client-Serveur qui utilise les technologies avancées du multithreading et du calcul distribué (voir ci-dessous) et peut éventuellement utiliser les ressources de plusieurs ordinateurs du serveur (travaillant en parallèle), offre des avantages évidents lorsque vos projets de data mining sont importants (par exemple, pour des traitements nécessitant de nombreux calculs ou pour des jeux de données particulièrement importants), puisque ces tâches peuvent être déléguées aux serveurs, en libérant les ressources de votre ordinateur local pour d'autres tâches.

    Technologie Multithreading, Calcul Distribué. Mais la mise en place d'une architecture Client-Serveur de STATISTICA Data Miner, basée sur la technologie de WebSTATISTICA offre de nombreux autres avantages. La plate-forme WebSTATISTICA utilise la technologie avancée du calcul distribué et du multithreading, permettant une gestion optimale des tâches intensives. Cette technologie permet un traitement rapide de projets, même très importants, avec des calculs intensifs, en tirant parti des différentes CPU du serveur, voire des différents serveurs travaillant en parallèle. Ci-dessus, l'illustration d'un projet en cours de traitement sur un serveur disposant de quatre processeurs, avec le suivi des performances du serveur, indiquant que les ressources des quatre CPU sont entièrement utilisées en mode multithreading lors de l'exécution d'un même projet de STATISTICA Data Miner, nécessitant de très nombreux calculs.

    En outre, l'architecture WebSTATISTICA est indépendante de la plate-forme (système d'exploitation), avec une interface-utilisateur basée sur le navigateur Web, et offre la possibilité de gérer efficacement et à grande échelle, les projets ou les groupes d'utilisateurs situés "à l'autre bout du couloir ou à l'autre bout du monde".

    L'Interface-Utilisateur de WebSTATISTICA Data Miner. La mise en oeuvre de STATISTICA Data Miner par l'intermédiaire de WebSTATISTICA permet aux utilisateurs de créer, modifier, et exécuter les projets de data mining sur un poste client, dans une interface-utilisateur basée sur le navigateur Web qui est quasiment identique à celle que vous utilisez dans les installations bureautiques.

    Par conséquent, la partie cliente de l'application ("front end") peut être exécutée depuis tout ordinateur (même un ordinateur portable) connecté à Internet. Toutefois, les calculs et autres opérations sur les données sont réalisés par le serveur (distant) qui dispose généralement de processeurs plus puissants et de capacités de stockage plus importantes (avec une architecture optimisée pour des performances maximales grâce au multithreading et au calcul distribué).

    Les différents aspects de l'interface-utilisateur de STATISTICA Data Miner peuvent être exécutés par un ou plusieurs utilisateurs simultanément depuis tout ordinateur dans le monde (à condition qu'il soit connecté à Internet, même avec une connexion à faible débit), et le serveur effectue tous les calculs et opérations sur les données, en fonction des droits d'accès et de sécurité des projets et classes d'utilisateurs respectifs, définis par l'administrateur du réseau.

    Haut de la Page
    Demande de Devis
    Page d'Accueil de StatSoft France



    [StatSoft]
    2, rue Louis Pergaud - 94700 MAISONS-ALFORT

    Tél : +33 (0)1-45-185-999 - Fax: +33 (0)1-45-185-285
    [StatSoft]e-mail: info@statsoft.fr

    ©Copyright StatSoft 1984-2009.
    StatSoft, le logo StatSoft, STATISTICA, STATISTICA Entreprise/QC, STATISTICA Entreprise, Data Miner, SEPATH et GTrees sont des marques déposées par StatSoft.