| ![]() ![]() |
![]() |
|
Voir aussi les pages suivantes : |
| Des "Solutions Packagées" Adaptées à vos Besoins Spécifiques Les "Solutions Packagées" de STATISTICA Data Miner sont constituées de services de consulting pour le développement initial du modèle, de sessions de formations et de projets (modèles) spécifiques de STATISTICA Data Miner, développés spécifiquement pour des domaines et applications particuliers. Chaque solution est composée au minimum de deux jours de consulting sur site et de différents modèles relatifs au domaine spécifique. Financièrement compétitives, les solutions actuellement proposées sont les suivantes : |
Spécificités de STATISTICA Data MinerLe système le plus efficace et le plus complet d'outils conviviaux pour l'ensemble de votre processus de data mining - allant des requêtes sur les bases de données à la production des rapports finaux.
|
Cliquez ici pour plus d'informations sur les spécificités de STATISTICA Data Miner
| Haut de la Page |
| Haut de la Page |
Les noeuds et "objets" d'analyse de
STATISTICA. Au coeur de STATISTICA Data Miner,
plus de 300 procédures STATISTICA ultra-optimisées, efficaces et très rapides,
sont présentées à l'utilisateur sous forme de noeuds, permettant de
spécifier les relations entre les procédures (objets) et de contrôler
la logique du projet (ainsi que le "flux" de données). Cette architecture flexible
et personnalisable permet de "transporter" l'ensemble des fonctionnalités des
procédures statistiques et analytiques dans un environnement de data
mining sous la forme d'objets analytiques autonomes. Derrière chaque noeud, des
scripts élémentaires (objets d'analyse) en langage Visual Basic, accessibles
par les utilisateurs avancés du système STATISTICA Data Miner,
vont définir le flux des données au travers du projet, tandis que les
analyses numériques sont réalisées par les procédures analytiques
de STATISTICA. Ces objets, qui permettent de nettoyer et/ou
filtrer les données, ou d'analyser ces données, sont organisés
dans l'Explorateur de Noeuds.
L'espace de travail du data mining est un environnement analytique très efficace, convivial et organisé dans lequel vous pouvez vous déplacer et connecter des données, des analyses et des résultats en déplaçant simplement des icônes que vous connectez entre elles par des flèches. Vous pouvez ouvrir, modifier et exécuter simultanément autant d'espaces de travail de data mining que vous le souhaitez et déplacer des noeuds (objets) d'un espace de travail ou d'un explorateur de noeuds à un autre. L'espace de travail se divise en quatre sections :
Spécifier des modèles complexes. L'interface-utilisateur
simple -- basée sur des sélections à la souris dans des menus
et explorateurs -- vous permet de mettre en oeuvre des modèles
même très avancés. Vous pouvez sélectionner parmi plusieurs
"modèles" souples et complets de projets pour traiter les
tâches les plus courantes en data mining. Par exemple, pour
trouver un bon modèle permettant d'évaluer le risque-client des
nouveaux clients sur la base de données historiques contenant
différents indicateurs (prédicteurs) potentiellement intéressants,
vous pouvez simplement sélectionner le projet Modèles Avancés de
Régression.
Tout ce qu'il vous reste alors à faire
est de connecter vos données historiques, spécifier les variables
à analyser, puis "entraîner" le projet ; ainsi, en quelques secondes
seulement (le temps de sélectionner le fichier de données, les variables,
l'outil "flèche" permettant de connecter les données), le programme va
automatiquement :
Après avoir appliqué ces techniques de pointe pour la modélisation de relations linéaires, non-linéaires ou même chaotiques, vous êtes prêt(e) pour le déploiement. Connectez tout simplement la source des nouvelles données (nouveaux clients) au noeud Calculer la Meilleure Prévision de Tous les Modèles, et le programme va automatiquement appliquer les modèles entraînés afin d'obtenir la meilleur prévision possible.
Rapidité. Les noeuds analytiques (objets) offrent toutes les fonctionnalités de STATISTICA, encapsulées dans des noeuds que vous pouvez personnaliser à façon en utilisant le langage standard Visual Basic. Les analyses sont réalisées par les modules analytiques optimisés de STATISTICA, qui n'ont cessé d'être améliorés au cours des deux dernières décennies pour augmenter la rapidité et la capacité de traitement ainsi que la précision (voir également la page Test sur la Précision (en anglais)).
Grands jeux de données. STATISTICA Data Miner utilise un certain nombre de technologies, spécifiquement développées pour optimiser le traitement de grands jeux de données, et permet de gérer des problèmes de calcul de grande envergure sur des bases de données très importantes. Vous pouvez par exemple traiter des jeux de données comportant plus d'un million de données, et filtrer automatiquement (par diverses méthodes) ces variables pour ne retenir que les meilleurs prédicteurs ou les variables les plus pertinentes (voir également le paragraphe Sélection et Filtrage des Prédicteurs et la page Benchmarks comparatifs des performances sur de gros jeux de données (en anglais)).
Personnaliser les analyses. Vous pouvez personnaliser les analyses ou opérations de nettoyage/filtrage implémentées par les noeuds de STATISTICA Data Miner en double-cliquant simplement sur les icônes respectives. Chaque icône offre des options pour personnaliser entièrement les opérations respectives. Par exemple, le fait de cliquer sur un noeud de réseau de neurones va ouvrir une boîte de dialogue (ainsi qu'une aide associée à cette boîte) pour personnaliser l'analyse spécifique (pour modifier le nombre d'itérations, le nombre de couches dans le réseau, le niveau de détail des résultats, etc...).
Enregistrement du projet. L'ensemble du projet (espace de travail) peut être enregistré avec toutes les personnalisations, les sources de données intermédiaires, les commentaires, etc... Les analyses de routine (par exemple, pour la mise à jour régulière d'un ensemble de modèles complexes de classification basés sur différentes méthodes) peuvent être enregistrées et être appliquées à tout moment en cliquant sur un simple bouton ("mise à jour").
Note Technique : Les Scripts des Noeuds de STATISTICA Data Miner. Les routines de calcul de STATISTICA Data Miner sont extrêmement rapides et ultra-optimisées. Par exemple, dans l'environnement Client-Serveur de WebSTATISTICA, le programme va automatiquement tirer profit des architectures multi-processeurs et/ou des différents ordinateurs du serveur (à condition de disposer du matériel nécessaire), pour évaluer les modèles par plusieurs processus simultanés (multithreading, calcul distribué). En outre, les routines de traitement ultra-optimisées sont sans commune mesure avec celles d'autres logiciels comme vous pourrez le constater dans les comparaisons deux à deux qui ont été réalisées (voir la rubrique Benchmarks sur la page d'accueil du site www.statsoft.com pour plus d'informations). Les utilisateurs avancés trouveront cependant la personnalisation du système particulièrement simple : Chaque noeud de STATISTICA Data Miner est constitué d'un script STATISTICA Visual Basic standardisé (qui appelle les procédures respectives de STATISTICA), vous donnant accès à des fonctions supplémentaires et une interface-utilisateur, permettant de personnaliser davantage les analyses. Il n'est pas nécessaire de modifier ou de personnaliser ces scripts. Toutefois, si votre département informatique ou des consultants souhaitent insérer des algorithmes propriétaires dans STATISTICA Data Miner, la procédure est très simple. Vous pouvez effectuer autant d'opérations numériques, propriétaires ou ultra-personnalisées, que vous le souhaitez à l'intérieur de ces scripts, pour modifier l'aspect des données, ou appliquer l'un des milliers de fonctions analytiques disponibles sous forme de simples appels de fonctions depuis C++ ou STATISTICA Visual Basic. Cette architecture ouverte généraliste de STATISTICA Data Miner offre de nombreux avantages spécifiques (pour un logiciel de data mining) ; vous trouverez davantage d'informations dans la section traitant des Spécificités).
Une source de données peut être la représentation logique d'une base de données, ne résidant pas nécessairement (physiquement) sur la machine exécutant STATISTICA Data Miner. La base de données ne doit pas non plus être copiée en local, ce qui constitue un avantage énorme pour le traitement de jeux de données importants, qui sont souvent utilisés en data mining (voir la page concernant la Technologie IDBD).
| Haut de la Page |
Tous les produits de la gamme STATISTICA, notamment STATISTICA
Data Miner, ont été spécifiquement optimisés pour traiter
efficacement des jeux de données gigantesques (voir la page Benchmarks comparatifs des
performances sur de gros jeux de données (en anglais)), avec des
millions d'observations (enregistrements) et des millions de variables
(champs).
Traiter des bases de données dépassant les capacités de stockage de votre ordinateur local. STATISTICA Data Miner (et éventuellement d'autres produits de la gamme STATISTICA) peut traiter directement les informations contenues dans des bases de données (distantes) grâce à sa technologie optimisée d'Interface Directe avec les Bases de Données (IDBD), qui combine les ressources du serveur de bases de données et de l'ordinateur local pour (a) réaliser les requêtes (en utilisant l'unité centrale du serveur où se trouve la base de données) et en même temps (b) traiter les enregistrements récupérés "à la volée" sur la machine locale (en utilisant le CPU de l'ordinateur local (client)). Vous pouvez ainsi traiter des bases de données dépassant les capacités de stockage de votre machine en local, et gagner significativement en performances puisque vous n'avez pas besoin d'importer préalablement les données sur la machine en local avant de pouvoir les traiter. La plupart des formats courants de bases de données sont compatibles, et vous disposez d'outils puissants pour définir la connexion à la base de données (requête).
Traiter des bases de données avec de très nombreuses variables (champs) : Les fonctionnalités de Sélection et Filtrage des Prédicteurs. Lorsque le nombre de variables du fichier de données d'entrée est extrêmement important, STATISTICA Data Miner peut sélectionner automatiquement des sous-ensembles de variables, parmi même plus d'un million de variables (candidates) pour du data mining prédictif. Des algorithmes très rapides et efficaces vont sélectionner les variables (caractéristiques) susceptibles d'être les prédicteurs les plus pertinents du fichier de données courant, sans introduire de biais dans la construction ultérieure des modèles de data mining prédictif.
Traitement de fichiers de données avec de très nombreuses observations (enregistrements) : Échantillonnage aléatoire souple et efficace. Les produits de la gamme STATISTICA (notamment STATISTICA Data Miner) peuvent traiter des fichiers de données avec un nombre d'observations (enregistrements) pratiquement illimité et offrent des procédures d'accès aux données fortement optimisées. Toutefois, l'utilisation de tous les enregistrements dans les analyses lorsque le nombre d'enregistrements est très important est (a) parfaitement inutile, (b) très long, et (c) souvent irréaliste voire impossible (dans certains cas extrêmes, la simple lecture des enregistrements peut prendre plusieurs heures). Pour accélérer le processus analytique, STATISTICA Data Miner comporte des outils sophistiqués pour tirer des échantillons aléatoires ou des échantillons aléatoires stratifiés issus de jeux de données énormes (bases de données). L'utilisateur peut rapidement tirer des échantillons aléatoires simples ou systématiques, de la taille souhaitée, avec ou sans remise, à partir de très nombreuses données (par exemple, avec plusieurs millions d'enregistrements) pour ses analyses ultérieures utilisant des outils de modélisation sophistiqués pouvant nécessiter plusieurs passages dans les données (par exemple les réseaux de neurones, les modèles linéaires généralisés, etc...). Le sous-échantillonnage aléatoire est basé sur le générateur validé de nombres aléatoires de STATISTICA. Notez que STATISTICA est l'un des rares logiciels à avoir passé avec succès les tests les plus poussés et les plus reconnus d'échantillonnage aléatoire (la série de tests DIEHARD (en anglais)).
Évaluation des projets en calcul distribué et en multithreading dans l'environnement Client-Serveur. L'installation WebSTATISTICA Client-Serveur de STATISTICA Data Miner offre d'autres avantages pour le traitement de très gros jeux de données. Le programme va automatiquement tirer parti de l'architecture multiprocesseurs et/ou des différents ordinateurs du serveur (à condition de disposer du matériel nécessaire), pour évaluer les modèles par plusieurs processus simultanés. En considérant la baisse des prix du matériel informatique en général et des serveurs puissants en particulier (avec plusieurs processeurs, ou des installations multi-serveurs), la possibilité de WebSTATISTICA Data Miner pour tirer pleinement parti de ces architectures offre une flexibilité infinie pour étendre et développer le système afin d'explorer des bases de données même immenses.
| Haut de la Page |
STATISTICA Data Miner offre la gamme la plus complète de techniques statistiques, exploratoires et de représentation disponible sur le marché, y compris des procédures de pointe, ultra-efficaces, de réseaux de neurones/machine learning et de classification. En outre, toutes les fonctionnalités analytiques de STATISTICA sont accessibles pour le data mining, sous forme de plus de 300 noeuds encapsulés que vous pouvez sélectionner dans un Explorateur de Noeuds, structuré et personnalisable, pour les déplacer dans l'espace de travail du data mining.
Les outils spécialisés de data mining sont optimisés pour une rapidité et une efficacité optimale. Ils peuvent être classés en cinq grandes catégories (chacune comprenant différents modules STATISTICA, certains n'étant proposés que dans l'environnement de STATISTICA Data Miner) :
Explorateur/Segmenteur Général
avec Drill-Down. Un grand nombre de noeuds analytiques vous permet de
créer des graphiques exploratoires, de calculer des statistiques
descriptives, de croiser vos données, etc... Ces noeuds peuvent être connectés aux
sources de données d'entrée, mais aussi à tous les résultats intermédiaires. Un module
spécialisé de STATISTICA (STATISTICA
Drill-Down Interactif) permet d'explorer de façon interactive les données
en forant (drill-down) les variables sélectionnées, ou les catégories ou intervalles
de valeurs de ces variables. Par exemple, vous pouvez effectuez un drill-down selon
le Sexe, pour n'afficher la distribution du Revenu que
pour les femmes ; vous pouvez poursuivre sur un groupe de revenu spécifique,
pour explorer (par exemple créer une synthèse graphique pour) les variables
sélectionnées, pour les femmes et pour ce groupe de revenu sélectionné uniquement.
L'une des spécificités de STATISTICA Drill-Down Interactif est la possibilité
qu'il offre de sélectionner et désélectionner les variables et
les catégories utilisées pour le drill-down, dans n'importe quel ordre.
Vous pourriez donc ensuite désélectionner la variable Sexe et afficher
les graphiques et statistiques sélectionnées pour ce groupe de Revenu
particulier, mais pour les hommes et les femmes ensemble cette fois.
Une autre spécificité du Drill-Down Interactif est la
diversité des méthodes de catégorisation ("slicing") proposées.
Ainsi, le module Drill-Down Interactif fournit une souplesse énorme
pour forer vos données ("slicing-and-dicing"). Vous pouvez utiliser
STATISTICA Drill-Down Interactif sur des données brutes, des
connexions à des bases de données pour le traitement direct de bases de données
distantes ou pour tout résultat intermédiaire calculé dans un projet de
STATISTICA Data Miner.
Classification Supervisée et Non Supervisée.
STATISTICA Data Miner propose la plus grande sélection
d'outils pour appliquer les techniques de classification du data mining
(et construire les modèles déployables respectifs), notamment les modèles linéaires
généralisés (pour des réponses binomiales et multinomiales), les Arbres de
Décision (Classification), les Modèles d'Arbres de Classification et de Régression
(GTrees), les Modèles
CHAID, les Classifications
(avec les techniques de CAH pour de nombreuses données, et de
classification généralisée par les k-moyennes et EM avec des options de
validation croisée par v-ensembles pour déterminer automatiquement
le meilleur nombre de clusters), et les Modèles Généraux d'Analyse
Discriminante (avec notamment la sélection par recherche
exhaustive des meilleurs prédicteurs). En outre, les nombreuses
méthodes avancées de classification par réseaux de neurones disponibles dans
STATISTICA Réseaux
de Neurones sont disponibles dans STATISTICA Data Miner et
peuvent être utilisées à la place ou en complément d'autres techniques de
classification.
Modélisation Générale et Exploration Multivariée.
STATISTICA Data Miner propose la plus grande sélection d'outils pour
construire des modèles déployables de data mining, basés sur des techniques
linéaires, non linéaires ou de réseaux de neurones ainsi que des outils
d'exploration de données.
L'utilisateur a aussi la possibilité de construire des modèles prédictifs
basés sur des techniques multivariées généralistes. En résumé,
STATISTICA offre un ensemble complet de techniques, avec des modèles
linéaires et non-linéaires de
régression, des modèles linéaires
généralisés, des modèles additifs
généralisés, des arbres de régression et modèles CHAID, ou des méthodes
avancées de réseaux de neurones ou de MARSplines (multivariate
adaptive regression splines).
STATISTICA Data Miner offre également diverses techniques qui ne sont
généralement par proposées dans les logiciels de data mining, comme les méthodes PLS
(pour la sélection des prédicteurs à partir d'un grand nombre de
variables), les analyses de
survie (pour analyser des données contenant des observations censurées, par
exemple en recherche médicale et dans les études de contrôle qualité du
secteur industriel), les techniques de modélisation
d'équations structurelles (pour construire et évaluer la validité
de modèles confirmatoires linéaires), l'analyse
des correspondances (pour analyser la structure de tables complexes), l'analyse
factorielle et l'analyse de
proximité (pour explorer un grand nombre de variables), et bien d'autres.
Modélisation par
Réseaux de Neurones. Cet outil contient la gamme la plus complète
de méthodes de réseaux de neurones disponible sur le marché. Cette puissante
composante de STATISTICA Data Miner offre des outils pour aborder
efficacement la plupart des problèmes du data mining (notamment la classification,
la détection des structures cachées et des prévisions puissantes).
L'une des particularités de la Modélisation par Réseaux de Neurones
est que le SIP (Solveur Intelligent de Problèmes) et les Assistants
automatiques utilisent des méthodes d'Intelligence Artificielle afin de vous
aider à résoudre les problèmes les plus difficiles qui peuvent
survenir lors d'analyses neuronales avancées (comme la
sélection de la meilleure architecture du réseau et la sélection du meilleur
groupe de prédicteurs). Cet explorateur offre la plus vaste sélection de procédures
et d'architectures de réseaux de neurones, avec des algorithmes
ultra-optimisés : perceptrons multicouches, réseaux RBF (Fonction
Radiale de Base), réseaux de neurones probabilistes (PNN),
réseaux de neurones de régression généralisée (GRNN), cartes
auto-organisatrices de Kohonen, modèles linéaires, réseaux
en composantes principales et réseaux de clusters. Vous pouvez
également évaluer des ensembles de réseaux de ces architectures.
Les méthodes d'estimation utilisent les algorithmes de
rétro-propagation, de descente du gradient conjugué, quasi-Newton,
de Levenberg-Marquardt, de propagation rapide, delta-barre-delta,
LVQ, de segmentation, et bien plus encore. Vous disposez
en outre d'options pour la validation croisée, le bootstrap,
le sous-échantillonnage, l'analyse de sensibilité, etc...
| Haut de la Page |
Cependant, certains modules comportent des techniques ultra-spécialisées de data mining et autres techniques de modélisation de data mining qui ne sont proposées que dans STATISTICA Data Miner. Vous trouverez ci-dessous des informations techniques concernant ces modules.
SÉLECTION ET FILTRAGE DES PRÉDICTEURS.
Ce module va automatiquement sélectionner des sous-ensembles de variables à partir
de jeux de données gigantesques ou de bases de données connectées pour un
traitement direct (voir la page IDBD). Le module peut traiter
un nombre quasi-illimité de variables : le programme peut scanner plus
d'un million (!) de variables en entrée pour en sélectionner les prédicteurs de la
régression ou de la classification. Plus particulièrement, le programme comporte
diverses options pour sélectionner les variables ("caractéristiques") susceptibles
d'être utiles ou informatives dans des analyses spécifiques
ultérieures. Les algorithmes spécifiques du module Sélection et
Filtrage des Prédicteurs vont sélectionner les variables prédictives continues
et catégorielles qui présentent une relation avec les variables dépendantes
continues ou catégorielles, que cette relation soit simple (par exemple, linéaire)
ou complexe (non-linéaire, non-monotone). Ainsi, le programme ne biaise pas
la sélection en faveur d'un modèle en particulier que vous pourriez utiliser
pour découvrir une meilleure règle finale, une équation, etc... pour réaliser
la prévision ou la classification. Diverses options avancées de sélection
des prédicteurs sont également disponibles. Ce
module est particulièrement utile en complément de l'Interface Directe avec les Bases
de Données (IDBD) (qui évite d'avoir à copier ou importer les données
d'entrée sur la machine en local), puisqu'elle permet d'examiner de
longues listes de variables en entrée, de sélectionner les candidats potentiels
contenant l'information pertinente pour les analyses souhaitées, et de
sélectionner automatiquement ces variables pour les analyses ultérieures avec
d'autres noeuds du projet du data miner. Les sous-ensembles de variables
ainsi sélectionnées par ce module pourront alors être soumises à d'autres
méthodes de sélection des prédicteurs par réseaux de neurones,
MAR Splines, classification ou régression linéaire, ou CHAID.
Ces options permettent à STATISTICA Data Miner de gérer des
fichiers de données de plusieurs giga ou téraoctets (voir la page Benchmarks comparatifs des
performances sur de gros jeux de données (en anglais).
| Haut de la Page |

Les résultats peuvent être affichés dans des
tableaux, mais aussi dans des
graphiques en 2D et en 3D où les fortes associations sont représentées
par des traits épais entre les éléments respectifs.
| Haut de la Page |

Comment Fonctionne le Drill-Down Interactif. La métaphore du forage ("drill-down") dans le contexte du data mining résume bien les opérations élémentaires de ce processus analytique : le programme vous permet de sélectionner des observations issues de grands jeux de données en sélectionnant des sous-groupes sur la base de modalités spécifiques ou d'intervalles de valeurs de certaines variables intéressantes (par exemple le Sexe et le Montant Moyen de la Commande dans l'exemple ci-dessus) ; d'une certaine manière, vous pouvez mettre en évidence les "couches les plus profondes" ou les "strates" de vos données en étudiant des sous-ensembles d'observations de plus en plus petits, déterminés par des filtres logiques de plus en plus complexes.
Drilling "up." La nature interactive du Drill Down vous permet non seulement de forer les données ou les bases de données par drill-down (en sélectionnant des groupes d'observations avec des filtres de sélection de plus en plus spécifiques et complexes), mais également d'effectuer l'opération inverse ("drill-up") : vous pouvez, à tout moment, sélectionner des groupes de variables (catégories) précédemment sélectionnées et les désélectionner dans la liste des conditions du drill-down ; lors du traitement des données, le programme ne va retenir que les observations répondant à ces nouveaux filtres de sélection logiques, et actualiser les résultats en conséquence.
Applications du Drill-Down Interactif. L'exemple illustré précédemment est très simple, et ne présente que les fonctionnalités élémentaires du programme. La véritable puissance de STATISTICA Drill-Down Interactif réside dans les différents résultats auxiliaires qui peuvent être mis à jour automatiquement lors de l'exploration interactive par drill-down/up. Vous pouvez sélectionner une liste de variables à étudier, et calculer pour les observations sélectionnées :
Par exemple, vous pouvez analyser les types d'achats effectués par des clients selon différents critères démographiques, étudier l'efficacité de certains médicaments dans différents groupes de traitement, selon différentes tranches d'âges, etc..., ou extraire les clients potentiels pour un nouveau produit, à partir d'une base de données de clients existants, sur la base d'une étude minutieuse de segments apparents (marchés) identifiés par drill-down.
| Haut de la Page |
| Haut de la Page |
Fonctions de répartition et de liaison. Le programme permet à l'utilisateur
de choisir parmi une large gamme de fonctions de répartition pour la variable
dépendante, et de fonctions de liaison pour les effets des variables prédictives
sur la variable dépendante :
MODÈLES ADDITIFS GÉNÉRALISÉS (GAM). Le module STATISTICA Modèles
Additifs Généralisés met en oeuvre les méthodes développées et
vulgarisées par Hastie et Tibshirani (1990) ; vous trouverez davantage
d'informations dans l'ouvrage de Schimek (2000). Le programme permet de
traiter des variables prédictives continues et catégorielles.
Remarque : STATISTICA propose une gamme complète de méthodes
pour ajuster des modèles non-linéaires à vos données, comme le module
d'Estimation
Non Linéaire, les Modèles Linéaires Généralisés,
les Modèles d'Arbres de
Classification et de Régression, etc...
| Fonction de liaison Log : | f(z) = log(z) |
| Fonction de liaison Inverse : | f(z) = 1/z |
| Fonction de liaison Identité : | f(z) = z |
Distribution Binomiale :
| Fonction de liaison Logit : | f(z)=log(z/(1-z)) |
Lissage du nuage de points. Le programme utilise un lissage cubique avec des degrés de liberté définis par l'utilisateur pour trouver une (fonction de) transformation optimale des variables prédictives.
Résultats statistiques. Le programme va reporter un ensemble complet de résultats statistiques pour permettre d'évaluer l'adéquation du modèle, son ajustement et à interpréter les résultats. En particulier, les résultats incluent : l'historique des itérations de l'ajustement du modèle, des statistiques de synthèse avec notamment le R2 global (calculé à partir de la statistique de déviance), les degrés de liberté du modèle et des statistiques descriptives détaillées concernant des réponses prévues, les résidus et le lissage des variables prédictives. Les graphiques de résultats comprennent les tracés des réponses observées selon les résidus, des valeurs prévues selon les résidus, les histogrammes des valeurs observées et des résidus, les droites de Henry des résidus, et les tracés des résidus partiels de chaque prédicteur, représentant un ajustement par lissage spline cubique de la solution finale ; pour les réponses binaires (par exemple, pour les modèles logit), les courbes de Lift peuvent également être calculées.
| Haut de la Page |
MODÈLES D'ARBRES DE
CLASSIFICATION ET DE RÉGRESSION (GTrees). Ce module met en oeuvre l'ensemble
des méthodes décrites par Breiman, Friedman, Olshen et Stone (1984) sous la
dénomination C&RT. Cependant, le module GTrees contient diverses
extensions et options qui ne sont pas généralement par présentes dans
l'implémentation de cet algorithme et qui s'avèrent particulièrement
utiles pour les applications de data mining.
Interface-Utilisateur ; spécification des "modèles". En plus des analyses standard (décrites par Breiman, et al.), l'implémentation de ces méthodes dans STATISTICA vous permet d'utiliser des modèles de type ANOVA/ANCOVA avec des variables prédictives continues et/ou catégorielles, et leurs interactions. Trois interfaces-utilisateur différentes vous sont proposées pour spécifier les modèles ; elles sont analogues aux méthodes proposées dans GLM (Modèle Linéaire Général), GLZ (Modèles Linéaires Généralisés), GRM (Modèles Généraux de Régression), GDA (Modèles Généraux d'Analyse Discriminante) et PLS (Modèles PLS), décrites plus en détail dans les sections respectives. En résumé, vous pouvez spécifier vos modèles de type ANOVA/ANCOVA dans des boîtes de dialogue, à l'aide d'Assistants, ou en syntaxe de commande (du modèle) ; en-outre, la syntaxe de commande est compatible entre les modules, ce qui vous permet d'appliquer rapidement des modèles identiques à des analyses très différentes (par exemple, pour comparer la qualité de la classification en utilisant GDA ou GTrees).
Élagage de l'arbre, sélection,
validation. Le programme propose un grand nombre d'options pour
contrôler la construction de l'arbre, son élagage et la sélection de la
meilleure solution (celle qui ajuste le mieux). Pour les variables dépendantes
continues (critères), l'élagage de l'arbre peut être basé sur la variance,
ou sur un élagage de type FACT. Pour les variables dépendantes catégorielles
(critères), l'élagage de l'arbre peut être basé sur les erreurs de mauvaise
classification, la variance ou un élagage de type FACT. Vous pouvez spécifier
le nombre maximum de noeuds de l'arbre ou le n minimum par noeud. Des options
permettent de valider le meilleur arbre de décision, en utilisant la validation
croisée par V-ensembles, ou en appliquant l'arbre de décision aux nouvelles
observations d'un échantillon de validation. Pour les variables dépendantes
catégorielles (critères), c'est-à-dire pour des problèmes de classification,
vous pouvez choisir diverses mesures pour modifier l'algorithme et évaluer
la qualité de l'arbre de classification final. Vous pouvez spécifier des
probabilités a priori et des risques de mauvaise classification
personnalisés ; la qualité d'ajustement peut être mesurée par le coefficient
de Gini, le Chi-deux et le G-deux.
Valeurs manquantes et division des remplaçants. Vous pouvez
gérer les valeurs manquantes des prédicteurs en permettant
au programme de déterminer les divisions des variables remplaçantes, c'est-à-dire
des variables similaires à la variable respective utilisée pour une division
particulière (noeud).
Modèles de type ANOVA/ANCOVA. En plus des analyses traditionnelles de type CART®, vous pouvez combiner des variables prédictives continues et catégorielles dans des modèles de type ANOVA/ANCOVA et réaliser les analyses utilisant une matrice du modèle pour les variables prédictives. Ceci vous permet d'évaluer et de comparer des modèles prédictifs complexes, et d'apprécier leur efficacité en termes de prévision et de classification à l'aide de diverses techniques analytiques (par exemple Modèle Linéaire Général, Modèles Linéaires Généralisés, Modèles Généraux d'Analyse Discriminante, etc...).
Explorateur d'arbres. Outre les représentations graphiques standard
des arbres obtenus, vous pouvez afficher ces arbres dans un explorateur
qui vous permet de réduire ou de développer les noeuds de l'arbre,
et ainsi vérifier rapidement les principales informations de la
classification ou du noeud respectif de l'arbre. Par exemple, vous pouvez
mettre en surbrillance (cliquer sur) un noeud particulier dans l'explorateur
et immédiatement observer la classification et le taux de mauvaise
classification de ce noeud particulier. L'explorateur d'arbres est
une fonctionnalité très efficace et intuitive
pour examiner la structure d'arbres complexes, en utilisant des méthodes
qui sont assez répandues dans les applications Windows pour visualiser
des informations structurées de façon hiérarchique. Vous pouvez afficher
plusieurs explorateurs simultanément, avec l'arbre final et différents
sous-arbres obtenus après segmentation d'arbres plus importants, et en
plaçant les différents explorateurs les uns à côté des autres afin de
comparer la structure des arbres et des sous-arbres. L'explorateur d'arbres de
STATISTICA est une innovation importante dans l'aide à l'interprétation
d'arbres de décision complexes.
Arbres de Décision Interactifs. Vous pouvez aussi étudier les arbres de façon interactive, soit à l'aide des outils de balayage de STATISTICA, soit en plaçant les graphiques de grands arbres dans des fenêtres graphiques avec des barres de défilement pour inspecter ces graphiques importants dans des fenêtres déroulantes.
Résultats statistiques. Le module STATISTICA GTrees propose un grand nombre de résultats. Vous pouvez accéder aux résultats de synthèse de chaque noeud, aux résultats détaillés des classifications, aux gains, coûts de classification... Vous pouvez également produire différentes synthèses graphiques, notamment des histogrammes (pour les problèmes de classification) de chaque noeud, des tracés détaillés des variables dépendantes continues (par exemple, des droites de Henry, des nuages de points), et des tracés parallèles de coordonnées pour chaque noeud, donnant une vue synthétique de la structure des réponses pour des problèmes importants de classification. Comme dans toutes les procédures statistiques de STATISTICA, tous les résultats numériques peuvent être utilisés en entrée d'autres analyses, ce qui vous permet d'explorer rapidement et de poursuivre l'analyse des observations d'un noeud particulier (par exemple, vous pouvez utiliser le module GTrees pour produire une première classification des observations, puis utiliser le meilleur groupe de variables dans le module GDA afin de trouver d'autres variables pour les classifications ultérieures).
Générateurs de code C, C++, STATISTICA Visual Basic, SQL. L'information contenue dans l'arbre final peut être rapidement incorporée dans vos propres programmes personnalisés ou requêtes de bases de données grâce aux options complémentaires de générateur de code C, C++, STATISTICA Visual Basic, ou SQL. Le langage STATISTICA Visual Basic est généré sous une forme qui peut être aisément incorporée dans des noeuds personnalisés pour STATISTICA Data Miner.
| Haut de la Page |
MODÈLES CHAID
(Chi-square Automatic Interaction Detection). Comme pour l'implémentation des
Modèles d'Arbres
de Classification et de Régression (GTrees) dans STATISTICA, le
module Modèles CHAID est la mise en oeuvre complète de la technique
originale, mais permet également d'étendre ces méthodes à l'analyse des
modèles du type ANOVA/ANCOVA.
CHAID Standard. L'analyse
CHAID peut porter à la fois sur des variables dépendantes
continues et catégorielles (critères). Diverses options permettent de contrôler
la construction des arbres hiérarchiques : l'utilisateur contrôle le n minimum
par noeud, le nombre maximum de noeuds et les probabilités pour diviser ou
fusionner les catégories. L'utilisateur peut également effectuer une recherche
exhaustive de la meilleure solution (CHAID Exhaustif). Vous pouvez
calculer les statistiques de validation par V-ensembles pour évaluer la
stabilité de la solution finale. Pour les problèmes de classification,
vous pouvez également spécifier des coûts de mauvaise classification
personnalisés.
Modèles de type ANOVA/ANCOVA. Outre l'analyse CHAID traditionnelle, vous pouvez combiner des variables prédictives continues et catégorielles dans des modèles de type ANOVA/ANCOVA et réaliser les analyses utilisant une matrice du modèle pour les prédicteurs. Ceci vous permet d'évaluer et de comparer des modèles complexes de prédicteurs, et d'apprécier leur efficacité en termes de prévision et de classification à l'aide de diverses techniques analytiques (par exemple, Modèles Linéaires Généraux, Modèles Linéaires Généralisés, Analyse Discriminante Générale, Modèles d'Arbres de Classification et de Régression, etc...). Voir aussi la description de GLM (Modèle Linéaire GénéraL) et Modèles d'Arbres de Classification et de Régression (GTrees), ci-dessus pour plus d'informations.
Explorateur d'arbres. Comme les résultats
binaires utilisés pour synthétiser les arbres de classification et de
régression binaires (voir GTrees),
vous pouvez étudier les résultats de l'analyse CHAID dans l'explorateur
d'arbres de STATISTICA. L'explorateur d'arbres est une fonctionnalité
très efficace et intuitive pour examiner la structure d'arbres complexes,
et comparer plusieurs solutions côte à côte (dans plusieurs explorateurs
d'arbres), en utilisant des méthodes qui sont assez répandues dans les
applications Windows pour visualiser des informations structurées de
façon hiérarchique. L'explorateur d'arbres de
STATISTICA est une innovation importante dans l'aide à l'interprétation
d'arbres de décision complexes. Pour plus d'informations, voyez également
la description de l'explorateur d'arbres dans le cadre des Modèles d'Arbres de
Classification et de Régression (GTrees).
Résultats statistiques. Le module STATISTICA Modèles CHAID propose un grand nombre de résultats. Vous pouvez accéder aux résultats de synthèse de chaque noeud, aux résultats détaillés des classifications, coûts de classification... Vous pouvez également produire différentes synthèses graphiques, notamment des histogrammes (pour les problèmes de classification) de chaque noeud, des tracés détaillés des variables dépendantes continues (par exemple, des droites de Henry, des nuages de points), et des tracés parallèles de coordonnées pour chaque noeud, donnant une vue synthétique de la structure des réponses pour des problèmes importants de classification. Comme dans toutes les procédures statistiques de STATISTICA, tous les résultats numériques peuvent être utilisés en entrée d'autres analyses, ce qui vous permet d'explorer rapidement et de poursuivre l'analyse des observations d'un noeud particulier (par exemple, vous pouvez utiliser le module GTrees pour produire une classification préliminaire des observations, puis utiliser le meilleur sous-ensemble de variables dans le module GDA afin de trouver d'autres variables pour les classifications ultérieures).
ARBRES DE DÉCISION INTERACTIFS (ARBRES DE CLASSIFICATION ET DE RÉGRESSION). Outre les
modules de construction automatique d'arbres (par exemple, Modèles d'Arbres
de Classification et de Régression, Modèles CHAID), STATISTICA Data
Miner offre également des outils spécifiques pour construire ces
arbres de façon interactive. Vous pouvez choisir la méthode (binaire) des
Modèles d'Arbres de Classification et de Régression ou la méthode CHAID
pour construire l'arbre (de décision), et à chaque étape, développer l'arbre
de façon interactive (en choisissant la variable et le critère de division)
ou de façon automatique. Lorsque vous développez les arbres de manière
interactive, vous avez le contrôle de tous les aspects sur la manière de
sélectionner et évaluer les candidats à chaque division, sur la
manière de catégoriser les intervalles de valeurs des prédicteurs, etc...
Les outils interactifs qui sont proposés dans ce module vous permettent
de développer et élaguer les arbres afin d'évaluer rapidement la qualité de
l'arbre de classification ou de régression et de calculer toutes les
statistiques auxiliaires à chaque étape pour explorer la nature de chaque
solution. Cet outil est extrêmement utile en data mining prédictif
ainsi qu'en analyse exploratoire des données, et offre toutes les options
nécessaires au déploiement automatique, pour la prévision ou la classification
prévue de nouvelles observations (voir également la description de ces options
dans le cadre des modules CHAID et Modèles d'Arbres de
Classification et de Régression).
BOOSTING. Les recherches les plus récentes sur les algorithmes
statistiques et de machine learning indiquent que certaines tâches "difficiles"
d'estimation et de prévision (classification prévue), en utilisant des
arbres boostés simples, peuvent produire des prévisions plus précises que
des architectures de réseaux de neurones ou un seul arbre complexe.
STATISTICA Data Miner contient un module avancé de Boosting
permettant d'appliquer cette technique à des tâches de data mining prédictif.
Vous avez le contrôle de tous les aspects de la procédure d'estimation et
disposez de synthèses détaillées à chaque étape des procédures d'estimation
afin de pouvoir suivre et évaluer la progression au cours des étapes
successives. Les résultats sont constitués de la plupart des statistiques
de synthèse standard de classification et de régression qui sont calculées
dans le module Modèles d'Arbres de Classification et de Régression.
Vous disposez également de méthodes automatiques pour le déploiement
de la solution finale de l'arbre boosté pour la prévision de la classification
ou de la régression.
SUPPORT VECTOR MACHINES.
Cette méthode permet d'effectuer des tâches de régression et de classification en construisant
des bornes de décision non-linéaires. En raison de la nature de l'espace des prédicteurs sur
lequel ces bornes sont trouvées, les Support Vector Machines peuvent offrir une
grande flexibilité dans la gestion des tâches plus ou moins complexes de classification et de régression.
STATISTICA SVM intègre quatre types de modèles de Vecteurs de Support avec différents noyaux
en plus des fonctions de base, notamment linéaire, polynomial, fonction radiale de base et sigmoïde.
Ce module permet également de traiter des données déséquilibrées.
La validation croisée, technique bien connue, permet de déterminer la meilleure valeur
des différents paramètres du modèle parmi un ensemble de valeurs possibles. De nombreux
graphiques et feuilles de données permettent de tester la qualité de l'ajustement et vous aident à
interpréter les différents résultats. Des méthodes
automatiques sont disponibles pour le déploiement de la solution finale des
Support Vector Machines pour les prévisions de la classification ou de la régression.
K PLUS PROCHES VOISINS.
STATISTICA K Plus Proches Voisins est une méthode basée sur la mémoire qui, contrairement aux
autres méthodes statistiques, ne nécessite aucun apprentissage (c'est-à-dire, aucun modèle à ajuster).
Elle entre dans la catégorie des Méthodes de Prototypes. Elle fonctionne sur le principe intuitif
que les objets les plus proches ont plus de chances d'appartenir à une même catégorie.
Ainsi, dans les K Plus Proches Voisins, les prévisions s'appuient sur un ensemble d'exemples prototypes
qui sont utilisés pour prévoir de nouvelles données sur la base d'un vote
majoritaire (pour les tâches de classification - "voting") ou moyen (pour les tâches de régression - "averaging")
sur un ensemble des K plus proches prototypes. Cette méthode permet de gérer des jeux de données
gigantesques avec à la fois des prédicteurs catégoriels et continus.
La validation croisée, technique bien connue, permet d'obtenir des estimations des paramètres du modèle
qui sont inconnus. De nombreux
graphiques et feuilles de données permettent de tester la qualité de l'ajustement et vous aident à
interpréter les différents résultats. Des méthodes
automatiques sont disponibles pour le déploiement de la solution finale des
K Plus Proches Voisins pour les prévisions de la classification ou de la régression.
MAR Splines (MULTIVARIATE ADAPTIVE REGRESSION SPLINES). Le module
STATISTICA MAR Splines (Multivariate Adaptive Regression Splines)
est l'implémentation complète de la technique initialement proposée par
Friedman (1991 ; Multivariate Adaptive Regression Splines, Annals of
Statistics, 19, 1-141) ; dans STATISTICA Data Miner, les options
MARSplines ont été améliorées pour permettre de traiter des
problèmes de régression et de classification, avec des
prédicteurs continus et catégoriels.
Le programme, qui en termes de fonctionnalités peut être considéré comme une généralisation et une modification des Arbres de Régression et de Classification et Régression Multiple (GC&RT) pas-à-pas, a été spécifiquement développé (optimisé) pour traiter de très gros jeux de données. De nombreux résultats et diagnostiques étendus vous permettent d'évaluer, graphiquement et par des tableaux, la qualité de la solution MAR Splines.
Générateurs de code C/C++, C#, STATISTICA Visual Basic, PMML basé sur la syntaxe XML. L'information contenue dans le modèle peut être rapidement incorporée dans vos propres programmes grâce aux options facultatives (complémentaires) de générateur de code C/C++/C#, STATISTICA Visual Basic, ou PMML (basé sur la syntaxe XML). Le langage STATISTICA Visual Basic est généré sous une forme qui peut être aisément incorporée dans des noeuds personnalisés pour STATISTICA Data Miner. Les fichiers PMML (Predictive Models Markup Language) contenant l'information pour le déploiement peuvent être utilisés avec les options de Déploiement Rapide de Modèles Prédictifs pour calculer les prévisions sur un grand nombre d'observations de manière très efficace ; les fichiers PMML sont totalement portables, et l'information de déploiement produite par la verion bureautique de STATISTICA Data Miner peut être utilisée dans WebSTATISTICA Data Miner (c'est-à-dire au niveau du serveur dans les installations Client-Serveur), et réciproquement.
QUALITÉ D'AJUSTEMENT. Le
module STATISTICA Qualité d'Ajustement calcule diverses statistiques
de qualité d'ajustement pour des variables de réponse continues et
catégorielles (pour des problèmes de régression et de classification).
Ce module est un outil spécifiquement développé pour inclure des applications de
data mining dans les projets "d'évaluation compétitive de modèles" afin de
choisir la meilleure solution. Le programme utilise en entrée les valeurs
prévues ou les classifications calculées par l'un des modules de régression ou de
classification de STATISTICA, et calcule de nombreuses statistiques
d'ajustement et synthèses graphiques pour chaque classification ou réponse
ajustée. Les statistiques de Qualité d'ajustement des réponses continues
comportent les écarts des moindres carrés (LSD), l'écart moyen,
l'erreur quadratique relative, l'erreur absolue relative, et
le coefficient de corrélation. Pour les problèmes de classification (pour des
variables de réponse catégorielles), le programme va calculer le Chi-deux,
le G-deux (le Chi-deux du maximum de vraisemblance), le pourcentage de désaccord
(taux de mauvaise classification), la perte quadratique, et des statistiques
de perte d'informations.
DÉPLOIEMENT
RAPIDE DE MODÈLES PRÉDICTIFS. Le module de Déploiement Rapide
de Modèles Prédictifs vous permet de charger un ou plusieurs fichiers PMML
(Predictive Models Markup Language) contenant l'information nécessaire au
déploiement, et de calculer très trapidement (en un seul passage sur les
données) les prévisions pour un très grand nombre d'observations (pour un
ou plusieurs modèles). Vous pouvez générer les fichiers PMML dans la
plupart des modules de data mining prédictif (ainsi que par les options
de Classification Généralisée EM & k-Moyennes). Le langage
PMML est un ensemble de conventions de syntaxe standard basé sur XML
(Extensible Markup Language), particulièrement bien adapté au partage de
l'information de déploiement dans une architecture Client-Serveur
(par exemple, par l'intermédiaire de WebSTATISTICA).
Les options de Déploiement Rapide de Modèles Prédictifs constituent la manière la plus rapide et la plus efficace pour calculer des prévisions à partir de modèles déjà entraînés. Tous les modèles sont déjà pré-programmés sous une forme générique dans un programme compilé ultra-optimisé ; le code PMML ne fournit que les paramètres estimés, etc... des modèles entraînés, ce qui permet au module de Déploiement Rapide de Modèles Prédictifs de calculer les prévisions ou les classifications prévues (ou l'affectation aux clusters) en un seul passage sur les données. En fait, vous aurez du mal à "battre" les performances (en termes de rapidité de calcul) de cet outil, même si vous écrivez votre propre code compilé en C++, à partir du code de déploiement (C, C++, ou C#) produit par les modèles respectifs.
Remarque : le module de Déploiement Rapide de Modèles Prédictifs va également calculer automatiquement les statistiques de synthèse de chaque modèle, et si les classifications ou les valeurs observées sont disponibles, le programme va automatiquement calculer les indices de qualité d'ajustement des modèles participants, notamment les courbes de Gain et de Lift pour un ou plusieurs modèles (avec des courbes de lift et de gain superposées), pour des problèmes de classification binaires ou multinomiaux (catégories multiples).
| Haut de la Page |
Dans la version bureautique de STATISTICA Data Miner, tous les calculs sont réalisés sur l'ordinateur en local, et les ressources d'autres ordinateurs ne sont utilisées que si l'Interface Directe avec les Bases de Données (IDBD) externes est établie. L'IDBD est une technologie qui permet de lire les données de manière asynchrone, directement sur les serveurs distants de bases de données (en utilisant la technologie du calcul distribué si le serveur permet ce type de traitement), sans avoir à "importer" préalablement les données, ni à créer de copie des données en local. Les enregistrements sont récupérés et envoyés à l'ordinateur STATISTICA de façon asynchrone par la CPU du serveur de base de données, tandis que STATISTICA les traite simultanément en utilisant la CPU de l'ordinateur local.
L'Architecture Client-Serveur. Lorsque vous utilisez une version Client-Serveur de STATISTICA Data Miner, l'ordinateur local ne pilote que l'interface-utilisateur du Data Miner, et tous les calculs sont réalisés sur le serveur. L'architecture Client-Serveur qui utilise les technologies avancées du multithreading et du calcul distribué (voir ci-dessous) et peut éventuellement utiliser les ressources de plusieurs ordinateurs du serveur (travaillant en parallèle), offre des avantages évidents lorsque vos projets de data mining sont importants (par exemple, pour des traitements nécessitant de nombreux calculs ou pour des jeux de données particulièrement importants), puisque ces tâches peuvent être déléguées aux serveurs, en libérant les ressources de votre ordinateur local pour d'autres tâches. Technologie Multithreading, Calcul Distribué. Mais la mise en place d'une architecture Client-Serveur de STATISTICA Data Miner, basée sur la technologie de WebSTATISTICA offre de nombreux autres avantages. La
plate-forme WebSTATISTICA utilise la technologie
avancée du calcul distribué et du multithreading, permettant une gestion
optimale des tâches intensives. Cette technologie permet
un traitement rapide de projets, même très importants, avec des calculs
intensifs, en tirant parti des différentes CPU du serveur, voire des
différents serveurs travaillant en parallèle. Ci-dessus, l'illustration d'un
projet en cours de traitement sur un serveur disposant de quatre
processeurs, avec le suivi des performances du serveur, indiquant que
les ressources des quatre CPU sont entièrement utilisées en mode
multithreading lors de l'exécution d'un même projet de STATISTICA
Data Miner, nécessitant de très nombreux calculs.
En outre, l'architecture WebSTATISTICA est indépendante de la plate-forme (système d'exploitation), avec une interface-utilisateur basée sur le navigateur Web, et offre la possibilité de gérer efficacement et à grande échelle, les projets ou les groupes d'utilisateurs situés "à l'autre bout du couloir ou à l'autre bout du monde".
L'Interface-Utilisateur de WebSTATISTICA Data Miner. La mise en oeuvre de STATISTICA Data Miner par l'intermédiaire de WebSTATISTICA permet aux utilisateurs de créer, modifier, et exécuter les projets de data mining sur un poste client, dans une interface-utilisateur basée sur le navigateur Web qui est quasiment identique à celle que vous utilisez dans les installations bureautiques.
Par conséquent, la partie cliente de l'application ("front end") peut être exécutée depuis tout ordinateur (même un ordinateur portable) connecté à Internet. Toutefois, les calculs et autres opérations sur les données sont réalisés par le serveur (distant) qui dispose généralement de processeurs plus puissants et de capacités de stockage plus importantes (avec une architecture optimisée pour des performances maximales grâce au multithreading et au calcul distribué).
Les différents aspects de l'interface-utilisateur de STATISTICA Data Miner peuvent être exécutés par un ou plusieurs utilisateurs simultanément depuis tout ordinateur dans le monde (à condition qu'il soit connecté à Internet, même avec une connexion à faible débit), et le serveur effectue tous les calculs et opérations sur les données, en fonction des droits d'accès et de sécurité des projets et classes d'utilisateurs respectifs, définis par l'administrateur du réseau.
| Haut de la Page |
| Demande de Devis |
| Page d'Accueil de StatSoft France |
©Copyright StatSoft 1984-2009. ![[StatSoft]](images/sssmall.gif)
2, rue Louis Pergaud - 94700
MAISONS-ALFORT
Tél : +33 (0)1-45-185-999 -
Fax: +33 (0)1-45-185-285
e-mail: info@statsoft.fr
StatSoft, le logo StatSoft,
STATISTICA, STATISTICA Entreprise/QC, STATISTICA Entreprise, Data Miner, SEPATH
et GTrees sont des marques déposées par StatSoft.