|
Combien faut-il de parties ? par ins10598 le
[Aller à la fin] |
| Informatique | |
Pour pouvoir affirmer qu'un module informatique est plus fort qu'un autre (dans des conditions définies de bibliothèques et de cadence)
En rassemblant mes souvenirs de probabilités et statistique j'arrive à la conclusion que, dans un match en N parties l'écart en points doit etre plus grand que la racine carrée de N
Quelqu'un a-t-il une meilleure formule à me proposer?
Il y a pas mal de matheux sur ce forum ; je l'ai été, mais je suis un peu rouillé, alors merci d'avance!
|
|
tout dépend du degré d'exigence voulu pour faire cette affirmation, enfin c'est ce que me disent mes souvenirs de statistiques et probabilités. Le seuil le plus courant est 95% mais pour affirmer avec certitude au sens commun du terme qu'un programme est plus fort qu'un autre il faut ... une infinité de parties ! Sinon au jugé une séquence de scores doit suivre quelque chose qui ressemble à une loi binômiale (c'en serait une s'il n'y avait pas ces foutues nulles) et on doit pouvoir évaluer le score global et tester la différence avec un khi-deux à N degrés de liberté mais je dis peut-être n'importe quoi, je passais plus de temps avec des pièces ou des cartes à l'époque qu'à assimiler ce genre d'âneries !
|
|
Souvenir de statistique Normalement 30 parties doivent suffirent.
A partir de ce chiffre, la population est suffisemment importante pour pouvoir travailler...et pour que les résultats soient significtifs.
Ne pas oublier de calculer les écarts-types (ou les variances)...permettant de juger de la pertinance de l'analyse...
|
|
hmm Au poker pour juger avec un minimum de fiabilité son espèrance de gain (à une table précise, à n jeu donné, etc..), on conseille de se baser sur un minimum de 500 mains, et plus de 1000 de préférence.
La différence de nive
|
|
coupé La différence de niveau entre deux programmes est à priori quelque chose d'assez peu marqué. Mais les flucutations de résultats sont sans doute malgré tout moins importantes qu'au poker (quoique..). En tout cas se baser sur seulement 30 parties ne me paraît vraiment absolument pas fiable :).
|
|
Ref Odin Tout dépend de l'écart , ou , si l'on préfère , du pourcentage : si le plus fort marque 55% ,il faudra 100 parties , mais avec 60% 25 suffiront; ceci correspond à 1 écart type : si l'on juge que 2 écarts type son nécessaires il faudra repectivement 100 et 400
|
|
La formule qui correspond est celle de bienayme-tchebitcheff ... Quand a comment l'appliquer a ce sujet, j'ai du mal a la tordre dans le bon sens ...
Neanmoins, si tu a été matheux tu peux jeter un coup d'oeilici
|
|
Alors... Alors si 30 parties suffisent, SigmaHiarcs 9.6 sur un Mac G4- 1 Ghz est réellement plus fort que Fritz 8 sur un Compaq Presario 2,5 GHz.
Je les utilise tous les deux pour analyser des études, et souvent SigmaHiarcs 9.6 avec processeur 1 GHz (RAM = 1 Go) joue mieux que Fritz 8 avec processeur 2,5 GHz (RAM= 768 Mo). L' inverse ne s' est pas produit une seule fois.
|
|
cela dépend de l'écart entre les pgm Je crois comme l'a dit un intervenant ci dessus, que le nombre de parties necessaire pour diferencier deux programmes depend de l'ecart entre les deux programmes...
Par exemple si je fais jouer mon Fidelity Par excellence (elo environ 1850)contre schredder 7 (elo superieur à 2500) , je crois qu'il sera inutile de continuer le test au delà de 10 parties à zéro gagnées en moins de 40 coups...
Si je fais jouer Fritz 6 contre Schredder 7,je ne sais pas combien il faudra de parties , car les deux programmes sont tres proches, et les parties risquent de durer 60 ou 80 coups !!
|
|
C'est bien ce que propose ma formule On s'arrète quand l'écart obtenu dépasse KxRacine carrée de N (désolé , je n'ai pas le signe voulu sur mon clavier ), K étant un coefficient d'autant plus grand qu'on est plus exigeant sur le degré de confiance
Je dois d'ailleurs préciser qu'il n'y a pas une hiérarchie unique : entre Junior9 et Hiarcs9 on n'aura sans doute pas le meme classement avec une bibliothèque "généraliste" et une de Gambit du Roi , ni peut-etre en 4'+2" et en 90'+30"
|
|
dans mes souvenirs! le test de Khi-deux est une référence! et un échantillon de 30 éléments est le minimum significatif! mais c'est loin!
|
|
30 élements est le minimum pour pouvoir faire des calculs représentatifs...
dire X gagne à 55% c'est bien, mais que vaut ce 55% ?
Il vaut bien mieux pouvoir dire X gagne à 55% plus ou moins x % !!!
Ecrire X gagne 55% +- x% nécessite au moins 30 parties...
Mais bien évidemment plus le nombre de parties sera élévé plus x% sera faible.
Ce nb pourra être très élévé si les deux programme sont proches
|
|
hmm tout dépend du type de données, non?
Si les données sont un cycle de valeurs 1 2 3 4 5 6 1 2 3 4 5 6 etc.., et qu'on veut savoir combien de fois le 5 et le 6 apparaîtront, il suffit de 6 données.
Par contre si on prend des données ou les facteurs entraînant des variations sont indéterminables (par exemple des parties entre deux joueurs humains, où l'un peut être en méforme pendant trois mois, puis en grande forme le mois suivant, etc..), on ne peut jamais garantir de fiabilité à x% du résultat (même avec 10000 parties gagnées à chaque fois par le même joueur, théoriquement le résultat peut être faux à 100%, puisque si 'lon pursuit le test assez longtemps l'autre joueur peut gagner toutes les parties suivantes).
Dans le cas précis du jeu entre deux ordis, on est plus proche d'un événement régulier du style lancer de dé. Donc on a une courbe gaussienne qui permet de savoir quand le résultat est fiable à x%.
Mais par contre, même si l'on sait que les fluctuations sont régulières (forme gaussiennes), l'importance des fluctuations est inconnue et non modélisable (contrairement au lancer de dé). Donc impossible d'avancer un chiffre du style 30 parties suffisent.. En fait si on a 1000parties, on commence à pouvoir avoir un peu confiance dans les résultats, ce qui nous donne l'écart-type etc.. Et c'est suelement à partir du moment où on a vraiment un nombre important de données qu'on peut déterminer combien de ces données aurait été nécessaire pour un résultat fiable à x%.
Donc si ce chiffre de 30 parties a été donné précisément pour un match entre deux ordis et une fiabilité de 5%, par exemple, et a été donné suite à des calculs effectué sur un beaucoup plus grand nombre de parties (par exemple par cette organisation suédoise qui calcule le élo des ordis, me souvient plus du nom?), alors ile st relativement fiable. Mais sinon il n'y a aucun moyen de connaître à l'avance ce chiffre, ou même de la majorer, sauf erreur de ma part..
|
|
Oh q c pas bo la menterie ! Le 13-03-2005 à 18:23:55 : "quant aux statitiqes , je veux bien , mais je ne sais pas comment faire". Et aujourd'hui : "je l'ai été" (matheux). Lamentable de tirer au flanc ainsi!!
D'un autre coté ca laisse qq espoirs sur certaines déclarations. Like celle où tu nous disais que ta compréhension du jeu était celle d'un 2400 pendule car tu était classé à plus de 2000 par correspondance ! J'avoue que j'y avais cru aussi ; )
|
|
RefXXX : faut pas confondre! OUI! j'ai été matheux ( ingénieur mathématicien telle était ma désignation officielle ), mais tu confonds la Statistique Mathématique ( Khi2 , Kolmogoroff-Smirnov , etc ) et l'exploitation d'un logiciel classifiant les finales dans une base de données : c'est ça que je ne sais pas faire :Il n'y a pas de menteries ; je sais faire des stats sur les ouvertures , pas sur les finales ; Où est la contradiction?
|
|
Je ne sais pas mais dans ce cas là je suis content de ne pas avoir fait de math ; )
Toutes mes excuses pour mes vilains propos !
|
|
|