ini

Configuration files with training/testing settings.

cube2x2-paper-d200

Method from the paper applied to 2x2 cube with scrambling depth 200 during the training.

Best policy is achieved after 8k batches (3.5 hours on 1080Ti), after 10k batches training diverges.

The same as in paper, but target value for goal states set to zero, which helps convergence a lot

Name	Name	Last commit message	Last commit date
parent directory ..
README.md	README.md	Limit amount of batches to train	Nov 2, 2018
cube2x2-paper-d200.ini	cube2x2-paper-d200.ini	Target value method is configurable, implement zero goal value	Nov 2, 2018
cube2x2-zero-goal-d200.ini	cube2x2-zero-goal-d200.ini	Limit amount of batches to train	Nov 2, 2018
cube3x3-paper-d20.ini	cube3x3-paper-d20.ini	Zero goal cubes experiment	Jan 5, 2019
cube3x3-paper-d200.ini	cube3x3-paper-d200.ini	Cube 3x3 configs	Nov 2, 2018
cube3x3-zero-goal-d20-noweight.ini	cube3x3-zero-goal-d20-noweight.ini	Tweak params	Jan 7, 2019
cube3x3-zero-goal-d20.ini	cube3x3-zero-goal-d20.ini	Try larger LR	Jan 4, 2019
cube3x3-zero-goal-d200.ini	cube3x3-zero-goal-d200.ini	Upd new results	Jan 4, 2019