JuliaReinforcementLearning
diff --git a/‎Manifest.toml‎
Lines changed: 5 additions & 5 deletions b/‎Manifest.toml‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎Project.toml‎
Lines changed: 1 addition & 0 deletions b/‎Project.toml‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎notebooks/Chapter02_Ten_Armed_Testbed.ipynb‎
Lines changed: 3181 additions & 788 deletions b/‎notebooks/Chapter02_Ten_Armed_Testbed.ipynb‎
Lines changed: 3181 additions & 788 deletions
diff --git a/‎notebooks/Chapter06_Cliff_Walking.ipynb‎
Lines changed: 956 additions & 960 deletions b/‎notebooks/Chapter06_Cliff_Walking.ipynb‎
Lines changed: 956 additions & 960 deletions
diff --git a/‎notebooks/Chapter06_Maximization_Bias.ipynb‎
Lines changed: 252 additions & 244 deletions b/‎notebooks/Chapter06_Maximization_Bias.ipynb‎
Lines changed: 252 additions & 244 deletions
diff --git a/‎notebooks/Chapter06_Random_Walk.ipynb‎
Lines changed: 374 additions & 394 deletions b/‎notebooks/Chapter06_Random_Walk.ipynb‎
Lines changed: 374 additions & 394 deletions
diff --git a/‎notebooks/Chapter06_Windy_Grid_World.ipynb‎
Lines changed: 891 additions & 886 deletions b/‎notebooks/Chapter06_Windy_Grid_World.ipynb‎
Lines changed: 891 additions & 886 deletions
diff --git a/‎notebooks/Manifest.toml‎
Lines changed: 1 addition & 1 deletion b/‎notebooks/Manifest.toml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/extensions/learners/gradient_bandit_learner.jl‎
Lines changed: 1 addition & 1 deletion b/‎src/extensions/learners/gradient_bandit_learner.jl‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/extensions/learners/monte_carlo_learner.jl‎
Lines changed: 2 additions & 2 deletions b/‎src/extensions/learners/monte_carlo_learner.jl‎
Lines changed: 2 additions & 2 deletions
@@ -112,9 +112,9 @@ version = "0.5.1"
 
 [[CuArrays]]
 deps = ["AbstractFFTs", "Adapt", "CEnum", "CUDAapi", "CUDAdrv", "CUDAnative", "DataStructures", "GPUArrays", "Libdl", "LinearAlgebra", "MacroTools", "NNlib", "Printf", "Random", "Requires", "SparseArrays", "TimerOutputs"]
-git-tree-sha1 = "9aac17f7e09017107c84ed2657f462e86b1d56b3"
+git-tree-sha1 = "7c20c5a45bb245cf248f454d26966ea70255b271"
 uuid = "3a865a2d-5b23-5a0f-bc46-62713ec82fae"
-version = "1.7.1"
+version = "1.7.2"
 
 [[DataAPI]]
 git-tree-sha1 = "674b67f344687a88310213ddfa8a2b3c76cc4252"
@@ -494,7 +494,7 @@ uuid = "189a3867-3050-52da-a836-e630ba90ab69"
 version = "0.2.0"
 
 [[ReinforcementLearningBase]]
-deps = ["Random"]
+deps = ["Distributions", "Random"]
 path = "/home/tj/workspace/github/ReinforcementLearningBase.jl/"
 uuid = "e575027e-6cd6-5018-9292-cdc6200d2b44"
 version = "0.5.0"
@@ -592,9 +592,9 @@ version = "1.0.0"
 
 [[Tables]]
 deps = ["DataAPI", "DataValueInterfaces", "IteratorInterfaceExtensions", "LinearAlgebra", "TableTraits", "Test"]
-git-tree-sha1 = "aaed7b3b00248ff6a794375ad6adf30f30ca5591"
+git-tree-sha1 = "22eea0f6619df63954b9404c8d47cd42c5d529f9"
 uuid = "bd369af6-aec1-5ad0-b16a-f7cc5008161c"
-version = "0.2.11"
+version = "1.0.1"
 
 [[Test]]
 deps = ["Distributed", "InteractiveUtils", "Logging", "Random"]
 
@@ -7,6 +7,7 @@ version = "0.2.0"
 DataStructures = "864edb3b-99cc-5e75-8d2d-829cb0a9cfe8"
 Distributions = "31c24e10-a181-5473-b8eb-7969acd0382f"
 Flux = "587475ba-b771-5e3f-ad9e-33799f191a9c"
+LinearAlgebra = "37e2e46d-f89d-539d-b4ee-838fcccc9c8e"
 MacroTools = "1914dd2f-81c6-5fcd-8719-6d5c9610ff09"
 Plots = "91a5bcdd-55d7-5caf-9e0b-520d859cae80"
 Random = "9a3f8284-a2c9-5f02-9a11-845980a1fd5c"
 
@@ -480,7 +480,7 @@ deps = ["InteractiveUtils", "Markdown", "Sockets"]
 uuid = "3fa0cd96-eef1-5676-8a61-b3b8758bbffb"
 
 [[RLIntro]]
-deps = ["DataStructures", "Distributions", "Flux", "MacroTools", "Plots", "Random", "ReinforcementLearningBase", "ReinforcementLearningCore", "SparseArrays", "StatsBase", "StatsPlots"]
+deps = ["DataStructures", "Distributions", "Flux", "LinearAlgebra", "MacroTools", "Plots", "Random", "ReinforcementLearningBase", "ReinforcementLearningCore", "SparseArrays", "StatsBase", "StatsPlots"]
 path = ".."
 uuid = "02c1da58-b9a1-11e8-0212-f9611b8fe936"
 version = "0.2.0"
 
@@ -11,7 +11,7 @@ Base.@kwdef mutable struct GradientBanditLearner{A,O,B} <: AbstractLearner
     baseline::B
 end
 
-(learner::GradientBanditLearner)(obs) = obs |> get_state |> learner.approximator |> softmax
+(learner::GradientBanditLearner)(s::Int) = s |> learner.approximator |> softmax
 
 RLBase.update!(learner::GradientBanditLearner, ::Nothing) = nothing
 
 
@@ -51,8 +51,8 @@ SamplingStyle(::MonteCarloLearner{T,A,R,S}) where {T,A,R,S} = S
 
 RLBase.ApproximatorStyle(m::MonteCarloLearner) = ApproximatorStyle(m.approximator)
 
-(learner::MonteCarloLearner)(obs) = learner.approximator(get_state(obs))
-(learner::MonteCarloLearner)(obs, a) = learner.approximator(get_state(s), a)
+(learner::MonteCarloLearner)(obs) = learner.approximator(obs)
+(learner::MonteCarloLearner)(obs, a) = learner.approximator(s, a)
 
 RLBase.update!(learner::MonteCarloLearner, experience) = update!(learner, VisitStyle(learner), ApproximatorStyle(learner), SamplingStyle(learner), experience)