finishe chapter03

findmyway · findmyway · commit 593b96229d98 · 2020-02-09T19:54:42.000+08:00
diff --git a/Manifest.toml b/Manifest.toml
@@ -14,9 +14,9 @@ version = "0.3.1"
 
 [[Adapt]]
 deps = ["LinearAlgebra"]
-git-tree-sha1 = "82dab828020b872fa9efd3abec1152b075bc7cbf"
+git-tree-sha1 = "c88cfc7f9c1f9f8633cddf0b56e86302b70f64c5"
 uuid = "79e6a3ab-5dfb-504d-930d-738a2a938a0e"
-version = "1.0.0"
+version = "1.0.1"
 
 [[Arpack]]
 deps = ["Arpack_jll", "Libdl", "LinearAlgebra"]
@@ -58,21 +58,21 @@ version = "0.2.0"
 
 [[CUDAapi]]
 deps = ["Libdl", "Logging"]
-git-tree-sha1 = "56a813440ac98a1aa64672ab460a1512552211a7"
+git-tree-sha1 = "d9614968b9a13df433870115acff20f41e7b400a"
 uuid = "3895d2a7-ec45-59b8-82bb-cfc6a382f9b3"
-version = "2.1.0"
+version = "3.0.0"
 
 [[CUDAdrv]]
 deps = ["CEnum", "CUDAapi", "Printf"]
-git-tree-sha1 = "5660775f2a3214420add960e1ff2baf46d5297cd"
+git-tree-sha1 = "01e90fa34e25776bc7c8661183d4519149ebfe59"
 uuid = "c5f51814-7f29-56b8-a69c-e4d8f6be1fde"
-version = "5.1.0"
+version = "6.0.0"
 
 [[CUDAnative]]
 deps = ["Adapt", "CEnum", "CUDAapi", "CUDAdrv", "DataStructures", "InteractiveUtils", "LLVM", "Libdl", "Printf", "TimerOutputs"]
-git-tree-sha1 = "e0c2805c9a7d338823c0d8f574242e284410fa61"
+git-tree-sha1 = "59d6c3e313b874abc718f7d6ad02ea604f96db14"
 uuid = "be33ccc6-a3ff-5ff2-a52e-74243cff1e17"
-version = "2.9.1"
+version = "2.10.0"
 
 [[Clustering]]
 deps = ["Distances", "LinearAlgebra", "NearestNeighbors", "Printf", "SparseArrays", "Statistics", "StatsBase"]
@@ -118,9 +118,9 @@ version = "0.5.1"
 
 [[CuArrays]]
 deps = ["AbstractFFTs", "Adapt", "CEnum", "CUDAapi", "CUDAdrv", "CUDAnative", "DataStructures", "GPUArrays", "Libdl", "LinearAlgebra", "MacroTools", "NNlib", "Printf", "Random", "Requires", "SparseArrays", "TimerOutputs"]
-git-tree-sha1 = "4e536542c5c898b1bf43011b6187f3c97ebcc91e"
+git-tree-sha1 = "9aac17f7e09017107c84ed2657f462e86b1d56b3"
 uuid = "3a865a2d-5b23-5a0f-bc46-62713ec82fae"
-version = "1.7.0"
+version = "1.7.1"
 
 [[DataAPI]]
 git-tree-sha1 = "674b67f344687a88310213ddfa8a2b3c76cc4252"
diff --git a/Project.toml b/Project.toml
@@ -4,6 +4,7 @@ authors = ["TianJun <tianjun.cpp@gmail.com>"]
 version = "0.2.0"
 
 [deps]
+DataStructures = "864edb3b-99cc-5e75-8d2d-829cb0a9cfe8"
 Distributions = "31c24e10-a181-5473-b8eb-7969acd0382f"
 Flux = "587475ba-b771-5e3f-ad9e-33799f191a9c"
 Plots = "91a5bcdd-55d7-5caf-9e0b-520d859cae80"
diff --git a/notebooks/Chapter03_Grid_World.ipynb b/notebooks/Chapter03_Grid_World.ipynb
diff --git a/notebooks/Manifest.toml b/notebooks/Manifest.toml
@@ -480,7 +480,7 @@ deps = ["InteractiveUtils", "Markdown", "Sockets"]
 uuid = "3fa0cd96-eef1-5676-8a61-b3b8758bbffb"
 
 [[RLIntro]]
-deps = ["Distributions", "Plots", "Random", "ReinforcementLearningBase", "ReinforcementLearningCore", "SparseArrays", "StatsBase", "StatsPlots"]
+deps = ["DataStructures", "Distributions", "Flux", "Plots", "Random", "ReinforcementLearningBase", "ReinforcementLearningCore", "SparseArrays", "StatsBase", "StatsPlots"]
 path = ".."
 uuid = "02c1da58-b9a1-11e8-0212-f9611b8fe936"
 version = "0.2.0"
diff --git a/src/RLIntro.jl b/src/RLIntro.jl
@@ -1,6 +1,7 @@
 module RLIntro
 
 using ReinforcementLearningCore
+using ReinforcementLearningBase
 
 include("environments/environments.jl")
 include("extensions/extensions.jl")
diff --git a/src/extensions/environment_models/deterministic_distribution_model.jl b/src/extensions/environment_models/deterministic_distribution_model.jl
@@ -0,0 +1,18 @@
+export DeterministicDistributionModel
+
+"""
+    DeterministicDistributionModel(table::Array{Vector{NamedTuple{(:nextstate, :reward, :prob),Tuple{Int,Float64,Float64}}}, 2})
+
+Store all the transformations in the `table` field.
+"""
+struct DeterministicDistributionModel <: AbstractEnvironmentModel
+    table::Array{
+        Vector{NamedTuple{(:nextstate, :reward, :prob),Tuple{Int,Float64,Float64}}},
+        2,
+    }
+end
+
+RLBase.get_observation_space(m::DeterministicDistributionModel) = DiscreteSpace(size(m.table, 1))
+RLBase.get_action_space(m::DeterministicDistributionModel) = DiscreteSpace(size(m.table, 2))
+
+(m::DeterministicDistributionModel)(s::Int, a::Int) = m.table[s, a]
diff --git a/src/extensions/environment_models/dynamic_distribution_model.jl b/src/extensions/environment_models/dynamic_distribution_model.jl
@@ -0,0 +1,17 @@
+export DynamicDistributionModel
+
+"""
+    DynamicDistributionModel(f::Tf, ns::Int, na::Int) -> DynamicDistributionModel{Tf}
+
+Use a general function `f` to store the transformations. `ns` and `na` are the number of states and actions.
+"""
+struct DynamicDistributionModel{Tf<:Function} <: AbstractEnvironmentModel
+    f::Tf
+    ns::Int
+    na::Int
+end
+
+RLBase.get_observation_space(m::DynamicDistributionModel) = DiscreteSpace(m.ns)
+RLBase.get_action_space(m::DynamicDistributionModel) = DiscreteSpace(m.na)
+
+(m::DynamicDistributionModel)(s, a) = m.f(s, a)
diff --git a/src/extensions/environment_models/environment_models.jl b/src/extensions/environment_models/environment_models.jl
@@ -0,0 +1,5 @@
+include("deterministic_distribution_model.jl")
+include("dynamic_distribution_model.jl")
+include("experience_based_sample_model.jl")
+include("time_based_sample_model.jl")
+include("prioritized_sweeping_sample_model.jl")
diff --git a/src/extensions/environment_models/experience_based_sample_model.jl b/src/extensions/environment_models/experience_based_sample_model.jl
@@ -0,0 +1,60 @@
+export ExperienceBasedSampleModel, sample
+
+import StatsBase: sample
+
+"""
+    ExperienceBasedSampleModel() -> ExperienceBasedSampleModel
+
+Generate a transition based on previous experiences.
+"""
+mutable struct ExperienceBasedSampleModel <: AbstractEnvironmentModel
+    experiences::Dict{
+        Any,
+        Dict{Any,NamedTuple{(:reward, :terminal, :nextstate),Tuple{Float64,Bool,Any}}},
+    }
+    sample_count::Int
+    ExperienceBasedSampleModel() =
+        new(
+            Dict{
+                Any,
+                Dict{
+                    Any,
+                    NamedTuple{(:reward, :terminal, :nextstate),Tuple{Float64,Bool,Any}},
+                },
+            }(),
+            0,
+        )
+end
+
+function RLBase.extract_experience(t::AbstractTrajectory, m::ExperienceBasedSampleModel)
+    if length(t) > 0
+        get_trace(t, :state)[end],
+        get_trace(t, :action)[end],
+        get_trace(t, :reward)[end],
+        get_trace(t, :terminal)[end],
+        get_trace(t, :next_state)[end]
+    else
+        nothing
+    end
+end
+
+RLBase.update!(m::ExperienceBasedSampleModel, ::Nothing) = nothing
+
+function RLBase.update!(m::ExperienceBasedSampleModel, transition::Tuple)
+    s, a, r, d, s′ = transition
+    if haskey(m.experiences, s)
+        m.experiences[s][a] = (reward = r, terminal = d, nextstate = s′)
+    else
+        m.experiences[s] = Dict{
+            Any,
+            NamedTuple{(:reward, :terminal, :nextstate),Tuple{Float64,Bool,Any}},
+        }(a => (reward = r, terminal = d, nextstate = s′))
+    end
+end
+
+function sample(model::ExperienceBasedSampleModel)
+    s = rand(keys(model.experiences))
+    a = rand(keys(model.experiences[s]))
+    model.sample_count += 1
+    s, a, model.experiences[s][a]...
+end
diff --git a/src/extensions/environment_models/prioritized_sweeping_sample_model.jl b/src/extensions/environment_models/prioritized_sweeping_sample_model.jl
@@ -0,0 +1,64 @@
+export PrioritizedSweepingSampleModel
+
+using DataStructures: PriorityQueue, dequeue!
+
+import StatsBase: sample
+
+"""
+    PrioritizedSweepingSampleModel(θ::Float64=1e-4)
+
+See more details at Section (8.4) on Page 168 of the book *Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. MIT press, 2018.*
+"""
+mutable struct PrioritizedSweepingSampleModel <: AbstractEnvironmentModel
+    experiences::Dict{Tuple{Any,Any},Tuple{Float64,Bool,Any}}
+    PQueue::PriorityQueue{Tuple{Any,Any},Float64}
+    predecessors::Dict{Any,Set{Tuple{Any,Any,Float64,Bool}}}
+    θ::Float64
+    sample_count::Int
+    PrioritizedSweepingSampleModel(θ::Float64 = 1e-4) =
+        new(
+            Dict{Tuple{Any,Any},Tuple{Float64,Bool,Any}}(),
+            PriorityQueue{Tuple{Any,Any},Float64}(Base.Order.Reverse),
+            Dict{Any,Set{Tuple{Any,Any,Float64,Bool}}}(),
+            θ,
+            0,
+        )
+end
+
+function RLBase.extract_experience(
+    t::AbstractTrajectory,
+    model::PrioritizedSweepingSampleModel,
+)
+    if length(t) > 0
+        get_trace(t, :state)[end],
+        get_trace(t, :action)[end],
+        get_trace(t, :reward)[end],
+        get_trace(t, :terminal)[end],
+        get_trace(t, :next_state)[end]
+    else
+        nothing
+    end
+end
+
+function RLBase.update!(m::PrioritizedSweepingSampleModel, transition, P)
+    s, a, r, d, s′ = transition
+    m.experiences[(s, a)] = (r, d, s′)
+    if P >= m.θ
+        m.PQueue[(s, a)] = P
+    end
+    if !haskey(m.predecessors, s′)
+        m.predecessors[s′] = Set{Tuple{Any,Any,Float64,Bool}}()
+    end
+    push!(m.predecessors[s′], (s, a, r, d))
+end
+
+function sample(m::PrioritizedSweepingSampleModel)
+    if length(m.PQueue) > 0
+        s, a = dequeue!(m.PQueue)
+        r, d, s′ = m.experiences[(s, a)]
+        m.sample_count += 1
+        s, a, r, d, s′
+    else
+        nothing
+    end
+end
diff --git a/src/extensions/environment_models/time_based_sample_model.jl b/src/extensions/environment_models/time_based_sample_model.jl
@@ -0,0 +1,65 @@
+export TimeBasedSampleModel
+
+import StatsBase: sample
+
+"""
+    TimeBasedSampleModel(nactions::Int, κ::Float64 = 1e-4)
+"""
+mutable struct TimeBasedSampleModel <: AbstractEnvironmentModel
+    experiences::Dict{
+        Any,
+        Dict{Any,NamedTuple{(:reward, :terminal, :nextstate),Tuple{Float64,Bool,Any}}},
+    }
+    nactions::Int
+    κ::Float64
+    t::Int
+    last_visit::Dict{Tuple{Any,Any},Int}
+    TimeBasedSampleModel(nactions::Int, κ::Float64 = 1e-4) =
+        new(
+            Dict{
+                Any,
+                Dict{
+                    Any,
+                    NamedTuple{(:reward, :terminal, :nextstate),Tuple{Float64,Bool,Any}},
+                },
+            }(),
+            nactions,
+            κ,
+            0,
+            Dict{Tuple{Any,Any},Int}(),
+        )
+end
+
+function extract_transitions(t::AbstractTrajectory, m::TimeBasedSampleModel)
+    if length(t) > 0
+        get_trace(t, :state)[end],
+        get_trace(t, :action)[end],
+        get_trace(t, :reward)[end],
+        get_trace(t, :terminal)[end],
+        get_trace(t, :next_state)[end]
+    else
+        nothing
+    end
+end
+
+function RLBase.update!(m::TimeBasedSampleModel, transition::Tuple)
+    s, a, r, d, s′ = transition
+    if haskey(m.experiences, s)
+        m.experiences[s][a] = (reward = r, terminal = d, nextstate = s′)
+    else
+        m.experiences[s] = Dict{
+            Any,
+            NamedTuple{(:reward, :terminal, :nextstate),Tuple{Float64,Bool,Any}},
+        }(a => (reward = r, terminal = d, nextstate = s′))
+    end
+    m.t += 1
+    m.last_visit[(s, a)] = m.t
+end
+
+function sample(m::TimeBasedSampleModel)
+    s = rand(keys(m.experiences))
+    a = rand(1:m.nactions)
+    r, d, s′ = get(m.experiences[s], a, (0.0, false, s))
+    r += m.κ * sqrt(m.t - get(m.last_visit, (s, a), 0))
+    s, a, r, d, s′
+end
diff --git a/src/extensions/extensions.jl b/src/extensions/extensions.jl
@@ -1,2 +1,5 @@
 include("utils/utils.jl")
-include("learners/learners.jl")
+include("learners/learners.jl")
+include("policies/policies.jl")
+include("environment_models/environment_models.jl")
+include("iteration_methods.jl")
diff --git a/src/extensions/iteration_methods.jl b/src/extensions/iteration_methods.jl
diff --git a/src/extensions/policies/policies.jl b/src/extensions/policies/policies.jl
diff --git a/src/extensions/policies/tabular_deterministic_policy.jl b/src/extensions/policies/tabular_deterministic_policy.jl
diff --git a/src/extensions/policies/tabular_random_policy.jl b/src/extensions/policies/tabular_random_policy.jl