enable OpenSpiel (#691)

findmyway · web-flow · commit c70f4f057202 · 2022-06-13T14:38:59.000+08:00
* enable OpenSpiel

* passCI
diff --git a/src/ReinforcementLearningEnvironments/Project.toml b/src/ReinforcementLearningEnvironments/Project.toml
@@ -27,11 +27,12 @@ julia = "1.3"
 
 [extras]
 ArcadeLearningEnvironment = "b7f77d8d-088d-5e02-8ac0-89aab2acc977"
+OpenSpiel = "ceb70bd2-fe3f-44f0-b81f-41608acaf2f2"
 OrdinaryDiffEq = "1dea7af3-3e70-54e6-95c3-0bf5283fa5ed"
 PyCall = "438e738f-606a-5dbb-bf0a-cddfbfd45ab0"
 StableRNGs = "860ef19b-820b-49d6-a774-d7a799459cd3"
 Statistics = "10745b16-79ce-11e8-11f9-7d13ad32a3b2"
 Test = "8dfed614-e22c-5e08-85e1-65c5234f0b40"
 
 [targets]
-test = ["ArcadeLearningEnvironment", "OrdinaryDiffEq", "PyCall", "StableRNGs", "Statistics", "Test"]
+test = ["ArcadeLearningEnvironment", "OpenSpiel", "OrdinaryDiffEq", "PyCall", "StableRNGs", "Statistics", "Test"]
diff --git a/src/ReinforcementLearningEnvironments/src/environments/3rd_party/open_spiel.jl b/src/ReinforcementLearningEnvironments/src/environments/3rd_party/open_spiel.jl
@@ -60,7 +60,7 @@ RLBase.current_player(env::OpenSpielEnv) = OpenSpiel.current_player(env.state)
 RLBase.chance_player(env::OpenSpielEnv) = convert(Int, OpenSpiel.CHANCE_PLAYER)
 
 function RLBase.players(env::OpenSpielEnv)
-    p = 0:(num_players(env.game) - 1)
+    p = 0:(num_players(env.game)-1)
     if ChanceStyle(env) === EXPLICIT_STOCHASTIC
         (p..., RLBase.chance_player(env))
     else
@@ -73,9 +73,9 @@ function RLBase.action_space(env::OpenSpielEnv, player)
         # !!! this bug is already fixed in OpenSpiel
         # replace it with the following one later
         # ZeroTo(max_chance_outcomes(env.game)-1)
-        ZeroTo(max_chance_outcomes(env.game))
+        Space(0:max_chance_outcomes(env.game))
     else
-        ZeroTo(num_distinct_actions(env.game) - 1)
+        Space(0:num_distinct_actions(env.game)-1)
     end
 end
 
@@ -91,7 +91,7 @@ function RLBase.prob(env::OpenSpielEnv, player)
     # @assert player == chance_player(env)
     p = zeros(length(action_space(env)))
     for (k, v) in chance_outcomes(env.state)
-        p[k + 1] = v
+        p[k+1] = v
     end
     p
 end
@@ -102,7 +102,7 @@ function RLBase.legal_action_space_mask(env::OpenSpielEnv, player)
         num_distinct_actions(env.game)
     mask = BitArray(undef, n)
     for a in legal_actions(env.state, player)
-        mask[a + 1] = true
+        mask[a+1] = true
     end
     mask
 end
@@ -126,7 +126,7 @@ function RLBase.state(env::OpenSpielEnv, ss::RLBase.AbstractStateStyle, player)
     if player < 0  # TODO: revisit this in OpenSpiel@v0.2
         @warn "unexpected player $player, falling back to default state value." maxlog = 1
         s = state_space(env)
-        if s isa WorldSpace
+        if s === Space(AbstractString)
             ""
         elseif s isa Array{<:Interval}
             rand(s)
@@ -149,19 +149,15 @@ RLBase.state_space(
     env::OpenSpielEnv,
     ::Union{InformationSet{String},Observation{String}},
     p,
-) = WorldSpace{AbstractString}()
+) = Space(AbstractString)
 
 RLBase.state_space(env::OpenSpielEnv, ::InformationSet{Array},
     p,
-) = Space(
-    fill(typemin(Float64)..typemax(Float64), reverse(information_state_tensor_shape(env.game))...),
-)
+) = Space(Float64, reverse(information_state_tensor_shape(env.game))...)
 
 RLBase.state_space(env::OpenSpielEnv, ::Observation{Array},
     p,
-) = Space(
-    fill(typemin(Float64)..typemax(Float64), reverse(observation_tensor_shape(env.game))...),
-)
+) = Space(Float64, reverse(observation_tensor_shape(env.game))...)
 
 Random.seed!(env::OpenSpielEnv, s) = @warn "seed!(OpenSpielEnv) is not supported currently."
 
diff --git a/src/ReinforcementLearningEnvironments/test/environments/3rd_party/open_spiel.jl b/src/ReinforcementLearningEnvironments/test/environments/3rd_party/open_spiel.jl
@@ -1,12 +1,11 @@
 @testset "OpenSpielEnv" begin
-
-    # for name in [
-    #     "tic_tac_toe",
-    #     "kuhn_poker",
-    #     "goofspiel(imp_info=True,num_cards=4,points_order=descending)",
-    # ]
-    #     @info "testing OpenSpiel: $name"
-    #     env = OpenSpielEnv(name)
-    #     RLBase.test_runnable!(env)
-    # end
+    for name in [
+        "tic_tac_toe",
+        "kuhn_poker",
+        "goofspiel(imp_info=True,num_cards=4,points_order=descending)",
+    ]
+        @info "testing OpenSpiel: $name"
+        env = OpenSpielEnv(name)
+        RLBase.test_runnable!(env)
+    end
 end
diff --git a/src/ReinforcementLearningEnvironments/test/runtests.jl b/src/ReinforcementLearningEnvironments/test/runtests.jl
@@ -3,7 +3,7 @@ using ReinforcementLearningBase
 using ReinforcementLearningEnvironments
 using ArcadeLearningEnvironment
 using PyCall
-# using OpenSpiel
+using OpenSpiel
 # using SnakeGames
 using Random
 using StableRNGs