
Vahvistusoppiminen ihmisen palautteella (RLHF)
Reinforcement Learning from Human Feedback (RLHF) eli vahvistusoppiminen ihmisen palautteella on koneoppimistekniikka, jossa ihmisen antamaa palautetta hyödynne...
2 min lukuaika
AI
Reinforcement Learning
+4