Reinforcement learning van menselijke feedback (RLHF)
Reinforcement Learning van Menselijke Feedback (RLHF) is een machine learning-techniek die menselijke input integreert om het trainingsproces van reinforcement learning-algoritmes te sturen. In tegenstelling tot traditionele reinforcement learning, dat uitsluitend vertrouwt op vooraf gedefinieerde beloningssignalen, maakt RLHF gebruik van menselijke oordelen om het gedrag van AI-modellen vorm te geven en te verfijnen. Deze aanpak zorgt ervoor dat de AI beter aansluit bij menselijke waarden en voorkeuren, waardoor het bijzonder nuttig is bij complexe en subjectieve taken.