Posilňovacie učenie s ľudskou spätnou väzbou (RLHF)
Posilňovacie učenie s ľudskou spätnou väzbou (RLHF) je technika strojového učenia, ktorá integruje ľudské vstupy na usmerňovanie procesu trénovania algoritmov posilňovacieho učenia. Na rozdiel od tradičného posilňovacieho učenia, ktoré sa spolieha výlučne na vopred definované signály odmeny, RLHF využíva ľudské hodnotenia na formovanie a zdokonaľovanie správania AI modelov. Tento prístup zabezpečuje, že AI je viac v súlade s ľudskými hodnotami a preferenciami, čo je obzvlášť užitočné pri komplexných a subjektívnych úlohách.