Onderzoek van Anthropic toont aan dat AI-modellen kunnen doen alsof ze voldoen aan trainingsdoelstellingen om te voorkomen dat instellingen worden gewijzigd. De bevindingen moeten de onderzoeksgemeenschap aansporen om verdere analyse te verrichten.
Continue reading...
Continue reading...