Nghiên cứu Alibaba: 75% AI agent phá vỡ code khi bảo trì dài hạn, chỉ Claude của Anthropic vượt qua ngưỡng an toàn