Pergunta interessante. Isso não é realmente uma resposta, mas é muito longo para ser um comentário.
Eu acho que seu design experimental é desafiado por estas razões:
1) Isso não reflete o caminho em que a seleção de valores é realmente avaliada no “mundo real”. Como um exemplo extremo, suponho que o seletor de ações uma ação lascada 1 que aumentou 1000%, e 9 que caíram 1%, e o seletor de compartilhamento B escolheu 10 ações que aumentaram 1%. Se essas ações são realmente usadas para construir um índice, então claramente eu teria um melhor desempenho, mas B faria muito melhor em seu experimento. Um desafio mais interessante do ponto de vista financeiro seria construir um portfólio e comparar seu desempenho com o s & p 500. Por sua vez, há uma máquina de uso comum para avaliar Desempenho: basta tomar uma regressão linear dos rendimentos diários do portfólio contra o s & p. A interceptação do termo (muitas vezes chamada de “alfa”) mede o desempenho médio “acima do mercado”. Como é um coeficiente de regressão linear, é uma questão trivial para construir um intervalo de confiança de 95% se desejar. Em seguida, compare isso com as taxas que seu banco cobraria por este serviço.
2) sem considerar 1, uma vez que parece que ambos já concordaram com a forma do experimento, considerar como isso poderia ser jogado. Suponha que eu tenha uma oraculação mágica que me disser a probabilidade de cada ação estar acima do seu preço atual dentro de um mês (digamos). Então eu poderia escolher as ações n com as maiores probabilidades, e provavelmente mais de 50% deles subiriam. Agora, tais probabilidades são codificadas (imperfeitamente) em vários preços de opções. Por exemplo, posso comprar uma chamada “opção binária”, que é basicamente uma aposta no evento “Ação X estará acima do preço e data z”. O preço de tal implica uma probabilidade deste evento (embora o mais próximo seja a data z do presente, menos confiável será). Desde que, cegamente, a “sabedoria das multidões” não requer experiência particular, diria que o desempenho de uma estratégia como este deveria ser considerado “níveis de oportunidade” para sua experiência específica. Como alternativa, apresenta uma lista de ações de sua escolha e diz se você acha que cada um estará para cima ou para baixo, junto com sua confiança em cada previsão. Em seguida, agrupe todas as respostas por nível de confiança e veja o quão de perto eles se alinham (isto é, dessas ações em que tinha uma confiança de 90%, previu corretamente 90% deles?). Existe uma forma padrão de quantificar isso; Eu não me lembro de antecedência o que é chamado, mas você pode lê-lo em superforecastters Phil Tetlock. E para indicar se você acha que cada um estará para cima ou para baixo, junto com sua confiança em cada previsão. Em seguida, agrupe todas as respostas por nível de confiança e veja o quão de perto eles se alinham (isto é, dessas ações em que tinha uma confiança de 90%, previu corretamente 90% deles?). Existe uma forma padrão de quantificar isso; Eu não me lembro de antecedência o que é chamado, mas você pode lê-lo em superforecastters Phil Tetlock. E para indicar se você acha que cada um estará para cima ou para baixo, junto com sua confiança em cada previsão. Em seguida, agrupe todas as respostas por nível de confiança e veja o quão de perto eles se alinham (isto é, dessas ações em que tinha uma confiança de 90%, previu corretamente 90% deles?). Existe uma forma padrão de quantificar isso; Eu não lembro de antecedência o que é chamado, mas você pode lê-lo em superforecastters phil tetlock.