Genes
Um gen é a unidade básica da herança, e mantém a informação genética necessária para a síntese de uma proteína (genes codificantes) ou um RNA sem codificação (Genes de RNA). É formado por uma sequência promotora, que regula a sua expressão, e uma sequência que é transcrita, composta por seqüências de UTR, necessárias para tradução e estabilidade do mRNA, exons (codificação) e intrins, que são sequências de DNA não traduzidas entre dois exons que serão eliminados no processamento do mRNA – os introns são freqüentemente encontrados regiões nos genes eucarióticos, que são transcritos, mas são eliminados no processamento de RNA (Ayuste) para produzir um mRNA formado apenas por exons, em cobrança de traduzir uma proteína. Este diagrama está em excesso simplificado, pois mostra um gene composto de cerca de 40 pares de base quando, na realidade, seu tamanho médio é de 20.000-30.000 pares de base). Atualmente é estimado que o genoma humano contém entre 20.000 e 25.000 genes de codificação de proteína, estimada muito menor do que as previsões iniciais que falaram cerca de 100.000 genes ou mais. Isto implica que o genoma humano tem menos do que genes duplos do que os organismos eukares muito mais simples, como a mosca de frutas ou o nematode caenorhabdite elegans. No entanto, as células humanas amplamente recorrem à splicing alternativa (rápida) para produzir várias proteínas diferentes do mesmo gene, como conseqüência da qual o proteoma humano é mais amplo do que o de outros organismos muito mais simples. Na prática, o genoma só carrega as informações necessárias para uma expressão perfeitamente coordenada e regulamentada do conjunto de proteínas que compõem o proteoma, sendo isso responsável por executar a maioria das funções celulares. Com base nas iniciais de resultados lançadas pelo projeto codificado (acrônimo de enciclopédia de elementos de DNA), alguns autores propuseram redefinir o conceito de gene atual. As observações mais recentes dificultam a sustentabilidade da visão tradicional de um gene, como seqüência formada por UTRS, exons e introns. Estudos detalhados encontraram uma série de seqüências de partida de transcrição por gene muito maior do que as estimativas iniciais, e algumas dessas seqüências estão localizadas em regiões longe do traduzido, de modo que a UTR 5 ‘pode cobrir longas seqüências que tornam a delimitação difícil do gene. Por outro lado, a mesma transcrição pode levar a RNAs maduras totalmente diferentes (total ausência sobreposta), devido a um grande uso de splicing alternativo. Desta forma, a mesma transcrição primária pode levar a proteínas de sequência e funcionalidade muito díspares. Consequentemente, alguns autores propuseram uma nova definição genética: a união de sequências genômicas que codificam um conjunto coerente de produtos funcionais, potencialmente sobrepostos. Desta forma, os genes RNA e os conjuntos de sequência parcialmente sobrepostos são identificados como genes (portanto, as sequências UTR e os introns, que sejam considerados como “regiões associadas a genes”, juntamente com os promotores) são identificados como genes.. De acordo com essa definição, a mesma transcrição primária que leva a duas transcrições secundárias (e duas proteínas) não sobrepostas devem ser consideradas dois genes diferentes, independentemente dos quais apresentam uma sobreposição total ou parcial de suas transcrições primárias.
O novo Evidências contribuídas pela codificação, segundo a qual as regiões UTR não são facilmente delimitadas e estendem longas distâncias, obrigariam os genes que realmente compõem o genoma humano. De acordo com a definição tradicional (atualmente válida), seria necessário identificar como um mesmo gene para todos aqueles que mostram uma sobreposição parcial (incluindo regiões de UTR e introns), com que à luz de novas observações, os genes incluiriam várias proteínas de seqüência e funcionalidade muito diversificada. Colateralmente, o número de genes que compõem o genoma humano serão reduzidos. A definição proposta, por outro lado, é baseada no produto funcional do gene, portanto, mantém uma relação mais coerente entre um gene e uma função biológica. Como conseqüência, com a adoção desta nova definição, o número de genes do genoma humano aumentará significativamente.