Pregunta:
¿Cuántas proteínas hay en el proteoma de la Tierra?
bobram
2017-04-25 09:08:34 UTC
view on stackexchange narkive permalink

Solo los seres humanos tenemos miles de proteínas. Con eso en mente, parece que el número total de proteínas entre todas las especies sería muy grande.

¿Hay estimaciones disponibles sobre cuántas proteínas existen en la tierra en todos los organismos? También me interesaría saber cuántas de estas son proteínas únicas en comparación con proteínas que son muy similares a otras proteínas, es decir una estimación de proteínas no redundantes junto con las proteínas redundantes.

Bueno, recuerde que casi todas las proteínas evolucionan a partir de otras proteínas relacionadas, por lo que cuántas considera únicas es realmente una cuestión de definición. Si usted y yo tenemos una proteína con una sustitución de un solo aminoácido, ¿es una proteína nueva? De alguna manera hace que la pregunta sea imposible de responder.
Como mencionó @BryanKrause, si pretende que "único" signifique "que se encuentra solo en humanos / solo en uno de los demás organismos", habrá muy pocos. Si quiere decir "único" con el significado de "diferente", no tenemos esa respuesta. ¡Seguimos descubriendo nuevas especies casi todos los días!
@BryanKrause La redundancia de proteínas es un método bastante común para permitir que grupos de proteínas estén representados por una sola proteína. Esto evita sesgos introducidos por sistemas sobreestudiados o por grandes grupos de proteínas muy similares que enmascaran proteínas distantes que tendrían una bioquímica diferente. Es una forma científica de generar listas de proteínas "únicas".
No veo ninguna razón por la que deba cerrarse por no estar claro. Es simple y fácil de entender la pregunta. De hecho, es subjetivo, pero hay artículos que estiman este tipo de preguntas, por lo que no es completamente una cuestión de opinión.
Estoy votando para reabrir esta pregunta ya que ha habido estudios científicos exactamente sobre esta pregunta. Ver ["Hacia la finalización del proteoma de la tierra"] (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2267224/) Perez-Iratxeta * et al. * 2007. Esta pregunta se puede cuantificar y explorado objetivamente. Por otro lado, los votos poco claros parecen deberse a una falta de comunicación de que secuencias únicas pueden representar agrupaciones homólogas. He editado la pregunta para aclarar esta parte de la pregunta.
Para los votantes cercanos, ¿qué pasa con esta pregunta que es demasiado amplia? Potencialmente, podría responderse con un número y una cita solamente.
One responder:
James
2017-04-25 11:30:50 UTC
view on stackexchange narkive permalink

Registros actuales

Según Uniprot, hay 85,381,808 registros de proteínas, y con el filtro UniRef90 ( es decir eliminar registros que pueden ser representados por una entrada con al menos un 90% de similitud de secuencia), hay 42,424,511. Sin embargo, estas bases de datos son objetivos móviles y cambiarán con el tiempo. Secuenciaremos más especies, encontraremos nuevas isoformas de empalme y varios otros métodos ampliarán las bases de datos. De hecho, las bases de datos también se truncarán de vez en cuando, ya que algunas proteínas hipotéticas pueden estar basadas en genes que, después de todo, no codifican proteínas.

En 2007, un estudio estimó que el el proteoma de la Tierra contendría alrededor de 5 millones de secuencias, y que la mayoría de ellas se aclararían en 2012. Sospecho que este es un estudio muy completo, sin embargo, muchas cosas han cambiado en los últimos 10 años. Esta estimación es en realidad menor que las casi 9 millones de especies estimadas en estudios más recientes.

Estimación aproximada

Así que hagamos algunos cálculos matemáticos al revés. Supongamos que el artículo que estima casi 9 millones de especies es correcto y que solo hemos catalogado alrededor de 1,2 millones. Pero UniProt ni siquiera se acerca a este número. UniProt contiene 25477 nombres científicos en su vocabulario controlado. Entonces, para 25 mil nombres, tenemos 85 millones de registros de proteínas. ¿Qué pasa si tuviéramos 8,75 millones de nombres? Supongamos:

$ \ frac {Predicted ~ Proteins} {Predicted ~ Species} = \ frac {Known ~ Proteins} { ~ Especies conocidas} $

Podemos reorganizar esto para:

$ \ frac {Especies ~ previstas ~ \ tiempos ~ {Proteínas ~ conocidas}} {Especies ~ conocidas} = Proteínas ~ previstas $

Estimación generosa (Uniprot, 335527 proteínas por especie):

$ \ frac {8750000 \ times {85381808}} {25477} = 2.932413e ^ {+ 10} $

Conservador estimación ( Swissprot, 41 proteínas por especie):

$ \ frac {8750000 \ times {554241}} {13408} = 3.616952e ^ {+ 7} $

Por el bien Para completar, supongamos que el número de proteínas idénticas <90% se mantendrá alrededor de la mitad de ese valor. Podemos decir que puede haber alrededor de $ 1.8e ^ {+ 7} $ a $ 1.5 {e} ^ { +10} $ proteínas "únicas" , menos de un billón ( $ 1e ^ {+ 12} $ ). Dadas las absurdamente generosas 335 mil proteínas y las muy tacañas 41 proteínas por especie, podemos estar bastante seguros de que si de hecho hay 8,75 millones de especies, la cantidad de proteínas estará entre esas estimaciones.

La mayor suposición aquí es que las proteínas tienen una relación lineal con las especies, lo que es poco probable que sea el caso, y con una estimación generosa estamos fingiendo que no hay proteínas en UniProt que no tengan la anotación de especies. En cuanto a Swissprot, esto solo incluye proteínas que se han curado manualmente, por lo que ignora muchas proteínas que es seguro asumir que existen y, por lo general, solo cubre proteínas que son de interés para los científicos.


Una menor Para corregir su pregunta, UniProt enumera ~ 20 mil genes codificadores de proteínas en el proteoma humano, no millones. Esos genes que codifican proteínas están sujetos a diversas modificaciones postraduccionales y empalme de isoformas, por lo que habrá más proteínas finales que 20k.

El proteoma humano puede contener millones de proteínas diferentes si consideramos que las proteínas con diferentes modificaciones postraduccionales (PTM) son diferentes.
@JeppeNielsen Hice una pregunta similar sobre esto: [¿Por qué UniProt enumera 150.000 proteínas en el proteoma humano?] (Https://biology.stackexchange.com/questions/36305/why-and-how-does-uniprot-list-around -150-000-proteínas-en-el-genoma-humano)
El hecho de que una base de datos no considere que las proteínas con diferentes PTM sean diferentes, no significa que las proteínas sean idénticas. Si ignora los PTM, no puede explicar los tipos de sangre ABO, ya que son causados ​​por diferencias en los patrones de glicosilación.
Otro buen ejemplo sería el receptor de insulina, que se presenta en muchas variantes diferentes.
@JeppeNielsen Sí, hay muchas PTM, isoformas de empalme y otras variantes que realizan diferentes funciones. Sin embargo, todos pertenecen a unos 20.000 genes codificadores de proteínas.
Entonces, diría que el genoma contiene ~ 20.000 genes codificadores de proteínas. El proteoma es mucho más grande.
@canadianer Aún no existe una definición estricta del proteoma. UniProt tiene 20k registros bajo el proteoma humano. Después de las PTM y el empalme de isoformas, hay muchas más proteínas. He dicho esto en los comentarios, pero como dos personas no están contentas por alguna razón, he editado la respuesta para que sea más clara.
Cada registro de UniProt contiene isoformas y modificaciones. El hecho de que elijan organizar su base de datos de esta manera no me parece que tenga nada que ver con la definición del término proteoma. Cualquier definición que haya escuchado se refiere al complemento completo de proteínas expresadas. Ver [UniProt's] (http://www.uniprot.org/keywords/KW-0181), por ejemplo: * Un proteoma es el conjunto de secuencias de proteínas que pueden derivarse de la traducción de todos los genes que codifican proteínas de un genoma completamente secuenciado. , incluidos productos alternativos como variantes de empalme ... *
PD: Me disculpo si parecí discutidor; esa no era mi intención. Creo que las definiciones son importantes, pero también me doy cuenta de que no hay autoridades reales en mucha terminología.
Gracias canadiense, su comentario anterior resalta lo que estaba tratando de transmitir. Es decir, que el número de entradas de la base de datos es mucho menor que el número posible de proteínas derivadas de esas entradas.
@JeppeNielsen Sí, veo su punto. Pero incluso si cada registro tuviera un promedio de 10 isoformas de empalme e isoformas PTM, estos errores no son nada comparados con el otro error que causa suposiciones que parecen generar varios órdenes de magnitud de varianza en la estimación.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...