蛋白質一級結構

蛋白质一级结构（protein primary structure）是肽或蛋白质中氨基酸的线性序列^[1]，即氨基酸序列（amino acid sequence）。按照惯例，蛋白质的一级结构被报道从氨基末端（N）端到羧基末端（C）端。蛋白质生物合成最通常由细胞中的核糖体进行。肽也可以在实验室中合成。蛋白质一级结构可以直接进行蛋白质测序，或从DNA序列推断。

在生物化學裡，生物分子的一級結構是其分子組成和分子間化學鍵結的精確模樣。對於一典型的無分支、無交叉的生物聚合物（如DNA、RNA或典型的細胞內蛋白質等分子），其第一結構等同於描述其單體單位的序列，即如DNA序列和肽序列。「一級結構」這一名詞在Linderstrom-Lang於1951年的Lane Medical Lectures上首次被提到。一級結構和一級序列有一點相似，即使在二級或三級結構中並沒有平行的概念。

形成

生物的形成

氨基酸通过肽键聚合形成长骨架主链，不同的氨基酸侧链沿其突出。在生物系统中，蛋白质在细胞的核糖体翻译过程中产生。一些生物体还可以通过非核糖体肽（英语：Nonribosomal peptide）合成制备短肽，其通常使用除了标准的20个之外的氨基酸，并且可以被环化，修饰和交联。

化学的形成

肽可以通过一系列实验室方法化学合成。化学方法通常以与生物蛋白质合成相反的顺序（从C-末端开始）合成肽。

符号

蛋白质序列通常表示为字母串，列出了氨基末端开始至羧基末端的氨基酸。三个字母代码或单个字母代码可以用于表示20种天然存在的氨基酸，以及混合物或不确定的氨基酸（类似于核酸符号（英语：Nucleic acid notation））^[1]^[2]^[3]。

肽可以直接蛋白质序列测序，或从DNA序列推断。大型序列数据库（英语：Sequence database）现在已经存在，整理已知的蛋白质序列。

20种天然氨基酸符号
氨基酸	3-字母^[4]	1-字母^[4]
丙氨酸（Alanine）	Ala	A
精氨酸（Arginine）	Arg	R
天冬酰胺（Asparagine）	Asn	N
天冬氨酸（Aspartate）	Asp	D
半胱氨酸（Cysteine）	Cys	C
谷氨酸（Glutamic acid）	Glu	E
谷氨醯胺（Glutamine）	Gln	Q
甘氨酸（Glycine）	Gly	G
組氨酸（Histidine）	His	H
异亮氨酸（Isoleucine）	Ile	I
亮氨酸（Leucine）	Leu	L
赖氨酸（Lysine）	Lys	K
甲硫氨酸（Methionine）	Met	M
苯丙氨酸（Phenylalanine）	Phe	F
脯氨酸（Proline）	Pro	P
丝氨酸（Serine）	Ser	S
苏氨酸（Threonine）	Thr	T
色氨酸（Tryptophan）	Trp	W
酪氨酸（Tyrosine）	Tyr	Y
缬氨酸（Valine）	Val	V

不确定的或未知的氨基酸符号
符号	描述	残基表达
x	任意的或未知的氨基酸	All
B	天冬氨酸衍生物	D, N
Z	谷氨酸衍生物	E, Q
Φ	疏水性	V, I, L, F, W, Y, M
Ω	芳香性	F, W, Y, H
Ψ	脂肪族化合物	V, I, L, M
π	Small	P, G, A, S
ζ	親水性	S, T, H, N, Q, E, D, K, R
+	正离子	K, R, H
-	负离子	D, E

修饰

通常，多肽是非支化聚合物，因此它们的一级结构通常可以通过沿其主链的氨基酸序列来指定。然而，蛋白质可以变得交叉联接，最常见地通过二硫键，并且一级结构也需要指定交联原子，例如，指定参与蛋白质二硫键的半胱氨酸。其他交联包括鎖鏈素。

异构化

多肽链的手性中心可以进行消旋。虽然它不会改变序列，但它确实会影响序列的化学性质。特别是，蛋白质中常见的L-氨基酸可以在 $\mathrm {C^{\alpha }}$ 原子中自发异构化，形成D-氨基酸，大多数蛋白酶不能切割。另外，脯氨酸可在肽键处形成稳定的顺反异构物。

翻译后修饰

最后，蛋白质可以进行各种翻译后修饰，这里简要总结。

多肽的N-末端氨基可以共价修饰，例如，

图1 N-末端乙酰化

乙酰化 $\mathrm {-C(=O)-CH_{3}}$

N-末端氨基上的正电荷可以被通过将其改变为乙酰基来消除（N-末端阻断）。

甲酰化 $\mathrm {-C(=O)H}$

通常在翻译后发现的N-末端甲硫氨酸具有被甲酰基封闭的N-末端。通过酶去甲酰化酶除去该甲酰基（有时是甲硫氨酸残基本身，如果后面跟着Gly或Ser）。

焦谷氨酸化

图2 从N-末端谷氨酰胺形成焦谷氨酸

N-末端谷氨酰胺可以攻击自身，形成环状的焦谷氨酸基团。

肉豆蔻酰化 $\mathrm {-C(=O)-\left(CH_{2}\right)_{12}-CH_{3}}$

与乙酰化相似。肉豆蔻酰基具有14个疏水性碳的尾部，而不是简单的甲基，这使其成为将蛋白质锚定到细胞膜的理想选择。

多肽的C-末端羧酸酯基团也可以被修饰，例如，

图3 C-末端酰胺化

酰胺化 (看图)

C-末端也可以通过酰胺化被阻断（因此中和其负电荷）。

糖磷脂酰肌醇（GPI）附着

糖磷脂酰肌醇（GPI）是一种大的疏水性磷脂修复基团，可将蛋白质转移到细胞膜上。它通过酰胺键连接到多肽C-末端，然后连接到乙醇胺，然后连接到各种各样的糖，最后连接到磷脂酰肌醇脂质部分。

最后，肽侧链也可以共价修饰，例如，

磷酸化

除了切割，磷酸化可能是蛋白质最重要的化学修饰。磷酸基团可以连接到丝氨酸，苏氨酸和酪氨酸残基的侧链羟基上，在该位点添加负电荷并产生非天然氨基酸。这些反应由激酶催化，逆反应由磷酸酶催化。磷酸化的酪氨酸通常用作“手柄”，蛋白质可以通过它们彼此结合，而Ser/Thr的磷酸化经常诱导构象变化，可能是由于引入的负电荷。有时可以通过将Ser/Thr残基突变为谷氨酸来模拟磷酸化Ser/Thr的作用。

糖基化

一组非常常见且非常多样化学修饰的总体名字。糖部分可以连接到Ser/Thr的侧链羟基或Asn的侧链酰胺基团上。这种附着可以起到许多功能，从增加溶解度到复杂识别。所有糖基化都可以用某些抑制剂阻断，例如衣霉素。

脱酰胺化（琥珀酰亚胺形成）

在该修饰中，天冬酰胺或天冬氨酸侧链攻击以下肽键，形成对称的琥珀酰亚胺的中间体。中间体的水解产生天冬氨酸或β-氨基酸，异构（Asp）。对于天冬酰胺，任一产物都会导致酰胺基团的损失，因此是“脱酰胺化（英语：Deamidation）”。

羟基化

脯氨酸残基可以是两个原子中的任一个的羟基化物，赖氨酸（在一个原子上）也是如此。羟脯氨酸是胶原蛋白的关键成分，在失去后变得不稳定。羟基化反应由需要抗坏血酸（维生素C）的酶催化，其缺乏导致许多结缔组织疾病，例如坏血病。

甲基化

几种蛋白质残基可被甲基化，最值得注意的是赖氨酸和精氨酸的阳性基团。精氨酸残基与核酸磷酸骨架相互作用，并且通常与蛋白质-DNA复合物中的碱基残基，特别是鸟嘌呤形成氢键。赖氨酸残基可以单独，双重和甚至三重甲基化。然而，甲基化不会改变侧链上的正电荷。

乙酰化

赖氨酸氨基的乙酰化在化学上类似于N-末端的乙酰化。然而，在功能上，赖氨酸残基的乙酰化用于调节蛋白质与核酸的结合。赖氨酸上的正电荷的消除削弱了（带负电的）核酸的静电吸引力。

硫酸化

酪氨酸可能在其

\mathrm {O^{\eta }}

原子上被硫酸化。有点不寻常，这种修饰发生在高尔基体中，而不是在内质网中。与磷酸化酪氨酸类似，硫酸化酪氨酸用于特异性识别，例如在细胞表面的趋化因子受体中。与磷酸化一样，硫酸化会向先前中性位点添加负电荷。

异戊烯化（英语：Prenylation）和棕榈酰化 $\mathrm {-C(=O)-\left(CH_{2}\right)_{14}-CH_{3}}$

疏水性异戊二烯（例如，法呢基，香叶基，和香叶基香叶基）和棕榈酰基可以添加到

\mathrm {S^{\gamma }}

半胱氨酸残基的原子将蛋白质锚定到细胞膜上。与GPI和myritoyl锚不同，这些组不一定在末端添加。

羧化

一种相对罕见的修饰，它向谷氨酸侧链添加额外的羧酸盐基团（并因此产生双重负电荷），产生Gla残基。这用于加强与“硬”金属离子如钙的结合。

ADP核糖基化

大的ADP-核糖基可以转移到蛋白质内的几种类型的侧链，具有异质效应。该修饰是不同细菌的强毒素的靶标，例如霍乱弧菌，白喉棒状杆菌和百日咳博德特氏菌。

泛素化和SUMO化(SUMOylation)

各种全长的折叠蛋白质可以在其C-末端连接到其他蛋白质的赖氨酸的侧链铵基团上。泛素是这些中最常见的，并且通常表明泛素标记的蛋白质应该被降解。

上面列出的大多数多肽修饰发生在翻译后，即在核糖体上合成蛋白质后，通常发生在真核细胞的亚细胞内质网中。

化学家已将许多其他化学反应（例如，氰基化）应用于蛋白质，尽管它们未在生物系统中被发现。

切割和连接

除了上面列出的那些之外，一级结构的最重要的修饰是肽切割（通过化学水解或通过蛋白酶）。蛋白质通常以无活性的前体形式合成; 通常，N-末端或C-末端区段阻断蛋白质的活性位点，抑制其功能。通过切割抑制肽来激活蛋白质。

与二级和三级结构的关系

生物聚合物的一级结构在很大程度上决定了三维形状（蛋白质三级结构）。蛋白质序列可用于预测局部特征，例如二级结构的区段或跨膜区域。然而，蛋白质折叠的复杂性目前禁止仅从其序列预测蛋白质的三级结构。了解相似同源序列（英语：Sequence homology）（例如相同蛋白质家族的成员）的结构允许通过同源性建模高度准确地预测三级结构。如果可获得全长蛋白质序列，则可以估计其一般生物物理学特性，例如其等电点。

序列家族通常通过序列聚类确定，并且结构基因组学项目旨在产生一组代表性结构以覆盖可能的非冗余序列的序列空间。

其他分子的一级结构

任何线性链杂聚物可以被称为具有类似于该术语对于蛋白质的使用的“一级结构”，但是与参考蛋白质的极其常用的用法相比，这种用法是罕见的。在也具有广泛二级结构的RNA中，碱基的直链通常仅称为“序列”，如同它在DNA中被称为的（其通常形成具有很少二级结构的线性双螺旋）。其他生物聚合物如多糖也可以被认为具有一级结构，尽管这样使用不是标准的。