[音乐]
下面再看编码区,编码区就更复杂了 刚才说了start codon、stop
codon我们不算,就把最前面的启动,就是 起始的密码子和终止的密码子先去掉,再分
要把它这个核酸的序列当中的碱基 再根据它的兼并性分成三类
一个叫做0兼并性,叫nondegenerate site,这个0兼并性的这个位点
这是指什么意思呢?就是说无论在这个位置上,就是在这个nondegenerate
site的上面 无论你是哪个碱基的,就是变换成哪个碱基A、T、C、G
它都会影响到这个编码的氨基酸 我们也是看一个例子,看这个编码脯氨酸的
例子,我们看这个表,打了红框框的这个,这是编码脯氨酸的四个
密码子,你看它这个,头两个是不是不能变啊?
头两个一变,它就变成别的氨基酸了,所以这位点,这两个位点上的,就是nondegen- erate
site 它是不可以换的,叫0兼并性,它没有任何兼容性
就是0,记住了,这是第一类 第二类是叫2兼并性,twofold
degenerate site 它这个你从它命名上你就可以看得出来,在这个位点上
有两个可能,可以换的碱基,你换了以后
它编码的氨基酸不变,我们拿一个组氨酸的
密码子来看。就是这个画了绿框框的
你看这两个,CAU、CAC
这两个密码子都是编码组氨酸,在它的第三位点上可以有两个
碱基的选择,或者是U,或者是C
但是不能是A和G,是A和G它就变了,所以它只是两倍的兼并性 再往下走,变成4
兼并性的,就是fourfold degenerate site
无论你四个碱基变换成谁,它编码的氨基酸不变 这个我们看脯氨酸的那个例子
在这个地方,画了黑框框的,是不是?U、C、A、G随你变 它编码的氨基酸不变,这叫fourfold
degenerate 4兼并性。有一个例外呢是异亮氨酸
我们来看一下在这个地方,看见吧?它有三个
可选择的,但是在这个我们归类的时候呢,因为这就一个例子,是个特例
所以就把它作为2兼并性的那个去处理了,没有再弄一个3兼并性的
好了我们现在把它分成三类,4倍的
0倍的,2倍的,对吧? 所以你来算这个总的替代数的时候
你就要把这个每个位点都去归归类,看它是哪一类
如果是0兼并性的,就是K0 其实它是一个非同义的替代的位点
也就是说这个位点变成任何其他的碱基的话,它编码的氨基酸都会变
所以它是non-synonymous的位点,这个位点上的碱基的平均替代数
我们就用K0来表示。这也举个例子,这还是脯氨酸的,刚才的
0兼并性的位点就这两个位点,第一个、第二个
所有发生在这个位点上的替代的那个数,你都把它归到K0里面去
那么还有4兼并性的位点 其实就全部都是同义的替代的synonymous
substitution 所以在这个脯氨酸的这个里面呢,它就是第三个位点
在这个位点上发生的替代,你就可以把它算到
K4里面去,那么还有一个K2 就是2兼并性的这个位点
这个位点有点意思,我们来看一个例子,就是刚材的组氨酸跟谷氨酰胺的这个例子
这个地方,我先问你们一下,它的第一位、第二位的话应该在哪个类型里头?
K4还是K0? K0里面,好,这个挺高兴的啊,大家都能够跟着我走
我们现在不看它第一位、第二位,我们看它第三位 你看它有两个地方,这个组氨酸它是有两个密码子的
所以在它第三位只能有两个选择
在这个两个选择的范围内,它是同义的还是非同义的?
同义的。但是出了这两个范围以后它就是什么?
非同义的,所以在K2里面 其实是一半是同义替代,一半是非同义替代
是吧?其实所有的这个一条核酸给你以后,你一个一个的核苷酸去看
你是可以把所有的位点都分成这三类的 其实这三类就代表了两大类,一类是
同义的替代,一类是非同义的替代
所以我们在估算核酸的这个演化速率的时候,你去计算这个速率的时候呢有一个公式
这就跟蛋白质的那个氨基酸的速率是一样的 速度、距离、时间,对吧?它的速率就等于
每个位点的平均替代数除以它们这个序列分开的时间乘以二
只不过这个地方K你算起来复杂得多
K就是每个位点的平均替代数
这个大家要记住,你看到这个K,你马上要反应出来它不是速率
它是每个位点的核苷酸的平均替代数,是一个number
它不是一个rate,rate是这个小r,这是一个rate
好,这个K的话等于啥呢? 等于Ks+Ka,这有下标的啊
什么是Ks?Ks就是同义替代位点上的平均替代数
一个核酸来了,每个核苷酸 对吧?你都可以去查一下它到底是属于
它发生变化以后是属于同义的,还是非同义的? 同义的你就会把它放到Ks这个大类里面去
在这个里头的话,所有的K4
都是同义的,而K2呢有一半是同义的
所以就等于K4加1/2K2,那么还有一个KA的话
是指非同义位点的核苷酸的平均替代数
所以它就等于K0,因为所有的K0都是非同义的 1/2 K2,因为K2里面有一半是非同义的
所以记住了,在你计算核酸的演化速率的时候
是同义替代位点和非同义替代位点要分开来算
这就是它复杂的地方,还有一个就是你在算这个K的时候
你要去选一个模型的,你去选单参数模型、2参数模型
4参数模型,还是9参数模型?你要去选模型的
我们上次讲蛋白子的氨基酸的时候,是吧?你就数一下,然后代到公式里面
就可以了,这个不是,这个很复杂,牵涉到很多事情 所以你在用它的软件包的时候
我一再提醒大家,你要根据你自己研究的对象 去选择用哪个模型,它有一个default
你不是拿来就用,你一定要了解它的那些
公式背后的生物学的含义,这样你才能够选到正确的模型,得到正确的结果
这就提醒一下大家,这个公式大家记住 同时Ks代表什么,KA代表什么,也要记住
我刚才说了为什么要那么多模型,它其实是有它的生物学意义的
我们来看一下在实际当中,其实碱基的变化
是非常复杂的,你看到的两条序列是一个
结果,是吧?是它已经变化变到今天的一个结果
但它整个变化的过程你知道吗?你不知道 比如说这是一个祖先序列
在一个祖先物种里面的,然后这个物种产生了分化 形成了两个新的物种,它们里面都含有这个序列,对吧?我们把它叫sequence
one、sequence two 我当中空着呢,这当中发生了什么呢你不知道,其实你看到的是一个序列
结果,会发生什么呢?我们来看看 单个的替代,这没得说,比如说
这样一个替代,这是一个序列,你看这个第二个碱基 在第二序列的时候,C
就变到A了,这是一个单个的这种变化 所以你看到的时候,你就看到A。Sequence
1 是C,Sequence 2 是 A 它也确实历史上它就发生了这么一次变化,就被你看见了
再往下走,它可以是多个替代,什么意思? 比如说这个位点,你看到的是T
其实历史上它曾经发生过一次变化到C
然后再到T,你这个C就被你忽略掉了,你看到的是T,
它是变化了,你只逮到它一次,你不知道历史上它还是发生过一次,其实它是两次
这叫多个替代,再往下看
它可以是同一个位点,在两个序列当中同时变,
你看到的是一个G,一个A, 你都是两个序列去比,对不对?有不一样的,你把它叫做一次
其实这个序列里面,它两个都同时变了, 而在你看来,你就其中一个发生了变化
这叫同时替代,然后还有平行替代,
两个都发生了变化,两个原来都是T的,
现在同时变成了A,那么你看到的时候,就说:这个位点没变化啊?
你不知到在历史上它们原来是T,两个同时都变成A。
那这样的变化也被你忽略掉了。趋同替代, 你看到的结果都是T,你觉得没变化
其实它第一是变化了的,第二有一个 位点还不止变化了一次,历史上它曾经变成C,然后再到T
其实这三个变化都会被你忽略。再往下走,它还可以回复替代
你看到的这个都是C,好像没变化, 但是有一个位点,它曾经变到过T,
又变到C 发生了两次变化,这两次变化也都被你忽略了
所以我刚才就说,那么多的参数的模型,比如9参数的模型怎么来得?
它就是要把这些因素都考虑进去, 所以它变得很复杂,而这些有没有可能呢?
是有可能的对吧?比如说我画一些圈圈,这些圈圈的里头
都是被你忽略掉的,你真正去比序列,你拿到手里,拿到两个序列去比的时候,
这个画圈圈的这些,你都看不见的,你都不会统计进去的
所以就会有人把那个模型弄得那么复杂,弄得那么多的参数。
他希望把这些因素都给它融进去, 明白了吧?这就很好理解了。
下面一个我要给大家强调一下的,现在再看很多
分子演化的文章里头,它会反复地用到的一个叫 Ka/Ks
的比值,我给大家强调一下,这个比值的意义
在这个演化里面的这个意义
根据中性演化理论,在中性选择底下,
是不是所有的这个突变,它替代也好啊,突变的话 它是以随机的这个力量
作为主要的驱动力被固定下来了,对吧? 它哪一种的突变能够被固定下来,是受随机的作用的
就说这个你不管是同义替代的位点,还是非同义替代的位点 在这个上面所发生的变化,能够被固定下来的概率
是相等的,所以拿这个原理呢你就可以得到 Ka
等于 Ks,这它被固定的概率相等啊
然后你再去比一下, Ka / Ks = 1
就是在中性选择底下, Ka 跟 Ks 的比值是等于1 的。
当然这个后面要有一些纠正的,因为它那个, 确实你要去看那个密码子的表的话,大概
同义替代的那个位点,大概也就占25%左右,所以 其实它在做这些Ka,Ks的运算的时候,它要把这个
因素考虑进去,不管怎么样, 你利用中性理论的原理,你就得出来一个这样的
比例的值,记住啊是在中性的选择底下, 这个比值等于1
,好下面我们就可以来推测了 如果说Ka < Ks,它这个比值的话就会小于1,
在这个情况底下,也就是说你看到的这个结果里头,
Ka, 就是非同义这个位点上
它发生的替代的平均数要小于 同义位点上的那些替代的平均数,
这是你看到的,这代表什么?代表这个序列受到正选择?还是负选择?
是负选择,因为我说了你Ka,
就说你非同义位点的话, 那些改变是要改变它编码的氨基酸的,
对吧?所以你基因如果是编码一个蛋白质,它把它氨基酸变了以后,
这个蛋白质的功能很可能就要受到影响,
我讲中性演化的时候特别强调Kimura说他比较强调 约束性,就是功能的约束性,
也就是这个道理,它功能变了,也许它对含有这个突变的基因的个体的生存啊,繁殖啊,就要
产生不利的影响,所以这就会被淘汰掉。
所以你看的比较多的是那种 同义的那种替代数,是它改变不了氨基酸的,这个你看得很多
所以这个比值就会小于1,就说明这个序列是受到负选择的。
那么反过来,如果你看到的
非同义替代位点上的平均替代数,要大于同义位点上的那些同义的替代数的话,
受到正选择,负选择呢?这个你们还要想一想啊? 呵呵,正选择
也就是说你改变了它的氨基酸以后 这个蛋白质的功能受到影响了,它反而对
这个含有突变的这个生物体有利。
这个情况底下我们一般推断 说:Ok,这个蛋白质获得了一个新的功能,它原来功能
可能会丢掉,但是它有了一个新功能。这个新功能对含有它的这个个体来说,
生存啊,繁殖啊,都是有利的,也许环境一变,它就比原来没有这些突变的
更有优势了,所以这种情况我们把它叫做正选择。
还记得我给你们讲正选择,负选择的这个
概念的时候呢,我说正选择就是把它选留下来,负选择就是淘汰
在这个地方,Ka跟Ks的比值, 这个大的框架底下,正选择是指
我固定下来的改变了氨基酸的那些替代数,大于那些没有改变的
替代数,这个正选择,负选择用在这个范围里面。
这个很多情况底下,你要看正选择,负选择其实是
要别人要给你一个前提的,是在什么一个大的框架底下用正选择,负选择这样的概念。
记住了。就像我讲的s, 选择系数一样,对吧?我开始给你们讲的时候,这个选择系数就是0
到 1, 但是我在给你们讲中性演化理论的时候,Kimura定义的s等于0的话,
是指在严格中性选择的条件底下,给你们一个提示,就说你们看 任何这种Ka,
Ks, s,这些, 你一定要把它放在它的上下文里头去看
比较会写文章的人,他一开始就会定义, 我说的这个正选择是什么意思,我说的这个负选择是什么意思
我说的这个s是什么意思。以后你们如果要从事相关的研究,就不光是这个了。
其实其他的研究也一样, 你给出一个概念的话,你一定要给一个定义
这是我在我的这个研究里面所用的定义,这个大家要记住 这个也是我希望你们要记住。
Ka / Ks = 1 大于1,小于1,在分子演化里面它代表什么?
这一点我要考你们,希望你们记住。
因为这个里面,今天我希望没把你们讲晕啊
核酸演化里面涉及到太多的东西了,我所有的推导都今天没跟你们说
我也不要求你们去掌握,但是有几点你们要,就是我刚才强调的那几点 你们要记住,是吧?Ka
代表什么, Ks 代表什么,它们的比值 有什么含义,这些是需要你们知道的。
因为我讲的比较快,这又是比较难的一个
内容,所以给你们一些参考文献,这一篇小文章
是个科普性的文章,写得非常好,一问一答的形式, 它就以学生问的口吻,他列一个问题,
然后他再自己充当老师,再把它回答一下,就是讲Ka, Ks,
以及Ks的 这两个的比值的含义的,建议你们要
稍微了解一下的,你自己被我搞晕了,你也许看 这个文章就能够明白,因为这个课堂上时间太短了
这是一篇小文章。还有如果有同学想深入了解的话呢,我建议你们看这两篇,一篇是
Nei的,是一个,也是日本裔的一个 美国科学家,现在还在,比Kimura小一点
也是这个领域非常有名的,做分子演化的 Nei, 他来北大来过好多次,他有一篇论文
同时呢还有一个网站,他是把他的一些算法放在这个网站里,
你有一些例子,你想算的话可以到那网站里面,它有现成的软件包你可以用 还有一个是杨子恒的,我也放在这,杨子恒也是
开发出一个很大的软件包,可以做这方面的运算的, 他的网站我也放在这,感兴趣的同学可以记一下
我这个会放在网上,课件会往那。还有一个就是中文的,杨子恒写了一本英文的书。
然后复旦大学钟扬教授给它翻译成了中文,叫《计算分子进化》
这个是复旦大学出版社出的,所以这几本参考书我放在这,你们
需要深入一点了解的话,可以去参考一下,可以去读一读。