U3D性能优化之Lua与C#交互

此文为搬运帖,原帖地址https://www.cnblogs.com/zwywilliam/p/5999924.html

前言


在看了uwa之前发布的《Unity项目常见Lua解决方案性能比较》,决定动手写一篇关于lua+unity方案的性能优化文。
整合lua是目前最强大的unity热更新方案,毕竟这是唯一可以支持ios热更新的办法。然而作为一个重度ulua用户,我们踩过了很多的坑才将ulua上升到一个可以在项目中大规模使用的状态。事实上即使到现在lua+unity的方案仍不能轻易的说可以肆意使用,要用好,你需要知道很多。
因此,这篇文章是从一堆简单的优化建议里头,逐步挖掘出背后的原因。只有理解了原因,才能很清楚自己做的优化,到底是为了什么,有多大的效果。
 
从最早的lua纯反射调用c#,以及云风团队尝试的纯c#实现的lua虚拟机,一直发展到现在的各种luajit+c#静态lua导出方案,lua+unity才算达到了性能上实用的级别。
但即使这样,实际使用中我们会发现,比起cocos2dx时代luajit的发扬光大,现在lua+unity的性能依然存在着相当的瓶颈。仅从《性能比较》的test1就可以看到,iphone4s下二十万次position赋值就已经需要3000ms,如果是coc这样类型的游戏,不处理其他逻辑,一帧仅仅上千次位置赋值(比如数百的单位、特效和血条)就需要15ms,这显然有些偏高。
是什么导致lua+unity的性能并未达到极致,要如何才能更好的使用?我们会一些例子开始,逐步挖掘背后的细节。
 
由于我们项目主要使用的是ulua(集成了topameng的cstolua,但是由于持续的性能改进,后面已经做过大量的修改),本文的大部分结论都是基于ulua+cstolua的测试得出来的,slua都是基于其源码来分析(根据我们分析的情况来看,两者原理上基本一致,仅在实现细节上有一些区别),但没有做过深入测试,如有问题的话欢迎交流。
 
 
既然是lua+unity,那性能好不好,基本上要看两大点:
lua跟c#交互时的性能如何
纯lua代码本身的性能如何
因为这两部分都各有自己需要深入探讨的地方,所以我们会分为多篇去探讨整个lua+unity到底如何进行优化。
 
 
lua与c#交互篇
 
1.从致命的gameobj.transform.position = pos开始说起
像gameobj.transform.position = pos这样的写法,在unity中是再常见不过的事情
但是在ulua中,大量使用这种写法是非常糟糕的。为什么呢?
 
因为短短一行代码,却发生了非常非常多的事情,为了更直观一点,我们把这行代码调用过的关键luaapi以及ulua相关的关键步骤列出来(以ulua+cstolua导出为准,gameobj是GameObject类型,pos是Vector3):
第一步:
GameObjectWrap.get_transform    lua想从gameobj拿到transform,对应gameobj.transform
  LuaDLL.luanet_rawnetobj            把lua中的gameobj变成c#可以辨认的id
  ObjectTranslator.TryGetValue      用这个id,从ObjectTranslator中获取c#的gameobject对象
  gameobject.transform                 准备这么多,这里终于真正执行c#获取gameobject.transform了
  ObjectTranslator.AddObject         给transform分配一个id,这个id会在lua中用来代表这个transform,transform要保存到ObjectTranslator供未来查找
  LuaDLL.luanet_newudata            在lua分配一个userdata,把id存进去,用来表示即将返回给lua的transform
  LuaDLL.lua_setmetatable            给这个userdata附上metatable,让你可以transform.position这样使用它
  LuaDLL.lua_pushvalue                返回transform,后面做些收尾
  LuaDLL.lua_rawseti
  LuaDLL.lua_remove
第二步:
TransformWrap.set_position                     lua想把pos设置到transform.position
  LuaDLL.luanet_rawnetobj                       把lua中的transform变成c#可以辨认的id
  ObjectTranslator.TryGetValue                 用这个id,从ObjectTranslator中获取c#的transform对象
  LuaDLL.tolua_getfloat3                          从lua中拿到Vector3的3个float值返回给c#
     lua_getfield + lua_tonumber 3次         拿xyz的值,退栈
     lua_pop
  transform.position = new Vector3(x,y,z)  准备了这么多,终于执行transform.position = pos赋值了
就这么一行代码,竟然做了这么一大堆的事情!如果是c++,a.b.c = x这样经过优化后无非就是拿地址然后内存赋值的事。但是在这里,频繁的取值、入栈、c#到lua的类型转换,每一步都是满满的cpu时间,还不考虑中间产生了各种内存分配和后面的GC!
下面我们会逐步说明,其中有一些东西其实是不必要的,可以省略的。我们可以最终把他优化成:
lua_isnumber + lua_tonumber 4次,全部完成
 

2.在lua中引用c#的object,代价昂贵
从上面的例子可以看到,仅仅想从gameobj拿到一个transform,就已经有很昂贵的代价
c#的object,不能作为指针直接供c操作(其实可以通过GCHandle进行pinning来做到,不过性能如何未测试,而且被pinning的对象无法用gc管理),因此主流的lua+unity都是用一个id表示c#的对象,在c#中通过dictionary来对应id和object。同时因为有了这个dictionary的引用,也保证了c#的object在lua有引用的情况下不会被垃圾回收掉。
因此,每次参数中带有object,要从lua中的id表示转换回c#的object,就要做一次dictionary查找;每次调用一个object的成员方法,也要先找到这个object,也就要做dictionary查找。
如果之前这个对象在lua中有用过而且没被gc,那还就是查下dictionary的事情。但如果发现是一个新的在lua中没用过的对象,那就是上面例子中那一大串的准备工作了。
如果你返回的对象只是临时在lua中用一下,情况更糟糕!刚分配的userdata和dictionary索引可能会因为lua的引用被gc而删除掉,然后下次你用到这个对象又得再次做各种准备工作,导致反复的分配和gc,性能很差。
例子中的gameobj.transform就是一个巨大的陷阱,因为.transform只是临时返回一下,但是你后面根本没引用,又会很快被lua释放掉,导致你后面每次.transform一次,都可能意味着一次分配和gc。
 
 
3.在lua和c#间传递unity独有的值类型(Vector3/Quaternion等)更加昂贵
既然前面说了lua调用c#对象缓慢,如果每次vector3.x都要经过c#,那性能基本上就处于崩溃了,所以主流的方案都将Vector3等类型实现为纯lua代码,Vector3就是一个{x,y,z}的table,这样在lua中使用就快了。
但是这样做之后,c#和lua中对Vector3的表示就完全是两个东西了,所以传参就涉及到lua类型和c#类型的转换,例如c#将Vector3传给lua,整个流程如下:
1.c#中拿到Vector3的x,y,z三个值
2.push这3个float给lua栈
3.然后构造一个表,将表的x,y,z赋值
4.将这个表push到返回值里
一个简单的传参就要完成3次push参数、表内存分配、3次表插入,性能可想而知。
那么如何优化呢?我们的测试表明,直接在函数中传递三个float,要比传递Vector3要更快。
例如void SetPos(GameObject obj, Vector3 pos)改为void SetPos(GameObject obj, float x, float y, float z)
具体效果可以看后面的测试数据,提升十分明显。
 
 
 
4.lua和c#之间传参、返回时,尽可能不要传递以下类型:
严重类: Vector3/Quaternion等unity值类型,数组
次严重类:bool string 各种object
建议传递:int float double
虽然是lua和c#的传参,但是从传参这个角度讲,lua和c#中间其实还夹着一层c(毕竟lua本身也是c实现的),lua、c、c#由于在很多数据类型的表示以及内存分配策略都不同,因此这些数据在三者间传递,往往需要进行转换(术语parameter mashalling),这个转换消耗根据不同的类型会有很大的不同。
先说次严重类中的bool string类型,涉及到c和c#的交互性能消耗,根据微软官方文档,在数据类型的处理上,c#定义了Blittable Types和Non-Blittable Types,其中bool和string属于Non-Blittable Types,意思是他们在c和c#中的内存表示不一样,意味着从c传递到c#时需要进行类型转换,降低性能,而string还要考虑内存分配(将string的内存复制到托管堆,以及utf8和utf16互转)。
可以参考 https://msdn.microsoft.com/zh-cn/library/ms998551.aspx,这里有更详细的关于c和c#交互的性能优化指引。
而严重类,基本上是ulua等方案在尝试lua对象与c#对象对应时的瓶颈所致。
Vector3等值类型的消耗,前面已经有所提及。
而数组则更甚,因为lua中的数组只能以table表示,这和c#下完全是两码事,没有直接的对应关系,因此从c#的数组转换为lua table只能逐个复制,如果涉及object/string等,更是要逐个转换。
 
 
 
5.频繁调用的函数,参数的数量要控制
无论是lua的pushint/checkint,还是c到c#的参数传递,参数转换都是最主要的消耗,而且是逐个参数进行的,因此,lua调用c#的性能,除了跟参数类型相关外,也跟参数个数有很大关系。一般而言,频繁调用的函数不要超过4个参数,而动辄十几个参数的函数如果频繁调用,你会看到很明显的性能下降,手机上可能一帧调用数百次就可以看到10ms级别的时间。
 
 
6.优先使用static函数导出,减少使用成员方法导出
前面提到,一个object要访问成员方法或者成员变量,都需要查找lua userdata和c#对象的引用,或者查找metatable,耗时甚多。直接导出static函数,可以减少这样的消耗。
像obj.transform.position = pos。
我们建议的方法是,写成静态导出函数,类似
class LuaUtil{
  static void SetPos(GameObject obj, float x, float y, float z){obj.transform.position = new Vector3(x, y, z); }
}
然后在lua中LuaUtil.SetPos(obj, pos.x, pos.y, pos.z),这样的性能会好非常多,因为省掉了transform的频繁返回,而且还避免了transform经常临时返回引起lua的gc。
 
 
7.注意lua拿着c#对象的引用时会造成c#对象无法释放,这是内存泄漏常见的起因
前面说到,c# object返回给lua,是通过dictionary将lua的userdata和c# object关联起来,只要lua中的userdata没回收,c# object也就会被这个dictionary拿着引用,导致无法回收。
最常见的就是gameobject和component,如果lua里头引用了他们,即使你进行了Destroy,也会发现他们还残留在mono堆里。
不过,因为这个dictionary是lua跟c#的唯一关联,所以要发现这个问题也并不难,遍历一下这个dictionary就很容易发现。ulua下这个dictionary在ObjectTranslator类、slua则在ObjectCache类
 
 
8.考虑在lua中只使用自己管理的id,而不直接引用c#的object
想避免lua引用c# object带来的各种性能问题的其中一个方法就是自己分配id去索引object,同时相关c#导出函数不再传递object做参数,而是传递int。
这带来几个好处:
  1.函数调用的性能更好;
  2.明确地管理这些object的生命周期,避免让ulua自动管理这些对象的引用,如果在lua中错误地引用了这些对象会导致对象无法释放,从而内存泄露
  3.c#object返回到lua中,如果lua没有引用,又会很容易马上gc,并且删除ObjectTranslator对object的引用。自行管理这个引用关系,就不会频繁发生这样的gc行为和分配行为。
例如,上面的LuaUtil.SetPos(GameObject obj, float x, float y, float z)可以进一步优化为LuaUtil.SetPos(int objID, float x, float y, float z)。然后我们在自己的代码里头记录objID跟GameObject的对应关系,如果可以,用数组来记录而不是dictionary,则会有更快的查找效率。如此下来可以进一步省掉lua调用c#的时间,并且对象的管理也会更高效。
 
 
9.合理利用out关键字返回复杂的返回值
在c#向lua返回各种类型的东西跟传参类似,也是有各种消耗的。
比如
Vector3 GetPos(GameObject obj)
可以写成
void GetPos(GameObject obj, out float x, out float y, out float z)
表面上参数个数增多了,但是根据生成出来的导出代码(我们以ulua为准),会从:
LuaDLL.tolua_getfloat3(内含get_field + tonumber 3次)
变成
isnumber + tonumber 3次
get_field本质上是表查找,肯定比isnumber访问栈更慢,因此这样做会有更好的性能。
 
 
实测
好了,说了这么多,不拿点数据来看还是太晦涩
为了更真实地看到纯语言本身的消耗,我们直接没有使用例子中的gameobj.transform.position,因为这里头有一部分时间是浪费在unity内部的。
我们重写了一个简化版的GameObject2和Transform2。
class Transform2{
  public Vector3 position = new Vector3();
}
class GameObject2{
   public Transform2 transform = new Transform2();
}
然后我们用几个不同的调用方式来设置transform的position
方式1:gameobject.transform.position = Vector3.New(1,2,3)
方式2:gameobject:SetPos(Vector3.New(1,2,3))
方式3:gameobject:SetPos2(1,2,3)
方式4:GOUtil.SetPos(gameobject, Vector3.New(1,2,3))
方式5:GOUtil.SetPos2(gameobjectid, Vector3.New(1,2,3))
方式6:GOUtil.SetPos3(gameobjectid, 1,2,3)
分别进行1000000次,结果如下(测试环境是windows版本,cpu是i7-4770,luajit的jit模式关闭,手机上会因为luajit架构、il2cpp等因素干扰有所不同,但这点我们会在下一篇进一步阐述):
 

 

 方式1:903ms
方式2:539ms
方式3:343ms
方式4:559ms
方式5:470ms
方式6:304ms
 
 
可以看到,每一步优化,都是提升明显的,尤其是移除.transform获取以及Vector3转换提升更是巨大,我们仅仅只是改变了对外导出的方式,并不需要付出很高成本,就已经可以 节省66%的时间。
实际上能不能再进一步呢?还能!在方式6的基础上,我们可以再做到只有200ms!
这里卖个关子,下一篇luajit集成中我们进一步讲解。一般来说,我们推荐做到方式6的水平已经足够。
这只是一个最简单的案例,有很多各种各样的常用导出(例如GetComponentsInChildren这种性能大坑,或者一个函数传递十几个参数的情况)都需要大家根据自己使用的情况来进行优化,有了我们提供的lua集成方案背后的性能原理分析,应该就很容易去考虑怎么做了。
 
 
下一篇将会写lua+unity性能优化的第二部分,luajit集成的性能坑
相比起第一部分这种看导出代码就能大概知道性能消耗的问题,luajit集成的问题要复杂晦涩得多。
 
 
 
附测试用例的c#代码:
 

public class Transform2
{
    public Vector3 position = new Vector3();
}

public class GameObject2
{
    public Transform2 transform = new Transform2();
    public void SetPos(Vector3 pos)
    {
        transform.position = pos;
    }

    public void SetPos2(float x, float y, float z)
    {
        transform.position.x = x;
        transform.position.y = y;
        transform.position.z = z;
    }
}

 
public class GOUtil
{
    private static List<GameObject2> mObjs = new List<GameObject2>();
    public static GameObject2 GetByID(int id)
    {
        if(mObjs.Count == 0)
        {
            for (int i = 0; i < 1000; i++ )
            {
                mObjs.Add(new GameObject2());
            }
        }

        return mObjs[id];
    }

    public static void SetPos(GameObject2 go, Vector3 pos)
    {
        go.transform.position = pos;
    }

    public static void SetPos2(int id, Vector3 pos)
    {
        mObjs[id].transform.position = pos;
    }

    public static void SetPos3(int id, float x, float y ,float z)
    {
        var t = mObjs[id].transform;
        t.position.x = x;
        t.position.y = y;
        t.position.z = z;
    }

}

原文地址:https://blog.csdn.net/Victor_Li_/article/details/122759809

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


1.github代码实践源代码是lua脚本语言,下载th之后运行thmain.lua-netTypevgg-savevgg_cifar10/-S0.0001,报错: 试看看安装lua:报错了,参考这篇文章:ubuntu18.04安装lua的步骤以及出现的问题_weixin_41355132的博客-CSDN博客问题解决,安装成功:情况并没有好转,出现相
此文为搬运帖,原帖地址https://www.cnblogs.com/zwywilliam/p/5999924.html前言在看了uwa之前发布的《Unity项目常见Lua解决方案性能比较》,决定动手写一篇关于lua+unity方案的性能优化文。整合lua是目前最强大的unity热更新方案,毕竟这是唯一可以支持ios热更新的办法。然而作
Rime输入法通过定义lua文件,可以实现获取当前时间日期的功能。1.TIMERime是一款可以高度自定义的输入法,相关教程可以查看往期文章,关于时间获取是指输入一个指定关键字,输出当前时间,效果如下(我定义了time关键字):实现如下:①在用户文件夹中新建一个rime.lua文件加入如下代码 ti
localfunctiongenerate_action(params)localscale_action=cc.ScaleTo:create(params.time,params.scale_x,params.scale_y)localfade_action=cc.FadeIn:create(params.time)returncc.Spawn:create(scale_action,fade_action)end
2022年1月11日13:57:45 官方:https://opm.openresty.org/官方文档:https://opm.openresty.org/docs#table-of-contents为什么建议使用opm不建议使用luarocks?http://openresty.org/cn/using-luarocks.html官方解释:请注意!LuaRocks并不是OpenResty官方推荐的装包方式。LuaRoc
在Lua中的table(表),就像c#中的HashMap(哈希表),key和value一一对应。元表:table的一个操作的拓展,里面包含关联了对应的方法,元方法就是其中一个。元方法:当你通过键来访问table的时候,如果这个键没有值,那么Lua就会寻找该table的metatable(假定有metatable)中的__index键。如果__inde
表排序:table.sort(list[,comp])参数list:指定表,可选参数comp:排序函数,无参数时通常按升序排序。排序函数针对表中连续的序列,其间不可以存在空洞或nil,排序函数需要两个形参(对应表中每次参加比较的两个数据),需要一个比较两个形参表达式的返回值,不能含有等于关系,例如>=,<=,==。do
一、安装lua环境1.1安装依赖包[root@centos7~]#yuminstallgccreadline-devel1.2下线lua源码包并解压[root@centos7~]#wgethttp://www.lua.org/ftp/lua-5.3.5.tar.gz[root@centos7~]#tarxvflua-5.3.5.tar.gz-C/usr/local/src1.3进行编译[root@centos7~]
官网OpenResty® 是一个基于 Nginx 与Lua的高性能Web平台,其内部集成了大量精良的Lua库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态Web应用、Web服务和动态网关。OpenResty® 通过汇聚各种设计精良的 Nginx 模块(主要由
表参考《lua程序设计》可以认为,表是一种动态分配的对象,程序只能操作指向表的引用(或指针)。除此以外,Lua语言不会进行隐藏的拷贝(hiddencopies)或创建新的表--创建表a={}--创建空表k="x"a[k]=10--键“x”值10a[20]="great"--键20值“great”print(a["x"])-->10
https://github.com/galenho/crossover.git一个跨平台的lua游戏服务器开发框架,该框架采用多线程并发来处理消息,开发者只需要调用相应的接口函数并绑定相应的回调函数即可,在逻辑层表现为单线程的开发模式,使开发者易用,易调试,易维护,易扩展,同时拥有快速的响应能力。   框架使用面
参考链接:https://www.runoob.com/lua/lua-metatables.htmlhttps://www.jianshu.com/p/cb945e7073a3 元表是一个table,可以让我们改变table的行为,每个行为有对应的元方法例如,对table进行设置键值,查找键值,运算等,就会触发对应的元方法1--__index:table被访问时,如果找不到这
https://github.com/yuin/gopher-luahttps://github.com/yuin/gopher-lua Lua5.1ReferenceManual-contentshttp://www.lua.org/manual/5.1/ go中使用luapackagemainimport( lua"github.com/yuin/gopher-lua")funcmain(){ l:=lua.NewState() d
编译问题不要留到运行时才跑出来啊。早上9:00-中午3:00,6个小时,服了自己了。 写了一个测试,springboot+redis+lua执行到redisTemplate.execute(redisScript,idList)的时候一直报错,integer无法转换为string。我一直以为是lua脚本写错了,翻文档翻过来又翻过去,写法变了又变,还是解
        。。是字符串连接符,字典用=号连接,  注意fordoend都是连一起,  注意ifthen,  如果local在函数里,是可以访问,非local出了函数一样能用,  doend代码块也是一样,    注意点号表示,只能key是字符串,  注意括号不是必须
C语言与Lua之间的相互调用详解写一个C调用Lua的Demo编译运行C语言调用Lua编译问题总结正确的编译命令问题1:缺少-lm参数问题2:缺少-ldl参数​1、为什么会出现undefinedreferenceto‘xxxxx’错误?​2、-l参数和-L参数写一个C调用Lua的Demo编译运行add.c内容//你需要
1、动态输出打开E:\study\openresty\openresty-1.19.9.1-win64目录下的confginx.conf文件在server中增加一下代码 location/hello{ default_typetext/html; content_by_lua'ngx.say("<p>hello,world</p>")'; }运行后,效果如下图localhost
参见:lipp/lua-websockets:WebsocketsforLua.(github.com)github网址可能需手动转换lipp.github.com/lua-websockets/>github.com/lipp/lua-websocketswebsockets为底层的类似于TCP、UDP的socket(实现上基于更底层的socket),不同于上层的webserver服务端(Service)需并行地支持多
lua发送消息到rabbitmq,我们选择类库lua-resty-rabbitmqstomp 来完成这个任务。类库安装:进入nginx.conf中 lua_package_path 中对应的目录下的resty目录(没有则创建),执行:wget-chttps:/aw.githubusercontent.com/wingify/lua-resty-rabbitmqstomp/master/libes
1Lua介绍Lua是一门以其性能著称的脚本语言,被广泛应用在很多方面。Lua一般用于嵌入式应用,现在越来越多应用于游戏当中,魔兽世界,愤怒的小鸟都有用到。优势Lua极易嵌入到其他程序,可当做一种配置语言。提升应用性能,比如:游戏脚本,nginx,wireshark的脚本兼容性强,可以直接使用C