当前位置:主页 > 科技 > 自媒体 > “更大的焦虑,更大的想象力”:音视频厂商如何闯入AI时代?(2)

“更大的焦虑,更大的想象力”:音视频厂商如何闯入AI时代?(2)

2024-04-10 00:45:43来源:新媒体

文章导读
2024年初,国内的大模型公司还未从上一波“GPT4”的焦虑当中缓过来,Sora就已经席卷而至。紧接着,所有互联网大厂几乎都“停下手头工作”,开始在新的领域做出一点成绩,从而尽快在市场...

以声网为例,在凤鸣AI引擎中集成的大部分技术都源于多年的积累。产业家向声网CTO钟声了解到,“空间音频”是凤鸣AI引擎中集成的技术。利用AI算法来模拟头部球面区域的立体声场,在更细微处,甚至能捕捉到人的喜怒哀乐,将这种三维信息提取出来再放到AR增强的场景。从技术处理的细节便可以感知到,它是一种“厚积薄发”的产物。

实际上2023年,大模型在国内“狂飙”的同时,音视频厂商更是不可能错过这波风口。技术的长期投入,这一年给音视频厂商的机会是在服务场景上更深化、更细致。

最为常见的便是AIGC解决方案的发布,这也是在市场层面能够迅速引发关注的方式。比如声网在去年发布RTE X AIGC 一站式产品能力解决方案;百家云发布全新AIGC产品“市场易”;腾讯云在音视频产品矩阵上的智能化升级;保利威发布AI智能教育解决方案;即构推出AI视频生成应用“即构数智人”等等。

而在无数的声音背后,大模型给音视频带来的实际价值是什么?

技术、落地场景和“大小模型”方案

“到了今天这个时代,客户不会关注噱头,而是更切实地关注提高了多少效率,降低了多少成本。”这是保利威全国售前总经理王建成近两年的感受。

技术不断进步的同时,服务场景也正在进一步深化。

抛开底层技术,在大模型时代,如果说真正能在效率上提升,以及成本上有所降低,用户一定会在操作体验层面有更强的感知。

那么,更为细致的应用场景,便是结合AI大模型,来解决曾经几乎“不可能”的事情。

以金融领域为例,其监管十分严格。一种常见的情况是,在直播过程中需要人为干预,进行监听。所以这种情况下,实时生成字幕对于大部分的金融客户就很难满足。

王建成告诉产业家,保利威的做法是结合金融客户的特殊需求和行业特点,做出一种专为金融行业打造的特殊模型。

这是一种将直播技术与业务结合的最佳例证。而在AI大模型时代,在技术高度不断刷新的当下,真正去解决用户的实际问题,对于音视频SaaS厂商,或许是一个更为务实的谜底。

为什么说焦虑与现实有时并不成正比?

一方面,技术高度的不断刷新确实会带给人更大的焦虑,但另一方面,从现实的角度来讲,技术高度的不断刷新却并未真正下沉到产业,发挥真正的价值。

根据艾瑞咨询报告显示,在目前实时音视频领域,领跑场景依旧停留在C端,在实际生产过程中,产业数字化的价值微乎其微。

那么,从技术的角度出发,音视频技术现在具体发展到什么程度了?

可以看到的是,腾讯云已经能够实现在煤矿、港口场景里,实时控制无人驾驶卡车运营。这是近两年较为新鲜的尝试。在这些场景同样有所布局的还有声网。除了更深入产业侧的工业领域 ,声网也在IoT行业、医疗健康行业持续发力。

而在大模型未到来之前,远程的音视频连接和操作,无论是技术还是应用场景方面都远未达到成熟。

站在技术的角度,更究竟来讲,大模型给音视频领域带来的是更大的想象力。

2023年,阿里云智能高级算法专家刘国栋在深圳的一席演讲中提到了一种大模型与小模型结合的技术。

在大模型还未出现的时候,只有小模型。其实,大模型与小模型都有各自的局限。小模型的局限在于其泛化能力比较差。而泛化能力差,通俗来讲,就是小模型的理解和生成能力不好。但其优点在于,小模型、传统算法在算法开发、工程优化方面已相对比较成熟,小模型的训练资源占用少且训练速度快,部署容易,端侧落地性强。

而大模型出现后,这些问题都一一遭解决了。而大模型的局限性在于,细粒度的问题还不能完美处理、容易出现幻觉现象、推理训练成本都比较高等。

因此,大小模型协同便是最好的解决方案。通过让大模型和小模型并联和相互引导的方式,来优化各自的问题。

而对于大模型与小模型的“协同”方面,声网也有自己的理解。对此,钟声向产业家解释道,“大模型的参数很大,需要巨量的数据包括高质量的数据来训练。一个符合常理的逻辑是,最领先的大模型,其推理能力较强,可以通过蒸馏等方法来训练小模型。大模型产生的结果,具备一定的质量,可以用来训练小模型。未来,大小模型应该以‘联合行动’的方式来共同完成任务,在算力、延时、隐私保护等方面实现一种更好的融合。”


免责声明
融易新媒体转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
热门文章
日榜 周榜
1 UGC,游戏人的“代餐”

一场借由互联网发酵的维权风波,将暗流涌动的游戏UGC(用户生成内容)拉到台前。 3月28日,...

2 “更大的焦虑,更大的想象力”:音视频厂商如何闯入AI时代?

2024年初,国内的大模型公司还未从上一波“GPT4”的焦虑当中缓过来,Sora就已经席卷而至。紧...

3 291亿投资拉动5万亿财富增长,大模型的泡沫来了?

2023年,苹果、微软、Alphabet、亚马逊、英伟达、特斯拉和Meta的股票已累计上涨75%,远远超过纳...

4 掌门人萌生退意后,辛选盯上了切片分销

继此前在今年3月辛巴公开表示,直播带货行业对他个人而言已不再有新鲜感,因此计划暂停直...

5 达达平台配送损坏不赔偿

2024年3月31日湖南省长沙市芙蓉区解放东路华海3C广场1楼008号 购买了一台台式电脑 在达达平台...

6 估值具吸引力 外资机构看多中国资产

● 本报记者昝秀丽 “全球资金正在重返中国股市。”多家外资机构近期发布报告,不约而同地...

7 行业并购预期提升 券商板块估值有望改善

● 本报记者 林倩 周璐璐 近期证券行业动作频频,并购重组预期显著提升,备受市场关注。这...

8 周期股:中长期看好 短期谨防回调风险

受黄金、白银价格大涨提振,4月8日,贵金属板块表现强劲,领涨A股市场。在以贵金属为代表...

9 今日股市:市场情绪疲弱A股能否迎来绝地反击

节后的中国股市并未迎来开门红。两市超过4500只股票下跌,上涨个股不足800只,大盘指数勉强...

10 大盘连续调整 电力板块走强 中期关注资源板块的动向

周一,大盘继续震荡调整,几大指数均以下跌收盘。盘面上,电力、黄金珠宝、银行等板块涨...

1 UGC,游戏人的“代餐”

一场借由互联网发酵的维权风波,将暗流涌动的游戏UGC(用户生成内容)拉到台前。 3月28日,...

2 “更大的焦虑,更大的想象力”:音视频厂商如何闯入AI时代?

2024年初,国内的大模型公司还未从上一波“GPT4”的焦虑当中缓过来,Sora就已经席卷而至。紧...

3 291亿投资拉动5万亿财富增长,大模型的泡沫来了?

2023年,苹果、微软、Alphabet、亚马逊、英伟达、特斯拉和Meta的股票已累计上涨75%,远远超过纳...

4 掌门人萌生退意后,辛选盯上了切片分销

继此前在今年3月辛巴公开表示,直播带货行业对他个人而言已不再有新鲜感,因此计划暂停直...

5 达达平台配送损坏不赔偿

2024年3月31日湖南省长沙市芙蓉区解放东路华海3C广场1楼008号 购买了一台台式电脑 在达达平台...

6 估值具吸引力 外资机构看多中国资产

● 本报记者昝秀丽 “全球资金正在重返中国股市。”多家外资机构近期发布报告,不约而同地...

7 行业并购预期提升 券商板块估值有望改善

● 本报记者 林倩 周璐璐 近期证券行业动作频频,并购重组预期显著提升,备受市场关注。这...

8 周期股:中长期看好 短期谨防回调风险

受黄金、白银价格大涨提振,4月8日,贵金属板块表现强劲,领涨A股市场。在以贵金属为代表...

9 今日股市:市场情绪疲弱A股能否迎来绝地反击

节后的中国股市并未迎来开门红。两市超过4500只股票下跌,上涨个股不足800只,大盘指数勉强...

10 大盘连续调整 电力板块走强 中期关注资源板块的动向

周一,大盘继续震荡调整,几大指数均以下跌收盘。盘面上,电力、黄金珠宝、银行等板块涨...

备案号:鄂ICP备2022006215号 Copyright © 2002-2022 关于我们 网站地图