人类想听懂动物的语言，AI能帮上忙么？-中国宠物网

　　来源：智能相对论(aixdlun)

　　作者：王伊诗

近日，有一个视频在养宠圈中广泛流传，引无数养宠人士潸然泪下。视频的主角是动物行为专家Heidi Wright和一只生命即将走到尽头的导盲犬，Heidi Wright以她的能力为媒介，将导盲犬的肢体动作和声音翻译成人语，帮助它和主人进行最后的交流。在Heidi Wright的转述中，导盲犬表示了无法继续守护主人的惋惜，还不停地呼叫另一只狗伙伴，让它照顾好主人。

这段视频在引发人们感动的同时，也让许多人感到遗憾，很多家庭都养有宠物，这些宠物陪伴了主人十数年，早已成为了特殊的家庭成员。可是绝大部分人都无法像上文提及的主人那般幸运，能够倾听到狗狗的心声，在这名“亲人”辞世时也只能抱憾相送。

　　无数人曾设想过，是否有可能出现一种翻译工具，让宠物的语言能够被人类听懂、理解呢?

　　人宠语言互译并非伪命题

美国资深动物行为专家康·斯洛波奇科夫(Con Slobodchikoff)教授称，未来五至十年内，人类使用一种手机大小的装置——宠物语言翻译器，便能与动物进行“对话”。这位北亚利桑那大学的生物教授花了30年研究草原土拨鼠的行为，他用AI软件记录并分析草原土拨鼠的叫声，将其翻译成英语。他还发现这些草原上的小家伙们“具有语言所有方面的复杂通信系统”。而目前，他正试图筹集资金来开发猫和狗的语音翻译设备。

在这条未知明暗的道路上探索的显然不止他一人。天下熙熙皆为利来，天下攘攘皆为利往，其实“宠物语言翻译器”的低配版早就被放上了电商平台，并取得了可观的销量，卖家声称这个设备经实测翻译准确率高达80%。纵览评论，“好玩”“有意思”“灵气”之类的好评不在少数，从中我们也可以窥知消费者对于宠物语言翻译器的需求与肯定。

4S营销理论下，仅做到趣味性的满足显然不够，宠物语言翻译这块才刚刚开掘的沃土已吸引了无数“赏金猎人”的眼光。如果按斯洛波奇科夫教授所说的，这项技术能在十年内成为现实，小范围满足的是人与宠物的交流沟通，大范围可能是人类一统动物世界的温和策略与梦想。

　　自动语音识别技术和语音翻译技术助力

低配版宠物语言翻译器运用的技术原理就是对狗狗的叫声、动作等生物信号进行采样，对获取的数据进行频谱分析，对姿势动作DSP运算数字化处理，把得到的翻译语言以中文形式语音播报出来。但是由于采样的范围和机器内存等的局限性，这种低配宠物语言翻译器在翻译的准确度和丰富性方面尚有待提高。相较之下，为实现人狗沟通而设计的No More Woof耳机要更胜一筹。

过去几年，AI领域的进步带来了自动语音识别技术和语音翻译技术的显著改进，计算机算法已经可以通过对大量数据进行的学习和训练来解释语言，而不是通过一组死板规则进行预编程。

No More Woof是由北欧发明与发现协会( NCID )开发的，应用的是三个不同技术领域的最新技术的组合，即脑电图( EEG )传感、微计算和专用脑-机接口(BCI)软件，主要由脑电图耳机、Raspberry Pi 处理器和一款便携音箱组成。这些传感器是脑电图记录器，可以降低读数，减少离子电流在狗脑中的电压波动。然后由微型计算机拾取波动，在这种情况下形成一个覆盆子pi，并对它们作出解释。

例如，大脑中有一种特定的电信号来定义疲劳感，还有一些最容易被发现的神经模式：“我饿了”“我累了”“我很好奇那是谁?”“我想尿尿”……耳机中的传感器会捕捉这种特殊的电信号，并将它们转化为人们能够听懂的语言。

再结合基础的自动语音识别技术和语音翻译技术，计算机算法可以大致地分辨出宠物的情绪。这是短时间内宠物语言翻译能达到的制高点，至于要通过宠物语言翻译器来了解动物伙伴们真正的内心世界，还期待人类进一步的研究。

　　精确翻译之路仍山高水远，中间的代沟需要填平

需要指出的是，动物的大脑并不如人类的大脑复杂，人脑的活动通常有一个明确的目标导向，动物的大脑却不一定。人的各种语言之间的转换也具有相对窄范围的对应关系，而动物的语言与人类的语言则对应范围很宽，比如，狗会发出急促的叫声，可能是因为想要向主人乞食，也可能是因为警惕陌生人，还可能是对主人不陪自己玩的责怪。如果它想表达的是这一种，而AI翻译器却传达为另一种，那么就容易将人和宠物之间的沟通引入“歧途”，从而完全丧失了宠语翻译的意义了。

那么有没有可能通过AI实现完全精准的宠物语言翻译呢?任重而道远。通过自动语音识别技术和语音翻译技术，计算机算法可以大致地分辨出宠物的情绪，但要明确更深层次的宠物肢体动作和叫声的内在意图，AI还需要一场“扭转乾坤”的大革命。

在这方面，我们可以联想AI在同声传译上的表现，之前很多媒体搞起了“AI会取代哪些工作岗位”的预测，笔译、口译在许多预测中被认为被取代率高居榜首，这并非空穴来风。AI翻译是当今AI领域的一个热点，搜狗、谷歌、Facebook、网易等都削尖了脑袋想要分一杯羹，卯足了劲儿想要成为这一领域的领头羊，毕竟人工翻译领域人工成本高居不下。如果能用AI解决高成本问题，无疑劫走其中大部分的红利。

然而，就目前来看，AI翻译并没有完全取代人工翻译。相比于对其他事物的了解，人更了解人自身，而针对人自身语言所进行的AI翻译尚且前路未朗，AI又如何在宠物语言翻译领域崭露头角呢?在智能相对论(微信ID：aixdlun)看来，AI在宠物语言翻译方面的应用，还需要填平这些“代沟”：

1. 数据关，成风尽垩之技无的放矢。要明确动物语言所表达的具体意义，需要先对动物的叫声和即时脑电波动进行完整的采样比对，再在这些数据的基础上建立数据库。而这两种数据都存在着广泛性和多样性，以犬类为例，不同的犬种声带粗细宽窄各不相同。针对同一情景发出的叫声分贝高低和尖细情况也不同，而刺激犬类发出叫声的场景又是难以穷尽的，单单收集犬类的声音样本就是一个无比巨大的工程了，数据库自然也难以完善。

2. 技术关，空手搏斗难制胜。一个AI翻译产品做到翻译精确至少需要攻破几个难题：形式端，拍译要攻克图像识别，同声翻译要攻克语音识别;内容端，攻克文本语言分析、大数据。而AI还没有发展到能够极为精确地处理这些问题的阶段，机器缺乏对视觉场景、听觉场景、自然语言处理的常识判断。

如搜狗搜索在2017年6月的分享会上发布了创新产品搜狗翻译APP，应用了基于生物学习的神经网络机器翻译(NMT)系统，将翻译精确度提升到一个前所未有的高水准，然而在翻译效果的“信达雅”上，仍然只做到了“信” 的层面，对语言背后的幽默、情感等丰富含义的解读离人们所期待的水准还有些距离。

3.语义关，语料积累、场景收集和副语言与文化背景成痛痒之地。AI翻译在文本或语言的寓意分析方面还强差人意。与人类语言相比，动物语言都是即时信号，信息内容全部关于当下，或示威，或示警，或示爱……从中看不到用语言来激起对过去的联想的迹象，并且单个个体能发出的声音形式太单一了，蕴含在其中的丰富信息难以明确表达。

宠物语言翻译的难点不仅在于声音的收集，更在于声音背后具体含义的对应。这种对应是宽范围的，难以精确的，机器缺乏对视觉场景、听觉场景、自然语言处理的常识判断，无法精确理解语音所表达的内涵，甚至在这个方面还比不上人类对动物语言的理解。人可以根据生活经验来理解动物语言，比如看到狗狗冲着陌生人吠叫，人们可以推测它是在防备这个陌生人，而机器可能就没办法很好地理解这个画面，从而做出错误的判断。

又比如，“好”这个字是日常交际的常用字，在百度汉语显示有19种语义，这些语义是结合具体场景来体现的，当偶遇熟人时，“好”的意思是问好;当别人征求意见时，“好”用来表示同意;当人们商讨时，又可以用“好”来表示反问……可见场景对于语义具有至关重要的影响，机器的正确理解场景的这件事上还需要加油，从而提高语义翻译上的高精确性。

4. “历史包袱”难抖掉，AI难以跟上生命体的学习进程。狗的叫声在一定历史时期并不是一成不变的，狗凭借自身的灵性以及主人的后天驯养，具备有学习能力，例如狗类中智商排名第一的边境牧羊犬智力水平已经相当于6岁～8岁的小孩，经过学习，在放牧时它会用不同的叫声来驱使羊群，控制羊群走向。还有一些宠物狗，甚至会在人类的刻意训练下发出类似“妈妈”的叫声，宠物语言在日新月异的变化，计算机却很难抖掉语言的“历史包袱”，这些也造成了宠物语言翻译的困境。

动物语言和人语之间的代沟是客观存在的，AI所能做的，只能是不断改进自身的功能，用科学手段完善数据库、内容、语料和场景。形式和内容双管齐下，才能将这条横亘在动物语言和人语之间的代沟填平，在坚实的地基上建立起实现人和动物“有效沟通”的“巴别塔”。

智能相对论(微信ID：aixdlun)：深挖人工智能这口井，评出咸淡，讲出黑白，道出深浅。重点关注领域：AI+医疗、机器人、智能驾驶、AI+硬件、物联网、AI+金融、AI+安全、AR/VR、开发者以及背后的芯片、算法、人机交互等。