生活中的人工智慧

现阶段的人工智能定义还是不太清晰的(人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。【百度百科】)。根据这个定义,消费级人工智能产品分以下几大类(题主讲到日常生活中的应用可以理解为消费级市场应用):

1、机器视觉

包括物体识别和场景识别。物体识别包括人脸识别、人体识别、其他物体识别。

人脸或人体识别,比如商汤、旷世、云从科技,应用的场景有考勤、安防、金融服务等。

物体识别,比如车牌号、红绿灯等识别,比如商汤或依图科技都会有和城市政府合作的智慧交通项目,用于交通检测。另外还有特定的物体识别,如布料、服装等,比如码隆科技等主要业务是为服饰制造业提供等布料识别技术。另外就是文字识别,常用的应用场景有扫描。

场景识别,对视角内的各个物体及背景组合成的场景进行识别,比如识别是咖啡厅还是图书馆。应用场比如商场传媒等。

生活中的人工智慧

2、智能语音交互

包括语音识别和语义理解还有语音合成。

语音识别,主要的应用场景有智能音响的信息查询或者内容获取,比如查询天气和新闻以及听音乐等,主要的公司有科大讯飞、思必驰、百度、阿里等,另外的应用还有比如外语口语评分,比如驰声科技做的为英语口语评分的软件。

语义理解,可以分为自然语言处理和规则分析,其中自然语言处理是通过机器学习的方式理解语句并配对相应的回复,而规则分析则是分析语句的语法结构理解语义并进行简单回复。常用的应用场景就是撩天,比如撩微软小冰,撩Siri这一类的。主要的公司有科大讯飞、思必驰、百度、图灵、智齿科技等,根据具体等聊天场景有不同的侧重,比如智齿科技侧重于客服的语义理解。

语音合成,一般在终端硬件产品上的语音交互的一个环节(语音识别和语义理解可以通过在线应用服务获得),比如智能音箱、手机、耳机等,主要的公司有思必驰、科大讯飞、云之声等(一般做语音识别的公司都会有语音合成,语音合成一般来看是语音识别的逆过程)。

3、SLAM算法

simultaneous localization and mapping(同步定位和建图),简单来说是获取环境的空间信息,包括深度信息,来进行定位和导航,这类的公司有很多百度、Google、图森未来、驭势科技等等,主要的产品有扫地机、商务机器人、无人车。

4、技术整合类

比如机器人。消费级的机器人有几个定位:家庭机器人分为针对老人的陪护机器人,针对小孩的陪伴机器人,另外是商务机器人。类型有桌面有轮式。一般都整合了1、2、3中提到的部分或所有技术,常用的功能是语音交互、运动控制等。家庭服务机器人特定的应用场景主要是家庭监护人员外出时的远程的监控和互动。商务机器人的应用场景根据不同行业有所区别,通用的就是摆在门口通过简单的交互吸引人流。公司有很多,优必选、康力优蓝、寒武纪智能、旗瀚科技、华硕、腾讯小Q等等。

智能家居没有作为一类是因为智能家居只是作为以上人工智能技术的终端,比如语音控制灯等开关之类,或者识别手势控制等开关,也不排除有的家居是可以感知环境变化(比如光线和声音)来进行调节,严格意义上没有使用到机器学习让家电主动调节的都不算智能。

总结一下:

1、消费级等人工智能应用根据使用的技术类型主要分为:语音交互、机器视觉、slam算法,以及技术整合类。

2、应用形态有两大类:硬件终端和软件服务。

3、主要产品有:扫地机、无人机、无人车、安防监控、人脸考勤、人脸支付、智能音箱、智能客服、Siri之类的语音助手、机器人。

跳至主要內容

您的👍是我們的動力來源!


人工智慧(AI),指由人們製造出來的機器所表現出來的智慧。很多人都覺得人工智慧還是一項「屬於未來的科技」,但它其實已經充滿在我們的生活之中。
這個令人又愛又怕的詞,曾在2015年造成一波熱潮,讓人們開始感受到科技的躍進,同時也衍伸非常多值得討論的議題。

科技就像氧氣一樣,無所不在、不可或缺、但又感受不到。
今天就來盤點生活中必然出現的AI技術,看看人工智慧都從哪裡、用什麼樣的方法出現在我們的生活之中。

生活中的人工智慧

1.虛擬智能助理:
現在有很多人仰賴智能助理來輔助他的工作及生活,像是定鬧鐘、紀錄代辦事項、查詢資料等等。

智能助理是企業透過機器學習技術,讓人工智慧變得更聰明,能更加精準的預測並了解用戶語言所表達的問題及需求。
目前已經有非常多的語音助手在我們身邊,像是:Google 的 Google Now、Apple 的 Siri、微軟的 Cortana 與 Amazon 的 Echo…等。

2.聊天機器人:
大家是否都有過這樣的經驗:在你想私訊一個FB粉絲專頁,點開聊天頁面後便自動出現可以與你互動的對話框讓你選擇及互動。

在使用商品遇到問題時,大家很多反應都是會去尋找客服請求協助,但這對企業來說是非常消耗人力資源的,所以大家透過「設定聊天機器人」,讓客戶可以在詢問指定關鍵字時,機器便立刻找出問題的解答,提供給消費者,大幅減少人工回應的時間。

3.猜你喜歡的音樂、影片:
當你在Youtuber上觀看影片時,是否都有注意到你看的影片下方,系統會自動幫你整理「你感興趣」的影片,然後就會繼續點開下一部影片,然後…一個下午就這樣過去了。

這也是透過機器學習推薦算法上的深度神經網絡來達成的。
而在這個深度學習的機制中,有非常多有趣的設定,像是:如果你的沒有點擊系統提供的「推薦影片」,則該影片的排名就會下降,也會降低推薦給其他用戶的機會。(所以如果看到自己喜歡的Youtuber影片出現,一定要記得點下去啊!)
更多機制都記錄在這篇論文中:https://ai.google/research/pubs/pub45530

當然除了Youtuber以外,還有很多網站也提供相關的服務,如 Netflix、Spotify、Facebook等。

4.社群網路的人臉辨識 :
「XXX上傳了一張有你在內的照片」,你是否也曾接收到這樣的訊息呢 ? 其實這也跟人工智慧有關。

Facebook 及其他社群媒體採用的自動標註影像辨識系統,當用戶上傳照片並標注朋友和家人後,影像辨識系統就會辨識照片中重複出現的元素並將其分類或指向特定人物,並通知對方。

人工智慧是萬能的?

眼看AI已經成為未來的趨勢,很多的討論在於:害怕人工智慧的發展會將人類取代。
這或許是因為「機器」在我們心目中,已經成為「強大」的代名詞,人們可以藉由它完成非常多人類難以達成的事情。

其實,我們可以不必害怕被機器取代,人工智慧還是需要人類去製作、設定及隨時檢查、維修。
未來更多的可能性,是人類與機器共存,讓機器完成難以達成或耗時的事情,並交由人類去判斷及應用。

人工智慧是非常困難的技術? 一般人學不來嗎?

人工智慧分為「人工」及「智慧」,人工一詞比較沒問題,問題在於「智慧」的定義。
目前人們在說明「智慧」的時候,通常是以人類為中心出發,像是研究顯示:狗智力如一個三歲小孩、黑猩猩的記憶力比人類更好…等。
而「人工智慧」的終極目標,便是讓機器如人一般,能夠思考及行動,但這在目前的科技上還是很難達成的。

現在很多企業都在徵求AI人才,卻無法清楚的說明需要哪些能力,
其實只要具備的基本系統與程式能力,如:Python、C、C++、C#、Java等,就等於手握進入人工智能領域的入場卷。

總結

在未來,人工智慧及機器學習將會不斷滲透到我們的生活中,改變我們工作和生活的方式,
所以我們更應該多學習如何製作、操作它,成為「掌控AI技術的人」,而不是「被熟悉AI技術的人所掌控」。

【零基礎學 AI】系列課程,從 「Python 駭入基礎語法」到 「Keras 深度學習打底」最後是「玩轉 GAN 模型」 , 帶您循序漸進學會 AI 解決問題的能力 。
講師 周凡剛 擁有 台灣大學電機系 學士及碩士學位 ,是一位對於程式語言的核心概念非常了解的語言分析師 ,並有多年教學及實戰經驗,老師生動活潑的教學方式及內容,讓你不用擔心課程空洞無趣!

【歡迎追蹤訂閱】
「HiSKIO 嗨 程式技能」科技資訊文章、實用工具分享、新課程優惠領取
「訂閱HiSKIO」定期領取實用工具、免費學習資源...等多種實用內容! 
「Hi 直播學程式」不定期專題直播
「HiSKIO youtube頻道」免費實用課程、工程師經驗分享
最懂初學者的「F5學程式」
不想一個人孤單寫 code ? 來活力滿點的「程式丼起來」加入話圈吧 ! 

现在已经有近百个答案了,但是没有人提到一个几乎每个国人、每天都会接触到的人工智能应用——内容审核[1]. 随者深度学习的引入,内容审核技术出现了突飞猛进的发展,它比大家日常能看见的人脸识别、导航、内容推荐等等技术都发展的更快,应用更丰富,形态更多样。目前已经远远超出一般人的想象。

先说一般形态的内容审核,这类形态的内容审核还在一般人的想象之中,技术比较简单,也是经常被感知到的。包括但不限于:

  1. 关键词审核[2]

也就是“上面”和网络社区各自建立和维护一个关键词黑名单,然后使用关键词命中的方式进行审核。当然,关键词命中可能导致一些意外的名称组合被错误命中(典型地,AB是一个关键词,但CA和BD分别是一个词组,当CABD顺序出现时候会导致错误命中),因此,一些网络社区引入了智能分词技术进行关键词审核,大幅避免这种错误命中的情况[3][4],减少用户的被审核感知。

2. 话题审核[5]

话题审核一般通过话题索引、hashtag的方式进行审核,应用于头部话题,通常有人工审核介入。通常地,如果不加审核,任何包括对应的hashtag的内容都会出现在其他用户的timeline上,但引入审核后,会针对性的进行内容曝光控制,对于不符合口径管控方向的内容,形成作者可见而关注者不可见的情况,或者减少内容分发/曝光,从而消除或者减少其影响,并降低被审核用户的感知。

3. 事后追溯

以某个内容的在敏感人群中的曝光突然增加为激活条件进行事后的人工介入审核,删除或者减少曝光/分享。

4. 其他

以上都是比较简单的形式,在深度学习和算力解锁之后,我们正在体会一些新的形式,包括但不限于

1.社交图网络用户画像

根据用户之间的聊天交互、家庭关系、联系人列表、买卖关系、地理关系、商业关系等构件十亿个顶点,万亿条边以上的超大规模社交图网络[6],在该网络下,对极小比例的敏感用户进行标定,就可以对十亿量级的人口进行足够准确的刻画,包括其性格、政治取向、言论风格、影响力等等。

据此可以动态划定少部分敏感人群进行人工介入的重点关注,甚至对其在微信、微博、电话等所有线上平台的所有内容的无差别逐一审核。

2.多模态信息内容理解和意图判定[7]

文本、图像、视频、语音等内容在时间线上相邻关系意味着它们之间具有内容的相关性,多模态信息内容理解可以从聊天、朋友圈、想法、微博等具有时间线性质的内容中更准确地提取内容的信息,判定其敏感性,并分析参与时间线讨论的用户的根本意图[8][9], 从而在人工不介入的情况下近实时地锁定敏感用户,进行定向督导。

3. 信息流分发干预

传统上理解,审核是一个被动的动作,需要在用户发表内容之后做出。但是信息流分发干预可以在用户不感知的情况下,更多地、隐含地给用户曝光一些不引起其反感的受控内容,从而在长期上改变用户对社会的认知,改变其政治取向[10],对用户言论发表产生积极主动而且稳定的影响[11],纠正用户的错误观念和错误记忆,甚至可以在中长期达到治本的目的,有效地减少审核算力和人工审核压力,维护社会文明和稳定,助力社会和谐。

4. 注意力调离

当出现主流价值和思想体系下无法自洽的新闻热点事件时,对用户推送其他争议性热点,有效地分散用户的注意力[12][13],减少用户的感知扰动,从而减少其极端言论输出的可能性,维护社会稳定。

5. 其他

在深度学习技术的助力下,审核不再以固定的关键词存在,而是以动态的形式存在。这种情况下,用户无法对审核规则进行准确感知,提高了审核的不可知性,降低了用户与审核对抗的意图。审核技术日新月异,限制它的不是算力和技术,而是我们的想象力。

参考

  1. ^Xu, B., & Albert, E. (2014). Media censorship in China. Council on Foreign Relations, 25, 243.
  2. ^Xu, X., Mao, Z. M., & Halderman, J. A. (2011, March). Internet censorship in China: Where does the filtering occur?. In International Conference on Passive and Active Network Measurement (pp. 133-142). Springer, Berlin, Heidelberg.
  3. ^Huang, H., Wang, X., & Wang, H. (2020). NER‐RAKE: An improved rapid automatic keyword extraction method for scientific literatures based on named entity recognition. Proceedings of the Association for Information Science and Technology, 57(1), e374.
  4. ^Song, Y., Kim, E., Lee, G. G., & Yi, B. K. (2004). POSBIOTM-NER in the Shared Task of BioNLP/NLPBA2004. In Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications (NLPBA/BioNLP) (pp. 103-106).
  5. ^Liao, S. (2019). “# IAmGay# What About You?”: Storytelling, Discursive Politics, and the Affective Dimension of Social Media Activism against Censorship in China. International Journal of Communication, 13, 21.
  6. ^Chaudhary, A., Mittal, H., & Arora, A. (2019, February). Anomaly detection using graph neural networks. In 2019 International Conference on Machine Learning, Big Data, Cloud and Parallel Computing (COMITCon) (pp. 346-350). IEEE.
  7. ^Dey, N., Ashour, A. S., & Nguyen, G. N. (2020). Recent advancement in multimedia content using deep learning.
  8. ^Froehlich, D. E., Rehm, M., & Rienties, B. C. (2020). Mixed methods social network analysis. Mixed methods social network analysis: Theories and methodologies in learning and education, 1-10.
  9. ^Hu, M., Peng, J., Zhang, W., Hu, J., Qi, L., & Zhang, H. (2021). An intent recognition model supporting the spoken expression mixed with Chinese and English. Journal of Intelligent & Fuzzy Systems, 40(5), 10261-10272.
  10. ^Sparr, M. (2022). Explicit User Manipulation in Reinforcement Learning Based Recommender Systems. arXiv preprint arXiv:2203.10629.
  11. ^Papakyriakopoulos, O., Serrano, J. C. M., & Hegelich, S. (2020). Political communication on social media: A tale of hyperactive users and bias in recommender systems. Online Social Networks and Media, 15, 100058.
  12. ^Paasonen, S. (2016). Fickle focus: Distraction, affect and the production of value in social media. First Monday.
  13. ^Xie, J. Q., Rost, D. H., Wang, F. X., Wang, J. L., & Monk, R. L. (2021). The association between excessive social media use and distraction: An eye movement tracking study. Information & Management, 58(2), 103415.