我們在計(jì)算機(jī)視覺領(lǐng)域取得了長足的進(jìn)步,以至于配備了人工智能(AI)的自動駕駛汽車可以有效地“看到”周圍的環(huán)境。但是,我們可以教AI如何“感受”它所??看到的東西嗎?Getty Images的人們認(rèn)為我們可以。
乍一看,人工智能可以“感受”某些東西的想法似乎牽強(qiáng)??傮w而言,感覺與我們的人類身份緊密相關(guān)。任何人對某事的感覺必然與另一人的感覺不同。根據(jù)定義,感覺是主觀的。實(shí)際上,很難找到比“感覺”更主觀的主題。那么,這如何與計(jì)算機(jī)的客觀功能相結(jié)合?
根據(jù)Getty Images的高級數(shù)據(jù)科學(xué)家Andrea Gagliano的說法,該解決方案相對簡單。
就像計(jì)算機(jī)視覺程序通過將圖像分解為組成特征(或向量)并將其與已知實(shí)體進(jìn)行比較來攻擊識別問題一樣,Getty也在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)算法以尋找圖像本身中的某些元素以確定有關(guān)人類將依附于他們的情緒的線索。
加利亞諾說,這個(gè)竅門是將各種人類情感編碼為與圖像相關(guān)的向量。對于蓋蒂數(shù)據(jù)科學(xué)家選擇的每種情感或感覺,例如“真實(shí)的”或“此刻”,該公司將收集以某種方式表示該感覺或情感的圖像集合。每個(gè)圖像都有100到1,000個(gè)可以構(gòu)建該矢量的特征或變量,然后可以用來推斷新圖像。一旦建立起來,這些模型就可以用來生成更好的關(guān)鍵字,以幫助用戶找到圖像,Gagliano說。
她說:“從計(jì)算機(jī)視覺的角度來看,我們正在構(gòu)建更豐富的元數(shù)據(jù),以數(shù)學(xué)方式表示圖像的不同部分,無論是圖像的語義理解還是人們周圍的事物。”
除了生成更好的關(guān)鍵字之外,向量還可以用于創(chuàng)建與某些感覺或心情相對應(yīng)的不同圖像組。例如,該公司正在尋求使用高維特征來表示“真實(shí)”或“當(dāng)下”的感覺,Gagliano說。
她說:“我們在客戶[要求]方面正在做很多工作,以提供更多'真實(shí)的'和'較少庫存的'圖像。”“所以我們正在解構(gòu),那真的意味著什么?這是否意味著人們沒有微笑,或者他們沒有看著相機(jī)?可能存在著溫暖的人際關(guān)系,或者也許他們在此刻,在說話或舉手。因此,“真實(shí)圖像”的像素元素是什么,我們可以圍繞這些圖像元素建立計(jì)算機(jī)視覺,以補(bǔ)充圖像周圍的語言數(shù)據(jù),從而能夠在搜索中更好地提供這些圖像。”
Gagliano說,無論是通過傳統(tǒng)關(guān)鍵字還是通過幕后的高維度功能,用戶與圖像進(jìn)行交互的方式都是為了為Getty Images用戶提供與公司目錄中3億張圖像進(jìn)行交互的新方式。