Линуксийн дуу хоолойг хүлээн зөвшөөрөх улс

Оршил

Би нийтлэлд судалгаа хийх маш их цаг зарцуулдаг бөгөөд галт тэрэгний буудал руу явж, эсвэл ерөнхийдөө явж байхдаа өгүүлэлийн сэдвийг ихэвчлэн би боддог.

Нэг орой миний ажилаас 1,5 милийн зайтай газар явж байхдаа би "Би хэлэхийг хүссэн зүйлээ тэмдэглэж аваад дараа нь үүнийг засварлах, сүүлд нь хэлбэржүүлж болох текст файлд автоматаар хөрвүүлчихсэн байх нь сайн хэрэг биш" .

Би Линукс дээр гардаг программ ашиглан шууд бичлэг хийх, файлыг MP3 эсвэл WAV формат руу хөрвүүлэх, командын мөрөөр хөрвүүлэх, түүнчлэн Chrome-ийг ашиглах зэрэг дууг танин мэдүүлэх, цээжлэхэд зориулсан олон сонголтыг харж үзсэн. болон Android програмууд.

Энэ өгүүллийг хүнд хэцүү хөдөлмөрийн өдрөөс хойшхи миний олсон үр дүнг онцолсон.

Линуксийн сонголтууд

Линукс дээр дуудлага хийх, дуу таних програм олохыг оролдох нь тийм хялбар биш бөгөөд боломжит сонголтууд нь тийм ухаалаг биш юм.

Энэ хуудас нь CMU Sphinx, Юлюули, Симон зэрэг боломжит хувилбарын жагсаалттай байна.

Би одоогоор Debian Testing дээр суурилсан SparkyLinux-г ашиглаж байгаа бөгөөд таныг цорын ганц дуут хүлээн зөвшөөрөх багцыг агуулахад байгаа Sphinx гэж хэлье.

Миний оролдож байсан Линуксийн програмууд PocketSphinx байсан бөгөөд би WAV файлыг текст хэлбэрээр хөрвүүлж, Freespeech-VR-ийг микрофоноос шууд бичлэг хийдэг Python програм юм.

Би мөн ChromeName II болон Dictanote зэрэг хэд хэдэн Chrome апп-ыг туршиж үзсэн.

Эцэст нь би "Ачаалал ба Имэйл", "Андройд Апп Ажиллагаа" гэсэн үгсийг туршиж үзсэн.

Freespeech-VR

Freespeech-VR нь стандарт архивт байдаггүй. Би эндээс файлуудыг татаж авсан.

Зип файлыг татаж аваад татаж авсны дараа би терминалыг нээж, файлуудыг задлаж байсан фолдер руу залгасан.

Би freespeech-vr-г нээхийн тулд дараах тушаалыг бичлээ.

sudo python freespeech-vr

Надад микрофонтой хос микрофонтой, өмнө нь англи хэлээр ярьдаг.

Дараах текстийг freespeech-vr цонхонд харуулав:

Үр дүнгүүдийн нэгжийн нохойд тавтай морилно Өнөөдөр Өнөөдөр Хэрхэн Шүүгдсэнийг Хянан шалгах Тестүүд Хэрхэн Текстийг хэзээ туршиж байх вэ Текстийг хэзээ хэрэглэх вэ Бичлэгийг хэрэглэдэг Би Ярилцах Зөвхөн нэг нь Зөвхөн нэг байх нь Мөн нэг алтан тахиа алтан утгаар нь систем гэж Дараа нь миний нэрийг дараагийн удаа утсаар дуудах Энэ файл удахгүй Гар утсууд хангалттай гар утас руу Sphinx Going Үүнийг утсаа хуваалцахгүй A сургагдсан ба хэрэгслийг ярихад ашиглах Хэрэгцээ дууссаны дараа Say Ашиглагдсан файл Last А story Ачаалж ашиглах Энэ нь Линукс хэрхэн амжилтанд хүрэх вэ гэдэг нь маш хэцүү байдаг

Энэ бол Нохойны вебсайт биш гэдгийг би хэлэхийг хүсч байна. Алтан тахиатай холбоотой ямар ч асуудал гараагүй. Би дуу танилтын програм хангамжийг ашиглах үйл явцыг тайлбарлахыг оролдож байв.

Би програмыг хэд хэдэн удаа давтаж, давтамжийг туршиж үзсэн боловч нарийвчлал муу байсан.

PocketSphinx

PocketSphinx нь WAV файлыг авах болон тушаалын мөрийг ашиглан текст рүү хөрвүүлэх боломжтой.

PocketSphinx нь Debian репозитороор дамжуулан ихэнх түгээлтийн үйлчилгээг авах боломжтой байдаг.

PocketSphinx-тэй холбоотой гол асуудал бол дуу таних, хэлний файлууд, толь бичиг, системийг хэрхэн сургах талаархи ойлголтуудтай байх ёстой.

PocketSphinx-ийг суулгасны дараа та CMU Sphinx вэбсайт руу орж аль болох их мэдээллийг уншаарай. Та мөн дараах загвар файлыг татаж авах хэрэгтэй.

(Хэрэв та эх хэлээрээ ярьдаг биш бол та өөрт тохирсон хэлний загварыг сонгоно уу).

PocketSphinx болон Sphinx-ийн баримт нь ердийн хүмүүсийг ойлгоход хэцүү байдаг боловч толь бичигт файлууд нь боломжит үгсийн жагсаалтыг гаргахад ашиглаж болохоос боломжит дуудлагуудын жагсаалттай байдаг.

PocketSphinx-ыг шалгахын тулд Би өөрийн дуу хоолой, Al Pacino-ээс "The Devils Advocate", "Morgan Freeman" -ээс авсан бичлэгийг ашигласан. Үүний гол зорилго нь янз бүрийн дуу хоолойг туршиж үзэхэд миний хувьд Morgan Freeman шиг түүхийг хэн ч хэлж чаддаггүй бөгөөд хэн ч Al Pacino шиг мөрийг дамжуулахгүй.

PocketSphinx-ийн хувьд ажиллахад WAV файл хэрэгтэй бөгөөд энэ нь тодорхой форматтай байх шаардлагатай байдаг. Хэрэв файл нь MP3 форматтай бол ffmpeg тушаалыг ашиглан үүнийг хөрвүүлээд WAV хэлбэрээр хийнэ үү:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

PocketSphinx-г ажиллуулахын тулд дараах тушаалыг ашиглана:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous нь WAV файлыг аваад түүнийг текст хэлбэрт хөрвүүлдэг.

Дээрх тушаалаар pocketsphinx нь "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" гэсэн хэлний нэртэй файлыг "cmusphinx-5.0-en-us.lm" хэлний загвартай ашиглаж болно. Бичвэр рүү хувиргах файлыг voice2.wav (миний дуугаар хийсэн бичлэг). Эцэст нь 2> нь заавал байх ёстой бүх гаралтыг байрлуулж, voice2.log гэж нэрлэгдэх файлд заавал оруулах шаардлагагүй юм. Тестийн бодит үр дүн нь терминалын цонхонд харагдана.

Миний дуу хоолойн үр дүн дараах байдалтай байна:

Энэ долоо хоногт ямар нэг таних програмын талаар аль болох хурдан ярихыг сайн мэдэхгүй байна

Үр дүн нь freespeech-vr шиг аймшигтай биш боловч үнэхээр ашиглах боломжгүй хэвээр байна. Дараа нь би PocketSphinx-г Al Pacino-тай туршиж үзсэн боловч энэ нь ямар ч үр дүнд хүрээгүй.

Эцэст нь би Morgan Freeman-ийн дуу хоолойг "Bruce Almighty" кинонд тоглуулахыг оролдсон бөгөөд энд дараах үр дүн гарч байна:

000000000: бид түүн дээр байх болно
000000001: яг одоо яг л яг тэр өдөр бол тийм л байна шүү дээ.
000000002: бейсболын цагын гол түлхүүр нь юм уу эсвэл амьдралд юу хийхээ мэддэг цахилгаан шатанд
000000003: эдгэрэх зүйлүүд юу вэ
000000004: тэд үүнийг бичээгүй
000000005: тэд над дээр байна
000000006: Та дүрэм журам байх ёстой
000000007: Би чамайг хүлээж байсан
000000008: Эндээс тэр нь алуурчин Христийн үдэшлэгийн жишээ болсон юм
000000009: o бичих арга замыг нэг болгоно. Би цөөхөн хүн өмсдөг гэж боддог
000000010: Асуудал эв нэгдэхэд тэр сайн зүйл өгөхгүй байх болно би тэр мөчдөө тооцоолж үзсэн юм бол бид дэлхий дээр байх болно гэж бодож байгаа бүх зүйл чинь гэртээ байхгүй, тэгээд би харсан
000000011: Энэ нь аавтай
000000012: Энэ талаар маш их зүйл ярьдаг
000000013: үүнийг өгдөг
000000014: Та бүгдийг унагахгүй бүх зүйл
000000015: Энэ намар намар
000000016: Зүгээр л надад зориулж л байдаг
000000017: Хэрэв би энэ бүх гэр бүлтэй байх болно гэж байна гэж бодож байгаа бол энэ нь азгүй юм бол бид ямар ч арга замыг би дуртай биш

Миний туршилтыг шинжлэх ухааны үндэслэл гэж үзэхгүй бөгөөд PocketSphinx-ийн хөгжүүлэгчид би програмыг зөв ашиглаж байгаагүй гэж хэлж болно. Мөн илүү сайн толь бичиг, хэлний файлуудыг бий болгоход ашиглах дуу хоолойн сургалт гэж нэрлэгддэг арга техник байдаг.

Миний гол санаа бол өдөр тутмын хэрэглээнд зориулж маш хэцүү байдаг.

VoiceNote II

VoiceNote II нь Google Voice recognition API-г ашигладаг Chrome App юм.

Хэрэв та Chrome эсвэл Chromium хөтөч ашиглаж байгаа бол VoiceNote II-ийг Вэб Дэлгүүрээс суулгаж болно.

VoiceNote II дээрх дүрсийг цонхны доод хэсэгт хэлээр тохируулах хэрэгтэй бөгөөд засварлах товч нь доод талд байгаа боловч бичлэгийн товчлуур нь баруун дээд байрлал дээр байна.

Таны хийх ёстой хамгийн эхний зүйл бол хэлийг сонгох бөгөөд энэ нь дэлхийн дүрсэн дээр дарж болно.

Бичлэгийг эхлүүлэхийн тулд микрофоны дүрс дээр дараад микрофондоо ярьж эхэлнэ үү. Хамгийн сайн үр дүнд хүрэхийн тулд битгий удаан хэлээр ярихыг мэдсэн юм.

Үр дүн нь доороос харагдахгүй байсан.

Сайн уу, холбогдохыг хүсч байна уу. About.com дуунаас текст хөрвүүлэх дуу хоолойн төгсгөлийн өгүүллүүд дунелм алс холын регрессийн 2008 оны хөрвүүлэлтээр хэлэхэд, энэ нь дуу хоолой текст нэмэхийг харуулах хамгийн сайн арга замыг олохын тулд 2014debian эсвэл rpm багцыг харуулахыг хүсч байгаа бол дуугарна уу. Эдинбургийн франц хэлээр сонгосон нь танд тэнгисийн микрофон дээр нэгдсэн хаант улс дахь сонгосон цаг хугацааг танд хүргэх болно. Таны бичсэн текст файлыг амжилттай болгохын тулд сайн текстийн файл болгож дууссаны эцэст англи хэлний уриа лоозонгийн хувьд хамгийн сайн стандарт болохын тулд бичсэнээ дуусгасан боловч би твиттер Бодит баримт бичигтэй хамт сонсоход тань алдаа гаргадаг алдаануудыг олж харж болно

Dictanote

Dictanote бол өөр нэг Chrome App бөгөөд өөрөөр хэлбэл цээжлэх зориулалтаар ашиглаж болох бөгөөд илүү үр дүнтэй байдаг тул үр дүн нь VoiceNote II-ээс илүү сайн биш юм.

Би зөвхөн Dictanote-ийн демо хувилбарыг хэрэглэсэн бөгөөд энэ нь таныг шинэ документ үүсгэхээс сэргийлсэн боловч засварлагч дээр байгаа текстээр ярих боломжийг танд олгоно. Би дуу хоолойг таних боломжтой байсан ч үр дүн нь VoiceNote II-аас илүү байсан тул би дэмжсэн хувилбарт бүртгүүлээгүй.

Дүгнэлт ба шуудан

"Dictation And Mail" нь Google-ийн дуу хоолойг таних API-ийг ашигладаг Android Application юм.

"Дон Имэйл ба Захидал" -аас гарсан үр дүн нь энэ хүртэлх оролдлого аль ч програмаас хамаагүй дээр байсан.

Линукс дээр тавтай морилно уу., өнөөдөр бид дуутыг текст уруу хөрвүүлэх талаар ярьж байна

"Доот ба шуудан" -тай заль мэх нь аажмаар ярих, ярих чадвартай байх явдал юм.

Та яриа дууссаны дараа үр дүнг өөрөө имэйлээр илгээх боломжтой.

Talk and Talk гэсэн товчлол

Миний оролдсон бусад Android програм нь "Talk And Talk Decict" юм.

Энэ програмын интерфейс нь хамгийн шилдэг нь байсан бөгөөд дуу хоолой таних нь үнэхээр сайн ажилласан юм. Илтгэлийг тэмдэглэсний дараа би үр дүнгээ имэйлээр дамжуулан янз бүрийн аргаар хуваалцаж чадсан.

Линукийн тухай about.com өнөөдөр бид тавтай морилно уу

Дээрх текстийг та харах боломжтой гэж ойлгож болно. Арай удаан ярьдаг нь түлхүүр юм.

Хураангуй

Native Линукс Дуут хүлээн зөвшөөрөх, ялангуяа цээжлэхтэй холбоотой ямар нэг арга замтай байдаг. Зарим аппликешнүүд нь Google Voice API ашиглаж байгаа боловч тэдгээр нь нөөцлүүрт хараахан ороогүй байна.

ChromeOS аппликейшнууд нь арай илүү сайн боловч миний Android утас ашиглан хамгийн сайн үр дүнд хүрлээ. Магадгүй утасны микрофон нь илүү сайн байдаг тул дуу хоолой танилтын програм нь хөрвүүлэх илүү сайн боломж юм.

Дуу хүлээн зөвшөөрөх нь үнэхээр ашиглах боломжтой байхын тулд тохиргоо бага байхын тулд илүү зохимжтой байх хэрэгтэй. Үүнийг ойлгомжтой болгохын тулд хэлний загвар, толь бичиг ашиглан орчуулах шаардлагагүй.

Гэсэн хэдий ч дуу хоолойг хүлээн зөвшөөрөх бүх урлаг нь маш хэцүү байдаг тул хүн бүр өөр өөр дуу хоолойтой байдаг бөгөөд дэлхий даяар хэрэглэгддэг олон зуун хэлний талаар санаа зовох нь нэг улс орны бүс нутгаас бүс нутаг хүртэл олон тооны dialects байна.

Тиймээс миний анализ нь дуу танилтын програм хангамжийг үргэлжлүүлэн ажиллуулж байгаа явдал юм.