Rabu, 03 November 2010

Speech Synthesis

Pidato sintesis adalah produksi buatan ucapan manusia. Sebuah sistem komputer yang digunakan untuk tujuan ini disebut synthesizer pidato, dan dapat diimplementasikan dalam perangkat lunak atau perangkat keras. Sebuah teks-to-speech (TTS) sistem mengkonversi teks ke dalam pidato bahasa normal;. Sistem lain membuat representasi linguistik simbolik seperti transkripsi fonetik dalam pidato


pidato disintesis dapat dibuat dengan menggabungkan potongan pidato direkam yang disimpan dalam database. Sistem berbeda dalam ukuran unit pidato disimpan, sebuah sistem yang menyimpan telepon atau diphones menyediakan berbagai keluaran terbesar, tapi mungkin kurang jelas. Untuk domain penggunaan khusus, penyimpanan seluruh kata-kata atau kalimat memungkinkan untuk output berkualitas tinggi. Atau, synthesizer dapat menggabungkan model saluran vokal dan karakteristik suara manusia untuk membuat yang benar-benar "sintetik" output suara.

Kualitas synthesizer pidato dinilai oleh kesamaannya dengan suara manusia dan dengan kemampuannya untuk dipahami. Sebuah program text-to-speech dipahami memungkinkan orang dengan gangguan visual atau membaca cacat untuk mendengarkan karya tulis di komputer rumah. Banyak komputer operasi telah menyertakan synthesizer pidato sejak awal 1980-an.

Overview of text processing

Sebuah teks-ke sistem-pidato (atau "mesin") adalah terdiri dari dua bagian: front-end dan back-end. The front-end memiliki dua tugas utama. Pertama, mengkonversi teks mentah mengandung simbol seperti angka dan singkatan menjadi setara dengan kata-kata tertulis-out. Proses ini sering disebut teks normalisasi, pra-pengolahan, atau tokenization. The front-end kemudian memberikan transkripsi fonetik untuk setiap kata, dan membagi dan menandai teks ke unit prosodi, seperti frase, klausa, dan kalimat. Proses penempatan transkripsi fonetis kata-kata ini disebut konversi text-to-fonem atau grafem-ke-fonem. transkripsi Fonetik dan informasi prosodi bersama-sama membentuk representasi linguistik simbolik yang output dengan front-end. The back-end-sering disebut sebagai synthesizer-maka mengubah representasi bahasa simbolik menjadi suara. Dalam sistem tertentu, bagian ini meliputi perhitungan dari target prosodi (kontur pitch, durasi fonem), yang kemudian dikenakan pada pidato output.
Sejarah
Jauh sebelum pemrosesan sinyal elektronik ditemukan, ada orang-orang yang mencoba membuat mesin untuk membuat suara manusia. Beberapa legenda awal adanya "kepala
berbicara" terlibat Gerbert dari Aurillac (wafat 1003 M), Albertus Magnus (1198-1280), dan Roger Bacon (1214-1294).
Pada tahun 1779, ilmuwan Denmark Kristen Kratzenstein, bekerja di Akademi Ilmu Pengetahuan Rusia, model dibangun pada saluran vokal manusia yang dapat menghasilkan lima suara vokal panjang (dalam International notasi Abjad Fonetik, mereka adalah [a
ː], [e ː], [ i ː], [o ː] dan [u ː]). Hal ini diikuti oleh "mesin pidato akustik-mekanis"-bellow dioperasikan oleh Wolfgang von Kempelen Wina, Austria, dijelaskan dalam kertas 1791 [6]. Mesin ini ditambahkan model lidah dan bibir, memungkinkan untuk menghasilkan konsonan maupun vokal. Pada 1837, Charles Wheatstone menghasilkan "mesin bicara" berdasarkan desain von Kempelen, dan pada tahun 1857, M. Faber membangun "Euphonia". desain Wheatstone adalah dibangkitkan pada tahun 1923 oleh Paget.
Pada 1930, Bell Labs mengembangkan vocoder, alat analisa pidato keyboard yang dioperasikan elektronik dan synthesizer yang dikatakan dengan jelas dipahami. Homer Dudley halus perangkat ini ke dalam VODER, yang dipamerkan di Fair 1939 New York World's.
Pola pemutaran ini dibangun oleh Dr Franklin S. Cooper dan rekan-rekannya di Haskins Laboratories di akhir 1940-an dan selesai pada 1950. Ada beberapa versi yang berbeda dari perangkat keras tetapi hanya satu saat ini bertahan. Mesin mengkonversi gambar dari pola akustik pidato dalam bentuk spektrogram kembali menjadi suara. Dengan menggunakan perangkat ini, Alvin Liberman dan rekan mampu menemukan isyarat akustik untuk persepsi segmen fonetik (konsonan dan vokal).
sistem dominan pada 1980-an dan 1990-an adalah sistem MITalk, sebagian besar didasarkan pada karya Dennis Klatt di MIT, dan sistem Bell Labs; yang kedua adalah salah satu sistem pertama bahasa-independen multibahasa, membuat luas penggunaan Alam metode pengolahan bahasa.
Awal synthesizer pidato elektronik terdengar robot dan sering hampir tidak dimengerti. Kualitas suara sintesis telah terus membaik, tetapi output dari sistem sintesis pidato kontemporer masih jelas dibedakan dari suara manusia yang sebenarnya.
Sebagai rasio biaya-kinerja menyebabkan synthesizer pidato menjadi lebih murah dan lebih mudah diakses oleh rakyat, lebih banyak orang akan mendapatkan keuntungan dari penggunaan program text-to-speech.
Perangkat elektronik Sistem pidato pertama berbasis komputer sintesis diciptakan di akhir 1950-an, dan teks lengkap pertama-to-speech sistem selesai pada tahun 1968. Pada tahun 1961, fisikawan John Larry Kelly, Jr dan Louis rekan Gerstman digunakan IBM 704 komputer untuk mensintesis pidato, suatu peristiwa yang paling menonjol dalam sejarah dari Bell Labs. perekam suara Kelly synthesizer (vocoder) ulang lagu "Daisy Bell", dengan iringan musik dari Max Mathews. Kebetulan, Arthur C. Clarke mengunjungi teman dan kolega John Pierce di fasilitas Bell Labs Murray Hill. Clarke begitu terkesan oleh demonstrasi bahwa ia digunakan dalam adegan klimaks dari skenario-Nya untuk novel nya 2001: A Space Odyssey, dimana HAL 9000 komputer menyanyikan lagu yang sama seperti yang sedang ditidurkan oleh astronot Dave Bowman Meskipun keberhasilan pidato sintesis murni elektronik,. Penelitian masih terus dilakukan ke synthesizer pidato mekanis. Handheld elektronik menampilkan sintesis pidato mulai muncul pada tahun 1970an. Salah satu yang pertama adalah Telesensory Systems Inc (TSI) Pidato kalkulator portabel untuk orang buta pada tahun 1976. Perangkat lain yang diproduksi terutama untuk tujuan pendidikan, seperti Speak & Spell, diproduksi oleh Texas Instruments pada tahun 1978. Permainan multi-pemain pertama yang menggunakan sintesis suara Milton dari Milton Bradley Company, yang memproduksi perangkat di tahun 1980. Teknologisynthesizer
Kualitas yang paling penting dari sebuah sistem sintesis pidato yang alamiah dan dimengerti. Kealamian menggambarkan seberapa dekat output suara seperti ucapan manusia, sedangkan dimengerti adalah kemudahan dengan yang output dipahami. Synthesizer pidato yang ideal adalah baik alam dan dimengerti. sistem sintesis Pidato biasanya mencoba untuk
memaksimalkan kedua karakteristik. Dua teknologi utama untuk menghasilkan bentuk gelombang pidato sintetis dan sintesis sintesis concatenative forman. Setiap teknologi memiliki kekuatan dan kelemahan, dan menggunakan dimaksud sistem sintesis biasanya akan menentukan pendekatan mana yang digunakan.

Concatenative sintesis
Concatenative sintesis didasarkan pada penggabungan (atau merangkai bersama-sama) dari segmen berbicara dicatat. Umumnya, sintesis concatenative menghasilkan pidato disintesis paling alami yang terdengar. Namun, perbedaan antara variasi alami dalam pidato dan sifat teknik otomatis untuk membagi bentuk gelombang kadang-kadang menyebabkan gangguan terdengar pada output. Ada tiga utama sub-jenis sintesis concatenative.
Unit seleksi sintesis
Unit seleksi sintesis menggunakan database besar pidato direkam. Selama pembuatan database, setiap ucapan tercatat tersegmentasi ke dalam beberapa atau semua hal berikut: telepon individu, diphones, setengah-telepon, suku kata, morfem, kata, frasa, dan kalimat. Biasanya, pembagian ke dalam segmen dilakukan dengan menggunakan pengenal pidato khusus dimodifikasi diatur ke mode "dipaksa alignment" dengan beberapa koreksi manual setelah itu, dengan menggunakan representasi visual seperti gelombang dan spektrogram Sebuah indeks unit dalam database pidato. kemudian dibuat berdasarkan segmentasi dan parameter akustik seperti frekuensi dasar (pitch), durasi, posisi dalam suku kata, dan telepon tetangga. Pada saat runtime, sabda target yang diinginkan dibuat dengan menentukan rantai terbaik unit calon dari database (pemilihan unit). Proses ini biasanya dicapai dengan menggunakan pohon keputusan khusus tertimbang.
Unit seleksi menyediakan kealamian terbesar, karena hanya berlaku sedikit pemrosesan sinyal digital (DSP) untuk pidato direkam. SP sering membuat bunyi ujaran direkam kurang alami, meskipun beberapa sistem menggunakan sejumlah kecil pengolahan sinyal pada titik rentetan untuk menghaluskan bentuk gelombang. Output dari sistem unit-pilihan terbaik sering dibedakan dari suara manusia nyata, terutama dalam konteks dimana sistem TTS telah disetel. Namun, kealamian maksimum biasanya memerlukan unit-seleksi pidato database menjadi sangat besar, dalam beberapa sistem mulai ke gigabyte data dicatat, mewakili puluhan jam berbicara .Selain itu, unit algoritma seleksi telah dikenal untuk memilih segmen dari tempat hasil dalam waktu kurang dari sintesis ideal (kata kecil misalnya menjadi tidak jelas) bahkan ketika pilihan yang lebih baik ada dalam database. Diphone sintesis sintesis Diphone menggunakan database minimal pidato berisi semua diphones (transisi suara-untuk-suara) yang terjadi dalam suatu bahasa. Jumlah diphones tergantung pada fonotaktik bahasa: misalnya, Spanyol memiliki sekitar 800 diphones, dan Jerman sekitar 2500. Dalam sintesis diphone, hanya satu contoh dari setiap diphone terkandung dalam database pidato. Pada runtime, prosodi target suatu kalimat ditumpangkan pada unit-unit ini minimal dengan teknik pemrosesan sinyal digital seperti linear predictive coding, PSOLA [20] atau MBROLA. Kualitas suara yang dihasilkan umumnya lebih buruk daripada unit-seleksi sistem, tetapi lebih alami yang terdengar dari output dari synthesizer forman. sintesis Diphone menderita dari sonik Glitches sintesis concatenative dan sifat robot-terdengar sintesis forman, dan memiliki beberapa keuntungan baik pendekatan lain dari ukuran kecil. Dengan demikian, penggunaannya dalam aplikasi komersial menurun, meskipun terus digunakan dalam penelitian karena ada beberapa implementasi perangkat lunak tersedia secara bebas. Domain-spesifik sintesis
Domain sintesis khusus merangkai kata-kata rekaman dan frase untuk menciptakan ucapan-ucapan selesai. Hal ini digunakan dalam aplikasi dimana berbagai teks sistem akan output terbatas pada domain tertentu, seperti pengumuman jadwal transit atau laporan cuaca. Teknologi ini sangat sederhana untuk menerapkan, dan telah digunakan secara komersial untuk waktu yang lama , dalam perangkat seperti berbicara jam dan kalkulator. Tingkat kealamian sistem ini bisa sangat tinggi karena berbagai jenis kalimat terbatas, dan mereka erat cocok dengan prosodi dan intonasi dari rekaman asli. [Rujukan?]
Karena sistem ini dibatasi oleh kata dan frasa dalam database mereka, mereka tidak tujuan umum dan hanya dapat mensintesis kombinasi kata dan frasa dengan yang mereka telah terprogram. Campuran kata-kata dalam bahasa lisan secara alami namun masih dapat menimbulkan masalah kecuali banyak variasi diperhitungkan. Sebagai contoh, dalam dialek non-rhotic bahasa Inggris yang "r" dalam kata-kata seperti "jelas" / ə ː KLI / biasanya hanya diucapkan ketika kata berikut memiliki vokal sebagai huruf pertama (misalnya, "jelas keluar" akan direalisasi sebagai / ˌ KLI ː əɹɑʊt / ). Demikian juga dalam bahasa Prancis, banyak konsonan akhir menjadi tidak lagi diam jika diikuti oleh sebuah kata yang dimulai dengan vokal, efek yang disebut penghubung. Alternasi ini tidak bisa direproduksi oleh sistem kata-Rangkaian sederhana, yang akan membutuhkan kompleksitas tambahan untuk konteks-sensitif. Forman sintesis-sintesis forman tidak menggunakan sampel suara manusia pada saat runtime. Sebaliknya, keluaran suara sintesis dibuat menggunakan aditif sintesis dan model akustik (sintesis pemodelan fisik) Parameter seperti frekuensi fundamental, menyuarakan, Dan tingkat kebisingan yang bervariasi dari waktu ke waktu untuk membuat gelombang pidato buatan. Metode ini kadang-kadang disebut sintesis berbasis peraturan, namun sistem concatenative banyak juga memiliki komponen aturan berbasis. Banyak sistem yang didasarkan pada teknologi sintesis forman menghasilkan buatan, robot yang terdengar pidato yang tidak akan pernah salah untuk pidato manusia. Namun, kealamian maksimum tidak selalu tujuan sistem sintesis pidato, dan sistem sintesis forman memiliki keunggulan dibandingkan sistem concatenative. pidato forman-disintesis dapat diandalkan dimengerti, bahkan pada kecepatan yang sangat tinggi, menghindari Glitches akustik yang biasanya wabah sistem concatenative. pidato disintesis kecepatan tinggi digunakan oleh tunanetra untuk navigasi cepat komputer menggunakan pembaca layar. synthesizer forman adalah program biasanya lebih kecil dibandingkan dengan sistem concatenative karena mereka tidak memiliki database contoh pidato. Oleh karena itu mereka dapat digunakan dalam embedded system, di mana memori dan daya mikroprosesor sangat terbatas. Karena sistem forman berbasis memiliki kontrol penuh dari semua aspek pidato output, berbagai prosodies dan intonasi dapat menjadi output, tidak hanya menyampaikan pertanyaan dan pernyataan, tetapi berbagai emosi dan nada suara. Contoh non-real time-tetapi sangat akurat kontrol intonasi dalam sintesis forman meliputi pekerjaan yang dilakukan pada akhir tahun 1970 untuk mainan Texas Instruments Speak & Spell, dan pada tahun 1980 mesin awal arcade Sega. Dan dalam banyak Atari, Inc arcade games. dengan menggunakan LPC TMS5220 Chips. Menciptakan intonasi yang tepat untuk proyek ini adalah telaten, dan hasilnya masih harus dicocokkan dengan interface real-time text-to-speech. Artikulatoris sintesis sintesis artikulatoris mengacu pada teknik komputasi untuk sintesa pidato berdasarkan model dari saluran artikulasi vokal manusia dan proses yang terjadi di sana. Synthesizer artikulatoris pertama teratur digunakan untuk percobaan laboratorium dikembangkan di Haskins Laboratories di pertengahan 1970-an oleh Philip Rubin, Tom Baer, dan Paul Mermelstein. Synthesizer ini, dikenal sebagai ASY, didasarkan pada model saluran suara yang dikembangkan di Bell Laboratories pada tahun 1960-an dan 1970-an oleh Paul Mermelstein, Cecil Coker, dan rekan. Sampai saat ini, model sintesis artikulatoris belum dimasukkan ke dalam sistem sintesis pidato komersial. Sebuah pengecualian adalah sistem NeXT berbasis awalnya dikembangkan dan dipasarkan oleh TRILLIUM Sound Research, sebuah perusahaan spin-off dari University of Calgary, di mana banyak riset asli dilakukan. Setelah runtuhnya berbagai inkarnasi NeXT (dimulai oleh Steve Jobs pada akhir tahun 1980 dan bergabung dengan Apple Computer pada tahun 1997), perangkat lunak TRILLIUM diterbitkan dibawah GNU General Public License, dengan bekerja terus sebagai gnuspeech. Sistem, pertama kali dipasarkan pada tahun 1994, menyediakan konversi penuh artikulatoris berbasis text-to-speech menggunakan pandu atau analog transmisi-garis saluran mulut dan hidung manusia dikendalikan oleh "model daerah khas" Carré's. HMM berbasis sintesis HMM berbasis sintesis adalah metode sintesis yang didasarkan pada model Markov tersembunyi, juga disebut Statistik Parametric Sintesis. Dalam sistem ini, spektrum frekuensi (saluran vokal), frekuensi dasar (sumber vokal), dan durasi (prosodi) dari pidato dimodelkan secara bersamaan oleh HMMs. Pidato bentuk gelombang yang dihasilkan dari HMMs diri didasarkan pada kriteria kemungkinan maksimum. Sinewave sintesis sintesis Sinewave adalah teknik untuk sintesis pidato dengan mengganti forman (band utama energi) dengan peluit nada murni. Tantangan Teks normalisasi tantangan Proses normalisasi teks jarang mudah. Teks penuh dengan heteronyms, angka, dan singkatan bahwa semua membutuhkan ekspansi ke representasi fonetik. Ada banyak ejaan dalam bahasa Inggris yang diucapkan berbeda berdasarkan konteks. Misalnya, "Proyek saya terakhir adalah untuk belajar bagaimana proyek yang lebih baik suara saya" berisi dua pengucapan dari "proyek". Kebanyakan teks-to-speech (TTS) sistem tidak menghasilkan representasi semantik teks masukan mereka, sebagai proses untuk melakukan hal yang tidak dapat diandalkan, dipahami dengan baik, atau komputasi yang efektif. Akibatnya, berbagai teknik heuristik digunakan untuk menebak cara yang tepat untuk disambiguate homographs, seperti memeriksa kata-kata tetangga dan menggunakan statistik tentang frekuensi kejadian. Baru-baru ini sistem TTS telah mulai menggunakan HMMs (dibahas di atas) untuk menghasilkan "bagian dari pidato" untuk membantu dalam disambiguating homographs. Teknik ini cukup berhasil untuk banyak kasus seperti apakah "membaca" harus diucapkan sebagai "merah" menyiratkan bentuk lampau, atau sebagai "buluh" menyiratkan hadir tegang. Khas tingkat kesalahan saat HMMs menggunakan cara ini biasanya di bawah lima persen. Teknik ini juga bekerja dengan baik untuk bahasa Eropa yang paling, meskipun akses ke corpora pelatihan yang dibutuhkan sering sulit dalam bahasa. Memutuskan bagaimana mengkonversi angka-angka adalah masalah lain yang sistem TTS harus alamat. Ini adalah tantangan pemrograman sederhana untuk mengkonversi angka menjadi kata-kata (setidaknya dalam bahasa Inggris), seperti "1325" menjadi "1325." Namun, angka terjadi dalam konteks yang berbeda, "1325" juga dapat dibaca sebagai "satu tiga dua lima", "1325" atau "seribu tiga ratus dua puluh lima". Sebuah sistem TTS sering dapat menyimpulkan bagaimana untuk memperluas sejumlah berdasarkan kata sekitarnya, angka, dan tanda baca, dan kadang-kadang sistem menyediakan cara untuk menentukan konteks jika ambigu. Angka Romawi juga bisa dibaca berbeda, tergantung pada konteks . Sebagai contoh "Henry VIII" berbunyi "Henry Kedelapan", sementara "Bab VIII" berbunyi "Bab Delapan". Demikian pula, singkatan bisa ambigu. Misalnya, singkatan "dalam" untuk "inci" harus dibedakan dari kata "dalam", dan alamat yang "12 St John St" menggunakan singkatan yang sama untuk kedua "Saint" dan "Street". sistem TTS dengan ujung depan yang cerdas dapat membuat dididik tebakan tentang singkatan ambigu, sementara yang lain memberikan hasil yang sama dalam semua kasus, sehingga tidak masuk akal (dan kadang-kadang lucu) output.
Text-to-fonem tantangan
sistem sintesis Pidato menggunakan dua pendekatan dasar untuk menentukan pengucapan sebuah kata berdasarkan ejaan, sebuah proses yang sering disebut konversi text-to-fonem atau grafem-ke-fonem (fonem adalah istilah yang digunakan oleh ahli bahasa untuk menggambarkan suara khas di bahasa). Pendekatan paling sederhana untuk konversi text-to-fonem adalah pendekatan berbasis kamus, dimana kamus besar berisi semua kata-kata dari bahasa dan pengucapan yang benar disimpan oleh program ini. Menentukan pengucapan yang benar dari setiap kata adalah masalah mencari setiap kata dalam kamus dan mengganti ejaan dengan pengucapan yang ditentukan dalam kamus. Pendekatan lain adalah berdasarkan aturan, di mana aturan pengucapan diterapkan untuk kata-kata untuk menentukan pengucapan mereka berdasarkan ejaan mereka. Ini mirip dengan pendekatan "terdengar keluar", atau sintetis phonics, untuk membaca belajar. Setiap pendekatan memiliki kelebihan dan kekurangan. Pendekatan berbasis kamus-cepat dan akurat, tapi benar-benar gagal jika diberikan kata yang tidak ada dalam kamus [rujukan?] Sebagai ukuran kamus tumbuh, demikian juga kebutuhan ruang memori dari sistem sintesis.. Di sisi lain, pendekatan berbasis aturan bekerja pada masukan apapun, tetapi kompleksitas peraturan tumbuh secara substansial sebagai sistem memperhitungkan ejaan rekening tidak teratur atau pengucapan. (Perhatikan bahwa kata "dari" adalah sangat umum dalam bahasa Inggris, namun adalah kata-satunya di mana huruf "f" diucapkan [v].) Akibatnya, hampir semua sistem pidato sintesis menggunakan kombinasi pendekatan ini. Bahasa dengan ortografi fonemis memiliki sistem penulisan yang sangat teratur, dan prediksi pengucapan kata-kata berdasarkan ejaan mereka cukup berhasil. sistem sintesis Speech untuk bahasa seperti itu sering menggunakan metode berbasis peraturan ekstensif, beralih ke kamus hanya untuk beberapa kata-kata, seperti nama asing dan pinjaman, yang pengucapan tidak jelas dari ejaan mereka. Di sisi lain, sistem sintesis pidato untuk bahasa seperti bahasa Inggris, yang memiliki sistem ejaan yang sangat tidak teratur, lebih cenderung mengandalkan kamus, dan menggunakan metode berbasis aturan hanya untuk kata-kata yang tidak biasa, atau kata-kata yang tidak dalam kamus mereka. Evaluasi tantangan Evaluasi konsisten sistem sintesis pidato mungkin sulit karena kurangnya universal disepakati kriteria evaluasi objektif. organisasi yang berbeda sering menggunakan data pidato yang berbeda. Kualitas sistem sintesis pidato juga tergantung untuk tingkat besar pada kualitas teknik produksi (yang dapat melibatkan analog atau rekaman digital) dan pada fasilitas yang digunakan untuk memutar ulang pidato. Evaluasi sistem pidato sintesis karena itu sering dikompromikan oleh perbedaan antara teknik produksi dan fasilitas replay. Baru-baru ini, namun, beberapa peneliti telah mulai mengevaluasi sistem pidato sintesis menggunakan dataset pidato umum. Prosodics dan isi emosional Sebuah studi baru-baru ini melaporkan dalam jurnal "Pidato Komunikasi" oleh Amy Drahota dan koleganya di University of Portsmouth, Inggris, melaporkan bahwa pendengar untuk rekaman suara bisa menentukan, pada tingkat lebih baik daripada kesempatan, baik atau tidak pembicara tersenyum. Disarankan bahwa identifikasi fitur vokal yang emosional sinyal konten dapat digunakan untuk membantu membuat pidato disintesis terdengar lebih alami.
Dedicated hardware
• Votrax
o SC-01A (forman analog)
o SC-02 / SSI-263 / "263 Arktik"
• Instrumen Umum SP0256-Al2 (CTS256A-Al2, MEA8000)
• Magnevation SpeakJet (www.speechchips.com TTS256)
Inovasi Savage • SoundGin
• Semikonduktor Digitalker DT1050 Nasional (Mozer)
• Silicon Sistem SSI 263 (forman analog)
• Texas Instruments Chips Pidato LPC
o TMS5110A
o TMS5200
• Oki Semikonduktor
o ML22825 (ADPCM)
o ML22573 (HQADPCM)
T6721A Toshiba •
• Philips PCF8200
• Modul Embedded TextSpeak TTS
Komputer sistem operasi atau outlet dengan sintesis pidato
Atari Diperdebatkan, sistem pidato pertamanya terintegrasi ke dalam sistem operasi adalah komputer pribadi 1400XL/1450XL dirancang oleh Atari, Inc menggunakan chip SC01 Votrax pada tahun 1983. Komputer 1400XL/1450XL menggunakan Finite State Machine untuk mengaktifkan Dunia Bahasa Inggris Ejaan text-to-speech sintesis [32]. Sayangnya, komputer 1400XL/1450XL pribadi tidak pernah dikirimkan dalam jumlah. Atari ST komputer yang dijual dengan "stspeech.tos" pada floppy disk. Apple Sistem pidato pertamanya diintegrasikan menjadi sebuah sistem operasi yang dikirimkan dalam jumlah yang MacInTalk Apple Computer pada tahun 1984. Sejak 1980-an Macintosh Komputer ditawarkan teks untuk kemampuan pidato melalui Perangkat lunak MacinTalk. Pada awal 1990 Apple memperluas kemampuan sistem penawaran lebar teks-untuk mendukung-speech. Dengan diperkenalkannya komputer berbasis PowerPC lebih cepat mereka termasuk sampling kualitas suara yang lebih tinggi. Apple juga memperkenalkan pengenalan suara dalam sistem perusahaan yang menyediakan satu set perintah cairan. Baru-baru ini, Apple telah menambahkan suara berbasis sampel. Berawal dari rasa ingin tahu, sistem pidato Apple Macintosh telah berkembang menjadi sebuah program yang didukung penuh, PlainTalk, bagi orang-orang dengan masalah penglihatan. VoiceOver adalah untuk pertama kalinya ditampilkan di Mac OS X Tiger (10.4). Selama 10.4 (Tiger) & rilis pertama dari 10.5 (Leopard) hanya ada satu pengiriman suara standar dengan Mac OS X. Dimulai dengan 10,6 (Snow Leopard), pengguna dapat memilih keluar dari daftar berbagai beberapa suara. suara VoiceOver fitur pengambilan napas yang terdengar realistis antara kalimat, serta meningkatkan kejelasan pada tingkat baca tinggi di atas PlainTalk. Mac OS X juga termasuk mengatakan, perintah-baris yang mengkonversi aplikasi berbasis text to speech terdengar. The AppleScript Standar Penambahan mencakup mengatakan verba yang memungkinkan sebuah skrip untuk menggunakan salah satu suara terpasang dan untuk mengontrol pitch, kecepatan berbicara dan modulasi dari teks lisan.


AmigaOS

Sistem operasi kedua dengan kemampuan sintesis pembicaraan lanjutan itu AmigaOS, diperkenalkan pada tahun 1985. Sintesis suara dilisensi oleh Commodore International dari rumah perangkat lunak pihak ketiga (Jangan Tanyakan Software, sekarang Softvoice, Inc) dan menampilkan sistem lengkap emulasi suara, dengan baik suara laki-laki dan perempuan dan "stress" Indikator penanda , yang dimungkinkan oleh fitur-fitur canggih dari chipset hardware Amiga audio [33]. Ini dibagi ke dalam perangkat narator dan perpustakaan penerjemah. Amiga Bicara Handler menampilkan penerjemah text-to-speech. AmigaOS dianggap pidato sintesis perangkat hardware virtual, sehingga pengguna bahkan bisa redirect konsol keluaran untuk itu. Beberapa program Amiga, seperti pengolah kata, membuat ekstensif menggunakan sistem pidato. Microsoft Windows Lihat juga: Microsoft Agen Modern sistem Windows menggunakan sistem SAPI4-dan pidato SAPI5 berbasis yang mencakup mesin pengenalan pembicaraan (SRE). SAPI 4.0 tersedia pada sistem operasi berbasis Microsoft sebagai pihak ketiga add-on untuk sistem seperti Windows 95 dan Windows 98. Windows 2000 menambahkan sebuah program yang disebut sintesis pidato Narator, langsung tersedia bagi pengguna. Semua program Windows-kompatibel bisa memanfaatkan fitur sintesis pidato, tersedia melalui menu sekali diinstal pada sistem. Microsoft Speech Server adalah paket lengkap untuk sintesis suara dan pengakuan, untuk aplikasi komersial seperti call center. Text-to-Speech (TTS) kemampuan untuk komputer mengacu pada kemampuan untuk memutar ulang teks dalam suara yang diucapkan. TTS adalah kemampuan sistem operasi untuk bermain teks kembali dicetak sebagai kata yang diucapkan. Sebuah driver internal (diinstal dengan sistem operasi) (disebut mesin TTS): mengakui teks dan menggunakan suara buatan (dipilih dari suara-suara pra-dihasilkan beberapa) berbicara teks tertulis. mesin tambahan (sering menggunakan jargon tertentu atau kosa kata) juga tersedia melalui produsen pihak ketiga. Android Android versi 1.6 menambahkan dukungan untuk sintesis pidato (TTS). Internet TTS Perkembangan terbaru di web browser, adalah Teks JavaScript untuk bekerja Pidato Yury Delendik, port mana yang Flite C engine JavaScript murni. Hal ini memungkinkan halaman web untuk mengubah teks ke audio menggunakan teknologi HTML5. Kemampuan untuk menggunakan port Yuri TTS saat ini membutuhkan browser custom build yang menggunakan Mozilla Audio-Data-API. Namun, banyak pekerjaan yang sedang dilakukan dalam konteks dari W3C untuk memindahkan teknologi ini ke dalam pasar browser mainstream melalui W3C Audio Inkubator Group dengan keterlibatan BBC dan Google Inc. Saat ini, ada beberapa aplikasi, plugin dan gadget yang dapat membaca pesan langsung dari halaman e-mail client dan web dari web browser atau Google Toolbar misalnya Teks-suara ke-yang merupakan add-on untuk Firefox. Beberapa software khusus dapat menceritakan RSS-feed. Di satu sisi, online RSS-perawi menyederhanakan penyampaian informasi dengan memungkinkan pengguna untuk mendengarkan sumber berita favorit mereka dan untuk mengkonversikannya ke podcast. Di sisi lain, on-line RSS-pembaca yang tersedia di hampir semua PC yang terhubung ke Internet. Pengguna dapat men-download file audio yang dihasilkan ke perangkat portabel, misalnya dengan penerima bantuan podcast, dan mendengarkan mereka sambil berjalan, jogging atau Komuter untuk bekerja. Bidang tumbuh di internet TTS berbasis teknologi bantu berbasis web, misalnya 'Browsealoud' dari perusahaan Inggris dan Readspeaker. Hal ini dapat memberikan fungsi TTS kepada siapapun (untuk alasan aksesibilitas, kenyamanan, hiburan atau informasi) dengan akses ke web browser. Laba non-proyek Pediaphon diciptakan pada tahun 2006 untuk menyediakan antarmuka berbasis web yang mirip TTS di Wikipedia bahasa [36] Selain itu SPEAK.TO.ME dari Oxford Informasi Laboratories mampu memberikan text to speech melalui browser apapun tanpa perlu. mendownload aplikasi khusus, dan termasuk teknologi pengiriman pintar untuk memastikan hanya apa yang dilihat diucapkan dan konten secara logis pathed.
Lain-lain
• Beberapa model komputer rumah Texas Instruments yang diproduksi pada tahun 1979 dan 1981 (Texas Instruments TI-99 / 4 dan TI-99/4A) mampu sintesis teks-ke-fonem atau membaca kata-kata dan frasa lengkap (teks-ke-kamus) , menggunakan Pidato yang sangat populer Synthesizer perifer. TI menggunakan codec proprietary untuk melekatkan frase diucapkan lengkap ke dalam aplikasi, terutama video game. [37]
• IBM OS / 2 Warp 4 termasuk VoiceType, pelopor untuk IBM ViaVoice.
• Sistem yang beroperasi pada sistem bebas dan open source software termasuk Linux sangat beragam, dan termasuk program open source seperti Festival Speech Synthesis Sistem yang menggunakan sintesis diphone berbasis (dan dapat menggunakan jumlah terbatas MBROLA suara), dan gnuspeech yang menggunakan sintesis artikulatoris [38] dari Free Software Foundation.
• Perusahaan yang mengembangkan sistem pidato sintesis tetapi yang tidak lagi dalam bisnis ini termasuk TERBAIK Pidato (dibeli oleh L & H), fasih Teknologi (dibeli oleh SpeechWorks), Lernout & Hauspie (dibeli oleh Nuansa), SpeechWorks (dibeli oleh Nuansa), Retoris Sistem (dibeli oleh Nuansa).
Pidato bahasa markup sintesis
Sejumlah bahasa markup telah dibentuk untuk membawakan teks sebagai pidato dalam format XML-compliant. Yang paling terakhir adalah Speech Synthesis Markup Language (SSML), yang menjadi rekomendasi W3C pada tahun 2004. sintesis pidato bahasa markup yang lebih tua termasuk Jawa Pidato Markup Language (JSML) dan Sable. Meskipun masing-masing diusulkan sebagai standar, tidak satupun dari mereka telah diadopsi secara luas.
sintesis bahasa markup Pidato dibedakan dari bahasa markup dialog. VoiceXML, misalnya, termasuk tags terkait dengan pengenalan suara, manajemen dialog dan panggilan touchtone, selain teks-untuk markup-speech.


Aplikasi


Pidato sintesis telah lama menjadi alat bantu teknologi vital dan penerapannya di daerah ini sangat signifikan dan luas. Hal ini memungkinkan hambatan lingkungan harus dikeluarkan untuk orang dengan berbagai cacat. Aplikasi terpanjang telah menggunakan pembaca layar untuk orang dengan gangguan penglihatan, tetapi teks-to-speech sistem yang sekarang umum digunakan oleh orang-orang dengan disleksia dan kesulitan membaca lainnya serta anak-anak pra-melek. Mereka juga sering digunakan untuk membantu mereka dengan gangguan berbicara parah biasanya melalui bantuan output komunikasi suara khusus.
Situs seperti Ananova dan YAKiToMe! telah sintesis suara yang digunakan untuk mengkonversi berita yang ditulis untuk konten audio, yang dapat digunakan untuk aplikasi mobile.
Teknik sintesis Pidato digunakan juga dalam produksi hiburan seperti game, anime dan serupa. Pada tahun 2007, Animo Limited mengumumkan pengembangan paket aplikasi perangkat lunak berdasarkan sintesis pidato FineSpeech software-nya, secara eksplisit diarahkan terhadap pelanggan dalam industri hiburan, mampu menghasilkan narasi dan baris dialog sesuai dengan spesifikasi pengguna [39] Aplikasi tercapai. Jatuh tempo pada tahun 2008, ketika NEC Biglobe mengumumkan sebuah layanan web yang memungkinkan pengguna untuk membuat frase dari suara Code Geass:. Lelouch R2 karakter Pemberontakan [40]
TTS aplikasi seperti YAKiToMe! dan Speakonia sering digunakan untuk menambahkan suara sintetis untuk video YouTube untuk efek komedi, seperti dalam video Barney Bunch. YAKiToMe! juga digunakan untuk mengkonversi seluruh buku-buku untuk keperluan pribadi Podcasting, RSS feed dan halaman web untuk berita, dan pendidikan teks untuk belajar ditingkatkan.
Software seperti Vocaloid dapat menghasilkan menyanyikan suara melalui lirik dan melodi. Ini juga merupakan tujuan dari proyek Komputer Bernyanyi (yang menggunakan GNU LilyPond dan Festival) untuk membantu orang buta periksa input lirik mereka. [41]
Berikutnya ke aplikasi ini adalah penggunaan teks untuk perangkat lunak pidato juga populer di Interactive Voice Response sistem, seringkali dalam kombinasi dengan pengenalan suara. Contoh suara tersebut dapat ditemukan di speechsynthesissoftware.com atau Nextup.
Lihat juga
• Text-to-suara - Mozilla Firefox ekstensi
• Perbandingan synthesizer pidato
• artikulatoris sintesis
• sintesis Cina pidato
• Bahasa alami pengolahan
• Paperless kantor
• Perbandingan pembaca layar
• Sinewave sintesis
• Pidato pengolahan
• Silent pidato antarmuka
Referensi
1. ^ Jonathan Allen, M. Sharon Hunnicutt, Dennis Klatt, Dari Text to Speech: Sistem MITalk. Cambridge University Press: 1987. ISBN 0-521-30641-8
2. ^ Rubin, P.; Baer, T.; Mermelstein, P. (1981). "Sebuah synthesizer artikulatoris untuk penelitian persepsi". Journal of Acoustical Society of America 70: 321-328. DOI: 10.1121/1.386780.
3. ^ Jan PH van Santen, Richard W. Sproat, Joseph P. Zaitun, dan Hirschberg Julia, Kemajuan dalam Sintesis Ucapan. Springer: 1997. ISBN 0-387-94701-9
4. ^ Jan PH van Santen, Penugasan durasi segmental dalam teks-untuk sintesis-speech. Komputer Pidato dan Bahasa, 8:95-128, 1994
5. ^ Sejarah dan Pengembangan Sintesis Pidato, Helsinki University of Technology, Diakses pada November 4, 2006
6. ^ Mechanismus menschlichen Sprache der Beschreibung der Maschine nebst kapal purse sprechenden ("Mekanisme dari pidato manusia dengan deskripsi mesin bicara perusahaan," JB Degen, Wien).
7. ^ Mattingly, Ignatius G. Pidato sintesis untuk model fonetik dan fonologi. Dalam Sebeok A. Thomas (Ed.), Tren Lancar dalam Linguistik, Volume 12, Mouton, Den Haag, hal 2451-2487, 1974.
8. ^ Richard W. Sproat, Multilingual Text-to-Speech Synthesis: The Bell Labs Pendekatan, Springer, 1997, ISBN-10: 0792380274
9. ^ Kurzweil, Raymond (2005). Singularity adalah Dekat. Penguin Books. ISBN 0-14-303788-9.
10. ^ Lambert, Bruce (1992/03/21). "NY Times obituari untuk Louis Gerstman". New York Times. http://query.nytimes.com/search/query?ppds=per&v1=GERSTMAN, LOUIS & sort = terbaru. Diperoleh 2010/02/17.
11. ^ Arthur C. Clarke online Biografi [dead link]
12. ^ "Mana" HAL "Pertama Spoke (Bell Labs Speech Synthesis website)". Bell Labs. http://www.bell-labs.com/news/1997/march/5/2.html. Diperoleh 2010/02/17.
13. ^ Antropomorfis Berbicara Robot Waseda-pembicara Seri
14. ^ TSI Pidato & kalkulator berbicara lain
15. ^ Gevaryahu, Jonathan, "TSI S14001A Speech Synthesizer Panduan LSI Sirkuit Terpadu" [1]
16. ^ Breslow, et al. Paten Amerika Serikat 4326710 April 27, 1982
17. ^ Alan W. Black, Sempurna sintesis untuk semua orang sepanjang waktu. IEEE TTS Workshop 2002.
18. ^ John Kominek dan Alan W. Hitam. (2003). CMU ARKTIK database untuk sintesis pidato. CMU-LTI-03-177. Language Technologies Institute, Fakultas Ilmu Komputer, Universitas Carnegie Mellon.
19. ^ Julia Zhang. Bahasa Generation dan Speech Synthesis dalam Dialog untuk Language Learning, master tesis, http://groups.csail.mit.edu/sls/publications/2004/zhang_thesis.pdf Bagian 5.6 di halaman 54.
20. ^ PSOLA Sintesis [dead link]
21. ^ T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. Vrecken van der. The MBROLA Proyek: Menuju set synthesizer pidato tinggi kualitas penggunaan untuk tujuan non komersial. ICSLP Proceedings, 1996.
22. ^ LF Lamel, Gauvain JL, B. Prouts, C. Bouhier, R. Boesch. Generasi dan Sintesis Pesan Broadcast, Proceedings Lokakarya ESCA-NATO dan Aplikasi Teknologi Speech, September 1993.
23. ^ Dartmouth College: Musik dan Computers.http: / / digitalmusics.dartmouth.edu / ~ book/MATCpages/chap.4/4.4.formant_synth.html, 1993.
24. Contoh ^ termasuk Astro Blaster, Space Fury, dan Star Trek: Strategis Operasi Simulator
25. Contoh ^ termasuk Star Wars, Firefox, Return of the Jedi, Road Runner, The Empire Strikes Back, Indiana Jones dan Kuil Doom, 720 °, Gauntlet, Gauntlet II, APB, Paperboy, RoadBlasters, Vindicators Bagian II, Escape dari Planet of the Monster Robot.
26. ^ John Holmes dan Holmes Wendy. Pidato Sintesis dan Pengakuan, Edisi 2. CRC: 2001. ISBN 0-7484-0856-8.
27. ^ The Pidato HMM berbasis Sintesis Sistem, http://hts.sp.nitech.ac.jp/
28. ^ Remez, RE, Rubin, PE, Pisoni, DB, & Carrell, TD Pidato persepsi tanpa isyarat pidato tradisional. Ilmu, 1981, 212, 947-950.
29. ^ "Speech sintesis". Organisasi World Wide Web. http://www.w3.org/TR/speech-synthesis/ # S3.1.8.
30. ^ Blizzard Challenge http://festvox.org/blizzard
31. ^ The Sound of Smiling
32. ^ Pidato Handler Spesifikasi 1400XL/1450XL Referensi Eksternal
33. ^ Miner, Jay et al. (1991). Amiga Hardware Referensi Manual: Edisi Ketiga. Addison-Wesley Publishing Company, Inc ISBN 0-201-56776-8.
34. ^ Ab "Bagaimana mengkonfigurasi dan menggunakan Text-to-Speech di Windows XP dan di Windows Vista". Support.microsoft.com. 2007/05/07. http://support.microsoft.com/kb/306902. Diperoleh 2010/02/17.
35. ^ Jean-Michel Trivi (2009/09/23). "Sebuah pengenalan Text-To-Speech di Android". Android-developers.blogspot.com. http://android-developers.blogspot.com/2009/09/introduction-to-text-to-speech-in.html. Diperoleh 2010/02/17.
36. ^ Andreas Bischoff, The Pediaphon - Interface Pidato Encyclopedia Wikipedia gratis untuk Mobile Phones, PDA, dan MP3 Players, Prosiding Konferensi Internasional ke-18 pada Database dan Sistem Aplikasi Ahli, Halaman: 575-579 ISBN 0-7695-2932-1 , 2007
37. ^ "Smithsonian Speech Synthesis Riwayat Proyek (SSSHP) 1986-2002". Mindspring.com. http://www.mindspring.com/ ~ ssshp / ssshp_cd / ss_home.htm. Diperoleh 2010/02/17.
38. ^ "Gnuspeech". Gnu.org. http://www.gnu.org/software/gnuspeech/. Diperoleh 2010/02/17.
39. ^ "Speech Synthesis Software untuk Anime mengumumkan". Animenewsnetwork.com. 2007/05/02. http://animenewsnetwork.com/news/2007-05-02/speech-synthesis-software. Diperoleh 2010/02/17.
40. ^ "Code Geass Speech Synthesizer Layanan Ditawarkan di Jepang". Animenewsnetwork.com. 2008/09/09. http://www.animenewsnetwork.com/news/2008-09-09/code-geass-voice-synthesis-service-offered-in-japan. Diperoleh 2010/02/17.
41. ^ Brailcom, o.p.s.. "Bernyanyi Komputer". Gratis (b) lembut. http://www.freebsoft.org/singing-computer. Diperoleh 2010/02/17.
Pranala luar
• Text to Speech Synthesis di Web Browser dengan JavaScript
• Pidato sintesis di Open Directory Project
• Text to Voice atau Teks untuk Addon Speech Firefox
• Dennis Klatt Sejarah Sintesis Pidato
• Ivona Text-To-Speech

Tidak ada komentar:

Posting Komentar