
- 多様な働き方が広がらないのは「ツール不足」が原因
- 「不完全」だからこそ、リリースに踏み切った理由
- 文字起こしで実現したいのは「組織内の透明化」
ICレコーダーで録音した音声データを聞きながら、タイピングする──きっと多くの人が会議の議事録や取材の原稿を作成するにあたって、文字起こしをしているだろう。最近になり、英語の文字起こしに関しては英語音声の文字起こしアプリ「Otter(オッター)」を使えば、英語での会話がリアルタイムかつ正確に書き起こされる。
しかし、日本語の文字起こしはどうだろうか。2019年11月にAWS(アマゾンウェブサービス)が提供する音声文字起こしサービス「Amazon Transcribe(アマゾントランスクライブ)」が日本語に対応したが、精度にはまだまだ改善の余地があると言っていいだろう。
そうした中、新たな文字起こしサービスが登場した。Rimo合同会社は9月1日、日本語に特化したAI文字起こしサービス「Rimo Voice(リモボイス)」をリリースした。

Rimo Voiceは1時間ほどの音声データを5分ほどで書き起こしてくれるサービス。特徴は日本語に特化している点はもちろんだが、自動で3〜5行ごとに改行して読みやすく構成し、読み取りが曖昧な部分は文字色を薄く表示しているところだ。
また音声データとテキストデータがリンクしているため、文字色が薄くなった部分をクリックすると、該当する音声を聞き直せる。料金プランは30秒20円の従量課金制と月間40時間まで10万円(税別)の定額制が用意されている。
「また文字起こしサービスか」と感じた読者もいるかもしれないが、Rimo Voiceが目指すのは、単なる文字起こしサービスではない。Rimoの代表社員兼エンジニアの相川直視氏は「これは働き方改革の第一歩に過ぎません」と語る。
Rimo Voiceによって会議での会話、業務間でのやりとりが即座に文字起こしされ、関係者に共有できるようになった場合、我々の働き方にどういった影響があると考えているのだろうか。話を聞いた。
多様な働き方が広がらないのは「ツール不足」が原因
相川氏が「働き方」に関心を持ったきっかけは、彼のキャリアの中にある。
彼はMicrosoft Researchでのインターンを経て、Googleへ入社。Googleで検索システムの開発などを担当した後、2012年にはビジネスSNSを展開するウォンテッドリーに入社。2016年には名刺管理アプリ「Wantedly People」の開発をリード。同社を退職後、2019年12月にRimoを創業した。創業までの間は一貫して自然言語処理や検索・推薦技術に携わっていた。
「Wantedlyは、いわば採用ツール。そこで感じていたのは、人は働き先を考えるときに『何をやりたいか』より、『どう働くか』への関心が高いことです。例えば、最近では『転勤なし』としている企業に人気が集まったり、メルカリやクックパッドなどユニークな職場環境が注目されたりしています。『どう働くか』は、もはや仕事選びの基準となっているのです」(相川氏)
とはいえ、すべての企業が新たな働き方を推進しているわけではない。副業解禁やリモートワークが定着しつつあるように感じる一方で、それを許容しない企業も多い。これについて相川氏は「ツールによる力不足」と語る。
「僕自身がエンジニアなので、同僚とのやりとりは社内チャットを使うことがほとんどでした。なので、普段の業務に関しては、リモート化できる確信があったんです。しかし、会議や1on1はリアルで話し合うからこそのメリットがあり、リモート化するには良いツールを揃える必要があります。そこで考えたのが『議事録を自動でとれるようにすること』でした」(相川氏)
会議や1on1での内容を自動でテキスト化できれば、「議事録を作成する」作業自体をなくせる。リアルで話し合う内容をその場で残せるため、離れて働くメンバーへの共有もよりスムーズになり、リモートワークなどの新たな働き方も広げられると相川氏は考えたのだ。
「不完全」だからこそ、リリースに踏み切った理由
ところが、特に日本語の音声認識技術は精度は低く、「議事録の記録用」に使う以前での問題も多い。Rimo Voiceの実力はどうなのだろうか。
「Rimo Voiceも正直言って完璧な状態とは言えません。ただ音声認識技術はGoogleもAPI(ソフトウェアの機能を共有する仕組み)を公開しているので、それを使えばそれなりに精度の高いプロダクトはつくれます。問題は、市場への参入タイミングです。プロダクトの精度は高いほうがいいわけですが、精度ばかりを追い求めてしまうと参入タイミングがどんどん遅れてしまいます。であれば、完璧な状態じゃなくてもいいので、今のタイミングで飛び込もうと思ったんです」(相川氏)
そこでRimo Voiceは、音声認識が曖昧になってしまった部分の文字色があえて薄くなる仕様にした。また、音声データとテキストデータをリンクさせ、文字色が薄い部分をクリックすれば、該当箇所を簡単に聞き直すこともできる。

「いわゆる書き起こしサービスは、音声データをテキスト化した後、自分で誤字脱字を直すことを前提にしています。Rimo Voiceは、音声データとテキストデータがひも付いているので、間違っている可能性がある箇所を簡単に検索できます。音声データに検索機能がついた状態をイメージすると分かりやすいかもしれません」
「議事録は『言った・言わなかった』が肝心なので、紙などで文字に残す。避けるべきは『どこで何を言ったのかがわからない状態』です。それならば、音声データと検索機能をかけ合わせたほうが活用されるのではないか、と考えました」(相川氏)
もうひとつの狙いは、テキスト化した後の手直しを簡略化し、多くのユーザーが触れやすくすることにある。当然だが、音声認識のような技術はデータが集まれば集まるほど、精度が高まる。競合サービスが先行していることもあり、後発であるRimo Voiceとしては「いかに使ってもらえるか」が要になるのだ。
「このサービスは、たくさん使ってもらえて初めて価値が生まれます。Rimo Voiceの画面上で簡単に修正や編集できれば、利用率も上がる。今後は、複数人で同時編集できるようにしたいとも考えています」(相川氏)
文字起こしで実現したいのは「組織内の透明化」
Rimo Voiceが最終地点として目指すのは、組織内における「情報の透明化」だ。GoogleやGitHubのような海外のIT企業では、経営会議での会話がオープンで、重要事項が内密に決まることはあまりない。相川氏が実現したたいのは、そういった重要な会議での会話をテキスト化することにある。
「Rimo Voiceがまず目指すのは、会議や1on1での会話をすべてテキスト化することで、リモートワークなど多様な働き方を推進するツールになること。僕としては、議事録をオープンにし、ゆくゆくは組織内の情報を透明化したい。実際には、給与の話など個人情報を除けば、ほとんどの会話をオープンにできるはず。Rimo Voiceでの書き起こしは、その第一歩にすぎません」(相川氏)

Rimo Voiceの利用料を30秒20円の従量課金制、もしくは定額プランのいずれかから選べるようにしたのも「働いている人に使ってもらいたいから」と相川氏は語る。
「気軽に使ってもらいたいので、料金プランは使いやすいものを選べるようにしています。多くの有料書き起こしサービスがtoB向けですが、僕らとしては最終的に一般の方にも使ってもらいたい。まずはニーズが顕在化しているライターの方に使ってもらい、さらに企業などにも広げていくつもりです」(相川氏)
そのためにも、引き続き音声認識技術の精度を上げていく。
「機械学習モデルの問題上、音がかぶると書き起こせない仕様になっています。同時に話されるとテキスト化できなかったりするのですが……。これに関しても、複数人の音声をそれぞれ分け、書き起こせるようにしていきます。今はまだ思っているより精度が低いところもありますが、だからこそ使い込んでいただき、精度を上げていくことに期待していただきたいです。多くの人が使いたいと思えるものへブラッシュアップさせていきます」(相川氏)